SophIA - L’IA qui donne la parole aux chercheurs et chercheuses
Porté par Cairn.info avec le soutien du CNL et en partenariat avec Kairntech, SophIA est un moteur de recherche utilisant l'intelligence artificielle pour faciliter la découverte des publications et des auteurs.
Différentes technologies et modèles d’IA pour au service de la découvrabilité des auteurs et des publications, au sein d’une architecture technique sobre et souveraine
250 000
180 heures
10 millions
Un client exigeant
Cairn.info est l’un des principaux portails de diffusion de publications scientifiques francophones en sciences humaines et sociales. Il donne accès à un vaste corpus de revues, d’ouvrages, de chapitres et de contenus audiovisuels, structuré de manière homogène et enrichi de métadonnées bibliographiques et éditoriales de haute qualité.
Depuis plus de vingt ans, Cairn.info fait le choix d’une structuration exigeante de ses contenus, condition indispensable à l’interopérabilité, à l’accessibilité et aujourd’hui à l’exploitation raisonnée de l’intelligence artificielle. Conscient des enjeux de souveraineté numérique et de transformation des usages, le portail a constitué une équipe R&D dédiée et engagé des investissements ciblés pour développer une architecture IA autonome.
Le projet SophIA, soutenu par le Centre national du Livre, s’inscrit dans cette stratégie : proposer un service de recherche en langage naturel qui valorise directement les publications et les auteurs, tout en ouvrant de nouvelles voies de découverte pour les chercheurs, étudiants et professionnels.
Un défi de souveraineté
Avec l’essor des agents conversationnels, Cairn.info fait face à un enjeu central : préserver la visibilité, l’intégrité et la traçabilité des publications scientifiques, tout en s’inscrivant dans les nouveaux usages de recherche en langage naturel. Les interfaces fondées sur l’IA générative tendent en effet à produire des réponses synthétiques, souvent décontextualisées, qui peuvent détourner l’attention des textes originaux et diluer la responsabilité intellectuelle des auteurs.
Pour un portail scientifique en sciences humaines et sociales, le risque est double :
– voir ses contenus captés ou paraphrasés par des systèmes externes,
– et contribuer malgré lui à une consommation du savoir qui court-circuite la lecture, la citation et l’intertextualité.
À ce défi éditorial et scientifique s’ajoute une contrainte structurante : concevoir une solution alignée avec la réalité économique de Cairn.info. L’objectif n’était ni de déployer une infrastructure lourde ni de dépendre de services cloud propriétaires coûteux, mais de bâtir une architecture autonome, maîtrisée et soutenable, capable de monter en charge sans remettre en cause l’équilibre économique de la plateforme.
SophIA devait ainsi montrer qu’il est possible d’utiliser l’IA non pas pour se substituer aux publications, mais pour ramener les lecteurs vers les œuvres, leurs auteurs et leurs contextes, dans un cadre techniquement et économiquement maîtrisé.
Outils et concepts liés
Une solution RAG efficiente
Isako est intervenu comme pôle R&D, intégrateur et chef d’orchestre technique du projet SophIA pour Cairn.info. À ce titre, Isako a assuré à la fois la conception fonctionnelle du service, son intégration dans l’écosystème Cairn et un rôle d’agent de liaison entre Cairn.info et son partenaire technologique Kairntech.
SophIA repose sur une architecture de type RAG (Retrieval Augmented Generation), conçue pour limiter la génération automatique au strict nécessaire et privilégier la sélection de passages issus des publications originales. Les briques de vectorisation, de segmentation, d’indexation et de récupération sémantique sont mises en œuvre par Kairntech, tandis qu’Isako pilote l’intégration applicative, le paramétrage des pipelines, la génération des prompts enrichis de métadonnées et le post-traitement des réponses avant affichage dans l’interface Cairn.info.
Le service permet à l’utilisateur de poser une question en langage naturel et d’accéder à une réponse structurée autour d’extraits précisément sourcés (articles, chapitres, entretiens vidéo), accompagnés d’une courte introduction générée par IA. L’interface facilite ensuite la poursuite de la lecture, la citation, la constitution de sélections et l’exploration des auteurs.
SophIA est multilingue par conception : les questions peuvent être formulées dans toutes les langues, avec une attention particulière portée au français, à l’anglais et à l’espagnol (langues de l’interface Cairn.info), mais aussi à l’arabe, en cohérence avec les usages des publics et institutions partenaires d’Afrique du Nord.
L’ensemble de la solution est hébergé localement en France, s’appuie sur des LLM open source, et applique un principe de sobriété « by design » : confier aux grands modèles uniquement les tâches à forte valeur ajoutée, et s’appuyer sur des modèles plus légers, des bases de données et des métadonnées structurées pour le reste.
SophIA constitue ainsi un produit exemplaire, évolutif, conçu pour accueillir de nouvelles sources, de nouveaux corpus et de nouveaux usages, tout en restant fidèle aux exigences scientifiques, éditoriales et économiques de Cairn.info.
Des perspectives d'évolutions
Conçu comme un produit exemplaire et évolutif, SophIA ne se limite pas à un simple questionnement transversal du corpus. Le service est pensé pour permettre à l’utilisateur de partir d’un contexte éditorial précis ou de restreindre ses recherches selon différents points d’entrée natifs de Cairn.info, notamment :
- un auteur (et l’ensemble de ses publications),
- une liste de lecture personnelle,
- une liste de lecture publique ou éditorialisée,
- un ensemble de résultats issus d’une recherche préalable.
Ces contextes deviennent des filtres à part entière dans la formulation des questions et dans la génération des réponses, renforçant la pertinence scientifique et l’ancrage éditorial des résultats proposés.
Par ailleurs, l’architecture de SophIA est conçue pour accueillir de nouvelles sources à terme, qu’il s’agisse :
- d’autres corpus éditoriaux structurés,
- de contenus institutionnels partenaires,
- ou de ressources documentaires complémentaires, dès lors qu’elles respectent les mêmes exigences de structuration, de métadonnées et de traçabilité.
Cette capacité d’extension positionne SophIA non comme une expérimentation isolée, mais comme un socle durable de services IA éditoriaux, que Cairn.info pourra enrichir progressivement, et qu’Isako est en mesure de décliner pour d’autres acteurs de l’édition scientifique.
Pour en savoir plus
Une tentative d’utilisation souveraine, sobre et responsable de l’IA, au service des auteurs et des publications : SophIA, chez Cairn.info
Un article par Jean-Baptiste de Vathaire, directeur général de Cairn.info
Dans la revue I2D - Information, données & documents 2025/2
Pourquoi Isako ?
- les exigences éditoriales et scientifiques de Cairn.info,
- les briques technologiques avancées fournies par Kairntech,
- et les usages concrets des lecteurs, chercheurs et professionnels.
Au-delà de l’intégration technique, Isako assure la cohérence globale du dispositif : choix d’architecture, arbitrages fonctionnels, paramétrage des pipelines RAG, gouvernance des usages de l’IA et alignement avec les principes de souveraineté, de sobriété et de valorisation des auteurs.
Partenaires
Kairntech
Kairntech est une société spécialisée dans l’intelligence artificielle et le traitement du langage naturel. Sa plateforme low-code/no-code permet aux professionnels de l’information de créer facilement leurs propres modèles d’IA et assistants linguistiques, depuis la conversion de documents jusqu’à la réponse aux requêtes, sans compétences techniques requises.
CNL
Le Centre national du livre est le 1er soutien du livre et de la lecture en France. Il a pour mission d’encourager la création et la diffusion d’ouvrages de qualité à travers de nombreux dispositifs d’aide aux acteurs de la chaîne du livre (auteurs, éditeurs, libraires, bibliothèques, organisateurs de manifestations littéraires) et de favoriser le développement de la lecture, auprès de tous les publics.
Octopuce
Octopuce est une société d'hébergement et de services d'infrastructure web, basée à Paris, France. Experts dans les environnements Linux, la haute disponibilité, le logiciel libre et opérateur Internet indépendant (LIR).