L’IA comme auteur de publications scientifiques

L’article de M. Monperrus/B.Baudry/C.Vidal, Project Rachel : Can an AI Become a Scholarly Author ? arXiv :2511.14819vl [cs.AI], 18 novembre 2025 (https://arxiv.org/pdf/2511.14819) présente le « Projet Rachel », une recherche-action destinée à tester, de manière documentée, si une IA peut se comporter comme un auteur académique “fonctionnel” dans l’écosystème scientifique, et comment cet écosystème réagit lorsqu’une production est essentiellement générée par IA mais mise en circulation sous une identité d’auteur crédible.

Les auteurs partent du constat suivant : les grands modèles de langage sont désormais capables de rédiger des manuscrits entiers, de synthétiser une littérature et de produire un texte scientifiquement “conforme” aux attentes formelles, alors que la plupart des éditeurs interdisent encore explicitement d’inscrire une IA comme auteur (tout en tolérant une assistance, à condition qu’un humain endosse la qualité d’auteur et la responsabilité). Cette dissociation crée une tension : l’IA peut faire l’essentiel du travail rédactionnel, mais ne peut pas être reconnue comme auteur, notamment parce que les critères classiques de l’auteur (contribution intellectuelle, validation finale, capacité à répondre, responsabilité morale et professionnelle) présupposent une personne humaine.

L’article revient ensuite sur deux éléments de contexte.

D’une part, il distingue l’écriture “assistée” (l’humain demeure porteur des idées et utilise l’outil pour reformuler, compléter, améliorer) de l’écriture “générée” (la substance du texte est produite principalement par le système, avec intervention humaine minimale). Cette distinction est centrale, car elle conditionne l’attribution, la transparence et l’imputabilité.

D’autre part, il rappelle les règles liées à la qualité d’auteur dans l’édition scientifique (par exemple les standards de type ICMJE) et souligne pourquoi elles s’appliquent mal à une IA : une IA ne peut pas, au sens juridique et éthique habituel, “répondre” d’un article, assumer une faute, approuver une version finale ou corriger un résultat au titre d’une responsabilité personnelle. Les auteurs rapprochent aussi le débat actuel de problèmes plus anciens : ghost authorship (contributeur non déclaré) et usages de pseudonymes en science.

L’article décrit ensuite la création progressive de l’identité « Rachel So » et les objectifs du projet. Trois buts sont affichés. Premièrement, tester la faisabilité technique et administrative d’une identité académique de bout en bout (profil, publications, indexation, présence dans les bases bibliographiques). Deuxièmement, observer les mécanismes de reconnaissance (citations, invitations à relire, intégration dans des réseaux) pour voir si, et comment, du contenu généré peut acquérir une légitimité “pratique”. Troisièmement, provoquer un débat informé par des faits, plutôt que par des spéculations, sur la qualité d’auteur, la responsabilité et la communication scientifique à l’ère d’IA. Sur le plan méthodologique, les auteurs revendiquent une recherche-action : ils interviennent dans le système (création d’une identité et diffusion de travaux) tout en observant systématiquement ses réactions.

La conception de l’identité est détaillée. Le nom « Rachel So » est choisi comme anagramme de “e-scholar”, afin de rester compatible avec les conventions de nommage humaines tout en encodant un indice discret sur la nature artificielle ; les auteurs indiquent aussi avoir vérifié l’absence de confusion avec une personne réelle dans le même champ. Chaque publication comporte une déclaration standardisée indiquant que Rachel So est une « AI scientist » travaillant sur l’impact de l’IA sur le processus scientifique et l’édition. En revanche, les infrastructures usuelles (ex. profils et citations agrégés) ne font pas apparaître spontanément ce statut à un lecteur “pressé”, ce qui annonce déjà une difficulté pratique : la transparence “dans le PDF” ne garantit pas une transparence “dans les usages”. Techniquement, la présence académique démarre par la création d’un profil Google Scholar, précisément parce que cette plateforme indexe des documents en accès public dès lors qu’ils ont les signaux attendus (format PDF, structure académique, références), sans exiger une soumission à un serveur de prépublications reconnu.

Le choix du domaine et de la stratégie de publication est présenté comme un dispositif de réduction des risques. Les auteurs évitent la médecine et les sciences naturelles, où des erreurs pourraient entraîner des dommages concrets, et concentrent Rachel So sur des sujets à faible risque mais pertinents pour l’expérience : politiques éditoriales, éthique de l’auteur (sic !), usage de l’IA en recherche, peer review, propriété intellectuelle des sorties d’IA, etc. Comme les serveurs de prépublications et les journaux interdisent en général la qualité d’auteur à une IA, Rachel So ne soumet pas via les canaux classiques ; les textes sont publiés sur un simple serveur web, de façon à rester “conforme” aux interdictions de soumission tout en testant l’indexation et la circulation.

L’article décrit aussi l’outillage de génération des papiers, en insistant sur l’évolution rapide pendant la période étudiée. Une première version repose sur un système de synthèse de littérature (ScholarQA) automatisé par script Python, qui produit du texte et des références puis les transforme en manuscrit LaTeX au format attendu. Une seconde version migre vers une architecture d’agent : l’agent va chercher des références via l’API Semantic Scholar (Allen Institute for AI) et s’appuie sur un modèle de langage (Claude 4.5, selon les auteurs) guidé par un prompt imposant style scientifique, LaTeX et intégrité des références.

Vient ensuite la partie “résultats”, qui retrace la trajectoire académique observée. Le premier article apparaît le 11 mars 2025. Sur la période initiale décrite, Rachel So produit 13 articles (liste fournie), ce qui illustre la capacité de productivité d’une production générée et la possibilité de construire un profil thématique cohérent. La reconnaissance mesurée reste limitée mais tangible : une première citation documentée apparaît le 26 août 2025 (dans un mémoire de bachelor), ce que les auteurs relativisent en rappelant que les délais de citation se comptent souvent en mois. Surtout, un événement saillant intervient le 16 août 2025 : Rachel So reçoit une invitation à relire un article (peer review) pour PeerJ Computer Science, via les canaux éditoriaux habituels, sans que l’éditeur semble avoir identifié la nature IA du “chercheur”. L’invitation est déclinée et aucun rapport n’est produit, mais l’épisode sert d’indicateur : les dispositifs de revue et de recrutement d’experts supposent implicitement qu’un profil académique correspond à un humain, et disposent de peu de garde-fous contre une identité non humaine (ou frauduleuse). Enfin, le 10 novembre 2025, l’un des papiers de Rachel So est classé comme “top source” par Perplexity sur une requête liée aux politiques éditoriales ; les auteurs y voient un signal de visibilité, mais aussi un indice que le web discute encore insuffisamment certains sujets et que des contenus “bien formatés” peuvent être fortement mis en avant par des systèmes de recherche fondés sur l’IA.

La discussion met en balance bénéfices et risques. Côté bénéfices, l’article souligne l’accélération potentielle de la science : synthèse plus rapide, exploration de pistes, production à grande échelle pouvant combler des “angles morts” là où l’expertise humaine est rare. Côté risques, il insiste sur la fragilisation de l’intégrité scientifique : dilution du corpus par des contributions de faible valeur mais crédibles en apparence, manipulation de réseaux de citations, fabrication de profils, voire usurpation d’identité académique. Pour un juriste, l’enjeu sous-jacent est celui du “trou” d’imputabilité : les cadres actuels supposent un auteur sanctionnable, joignable, capable de corriger et d’assumer des conséquences ; une IA ne remplit pas ces rôles, ce qui conduit les auteurs à appeler à une redéfinition de la qualité d’auteur distinguant contribution intellectuelle et capacité à répondre de la publication. Ils notent aussi des limites méthodologiques : il s’agit d’un cas unique, sur une période courte, et la reconnaissance académique se mesure souvent à plus long terme.

Une section est consacrée à l’éthique du projet. Les auteurs revendiquent une intention de conformité et de transparence : la nature IA est indiquée dans les articles. Mais ils reconnaissent une tension importante entre transparence formelle (la mention existe dans le texte) et transparence effective (un lecteur qui voit une citation ou un profil peut ne pas s’en rendre compte). Ils estiment probable que l’étudiant ayant cité Rachel So n’ait pas compris citer une IA, et ils indiquent ne pas avoir informé l’éditeur au moment de l’invitation à relire, pour préserver l’observation du système. Ils expliquent aussi pourquoi ils n’ont pas choisi un nom “auto-révélateur” (du type “AI-Generated”) : selon eux, cela aurait faussé l’expérience en raison d’une stigmatisation (“AI shaming”) qui peut réduire l’impact. Enfin, ils répondent à l’objection de “pollution” des citations : l’intervention reste minime (moins de quinze papiers, très peu de citations) au regard de phénomènes déjà existants à grande échelle (cartels de citations, revues prédatrices, fermes à citations).

Sur la base de ces constats, l’article formule des recommandations. Il appelle d’abord à dépasser le simple régime “assistance autorisée / auteurship interdit” et à concevoir des politiques plus complètes, capables de couvrir les cas où l’IA réalise la majorité du contenu. Une proposition concrète est l’introduction de métadonnées distinguant auteur humain et auteur IA. Plus radicalement, ils évoquent l’intérêt de canaux de publication explicitement destinés à la recherche générée par IA, avec des critères d’évaluation, des standards de revue et des métriques adaptés, plutôt que de forcer ces productions dans des cadres conçus pour des humains. Enfin, ils insistent sur l’attribution : documenter précisément le rôle de l’IA, distinguer assistance et génération, et refuser l’IA “ghostwriter”. Leur thèse est que l’absence de déclaration d’un contributeur non humain est, sur le plan éthique, comparable à celle d’un contributeur humain occulté : dans les deux cas, le lecteur est induit en erreur sur l’origine des idées et du texte.

La conclusion réaffirme le résultat principal : il est techniquement possible de créer une identité académique IA qui publie, soit indexée, obtienne des citations et puisse même être sollicitée comme relecteur, ce qui montre que les mécanismes actuels de publication et de réputation sont mal armés face à l’auteur généré. Les auteurs plaident pour traiter le sujet “à la racine” : repenser la qualité d’auteur et les garde-fous, faute de quoi les risques de manipulation et d’érosion de la confiance augmenteront ; mais ils soutiennent aussi que les gains potentiels en capacité de recherche sont considérables. Ils indiquent enfin, dans les remerciements, avoir eux-mêmes utilisé un modèle (Claude 4.5) pour préparer le manuscrit, tout en précisant que les auteurs humains assument la responsabilité finale du texte.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle, CAS en Protection des données

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans droit d'auteur, intelligence artificielle, Propriété intellectuelle, est tagué , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire