Quand les citations scientifiques dérapent : la découverte des « références furtives »

L’image du chercheur qui travaille seul en ignorant la communauté scientifique n’est qu’un mythe. La recherche est fondée sur un échange permanent, tout d’abord et avant tout pour comprendre les travaux des autres et ensuite, pour faire connaître ses propres résultats. La lecture et l’écriture d’articles publiées dans des revues ou des conférences scientifiques sont donc au cœur de l’activité des chercheurs. Quand on écrit un article, il est fondamental de citer les travaux de ses pairs que ce soit pour décrire un contexte, détailler ses propres sources d’inspiration ou encore expliquer les différences d’approches et de résultats. Etre cité par d’autres chercheurs, quand c’est pour de « bonnes raisons », est donc une des mesures de l’importance de ses propres résultats. Mais que se passe-t-il lorsque ce système de citations est manipulé ? Une récente étude [1], menée par une équipe de « détectives scientifiques », révèle une méthode insidieuse pour gonfler artificiellement les comptes de citations : les « références furtives ». Lonni Besançon et Guillaume Cabanac, deux des membres de cette équipe, nous présentent ici leurs résultats. Pascal Guitton et Serge Abiteboul. Article publié en collaboration avec theconversation.

Les dessous de la manipulation

Le monde de la publication scientifique et son fonctionnement ainsi que ses potentiels travers et leurs causes sont des sujets récurrent de la vulgarisation scientifique. Cependant, nous allons ici nous pencher tout particulièrement sur nouveau type de dérive affectant les citations entre articles scientifiques, censées refléter les apports et influences intellectuelles d’un article cité sur l’article citant. Les citations de travaux scientifiques reposent sur un système de référencement qui est standardisé : les auteurs mentionnent explicitement dans le texte de leur article, a minima le titre de l’article cité, le nom de ses auteurs, l’année de publication, le nom de la revue ou de la conférence, les numéros de page… Ces informations apparaissent dans la bibliographe de l’article (une liste de références) et sont enregistrées sous forme de données annexes (non visibles dans le texte de l’article) qualifiées de métadonnées, notamment lors de l’attribution du DOI (Digital Object Identifier), un identifiant unique pour chaque publication scientifique. Les références d’une publication scientifique permettent, de façon simplifiée, aux auteurs de justifier des choix méthodologiques ou de rappeler les résultats d’études passées. Les références listées dans chaque article scientifique sont en fait la manifestation évidente de l’aspect itératif et collaboratif de la science. Cependant, certains acteurs peu scrupuleux ont visiblement ajouté des références supplémentaires, invisibles dans le texte, mais présentes dans les métadonnées de l’article pendant son enregistrement par les maisons d’édition (publishers). Résultat ? Les comptes de citations de certains chercheurs ou journaux explosent sans raison valable car ces références ne sont pas présentes dans les articles qui sont censés les citer.

Un nouveau type de fraude et une découverte opportuniste

Tout commence grâce à Guillaume Cabanac (Professeur à l’Université Toulouse 3 – Paul Sabatier) qui publie un rapport d’évaluation post-publication sur PubPeer, un site où les scientifiques discutent et analysent les publications. Il remarque une incohérence : un article, probablement frauduleux car présentant des expressions torturées [2], d’une revue scientifique a obtenu beaucoup plus de citations que de téléchargements, ce qui est très inhabituel. Ce post attire l’attention de plusieurs « détectives scientifiques » dont Lonni Besançon, Alexander Magazinov et Cyril Labbé. Ils essaient de retrouver, via un moteur de recherche scientifique, les articles citant l’article initial mais le moteur de recherche Google Scholar ne fournit aucun résultat alors que d’autres (Crossref, Dimensions) en trouvent. Il s’avère, en réalité, que Google Scholar et Crossref ou Dimensions n’utilisent pas le même procédé pour récupérer les citations : Google Scholar utilise le texte même de l’article scientifique alors que Crossref ou Dimensions utilisent les métadonnées de l’article que fournissent les maisons d’édition.

Pour comprendre l’étendue de la manipulation, l’équipe examine alors trois revues scientifiques. Leur démarche comporte 3 étapes. Voici comment ils ont procédé:

dans les articles (HTML/PDF) : ils listent d’abord les références présentes explicitement dans les versions HTML ou PDF des articles ;
dans les métadonnées Crossref : Ensuite, ils comparent ces listes avec les métadonnées enregistrées par Crossref, une agence qui attribue les DOIs et leurs métadonnées. Les chercheurs découvrent que certaines références supplémentaires ont été ajoutées ici, mais n’apparaissaient pas dans les articles.
dans Dimensions : Enfin, les chercheurs vérifient une troisième source, Dimensions, une plateforme bibliométrique qui utilise les métadonnées de Crossref pour calculer les citations. Là encore, ils constatent des incohérences.

Le résultat ? Dans ces trois revues, au moins 9 % des références enregistrées étaient des « références furtives ». Ces références supplémentaires ne figurent pas dans les articles mais uniquement dans les métadonnées, faussant ainsi les comptes de citations et donnant un avantage injuste à certains auteurs. Certaines références réellement présentes dans les articles sont par ailleurs « perdues » dans les métadonnées.

Les implications et potentielles solutions

Pourquoi cette découverte est-elle importante ? Les comptes de citations influencent de façon pervasive les financements de recherche, les promotions académiques et les classements des institutions. Elles sont utilisées de façon différentesuivant les institutions et les pays mais jouent toujours un rôle dans ce genre de décisions. Une manipulation des citations peut par conséquent conduire à des injustices et à des décisions basées sur des données fausses. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique qui sont mises en avant depuis plusieurs années déjà [3]. En effet, beaucoup de chercheurs ont déjà, par le passé, souligné le fait que ces mesures pouvaient être manipulées mais surtout qu’elles engendraient une compétition malsaine entre chercheurs qui allaient, par conséquent, être tentés de prendre des raccourcis pour publier plus rapidement ou avoir de meilleurs résultats qui seraient donc plus cités. Une conséquence, potentiellement plus dramatique de ces mesures de productivité des chercheurs réside surtout dans le gâchis d’efforts et de ressources scientifiques dû à la compétition mise en place par ces mesures [5,6].

Pour lutter contre cette pratique, les chercheurs suggèrent plusieurs mesures :

Une vérification rigoureuse des métadonnées par les éditeurs et les agences comme Crossref.
Des audits indépendants pour s’assurer de la fiabilité des données.
Une transparence accrue dans la gestion des références et des citations.

Cette étude met en lumière l’importance de la précision et de l’intégrité des métadonnées car elles sont, elles aussi, sujettes à des manipulations. Il est également important de noter que Crossref et Dimensions ont confirmé les résultats de l’étude et qu’il semblerait que certaines corrections aient été apportées par la maison d’édition qui a manipulé les métadonnées confiées à Crossref et, par effet de bord, aux plateformes bibliométriques comme Dimensions. En attendant des mesures correctives, qui sont parfois très longues voire inexistantes [7], cette découverte rappelle la nécessité d’une vigilance constante dans le monde académique.

Lonni Besançon, Assistant Professor, Linköping University, Sweden.

Guillaume Cabanac, professeur d’informatique à l’Université Toulouse 3 – Paul Sabatier, membre de l’Institut Universitaire de France (IUF), chercheur à l’Institut de recherche en informatique de Toulouse (IRIT).

[1] Besançon, L., Cabanac, G., Labbé, C., & Magazinov, A. (2024). Sneaked references: Fabricated reference metadata distort citation counts. Journal of the Association for Information Science and Technology, 1–12. https://doi.org/10.1002/asi.24896

[2] Cabanac, G., Labbé, C., & Magazinov, A. (2021). Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. arXiv preprint arXiv:2107.06751.

[3] Crous CJ. The darker side of quantitative academic performance metrics. S Afr J Sci. 2019; 115:1–3. https://doi.org/10.17159/sajs.2019/5785.

[4] Academic Research in the 21st Century: Maintaining Scientific Integrity in a Climate of Perverse Incentives and Hypercompetition Marc A. Edwards and Siddhartha Roy Environmental Engineering Science 2017 34:1, 51-61

[5] Chalmers I, Glasziou P. Avoidable waste in the production and reporting of research evidence. The Lancet. 2009; 374(9683):86–9. https://doi.org/10.1016/S0140-6736(09)60329-9.

[6] Besançon, L., Peiffer-Smadja, N., Segalas, C. et al. Open science saves lives: lessons from the COVID-19 pandemic. BMC Med Res Methodol 21, 117 (2021). https://doi.org/10.1186/s12874-021-01304-y

[7] Besançon L, Bik E, Heathers J, Meyerowitz-Katz G (2022) Correction of scientific literature: Too little, too late! PLoS Biol 20(3): e3001572. https://doi.org/10.1371/journal.pbio.3001572

Les dessous de la manipulation

Un nouveau type de fraude et une découverte opportuniste

Les implications et potentielles solutions

Laisser un commentaire Annuler la réponse