Mon rosbif est biaisé

Avant de vous souhaitez de joyeuses fêtes de fin d’année, partageons cette petite fiction qui nous aide à comprendre la notion de biais des algorithmes et leurs origines possibles à travers des exemples tirés de la vie quotidienne. Nous avons emprunté cet article du  numéro 20 de 1024, le bulletin de la Société Informatique de France, qui vient de sortir. Merci à Serge Abiteboul et Julia Stoyanovich. Thierry Viéville.

Une discrimination systématique par un algorithme est appelée un biais. Les biais peuvent avoir différentes origines, et ils correspondent tous à des situations de la vie réelle. Pour illustrer cela, pensez à cuisiner du rosbif.

Pat décide de publier un site internet de recettes familiales en commençant par la plus populaire : le rosbif. La mère de Pat, sa sœur et son frère préparent tous le rosbif à peu près de la même manière : « comme le fait grand-mère ». Ils utilisent tous la même recette — le même algorithme. Leur choix de cuisiner le rosbif de cette manière montre une sorte de biais de familiarité — privilégiant les goûts et les expériences familiers par rapport aux nouveaux.

Lorsqu’elle sélectionne une recette de rosbif familière de manière biaisée, Pat ne fait rien de mal — elle suit simplement une tradition familiale agréable. Mais dans d’autres cas, le biais d’habitude peut être nocif : il peut conduire à une discrimination illégale dans l’embauche, le prêt ou l’octroi d’une libération conditionnelle. Aussi inoffensive soit-elle, la recette de rosbif de la famille de Pat nous permettra de discuter différents types de préjugés.

Comment choisir une recette de rosbif à suivre ? Commencez par sélectionner vos données d’entraînement, une recette « générique » que vous avez vu d’autres utiliser, et faites-la vôtre ! Dans le cas de Pat, le type de préjugé le plus visible vient des personnes dont elle adopte la recette : sa famille. Par exemple, au Maroc, la recette générique serait de préparer du bœuf avec du curcuma, du gingembre, du cumin et de la coriandre, ainsi que du jus de grenade. Par contre, en Alsace, la base du rossbif n’est pas du tout du bœuf, mais de la viande de cheval (ross signifie cheval en alsacien). En clair, selon les personnes qu’on choisit, on obtient des recettes différentes. La famille de Pat est plutôt traditionnelle, ils utilisent du bœuf et le garnissent de persil, de sauge, de romarin et de thym (comme dans la chanson). Le biais introduit par la sélection des données d’entraînement est parfois appelé biais préexistant, car il provient de recettes qui existaient avant que vous n’envisagiez même de faire vous-même ce rosbif.

Une pratique s’avère assez particulière dans la famille de Pat : ils découpent des tranches aux deux extrémités du rôti avant de le mettre au four. Pourquoi font-ils cela, demande Pat ? Un cousin propose : à cause de l’oxydation du rôti aux extrémités. Un autre n’est pas d’accord : parce que nous, les enfants, aimons notre rosbif bien cuit, et les petits morceaux sont alors hyper cuits. Pat demande à sa mère, sa tante et son oncle qui répondent : nous faisons ceci parce que maman faisait cela. Alors, quand elle en a l’occasion, elle demande à sa grand-mère qui répond : ma mère faisait comme ça. Mais pourquoi ? Parce que son four était trop petit pour contenir tout le rôti. C’est ce qu’on appelle le biais technique. En informatique, un tel biais peut être introduit, par exemple, parce qu’une représentation incorrecte des données a été choisie. Et ce n’est peut-être pas si facile à détecter car les programmeurs ont toujours tendance à supposer la perfection de leur code. Ou, du moins, ils remettent rarement en question un morceau de code qui fonctionne.

Pour introduire le dernier type de biais, revenons à l’Angleterre médiévale*. Il était une fois une ville avec deux chefs qui avaient inventé des recettes de rosbif concurrentes. Le duc qui avait entendu parler de ces deux nouvelles recettes se déplaça pour venir les déguster. Malheureusement, l’un des deux chefs eut un rhume ce jour-là. Ainsi, seul Maistre Chiquart, un chef français originaire de Lyon, put faire déguster son rosbif. Le duc l’apprécia tant qu’il l’introduisit à la cour du roi. Ce fut le début de la saga de la recette du rosbif que l’on connaît aujourd’hui, alors que la recette de l’autre chef se perdit dans l’histoire, jusqu’au nom de ce chef. Sans ce rhume ce jour fatidique, la recette de rosbif de Pat aurait peut-être été très différente. C’est ce qu’on appelle le biais émergent : plus les gens utilisent la recette de Chiquart, plus elle deviendra populaire et plus les gens l’utiliseront. Cela rendra la préparation du rosbif de plus en plus uniforme.

Le site web de Pat n’est pas très populaire auprès des millenials, la génération Y ; beaucoup d’entre eux sont végétariens et se soucient peu de recettes de rosbif. Un biais générationnel ?

Serge Abiteboul, Inria et ENS Paris, Julia Stoyanovich, Professeure à New York University.

[*] Attention : cette histoire est une pure fiction. Il n’y a aucune preuve réelle que le rosbif ait été inventé par un chef français, même si cela est fort probable.

ePoc : des formations au numérique à portée de main

ePoc [electronic Pocket open course] est une application mobile gratuite et open source de formation au numérique développée par Inria Learning Lab (Service Éducation et Médiation Scientifiques). L’objectif : proposer des formations au numérique à portée de main. Aurélie Lagarrigue, Benoit Rospars et Marie Collin  nous explique tout cela. Marie-Agnès Énard.

Ce billet est publié en miroir avec le site pixees.fr.

En parallèle des Moocs produits sur la plateforme nationale FUN, ce nouveau format de formation a été spécialement conçu pour le mobile. L’intérêt est de bénéficier de formations :
– toujours à portée de main : dans votre poche pour une consultation hors ligne où vous voulez et quand vous voulez ;
– plus courtes avec des contenus variés et ludiques, adaptés aux petits écrans.

Chaque formation ePoc est développée :
– en assurant la qualité scientifique : les contenus sont élaborés en collaboration avec des chercheurs spécialistes ou experts du domaine ;
– en respectant la vie privée : aucune collecte de données personnelles ;
– en proposant une attestation de réussite, que vous pouvez télécharger à la fin de la formation.

L’application est disponible gratuitement sur Google Play et App store et accessible en Open Source.
Pour en savoir plus et télécharger l’application.

Vous pouvez, dès à présent, télécharger 4 ePoc (entre 1 et 2h de formation chacun) avec des parcours pédagogiques engageants et spécialement conçus pour le mobile.

Les 4 premiers ePoc à découvrir

  • B.A-BA des data : introduire les fondamentaux indispensables relatifs aux données à travers des activités simples et variées
  • Vie Privée et smartphone : découvrir l’écosystème des applications et leur usage des données personnelles
  • Internet des objets et vie privée : comprendre les implications liées à l’usage d’objets connectés dans la maison dite intelligente.
  • Smartphone et planète : identifier les impacts du smartphone sur l’environnement grâce à 3 scénarios illustrés : Serial Casseur, Autopsie d’un smartphone, La tête dans les nuages.

Vous faites partie des premières et premiers à découvrir cette application, n’hésitez pas à faire part de vos avis (ill-ePoc-contact@inria), cela aidera à améliorer l’application.

Voici en complément cette petite présentation vidéo:

Belle découverte de l’application ePoc et de ses contenus !

L’équipe conceptrice.

De la réalité augmentée au CERN

Pour bien comprendre des données, les représenter visuellement est une approche bien connue ; nous avons par exemple appris au lycée comment représenter une fonction mathématique à l’aide d’une courbe pour pouvoir l’étudier. Pour appréhender des données très complexes, il existe beaucoup de méthodes et de recherches – regroupées dans un domaine baptisé Visualisation de données (DataViz en anglais) – parmi lesquelles  le potentiel de la réalité augmentée n’est pas négligeable. Dans cet article, Xiyao Wang et Lonni Besançon nous décrivent le prototype qu’ils ont développé et testé conjointement avec des physiciens du CERN, le célèbre laboratoire de physique des particules. Pascal Guitton.

 

Image 1: Une utilisatrice portant un casque de réalité augmentée. Photo by Barbara Zandoval on Unsplash.

La réalité virtuelle (RV) nous permet de faire l’expérience de mondes remarquablement immersifs. Ces environnements peuvent être attrayants et promettent de faciliter les tâches qui exigent un haut degré d’immersion – l’état psychologique que les utilisateurs ressentent lorsqu’ils sont plongés dans un environnement qui diffuse des stimuli en continu [1] – dans leur contenu tridimensionnel.

Par rapport aux environnements RV totalement immersifs, la réalité augmentée (RA) offre de nouvelles possibilités, en plus de permettre des vues immersives de données stéréoscopiques en 3D. Tout d’abord, la RA ne transporte pas les utilisateurs dans un monde entièrement virtuel mais les laisse dans un environnement réel, ce qui leur permet d’interagir avec des objets habituels  tels que les dispositifs d’entrée traditionnels (par exemple, la souris). Les utilisateurs ne sont donc pas obligés d’utiliser des périphériques dédiés (par exemple, une baguette, un contrôleur 3D) comme dans la plupart des environnements RV, ce qui réduit les coûts d’apprentissage et offre un grand potentiel d’intégration des nouveaux environnements aux outils existants. Ce dernier point est essentiel car les scientifiques travaillant avec des données complexes ont tendance à s’en tenir aux outils d’analyse existants sur PC et hésitent à passer à de nouveaux outils, comme l’ont montré des travaux de recherche antérieurs [2].

 

Afin de comprendre le cas d’utilisation potentielle de combinaison de la RA avec les outils d’exploration des données sur PC, nous avons mis en œuvre un prototype pour servir d’outil initial que nous pouvons tester avec des scientifiques étudiant des données complexes [3]. L’objectif est d’essayer de favoriser l’utilisation d’environnements immersifs par les scientifiques en les combinant à des environnements classiques.. Nous avons décidé de collaborer avec des chercheurs du CERN afin d’évaluer ce prototype. Nous ne l’avons pas développé pour remplacer les logiciels et les paramètres existants en termes de convivialité, de détails d’interaction ou de puissance de calcul, qui sont absolument nécessaires aux physiciens du CERN et qui évoluent rapidement selon eux, mais ce ne sont pas les points qui nous intéressent dans ce travail. Notre objectif était de voir comment combiner l’avantage d’un environnement de travail classique avec un environnement immersif, particulièrement intéressant pour l’analyse de données spatiales ou multi-dimensionnelles. 

 

Notre prototype est donc décomposé en deux parties: la première sur un PC et la seconde sur un casque HoloLens,  toutes deux inspirées des environnements de travail habituels des physiciens des particules avec qui nous avons collaboré. Nous avons utilisé la métaphore d’un environnement à deux écrans, dans lequel le contenu de chacun d’entre eux peut être défini individuellement et la souris peut se déplacer d’un écran à l’autre (ce qui est maintenant classique dans beaucoup de métiers). Nous remplaçons dans notre prototype l’un de ces écrans par l’environnement de RA (Image 2). Les utilisateurs peuvent rester assis et continuer à travailler avec leurs outils traditionnels sur leur PC ou leur ordinateur portable, mais ils peuvent également passer à l’environnement de RA en cas de besoin et revenir au PC à tout moment. La communication entre les deux environnement est basée sur le WiFi en utilisant le protocole UDP. Cette communication est également bidirectionnelle : les interactions qui se produisent dans l’environnement de RA sont transmises au PC et vice-versa. Dans ce prototype, chaque environnement présente le même jeu de données, mais les vues et analyses sont configurables par les utilisateurs. De cette façon, notre prototype permet aussi de combiner plusieurs techniques d’intéractions natives à chacun des environnements. Les chercheurs peuvent ainsi sélectionner certaines parties de leurs données via des visualizations interactives sur l’écran 2D, ou bien recourir à une sélection basée sur la position et configuration spatiales des données dans l’environnement de réalité augmentée.

 

 

Image 2: Vue de l’écran d’analyse avec son extension en réalité augmentée.

Bien qu’il existe aujourd’hui de nombreuses façons d’interagir avec un Hololens (mains, gants, smartphones… ), nous avons décidé de permettre aux physiciens d’utiliser la souris. Lorsque la souris quitte les bords de l’écran, nous avons choisi de permettre aux physiciens d’interagir avec l’Hololens en cliquant sur la touche Shift de leur clavier. La souris se déplace alors en 2D de façon classique, et le scroll peut être utilisé pour manipuler une troisième dimension via la souris.

Nous avons évalué ce prototype et ses capacités avec 7 chercheurs du CERN. Notre protocole d’évaluation était principalement centré sur une observation des 7 chercheurs pendant la conduite d’une tâche d’analyse représentative de leur travail. Durant cette tâche, il leur était demandé de penser à voix haute afin que nous puissions prendre notes de leurs commentaires. Une fois la tâche achevée, nous leurs demandions de répondre à plusieurs questions notamment en termes de préférences sur les combinaisons possibles entre RA et moniteurs. L’objectif premier de cette évaluation était de comprendre le potentiel, les intérêts, et les soucis de notre approche lorsqu’on la compare aux outils que les chercheurs du CERN utilisent actuellement. De cette évaluation ressort que les physiciens des particules ont bien apprécié et compris l’utilité d’un environnement d’analyse de données hybride, entre immersif et station de travail et préfèreraient, dans l’ensemble, ce genre d’environnement à un environnement unique. L’environnement immersif a bel et bien été perçu comme une extension de l’écran 2D, ajoutant des possibilités d’analyse exploratoire des données. Qui plus est, l’environnement 3D permet aussi d’étendre l’environnement de travail de façon infinie et non contrainte contrairement à un écran supplémentaire. 

Bien que les environnements immersifs (RV et RA) soient aujourd’hui prêts à l’emploi, leur intégration avec des outils plus classiques est encore très peu explorée. Les possibilités de combinaison sont multiples et ces travaux présentent seulement une de ces nombreuses possibilités. Cependant, la validation de cette possibilité par des physiciens des particules du CERN nous montre bien le potentiel de ce genre de solution de travail hybride. 

[1] Witmer, Bob G., and Michael J. Singer. « Measuring presence in virtual environments: A presence questionnaire. » Presence 7.3 (1998): 225-240. https://doi.org/10.1162/105474698565686 

[2] Lonni Besançon, Paul Issartel, Mehdi Ammi, Tobias Isenberg. Hybrid Tactile/Tangible Interaction for 3D Data Exploration. IEEE Transactions on Visualization and Computer Graphics, Institute of Electrical and Electronics Engineers, 2017, 23 (1), pp.881-890. https://doi.org/10.1109/TVCG.2016.2599217 

[3] Xiyao Wang, David Rousseau, Lonni Besançon, Mickael Sereno, Mehdi Ammi, Tobias Isenberg. Towards an Understanding of Augmented Reality Extensions for Existing 3D Data Analysis Tools. CHI ’20 – 38th SIGCHI conference on Human Factors in computing systems, Apr 2020, Honolulu, United States. https://doi.org/10.1145/3313831.3376657 

 

Des algorithmes pour la chasse à la fraude scientifique?

Guillaume Cabanac est un chercheur en informatique à l’Université Paul Sabatier et membre junior de l’Institut universitaire de France (IUF). Il se spécialise dans l’analyse de texte et a fait partie, en 2021, de la liste des top 10 chercheurs de Nature pour son travail permettant de détecter des articles scientifiques frauduleux. Son travail est essentiel pour la crédibilité et la robustesse des processus scientifiques. Dans cet entretien, Guillaume nous explique comment il est en est arrivé à travailler sur ce sujet ainsi que le fonctionnement de son programme pour détecter les articles frauduleux.

 

Binaire : Peux-tu nous présenter ton parcours et ce qui t’a poussé à chasser la fraude scientifique ?

Guillaume : Mon choix de parcours était partagé. D’une part, je voulais faire un Bac L. parce que la littérature me plaisait. D’autre part, je voulais être informaticien. C’est finalement grâce à un ami de mon père, un ingénieur, qui un jour m’a expliqué : « Écoute ton but c’est d’être informaticien . Les lettres te plaisent beaucoup mais tu sais que tu pourrais en faire ton hobby pendant ton temps libre… » que j’ai finalement opté pour un Bac S et plus tard pour un DUT car mes parents, qui n’ont pas été à l’université, étaient un peu inquiets que je m’oriente pour la fac. J’ai fait deux ans à l’IUT mais j’ai de suite su que l’entreprise n’était pas pour moi. Franchement j’étais même un peu stressé parce qu’il fallait faire un stage de DUT assez long, au total plus de dix semaines. Et je cherchais, mais sans trouver. Je regardais mes professeurs  en cours, (ceux que j’avais étaient vraiment sympathiques), ils étaient investis, motivés. Puis, je les voyais dans leurs bureaux, ils travaillaient sur des projets intéressants.  Et moi, je me suis complètement projeté là-dedans. Je leur ai dit : “Mais ça a l’air trop bien ce boulot. Que faut-il faire pour y parvenir ?” Ils m’ont répondu : une thèse.

C’est donc ce que j’ai commencé à vouloir faire. J’ai finalement fait mon stage dans le laboratoire d’informatique à l’université Paul Sabatier de Toulouse, où j’étudiais. J’ai appris à connaître cet univers, à voir les collègues sous leurs deux facettes, les enseignants qui sont aussi chercheurs. J’ai participé à quelques séminaires et j’ai aimé cet univers. C’était tellement super. Et je me suis dit que c’était vraiment ce que je voulais faire.
Je suis alors parti en thèse et j’ai été recruté juste après l’obtention de mon doctorat. J’ai eu la chance d’avoir un recrutement post-thèse. Je suis un « pur produit » de l’université Paul-Sabatier de Toulouse et je pense que c’est vraiment « une espèce en voie d’extinction ». Récemment, il a été question d’imposer lors des recrutements de Maître de conférences à l’IRIT une mobilité obligatoire entre la soutenance du doctorat et le recrutement. J’espère donc ne pas être une «disgrâce »pour l’université.

Quand je me suis présenté pour l’audition, on m’a demandé si je ne voulais pas “aller un peu à l’étranger, voir comment ça marche ailleurs, créer des liens, etc.”
J’ai expliqué qu’ayant une famille je ne voulais pas, et que je souhaitais également favoriser un poste stable plutôt qu’un poste précaire. D’autant plus qu’après l’obtention d’un poste stable , j’aurais tout le temps de créer des liens et des connections avec d’autres collègues. Pour moi c’était soit j’étais pris en poste en France dans l’univers académique, soit j’irais dans l’industrie (où je ne tenais vraiment pas aller) car je ne voulais pas demander à ma famille de faire des sacrifices pour ma carrière. Je me disais également que si je ne trouvais pas un poste académique à Toulouse, je me consacrerai à la recherche le week-end, pendant mes temps libres et à toutes mes heures perdues car j’adore la recherche. Déjà à l’époque, j’avais compris que je pouvais faire des choses, même sans argent.

Binaire : à quel moment t’es-tu intéressé à ces problèmes de fraude, de fake papers ?

Guillaume : Je suis dans le domaine des systèmes d’information et plus précisément dans mon équipe nous travaillons sur le texte, le texte sur le web par exemple. J’étais captivé par l’idée travailler sur la littérature scientifique, parce que c’est un domaine très hétérogène. Il y a de la masse, il y a des réseaux de citations, d’auteurs, d’affiliations. C’est « un tout-en-un », et donc un super matériau d’étude. Par ailleurs, j’ai commencé un livre sur la science de la science, la scientométrie. Je suis allé frapper à la porte du bureau d’une sociologue d’un département proche du mien. Elle m’a accueilli à bras ouverts avant de commencer une discussion sur les sujets qui nous intéressaient tous les deux. Elle m’a proposé ensuite de rejoindre le projet ANR qu’elle venait de décrocher et de me joindre tous les vendredis au séminaire de sociologie des sciences. J’ai suivi les cours de Yves Gingras et qui est un scientomètre très réputé mais qui reste très simple, humble, et disponible. Cette nouvelle immersion dans la sociologie m’a fait réaliser qu’il est possible de ne pas faire que de la recherche en profondeur que sur un seul sujet mais qu’on peut être curieux et s’intéresser à plusieurs domaines et explorer la largeur des connaissances scientifiques (même si cela pose encore des soucis en terme de carrière).  J’ai aussi été exposé à des théories de sociologie des sciences qui ont formé mes intérêts et notamment les normes CUDOS de la science selon Merton. Il y définit notamment que la science doit être “Désintéressée” en ce sens que le chercheur ne doit pas faire ça pour être reconnu ou gonfler son h-index mais pour servir la société, et qu’elle doit se conformer au “Scepticisme Organisé” car les résultats sont soumis à un examen critique avant d’être acceptés et peuvent toujours être remis en cause.

En réalité ces deux derniers piliers, désintéressement et scepticisme organisé, sont les deux piliers qui sont attaqués par ce sur quoi je travaille aujourd’hui.
Le désintéressement est mis à mal lorsque des fraudeurs essaient, pour progresser, pour être promus, de publier de fausses études pour gonfler leurs métriques. Ils sont tout sauf désintéressés. Et il y a également le scepticisme organisé qui s’effrite de nos jours. On voit en effet des comités éditoriaux de revues scientifiques qui comprennent des ‘gatekeepers’ qui devraient protéger la science. Or ces ‘boards’ actuellement ne fonctionnent pas correctement. Cela peut s’expliquer parce qu’en 20 ans le nombre de revues scientifiques qui existent et sont actives a été multiplié par deux. Ces deux phénomènes, en parallèle, font qu’il y a des fraudeurs qui produisent, avec des techniques informatiques des papiers « bidons » qu’ils envoient à certaines revues. Sur les 40 000 revues qui existent dans le monde il n’y en qu’une cinquantaine qui sont ainsi affectées.

Dans nos travaux avec Cyril Labbé et Alexander Magazinov, nous ne parlons pas des revues prédatrices, nous parlons des revues, de la “haute couture”, des revues qui ont un impact factor chez Springer ou chez Wiley par exemple. Nous travaillons, ensemble, sur cette détection de papiers « bidons ». C’est du travail volontaire sur Zoom, en pleine pandémie, poussés par l’intérêt intellectuel. Il y a également cette prise de conscience que ce que l’on trouve, via nos travaux, est important pour la communauté scientifique.

Binaire : Quel genre de fraude peut être détectée par l’outil que vous avez développé tous les trois ?

Guillaume : Pour expliquer comment fonctionne notre outil et ce qu’il détecte, j’aime utiliser une métaphore liée au crime. Ce que nous avons créé c’est un logiciel qui agit comme un indic ; il va d’abord fureter et mettre son nez partout et ensuite il va aller voir le commissaire de temps en temps pour lui dire : “Tu devrais aller voir ça parce que là, c’est louche.” Le commissaire et ses détectives vont pouvoir cibler un individu particulier dans la ville. Imaginons que dans cette ville il y est 16 000 personnes, grâce à l’indic il saura que c’est cette personne sur les 16 000 qui est intéressante à surveiller. En fait, en science, il y a beaucoup de gens qui sont prêts à aider à débusquer et expliquer les problèmes de certaines publications scientifiques. Mais, sans outils, à l’image du commissaire, sans les renseignements d’un indic, ils ne savent pas où regarder. Des publications indexées dans “Dimensions” par exemple, il y en a 120 000 000, et environ 6 000 000 par an, ce qui fait 16 000 par jour, un nombre bien trop conséquent pour que chacune soit passée à la loupe. Tout comme le commissaire, les scientifiques ne peuvent pas surveiller 16 000 choses différentes par jour. Je me suis dit que j’allais créer un logiciel qui aide à savoir où regarder. Le logiciel passe au peigne fin l’ensemble de la littérature scientifique en cherchant ces fameuses ‘tortured phrases’, les expressions torturées. Les expressions torturées sont le résultat d’une tentative de manipulation de la part des fraudeurs.

Maintenant il faut comprendre le principe du paper mill. Un paper mill, c’est une entreprise, bien souvent en Chine et en Inde, qui vend des articles préparés sur commande. Il faut savoir qu’un scientifique est soumis à l’évaluation par son organisme de recherche qui lui demande d’atteindre des quotas. Par exemple, dans l’équivalent des CHU en Chine, il faut faire, comme en France, de l’enseignement, de la recherche et aussi opérer. Et peut être encore plus qu’en France, il faut atteindre ces quotas, autrement on est licencié. Il y a donc des personnels des hôpitaux qui vont voir les paper mills et contre de l’argent, ils vont faire fabriquer un article. La commande ressemble à quelque chose comme “Moi, je travaille sur le rein, il faudrait tester l’effet de telle protéine sur le rein et reporter les résultats.” Les paper mills, bien qu’on puisse penser qu’ils sont formés en science, ne sont tout de même pas des chercheurs. Ce qu’ils font, vraisemblablement, c’est une sorte d’état de l’art ou ils trouvent des articles intéressants sur le thème imposé. Ne sachant pas faire un vrai état de l’art, bien réfléchi et bien articulé, ils font ce qu’on appelle un lazy survey, c’est-à-dire qu’ils vont dire “X a fait ça”, “Y a fait ça”, “Z a fait ça”. Les paragraphes qu’ils écrivent commencent comme ça avec la citation de l’article suivi d’un copié paraphrasé collé du résumé de l’article cité. Pourquoi pas un copié/collé directement ? Parce que les maisons d’édition ont des logiciels détecteurs de plagiat. Les paper mills utilisent une technique qui va remplacer les mots par des synonymes. Donc pour « cancer du sein », le logiciel pioche un synonyme pour “cancer”, par exemple “péril”, et un synonyme pour “du sein”, par exemple “poitrine”. On obtient donc “péril de la poitrine” pour remplacer “cancer du sein”. De la même façon, “Intelligence artificielle”, devient “conscience contrefaite”. Une publication de ‘paper mills’ pourra donc contenir une phrase telle que “La voiture autonome dans la ville se guidera par sa conscience contrefaite.”

Ces phrases torturées, nous en avons trouvées quelques-unes au début avec mes deux collègues et nous avons pioché des articles qui les contenaient. Une forme de ‘grep’ généralisé sur toute la littérature. Et en lisant les paragraphes qu’il y a autour, nous pouvions trouver de plus en plus de phrases torturées. Par effet boule de neige, nous les ajoutions dans une liste et avant de recommencer le processus entier. Et notre logiciel Problématic Paper Screener (PPS), remontait donc de plus en plus d’articles de recherche à chaque fois. En résumé, PPS est finalement cet indic qui va lister les papiers candidats à ce qu’on appelle une “réévaluation par des humains”. Par exemple, un article qui en contient sept, il n’y a aucun doute sur le fait qu’il est issu d’un ‘paper mill’ et nous invitons la communauté scientifique, via le site de PPS, à regarder les phrases torturées, prendre un screenshot et apporter la preuve du problème et le poster sur Pubpeer, la plateforme de relecture post publication.

Mon cas est typique, je ne suis pas expert biomédical mais j’arrive quand même à lire les papiers qui sont remontés par notre logiciel et signaler les phrases torturées.
Mais le détail de la science et les problèmes dans la science biomédicale c’est un autre sujet, qui est lui bien complexe. Je poste donc sur Pubpeer le papier concerné et les experts qui ne savaient pas où regarder, pour aider à protéger la science, peuvent commencer là car ils le voient sur la file d’accueil de Pubpeer. Et si on trouve des phrases torturées dans l’état de l’art et que le papier expose une expérience ou des études on peut être quasi sûr que les experts du domaine vont pouvoir trouver beaucoup d’autres problèmes. De façon simplifiée, par exemple, ils diront étudier 18 souris et en faire deux groupes. Chaque groupe devrait donc contenir 9 souris. Cependant, en lisant l’article, on observe qu’il y a en fait un groupe qui en contient 7 et l’autre 4. Bien évidemment, les problèmes sont en réalité plus complexes, mais les scientifiques du domaine peuvent plus facilement disséquer tous les problèmes de ces articles, les poster sur Pubpeer et contacter les éditeurs qui ont publié les articles en joignant les preuves qu’ils ont accumulé pendant leurs investigations. Via notre outil, nous sommes depuis rentrés en contact avec d’autres whistleblowers qui ont des informations importantes sur ce business de la fausse publication scientifique mais qui restent anonymes car ils sont menacés ; mais nous aident à découvrir et à signaler d’autres pratiques problématiques. Par contre, nous voulions être certains de ne pas avoir toute la reconnaissance pour nous, donc dans notre logiciel du Problematic Paper Screener, il y a une colonne en plus pour préciser qui a signalé ça sur Pubpeer et on peut ensuite dans le logiciel faire remonter tous les post Pubpeer qui contiennent une phrase torturée et remonter qui en est à l’origine.

Binaire : Quand on regarde de plus près, l’approche que tu as à toi, qui est beaucoup plus automatisée, elle apparait comme assez complémentaire de ce que fait Elizabeth Bik qui est plutôt à regarder elle-même, apparemment manuellement, les articles pour chasser les duplications d’images, les Photoshop “maladroits” ; on pourrait imaginer que les approches automatisées soient plus efficaces qu’une approche humaine. Est-ce que tu penses qu’on peut automatiser d’autres tâches que celles que vous avez voulues automatiser ? 

Guillaume : Il y a des collègues qui travaillent sur le p-hacking depuis au moins les années 2013. Ils ont conçu des approches pour aller identifier les différents paramètres utilisés dans les tests statistiques qui relancent le calcul et qui comparent avec ce que les chercheurs ont reporté dans le papier. ‘Statcheck’, par exemple, fais ce genre de vérification.

Il y a beaucoup de personnes qui travaillent sur cette détection d’erreurs. Ce sont des problèmes reconnus qui sont à la fois sur les erreurs ou alors sur des approches à améliorer. Par exemple, il y a une personne qui travaille sur un logiciel qui va détecter des couleurs dans les figures qui ne sont pas perceptibles par des personnes qui sont atteintes de déficience visuelle. Et certains de ces outils automatiques ont déjà été développés plus en profondeur et intégrés par des maisons d’éditions. Ça n’est pas le cas du Problematic Paper Screener, car, même si les maisons d’édition sont intéressées, ça n’est pas ce qui nous intéresse nous.

Binaire : Est-ce que tu vois des limites directes dans l’approche que vous avez mise en place, par exemple sur les faux positifs ?

Guillaume : C’est quelque chose que nous avons regardé. L’exemple c’est l’utilisation du terme « acknowledgement » dans une phrase torturée mais qui apparait aussi dans la section remerciements (acknowledgments en anglais) d’un article. Alors dans ces cas-là, nous utilisons d’autres informations pour déterminer si l’article est problématique. Par exemple si c’est un article qui date d’une époque où les paper mills n’existaient pas, il est facile d’éliminer cet article. Il y a beaucoup d’autres sortes de vérifications assez simples. En revanche, on sait que si un article compte au moins deux phrases torturées repérées par notre logiciel, il n’y a quasiment jamais de faux positifs. En fait les seuls faux positif, pour le moment, ce sont nos propres papiers sur les phrases torturées, puisqu’ils contiennent ces expressions problématiques. Nous pensions en avoir trouvé un dans Nature, mais c’était en fait un article dans Nature qui parlait de notre travail.

Une limite de notre système, c’est que notre analyse repose sur du travail manuel. On ne veut pas essayer de trouver de façon automatique plus de phrases torturées parce qu’il y aurait beaucoup de  bruit et donc potentiellement beaucoup plus de faux positifs. On pourrait imaginer utiliser un algorithme qui détecterait des nouvelles expressions dans des articles, mais ça produirait certainement beaucoup de bruit. Ça ne veut pas dire qu’il ne faut pas essayer de le faire, mais ça n’est pas notre idée initiale, ou notre intérêt direct pour le moment.

Binaire : Suite à votre travail à tous les trois, est-ce qu’il y a un risque que les techniques pour écrire ces articles frauduleux en fait, deviennent meilleures ?

Guillaume : C’est certain. Ce qui a fait beaucoup de bruit récemment c’est le fait qu’on a trouvé une revue scientifique très problématique avec un très grand nombre d’articles problématiques et Elsevier a fini par rétracter 400 articles scientifiques. Mais, au départ, c’était pourtant une revue très sérieuse qui avant 2019 publiait beaucoup d’articles du CNRS et qui, d’un coup, s’est mise à publier de plus grands nombres d’articles de façon plus rapide. Nous n’avons pas détecté ça via les phrases torturées mais via un screening des abstracts des articles pour détecter le langage synthétique, c’est à dire le langage généré automatiquement par des outils comme GPT 2.
Mais ce que l’on détecte avec les phrases torturées, ça n’est que la partie visible de l’iceberg ; celle qu’il est facile de trouver. La fraude plus élaborée on ne l’a pas encore trouvée, par exemple simplement les articles générés par GPT-3. Il suffit de donner à GPT-3 un début cohérent d’article, et en appuyant sur tabulation, l’algorithme écrit le reste de façon crédible. Ça ne veut pas dire grand chose sur le fond c’est vrai mais ça peut quand même être publié dans des revues sérieuses. Si le reviewer est un expert du domaine mais qu’il n’a pas le temps et donne la relecture à ses étudiants, si la personne, junior ou non, n’ose pas dire qu’elle ne comprend pas… l’article peut être publié, et c’est l’ensemble du processus scientifique qui est danger. Les conséquences ne sont pas forcément dramatiques, mais c’est quand même de l’argent de recherche qui a été gaspillé. C’est quand même du temps qui a été gaspillé car certains chercheurs pourraient lire des papiers frauduleux et s’appuyer sur leurs résultats pour faire avancer un peu plus la science et finalement gaspiller leur temps, argent, ou matériaux à cause de ça.

Disclaimer : cet entretien a été réalisée par Lonni Besançon qui fait partie du “Collège Invisible”, un groupe informel de détectives scientifiques, initié par Guillaume Cabanac.

La communauté des SNT et NSI « cookies »

Et si nous cuisinions ensemble ? En proposant des recettes pour les  enseignantes et enseignants indispensables pour apprendre et enseigner, l’informatique au lycée en SNT (Sciences Numériques et Technologie pour toutes les classes de secondes générales et techniques) et pour la spécialité NSI (Numérique et Sciences Informatique en première et terminale), et pour les parents afin d’accompagner leurs enfants à la découverte de ces enseignements inédits.  Marie-Agnès Enard.
Terra Numerica funny cooky'faces Learning Lab Inria Learning Lab Inria

Terra Numerica et ses partenaires sont en train de construire une offre d’accompagnement tutorée hybride :
– Je suis prof en lycée et on vient de m’attribuer des enseignements SNT … comment vais-je pouvoir me lancer ?
– J’enseigne la spécialité NSI et j’ai envie de partager mes pratiques, surtout par rapport aux élèves en difficulté ?
– Je fais beaucoup d’informatique, comment en faire mon métier en tant qu’enseignant·e ?
– Je n’ai pas eu la chance d’avoir des cours d’informatique au lycée, puis-je tout de même profiter de ce qu’on y enseigne maintenant ?
– Mes enfants me parlent d’informatique et j’avoue que je suis curieuse ou curieux d’en savoir plus mais comment ?

Nous proposons des rencontres en présentiel en région Sud Provence-Alpes-Côte d’Azur mais aussi des rencontres en ligne !
Rejoignez nous, nous allons vous aider et vous accompagner (gratuitement) !

Découvrez Cookie NSI sur cette page : Vous aider plus du portail des formations NSI et discutons ici sur le forum des enseignant(e)s NSI .

Le portail des formations NSI en lien avec les Moocs NSI et SNT permettent de disposer d’un grand nombre de ressources pour mieux vous aider sur l’apprentissage de notions, nous vous proposons gratuitement un accompagnement, en présentiel ou en ligne, par un expert métier ou un pair expérimenté pour mieux vous aider dans l’acquisition de ces compétences.

La première étape est de mieux connaître vos besoins et pour cela en moins de 5 minutes on vous invite à répondre (anonymement) à ce questionnaire : NSI Cookies.

Exprimez votre besoin d’un accompagnement tutoré gratuit :

Seriez-vous intéressé par un accompagnement en ligne, par un expert métier ou un pair expérimenté ?
– par mail nsi-cookies@terra-numerica.org
– ou sur le forum

Aurélie Lagarrigue, Charles Poulmaire, Marie-Hélène Comte, Sabrina Barnabé, Stéphane Renouf, Thierry Viéville.