Sarah et le virus de bioinformatique

Un nouvel entretien autour de l’informatique.

Sarah Cohen-Boulakia est bioinformaticienne,  professeure à l’Université Paris Saclay et chercheuse au Laboratoire Interdisciplinaire des Sciences du Numérique. Elle est spécialiste en science des données, notamment de l’analyse et l’intégration de données biologiques et biomédicales. Pendant la crise du covid, elle a participé à l’intégration les résultats de milliers d’essais cliniques. Elle a obtenu en 2024 la médaille d’argent du CNRS. Elle est directrice adjointe sur les aspects formation de l’institut DATAIA. Elle participe également au montage du réseau français de reproductibilité.

Sarah Cohen-Boulakia, Site du LISN

 

Binaire : Comment es-tu devenue informaticienne ?

SCB : Quand je suis entrée à l’Université, j’ai commencé par faire des maths. Et puis j’ai rencontré des informaticiennes, des enseignantes formidables comme Marie-Christine Rousset, Christine Froidevaux, ou Claire Mathieu, qui commençait ses cours en poussant les tables dans toute la salle, parce qu’elle disait que c’était comme ça qu’on pouvait mieux “travailler l’algo”. Elles étaient brillantes, passionnées ; certaines avaient même un côté un peu dingue qui me plaisait énormément. Je me suis mise à l’informatique.

J’avais de bons résultats, mais je n’aurais jamais osé penser que je pouvais faire une thèse. C’est encore une enseignante, Christine Paulin, qui m’a littéralement fait passer de la salle de réunion d’information sur les Masters Pro (DESS à l’époque) à celle pour les Master Recherche (DEA). Je l’ai écoutée, j’ai fait de belles rencontres, fini major de promo de mon DEA et j’ai décidé avec grand plaisir de faire une thèse.

Binaire : Tu cites des enseignantes. C’était important que ce soit des femmes ?

SCB : Oh oui ! Parce que c’était impressionnant en licence d’être seulement sept filles dans un amphi de 180 personnes. Elles m’ont montré qu’il y avait aussi une place pour nous. Mais j’ai eu aussi d’excellents enseignants masculins ! Grâce à elles et eux, j’ai mordu à la recherche. Pour moi, la science est un virus qui fait du bien. Les enseignants se doivent de transmettre ce virus. Maintenant, j’essaie à mon tour de le partager au maximum.

© Léa Castor / INS2I (Les décodeuses du numérique !)

 

Binaire : Tu travailles sur l’intégration de données biologiques. Qu’est-ce que ça veut dire ?

SCB : En biologie, on dispose de beaucoup de données, de points de vue différents, de formats très différents : des mesures, des diagrammes, des images, des textes, etc. L’intégration de données biologiques consiste à combiner ces données provenant de différentes sources pour en extraire des connaissances : l’évolution d’une maladie, la santé d’un patient ou d’une population…

Binaire : Où sont stockées ces données ?

SCB : Des données de santé sont collectées dans de grandes bases de données gérées par l’État, le Ministère de la Santé, la CNAM. Elles sont pseudonymisées : le nom du patient est remplacé par un pseudonyme qui permet de relier les données concernant le même patient mais en protégeant son identité. D’autres données sont obtenues par les hôpitaux pour tracer le parcours de soin. En plus de tout cela, il y a toutes les données de la recherche, comme les études sur une cohorte pour une pathologie donnée. Toutes ces données sont essentielles mais également sensibles. On ne peut pas faire n’importe quoi avec.

Binaire : Pourrais-tu nous donner un exemple de ton travail, un exemple de recherche en informatique sur ce qu’on peut faire avec ces données ?

SCB : Un médecin peut rechercher, par exemple, les gènes associés à une maladie. Avec un moteur de recherche médical, il tape le nom de la maladie qu’il étudie et il obtient une liste de gènes, triés dans l’ordre de pertinence. Le problème, c’est que la maladie peut être référencée sous plusieurs noms. Si le médecin tape un synonyme du nom de la maladie dans le moteur de recherche, la liste de gènes obtenus est sensiblement modifiée, de nouveaux gènes peuvent apparaître et leur ordre d’importance être différent. L’enjeu ici c’est à partir d’un ensemble de listes de gènes de construire une liste de gènes consensuelle : classant au début les gènes très bien classés dans un grand nombre de listes tout en minimisant les désaccords. Ce classement est bien plus riche en information pour les médecins que celui obtenu avec une simple recherche avec le nom commun de la maladie. Derrière cela, il y a un objet mathématique beaucoup étudié, les permutations. 

Travailler sur les classements de résultats, c’est loin d’être simple algorithmiquement. Et ce problème est proche d’un autre problème dans une autre communauté : la théorie du vote. La situation est similaire, pour le vote, on a un grand nombre de votants (de milliers) qui votent pour un relativement petit nombre de candidats (une dizaine). Dans notre contexte biomédical, nous avons un grand nombre de gènes potentiellement associés à une maladie (des centaines) et un petit nombre de synonymes pour la maladie (une dizaine). Cela change un peu les choses, on reste dans un problème difficile et on peut s’inspirer de certaines solutions. Nous avons développé un outil basé sur ces recherches dans lequel les médecins mettent simplement le nom de la maladie à étudier, l’outil cherche automatiquement les synonymes dans les bases de synonymes, récupère les listes de gènes et fournit un classement consensuel. Avec notre outil, les médecins accèdent à une liste de gènes qui leur donne des informations plus complètes et plus fiables.

Binaire : Les données de santé sont évidemment essentielles. On parle beaucoup en ce moment du Health Data Hub. Pourrais-tu nous en dire quelques mots ?

SCB : Le Health Data Hub (HDH) propose un guichet d’entrée aux données de santé pour améliorer les soins, l’accompagnement des patients, et la recherche sur ces données. Le HDH a soulevé une polémique en choisissant un stockage dans Microsoft Azure, un service de cloud américain. Même si le stockage est conforme au RGPD, il pose un problème de souveraineté. Ce n’est pas une question d’impossibilité : d’autres données, de volume et complexité comparables sont sur des serveurs français. On espère que ce sera corrigé mais cela va sûrement durer au moins quelques années.

Binaire : Tu travailles sur les workflows scientifiques. Pourrais-tu expliquer cela aux lecteurs de binaire ?

SCB : Pour intégrer de gros volumes de données et les analyser, on est amené à combiner un assez grand nombre d’opérations avec différents logiciels, souvent des logiciels libres. On crée des chaînes de traitements parfois très complexes, en séquençant ou en menant en parallèle certains de ces traitements. Un workflow est une description d’un tel processus (souvent un code) pour s’en souvenir, le transmettre, peut-être le réaliser automatiquement. Pour les chercheurs, il tient un peu la place des cahiers de laboratoires d’antan.

Un workflow favorise la transparence, ce qui est fondamental en recherche. Définir du code informatique qui peut être réalisé par une machine mais également lu et compris par un humain permet de partager son travail, de travailler avec des collègues experts de différents domaines.

Binaire : Les workflows nous amènent à la reproductibilité, un sujet qui te tient particulièrement à cœur.

SCB : La reproductibilité d’une expérience permet à quelqu’un d’autre de réaliser la même expérience de nouveau, et d’obtenir, on l’espère, le même résultat. Compte tenu de la complexité d’une expérience et des variations de ses conditions de réalisation, c’est loin d’être évident. Nous avons toutes et tous vécu de grands moments de solitude en travaux pratiques de chimie quand on fait tout comme le prof a dit : on mélange, on secoue, c’est censé devenir bleu, et … ça ne se passe pas comme ça. Cela peut être pour de nombreuses raisons : parce qu’on n’est pas à la bonne température, que le mélange est mal fait, que le tube n’est pas propre, etc. Pour permettre la reproductibilité il faut préciser les conditions exactes qui font que l’expérience marche.

Le problème se pose aussi en informatique. Par exemple, on peut penser que si on fait tourner deux fois le même programme sur la même machine, on obtient le même résultat. La réponse courte c’est pas toujours  ! Il suffit de presque rien, une mise à jour du compilateur du langage, du contexte d’exécution, d’un paramétrage un peu différent, et, par exemple, on obtient des arbres phylogénétiques complètement différents sur les mêmes données génétiques !

Binaire : Pourquoi est-il important d’être capable de reproduire les expériences ?

SCB : La science est cumulative. Le scientifique est un nain sur des épaules de géants. Il s’appuie sur les résultats des scientifiques avant lui pour ne pas tout refaire, ne pas tout réinventer. S’il utilise des résultats erronés, il peut partir sur une mauvaise piste, la science se fourvoie, le géant chancelle.

Des résultats peuvent être faux à cause de la fraude, parce que le scientifique a trafiqué ses résultats pour que son article soit publié. Ils peuvent être faux parce que le travail a été bâclé. Une étude de 2009 publiée par le New York Times a montré que la proportion de fraude varie peu, par contre le nombre de résultats faux a beaucoup augmenté. Les erreurs viennent d’erreurs de calcul statistiques, de mauvaises utilisations de modèles, parfois de calculs de logiciels mal utilisés. Cela arrive beaucoup en ce moment à cause d’une règle qui s’est imposée aux chercheurs : “publish or perish” (publie ou péris, en français) ;  cette loi pousse les scientifiques à publier de façon massive au détriment de la qualité et de la vérification de leurs résultats.

La reproductibilité s’attache à combattre cette tendance. Il ne s’agit pas de rajouter des couches de processus lourds mais de les amener à une prise de conscience collective. Il faudrait aller vers moins de publications mais des publications beaucoup plus solides. Publier moins peut avoir des effets très positifs. Par exemple, en vérifiant un résultat, en cherchant les effets des variations de paramètres, on peut être conduit à bien mieux comprendre son résultat, ce qui fait progresser la science.

Binaire : Tu es directrice adjointe de l’institut DATAIA. Qu’est-ce que c’est ?

SCB : L’Université Paris-Saclay est prestigieuse, mais elle est aussi très grande. On y trouve de l’IA et des données dans de nombreux établissements et l’IA est utilisée dans de nombreuses disciplines. Dans l’institut DATAIA, nous essayons de coordonner la recherche, la formation et l’innovation à UPS dans ces domaines. Il s’agit en particulier de fédérer les expertises pluridisciplinaires des scientifiques de UPS pour développer une recherche de pointe en science des données en lien avec d’autres disciplines telles que la médecine, la physique ou les sciences humaines et sociales. En ce qui me concerne, je coordonne le volet formation à l’IA dans toutes les disciplines de l’université. Un de mes objectifs est d’attirer des talents plus variés dans l’IA, plus mixtes et paritaires.

Binaire : Tu travailles dans un domaine interdisciplinaire. Est-ce que, par exemple, les différences entre informaticiens et biologistes ne posent pas de problèmes particuliers ?

SCB : Je dis souvent pour provoquer que l’interdisciplinarité, “ça fait mal”… parce que les résultats sont longs à émerger. Il faut au départ se mettre d’accord sur le vocabulaire, les enjeux, les partages du travail et des résultats (qui profite de ce travail). Chaque discipline a sa conférence ou revue phare et ce qui est un objectif de résultat pour les uns ne l’est pas pour les autres. L’interdisciplinarité doit se construire comme un échange : en tant qu’informaticienne je dois parfois coder, implémenter des solutions assez classiques sur les données de mes collaborateurs mais en retour ces médecins et biologistes passent un temps long et précieux à annoter, interpréter les résultats que j’ai pu obtenir et ils me font avancer.

Depuis le début de ma carrière, j’ai toujours adoré les interactions interdisciplinaires avec les biologistes et les médecins. Grâce à ces échanges, on développe un algorithme nouveau qui répond à leur besoin, cet algorithme n’est pas juste un résultat dans un article, il est utilisé par eux. Parfois plus tard on se rend aussi compte que cet algorithme répond aux besoins d’autres disciplines.

Pendant la crise du covid, le CNRS m’a demandé de monter une équipe – collègues enseignants-chercheurs et ingénieurs – et ensemble nous sommes partis au feu pour aider des médecins à rapidement extraire les traitements prometteurs pour la Covid-19 à partir des données de l’OMS… Ces médecins travaillaient jours et nuits depuis plusieurs semaines… Nous les avons rejoints dans leurs nuits blanches pour les aider à automatiser leurs actions, pour intégrer ces données et proposer un cadre représentant tous les essais de façon uniforme. J’étais très heureuse de pouvoir les aider. Ils m’ont fait découvrir comment étaient gérés les essais cliniques au niveau international. A l’époque, je ne savais pas ce qu’était un essai clinique mais cela ressemblait fort à des données que je connaissais bien et j’avais l’habitude d’interagir avec des non informaticiens; maintenant je peux t’en parler pendant des heures. J’ai fait des rencontres incroyables avec des chercheurs passionnants.

Serge Abiteboul, Inria et ENS, Paris, Charlotte Truchet, Université de Nantes.

Les entretiens autour de l’informatique

Laisser un commentaire