mai 2023 – binaire

26 mai 202327 mai 2023

Contrôler l’accès aux sites web pour adultes : est-ce possible ?

On aimerait protéger les enfants des sites pornos, obliger ces sites à vérifier l’âge de leurs utilisateurs. Mais est-ce même possible ? Deux chercheurs du CNRS nous expliquent comment la technique permet de le faire en s’appuyant sur une identité numérique, mais qu’une telle identité n’existe pas au niveau international. Et puis, les VPN permettent de contourner facilement de tels dispositifs nationaux. (Facilement : quelle proportion de la population sait utiliser un VPN, même si c’est hyper simple ?) Serge Abiteboul et Claire Mathieu

Pour mettre fin à l’exposition des enfants aux contenus pornographiques en ligne, le ministre Jean-Noël Barrot voudrait des « systèmes de vérification d’âge fiables, anonymes et sans fichage des utilisateurs », qui seraient mis en œuvre par les sites pornographiques (voir la capture d’écran ci-dessous). Comment peut-on vérifier un âge de façon « anonyme » sur Internet ? Derrière cette question d’apparence anodine se cache un défi scientifique et technologique qui intéresse les chercheur.se.s de longue date.

Capture d’écran d’une page de https://presse.economie.gouv.fr/10052023-dp-projet-de-loi-securiser-et-reguler-lespace-numerique/

Une mise en œuvre impossible avec les outils existants

Aujourd’hui, si vous devez montrer que vous avez plus de 18 ans (par exemple dans un bar), il n’y a pas 36 solutions : vous montrez votre carte d’identité. Le barman vérifie votre âge et jette un œil à la photo. Rien n’est stocké, et vous récupérez votre carte immédiatement. Sur Internet, les choses se compliquent : on pourrait par exemple imaginer que vous envoyez un scan de votre pièce d’identité au site pour adultes. La vérification de votre âge va donc se faire à partir d’une « copie » de votre pièce d’identité ; cependant, le site peut désormais conserver cette copie ! Bien sûr, il peut prétendre l’effacer, mais comment être certain qu’il le fasse ? Il y a de nombreux sites, et peu de moyens de garantir qu’ils soient tous de confiance.

Une fois cette copie conservée, les problèmes commencent : votre accès au site n’est évidemment pas anonyme, et le site peut, s’il le souhaite, revendre vos données privées à des acteurs malveillants voulant identifier des personnes fréquentant certains sites (à des fins publicitaires, ou pour de l’extorsion), ou même se faire passer pour vous auprès d’autres sites qui utiliseraient le même procédé d’authentification.

Une mise en œuvre possible dans le contexte national, grâce à la carte d’identité numérique

Un tel procédé n’est pas acceptable, et ne satisfait évidemment pas les contraintes d’une vérification « anonyme et sans fichage » comme énoncées par Monsieur Barrot. Cela reste vrai même si le site s’engage à effacer ces données, à les brouiller durant la vérification, ou à ne jamais consulter le serveur où elles sont stockées : une promesse n’est qu’une promesse, et il est impossible d’en garantir la tenue pour tous les sites concernés. C’est technologiquement impossible.

Quelles alternatives s’offrent à nous ? Une possibilité serait de recourir à une identité numérique, offrant plus de flexibilité qu’une carte d’identité classique. Comme la carte à laquelle nous sommes habitués, une identité numérique est une donnée associée de façon unique à un.e individu.e, et contenant diverses informations à son sujet (âge, genre, lieu de naissance…). Un avantage important d’une telle identité, par rapport à une carte d’identité classique, c’est qu’il existe des mécanismes permettant de convaincre un interlocuteur (par exemple, un site web) que notre identité numérique satisfait certaines conditions (par exemple, être majeur) sans en donner de copie à l’interlocuteur et tout en lui cachant les autres informations (notre nom, par exemple) !

Concrètement, on peut concevoir une identité numérique comme une boîte digitale fermée qui contiendrait les informations susmentionnées. Tout le monde peut voir cette boîte, la stocker, la copier, mais personne ne peut voir ce qu’elle contient. Pour en voir le contenu, il faut disposer d’une « clé digitale » permettant de l’ouvrir – et vous êtes seul propriétaire de cette clé digitale. (Il ne faut pas la partager : cela reviendrait à donner votre carte d’identité à quelqu’un d’autre).

S’il ne faut jamais révéler cette clé, comment alors démontrer notre identité à un interlocuteur ? Pour cela, il existe des mécanismes permettant de montrer à quelqu’un que l’on possède la clé permettant d’ouvrir notre « boîte digitale », mais sans jamais lui transmettre de copie de notre clé. Vous pouvez imaginer que la personne vous tende des cadenas (fermés) ayant la même serrure que votre boîte, et que vous lui rendiez ces cadenas ouverts : votre interlocuteur sera convaincu que vous « possédez » une clé qui fonctionne, mais n’aura aucune idée de ce à quoi elle ressemble (et ne pourra donc pas en faire construire une copie) !

Jusqu’ici, on a vu comment on pourrait éviter que votre identité numérique ne soit copiée / volée / revendue. Mais on n’a pas encore parlé d’anonymat lorsqu’il faut révéler son âge… Eh bien, de façon surprenante, ces mêmes méthodes qui permettent de « prouver » informatiquement que l’on possède la clé de la boîte permettent de faire bien plus : en utilisant des méthodes connues sous le nom de « preuves à divulgation nulle de connaissance » (zero-knowledge proofs, en anglais), il est en effet possible de démontrer que la boîte contient une certaine information, sans en révéler les autres informations ! En fait, on peut même aller bien plus loin : il est possible de démontrer que l’on possède une clé pouvant ouvrir « une certaine boîte » dont le contenu indique un âge supérieur à 18 ans (par exemple), « sans même révéler de quelle boîte il s’agit » !

Ces procédés reposent sur des mécanismes ingénieux développés depuis les années 80 dans les travaux de chercheurs, et qui commencent à être utilisés à grande échelle, notamment dans le cadre des cryptomonnaies. Pour comprendre un peu comment ça marche, prenons une petite énigme : je dispose de cent cadenas (initialement ouverts), numérotés de 1 à 100, et je prétends posséder la clé de « l’un d’entre eux », mais je ne veux pas vous révéler laquelle. Comment puis-je vous en convaincre ? (Si vous le souhaitez, vous pouvez interrompre votre lecture et y réfléchir quelques minutes.)

Voilà une solution : à partir des cinquante premiers cadenas, vous créez un « cercle de cadenas », en accrochant le cadenas 1 au 2, puis le 2 au 3, etc, puis le 50 au 1. Vous faites de même avec les cadenas 51 à 100, mais en faisant passer le cercle au travers du cercle précédent, comme sur l’image ci-dessous :

Vous me tendez maintenant les deux cercles imbriqués, je m’isole, et je reviens en vous tendant les deux cercles désimbriqués (mais toujours clos). Je peux facilement le faire si je possède la clé de l’un des cadenas – n’importe lequel – et c’est a priori impossible sinon. Vous voilà donc convaincu que je possède l’une des clés, sans savoir laquelle ! Les travaux des chercheur.se.s sur les « preuves zero-knowledge » donnent des équivalents numériques de ce type de méthodes. Ils permettent de prouver qu’une identité appartient à une liste d’identités autorisées, ou, dans le cas qui nous occupe, que notre identité numérique est bien associée à un âge supérieur à 18 ans – un peu comme si vous montriez votre carte d’identité recouverte d’une feuille opaque découpée de façon à ne laisser apparaître que le champ indiquant votre date de naissance.

Toutes ces méthodes, en revanche, nécessitent crucialement que soit mise en place une identité numérique universelle. Et c’est là que le bât blesse : Monsieur Jean-Noël Barrot parle de contraindre les sites pornographiques à mettre en place eux-mêmes une solution. Ils en seront bien incapables ! C’est aux États seuls que peut revenir la création d’une identité numérique nationale. Les sites web, en l’absence d’une telle identité numérique, peuvent seulement demander à voir votre carte d’identité physique, mais n’ont dans ce cas aucun moyen de garantir votre anonymat, au-delà d’une promesse (bien facile à rompre) de ne pas stocker ou utiliser cette information. ((Les identités numériques existent déjà mais ne sont utilisées que par 3 millions de français.)

Un contournement international facile par les VPN

Et même si la France se lance dans la création d’une telle identité numérique, cela ne signifie pas que d’autres pays le feront. Depuis ces pays, n’importe qui pourra toujours accéder à des sites pour adultes, sans vérification prouvée et anonyme de son âge. Or, consulter un site en prétendant venir d’un autre pays est à la portée de toutes et tous : des technologies largement répandues, comme les VPNs, permettent aux utilisateurs de faire transiter leurs communications par l’intermédiaire de serveurs tiers. La crise du Covid a dramatiquement accéléré le déploiement de ce type de service au sein des entreprises et administrations. Dans ce contexte, le VPN a permis aux télétravailleurs de rejoindre le réseau interne de leur employeur de façon sûre, c’est-à-dire en garantissant la confidentialité des données transmises sur le réseau Internet.

Exploitant la même brique technologique, de nombreux services commerciaux mettent également à disposition des serveurs dans des pays étrangers au choix. Leur usage s’est répandu dans un contexte de loisirs pour contourner les restrictions de diffusion des opérateurs de diffusion. On se connecte ainsi à travers un serveur en Grande Bretagne pour pouvoir regarder la BBC, un serveur en Italie pour regarder la RAI, ou un serveur aux États-Unis pour regarder le dernier opus d’une certaine série de Fantasy avant les collègues de bureau.

Techniquement, le principe à l’œuvre est celui d’un « Relais Colis » numérique : plutôt que d’envoyer et recevoir des colis depuis sa boîte aux lettres personnelle (ce qui révélerait inévitablement notre localisation), on passe par l’intermédiaire d’un serveur-relais qui transmet nos communications à son destinataire. C’est ainsi l’adresse du relais qui est révélée au destinataire et non pas la nôtre. L’utilisateur du service a ainsi caché son adresse : seul le service de relais VPN a besoin de connaître l’adresse effective du client. En choisissant un relais à l’étranger, on loue ainsi une adresse à l’étranger le temps de la communication et on peut contourner la loi française. Il pourrait être tentant de filtrer le contenu des communications VPN afin de restreindre leur usage : encore une fois, la cryptographie rend cela impossible. Les communications entre le client et le relais VPN sont chiffrées, utilisant la technologie qui sécurise aujourd’hui vos achats en ligne. Restreindre un usage reviendrait à restreindre l’autre.

Reste aux plateformes la possibilité de détecter l’usage d’un relais VPN : dans ce jeu du chat et de la souris à l’échelle planétaire, certaines plateformes maintiennent des listes d’adresses interdites car identifiées comme appartenant à des services VPN commerciaux. En réponse, ces derniers changent régulièrement les adresses de leurs relais afin de rester sous le seuil de détection. Avec 2^128 (plusieurs centaines de sextillions !) adresses disponibles, la partie de cache-cache promet d’être haletante.

Conclusion

Sans loi internationale, un VPN suffit à contourner le contrôle d’accès par les sites pornographiques. L’article de loi proposé ne pourra donc ériger qu’une faible barrière à l’accès des enfants aux sites web réservés aux majeurs, et à moins que l’État ne généralise la carte d’identité numérique, cela se fera au détriment de l’anonymat et de la sécurité des données des utilisatrices et utilisateurs. Un investissement et un risque conséquents pour un résultat faible : plutôt que par un contrôle d’accès numérique, il faut chercher d’autres approches pour éviter d’exposer les enfants aux contenus pornographiques en ligne.

Geoffroy Couteau et Pierre-Évariste Dagand, CNRS

Voir aussi :
La fréquentation des sites internet par les mineurs doit être une priorité de santé publique

19 mai 202320 mai 2023

ChatGPT et test de Turing inversé

Erwan Le Merrer, chercheur Inria, étudie le fonctionnement des plateformes du Web et analyse leurs comportements. Il préside le conseil scientifique de la Société informatique de France. Il nous propose une réflexion sur un sujet qui fait énormément parler aujourd’hui, ChatGPT et les modèles génératifs. Turing a proposé un test pour savoir si un humains pouvait distinguer des réponses émanant d’une intelligence artificielle de celles produites par d’autres humains. Erwan montre que dans une inversion étonnante, le test est aujourd’hui posé aux intelligences artificielles. Pierre Paradinas

ChatGPT et les autres modèles génératifs sont amenés à modifier profondément nos usages. La génération instantanée de textes, d’images et de vidéos, inspire déjà quantité d’applications. Au delà de l’objectif affiché, la nature des sources de données sur lesquelles ChatGPT va poursuivre sa construction est critique.

Image du jeu classique « snake »

Le test de Turing est une expérience proposée en 1950 par Alan Turing et consistant pour un expérimentateur à deviner si la réponse à une question émane d’un être humain ou d’un ordinateur. L’expérimentateur est à l’aveugle par rapport au questionné, la vision de ce dernier étant occultée par un mur. La finalité du test est de questionner la distinguabilité de l’être humain des processus numériques en cours d’élaboration à l’époque. L’application aujourd’hui dans d’autres contextes est par exemple : étant donnée une copie de devoir à corriger pour un enseignant, a-t-elle été rédigée par l’étudiant ou par ChatGPT ?

Les textes et données présents sur le web sont (encore) en grande partie le fait d’humains : journalistes, blogueurs, scientifiques, passionnés ou utilisateurs de réseaux sociaux. ChatGPT s’en nourrit pour construire le modèle probabiliste qui le dirige. Sans ces données, pas d’apprentissage et donc de génération satisfaisante. Mais voila, des textes ainsi générés sont déjà utilisés plus ou moins directement (peut-être sans modification) pour alimenter les sites web, et autres contenus de documents partagés [1].

Il résulte la possibilité d’un cercle vicieux : ChatGPT devra être mis à jour fréquemment pour s’adapter aux événements ou nouvelles connaissances ; les nouveaux contenus aspirés pour être ingurgités seront ils alors des contenus déjà générés par ce même ChatGPT ? Ce serait problématique à plus d’un sens. On peut ici faire le parallèle avec des techniques relativement similaires dites de génération adversarielles (GANs), ou deux modèles d’apprentissage machine se font face. L’un pour améliorer sa génération de données essaie de tromper le second, qui lui essaie de discriminer ces données reçues d’autres données émanant cette fois d’êtres humains. L’intuition est simple : si le premier modèle génère par exemple des images trop facilement discriminables d’autres images réelles, alors il ne fait pas bien son travail. Il s’améliore alors jusqu’à ce que cette génération ne permette plus au second modèle de juger correctement du fait que ces images sont générées, avec plus d’une chance sur deux. Le premier modèle a alors “convergé” et atteint son objectif de génération indistinguable de données.

Nous revoilà devant cette question d’indistinguabilité, cette fois concernant les données d’apprentissage de ChatGPT : les données glanées sur le web sont-elles le fait d’humains, de ChatGPT, ou d’autres modèles génératifs ? Mais l’expérimentateur du test de Turing est cette fois un processus numérique — ChatGPT lui même — plutôt qu’une personne : à ChatGPT d’arriver à distinguer sa propre création, ou des variantes manipulées par des personnes, dans cette instance inversée du test de Turing.

Et on peut douter du succès de ChatGPT sur ce test, même à court terme. Ce dernier est bien précisément entrainé pour produire des sorties indistinguables de textes produits par des humains. Des chercheurs proposent de forcer ces modèles génératifs à embarquer des traces qui les confondent dans chacun de leurs textes générés (techniques dites de “tatouage” [2]). D’autres proposent au contraire une attaque pour contrer le tatouage qui paraphrase le texte généré pour ainsi permettre de rendre inopérant ce tatouage [3]. Ils fournissent au contraire une preuve d’impossibilité (i.e., d’indistinguabilité), qui s’appuie sur la nécessaire convergence de la distribution des mots dans les phrases générées vers celle naturellement présente dans les textes humains [3], au fur et à mesure de l’amélioration des capacités de ChatGPT ou de ses compétiteurs. Le problème est évidemment le même pour un système concurrent (e.g., Bard de Google) qui consommerait du ChatGPT, et inversement.

Il est ici central de rappeler que l’indistinguabilité statistique de la formation de phrases n’a rien à voir avec l’indistinguabilité de la véracité ou non de ce que disent ces mêmes phrases : elles peuvent être syntaxiquement parfaites et sembler cohérentes, mais contenir des erreurs factuelles. Or ChatGPT est entraîné pour répondre parfaitement à ce premier objectif, mais pas au second. Lorsque le web sera alors peuplé de données non distinguables, le problème technique sera d’imaginer ce qu’il adviendra de la convergence d’un ré-apprentissage périodique pour ChatGPT, qui n’a aucun intérêt pratique à ingurgiter ses propres sorties. Un regain du nombre d’erreurs factuelles peut alors survenir dans ces textes générés, pour être ensuite intégrés sur le web de façon consciente ou non. Et ce dans une itération continue de la forme “génération, insertion sur le web, ingestion, ré-apprentissage”, etc.

Les conséquences sociétales à craindre sont probablement une dilution encore plus grande de la capacité d’attribution aux créateurs ou penseurs, et conséquemment un risque de confusionnisme accru par la présence en ligne d’affirmations contraires concernant tous les faits possibles.

Que deviendra le ver quand le fruit sera pourri ?

Erwan Le Merrer, Inria

Références :

[1] https://www.theguardian.com/technology/2023/may/02/chatbot-journalists-found-running-almost-50-ai-generated-content-farms
[2] A Watermark for Large Language Models, Arxiv, 2023.
[3] Can AI-Generated Text be Reliably Detected?, Arxiv, 2023.

12 mai 202327 mai 2023

ChatGPT ? Voulez-vous comprendre ce que c’est ?

ChatGPT. Avant d’en parler, de croire qu’il va tout faire, même la vaisselle, d’en avoir peur parce qu’il va détruire les emplois, de s’émerveiller parce qu’il a dit quelques phrases qui avaient l’air intelligentes, de le traiter de nul parce qu’il dit des bêtise, de l’engueuler parce qu’il refuse de dire une absurdité, avant de nous faire une opinion, peut-être pourrions-nous passer un peu de temps à essayer de comprendre ce que c’est ? Serge Abiteboul.

Chiche ?

Pour ça, vous pouvez écouter David Louapre qui explique si bien, les bases de ChatGPT, et comment il a été conçu à partir du modèle de langage GPT :

Et vous pouvez trouver quelques mots de plus sur son blog pour en savoir plus (en particulier sur la notion de « transformer »), ou même, aller en discuter dans son salon discord.

Et bien entendu vous pouvez bien sûr, soyez fous, essayer ChatGPT !

Oui, mais encore ? Comment mieux comprendre comment se manipule le langage humain au sein de tels algorithmes ? C’est dans cette vidéo que David vous expliquera cette mécanique :

Il l’explique aussi de manière textuelle sur son blog.

Attendez … peut-être souhaitez-vous aussi retourner aux bases et mieux comprendre ces histoires d’apprentissage machine, en particulier l’apprentissage profond, si performant et tant utilisé ? David est encore là :

Et il propose même une version textuelle des explications.

Alors ChatPGT et cie. ? Peut-être avant de se faire une opinion, cela vaut le coup de le démystifier, de comprendre ce que c’est, ce que l’on peut et veut en faire, de manière sereine et éclairée et, au-delà, de se doter d’une culture scientifique en informatique.

En tout cas, retenons que les informations fournies par ChatGPT peuvent être erronnées, y compris en violation du RGPD , qui stipule que les données personnelles traitées doivent être exactes, comme cela est discuté ici, tandis que nou nous sommes tous amusés à tester cela sur nous même.

Thierry Viéville, chercheur Inria, et surtout merci à David Louapre.

Pour aller plus loin

– Une vidéo de l’équipe de recherche Inria flowers visant collégiens et lycéens en particulier

– On a aussi cette très intéressante discussion radiophonique qui discute des usages avec ces risques.

– Une formation citoyenne https://classcode.fr/iai développée avec des spécialistes en sciences du numériques et sciences de l’éducation (voir cet article scientifique) est librement utilisable et réutilisable.

– Pour se former aux sciences du numérique en général https://classcode.fr/snt (en particulier avec un résumé sur l’histoire de l’intelligence artificielle) est en partage.

05 mai 202305 mai 2023

La révolution de la microbiologie par le numérique

Un nouvel « Entretien autour de l’informatique ». Pascale Cossart est une biologiste française, une Pasteurienne, professeur de classe exceptionnelle à l’Institut Pasteur depuis 2006. Ses travaux ont notamment porté sur l’étude des mécanismes impliqués dans les infections bactériennes. Grâce à des approches multidisciplinaires, Pascale Cossart a véritablement démarré une nouvelle discipline, la « microbiologie cellulaire », et mis en lumière de nombreuses stratégies utilisées par les bactéries lors de l’infection. Elle a été la Secrétaire perpétuelle de l’Académie des Sciences pour la deuxième section (chimie, la biologie et la médecine) de 2016 à 2021. Depuis 2022, elle est scientifique invitée à l’EMBL Heidelberg.

B : Pourrais-tu nous parler de ta discipline de recherche ?

PC : Je travaille à la frontière entre la microbiologie et la biologie cellulaire. Depuis 1986, je m’intéresse aux infections par des bactéries qui vivent à l’intérieur des cellules ; cela m’a conduite à des études sur les bactéries (de la microbiologie), et sur les cellules (de la biologie cellulaire), et sur la façon dont les bactéries pénètrent et vivent dans les cellules, que ce soit au niveau des tissus ou des organismes entiers.

En général, après avoir analysé des mécanismes sur des cellules en culture, nous validons nos résultats sur des modèles animaux pour comprendre la maladie humaine. On est à la limite de la médecine, mais ce qui m’intéresse surtout, ce sont les mécanismes fondamentaux : comprendre comment un microbe provoque une maladie, comment une maladie s’installe, comment des maladies donnent des signes cliniques, et comment l’organisme peut échapper à cette maladie.

A l’époque de Pasteur, à la fin du XIXe siècle, les microbiologistes cherchaient à identifier le microbe responsable de telle ou telle maladie (peste ou choléra ?). Maintenant on cherche à comprendre comment un microbe produit une maladie.

Il y a différentes catégories de microbes : des bactéries, des parasites, des virus. Nous travaillons sur les bactéries qui sont des cellules uniques (des petits sacs) sans noyau mais qui ont un chromosome. Les mammifères (nous !), les plantes ont des millions de cellules différentes qui ont un noyau contenant des chromosomes. Les chromosomes sont faits d’ADN, composé qui a été découvert dans les années 50. Il a ensuite été établi que l’ADN était la molécule essentielle pour la transmission du patrimoine génétique, le génome. L’ADN, c’est la molécule de la vie !

Parmi les bactéries certaines sont inoffensives, d’autres sont pathogènes !

C’est pour leurs travaux ici, à l’Institut Pasteur, sur des bactéries non pathogènes et sur leur ADN que François Jacob, Jacques Monod et André Lwoff ont obtenu le prix Nobel. Ils s’intéressaient au chromosome bactérien et à la façon dont les bactéries en se nourrissant, produisent des protéines, grandissent, et se divisent en deux (division binaire !) en générant une descendance identique à la bactérie initiale.

À la fin des années 70, on a assisté à l’explosion de la biologie moléculaire, c’est à dire la biologie des molécules, héritée de la découverte de l’ADN. À la fin des années 80, les chercheurs en biologie moléculaire cherchaient à comprendre comment les molécules fonctionnent, alors que les chercheurs en biologie cellulaire s’intéressaient à la façon dont les cellules fonctionnent.

J’étais chercheuse à ce moment clé. Il y avait des avancées du côté bactéries, et aussi du côté des cellules de mammifères, grâce en particulier aux nouveaux microscopes. On pouvait donc commencer à observer des infections par les bactéries pathogènes. On pouvait combiner biologie moléculaire et biologie cellulaire, en essayant de comprendre les interactions entre composants bactériens ou ceux de la cellule hôte dans le cas d’infections. C’est sur cela qu’ont porté alors mes travaux. Cela a conduit à l’émergence d’une nouvelle discipline que nous développions, qui s’intéressait en particulier à ce qui se passe dans les cellules quand arrive un corps étranger. Pendant un colloque que j’ai organisé sur ce sujet, un journaliste de Science nous a conseillé de donner un nom à cette discipline : nous avons proposé la microbiologie cellulaire. J’ai fait partie des lanceurs de cette discipline, la microbiologie cellulaire.

Cette discipline a été rapidement acceptée, avec un livre fondateur, des revues, et aujourd’hui des professeurs et des départements de microbiologie cellulaire.

Cellules humaines infectées par la bactérie Listeria monocytogenes : en bleu le noyau des cellules, en rouge les bactéries et en vert l’actine, un composant de la cellule infectée que la bactérie recrute et utilise pour se déplacer et éventuellement passer d’une cellule à une autre.

B : Pourrais-tu nous expliquer en quoi consiste le travail dans ce domaine ?

PC : Quand une bactérie essaie d’entrer dans une cellule, la bactérie s’adapte à la cellule et vice versa. Le travail dans le domaine consiste à observer la bactérie qui rentre et parfois se promène dans la cellule, on la filme. On choisit plutôt des cellules faciles à cultiver, et pour la bactérie, j’ai choisi Listeria monocytogenes. Je l’ai choisie avec soin pour ses propriétés uniques. On la trouve dans l’environnement ; elle peut parfois contaminer des aliments, et ainsi par l’alimentation atteindre dans le tractus intestinal, parfois traverser la barrière intestinale et arriver au foie, à la rate, ou au placenta et éventuellement au cerveau. Elle est capable d’aller jusqu’au fœtus. Elle cause des gastroentérites, des accouchements prématurés, des méningites. On a beaucoup avancé dans la connaissance du processus infectieux mais on ne comprend encore pas bien comme elle va jusqu’au cerveau.

Plus concrètement, dans un labo, on cultive la bactérie dans des tubes contenant un liquide nutritif. On cultive soit la bactérie originale soit des mutants de la bactérie. Dans un autre coin du labo, on fait pousser des cellules. La suite dépend de la question qu’on se pose. En général on met les bactéries ou les mutants sur les cellules et on observe ce qui se passe ou ce qui ne se passe pas avec certains mutants.

On peut aussi infecter des animaux, ce qui est bien sûr très règlementé. Si j’injecte la bactérie par voie orale dans une souris, est-ce qu’elle arrive au foie ? Comment la souris réagit-elle ? On a une multitude de questions à poser.

B : Tu te doutes que Binaire s’intéresse aux apports du numérique dans ta discipline.

PC : On a vécu une double révolution avec le numérique : du côté de la bactérie avec la génomique, et du côté de la cellule et de l’infection, avec l’imagerie numérique.

B : Commençons par la génomique si tu veux bien.

PC : Les bactéries n’ont pas de noyau, Elles ont un chromosome, c’est-à-dire un grand ADN circulaire. Au début de mes travaux sur Listeria, on ne connaissait rien sur son chromosome, c’est-à-dire son génome. Pour le comprendre, on a d’abord créé des mutants, avec différents outils génétiques : par exemple on peut mettre la bactérie Listeria à côté d’une autre bactérie qui va injecter dans son ADN, un transposon. On obtient alors une « banque de mutants » parmi lesquels on cherche, par exemple, un mutant non invasif, c’est-à-dire qui ne parvient pas à entrer dans les cellules.

L’ADN consiste en une séquence de lettres. Pour trouver l’endroit où le gène a été interrompu, on réalise le « séquençage » de l’ADN situé à côté du transposon. Les différentes techniques de séquençage de l’ADN sont apparues vers la fin des années 70. Au début on ne pouvait séquencer que des petits fragments. J’ai réalisé à l’époque mon premier séquençage, avec une technique chimique. Je lisais les séquences et j’écrivais les résultats dans un cahier.

Et puis, on a obtenu des séquences de plus en plus longues qu’on a entrées dans des ordinateurs. On a pu utiliser des programmes pour trouver des ressemblances entre des séquences. On pouvait « aligner des séquences », c’est-à-dire les positionner pour en faire ressortir les régions similaires. L’informatique nous permettait de faire ce qu’on n’arrivait plus à faire à la main, quand les séquences grandissaient.

Les techniques ont alors progressé et dans le cadre d’un consortium européen que je dirigeais, nous avons publié en 2000 le séquençage du génome de Listeria qui comporte 3 millions de lettres. À titre de comparaison, le génome humain, qui a été séquencé plus tard, a 3 milliards de lettres. Au début, le travail de séquençage était lent et considérable, il exigeait de faire collaborer plusieurs labos, chacun travaillant dans son coin sur certaines régions de l’ADN chromosomique. L’ordinateur est devenu indispensable pour assembler les morceaux de séquences et analyser les résultats.

Nous avons donc séquencé le génome de Listeria monocytogenes, l’espèce pathogène, et aussi celui d’une cousine non-pathogène, Listeria innocua. L’observation des différences entre les séquences a été une mine d’or de découvertes. La comparaison des deux génomes ouvrait une infinité de possibilités d’expériences. On pouvait réaliser des mutations ciblées, en inactivant tel ou tel gène, présent chez L. monocytogenes et absent chez Listeria innocua et tester si le mutant obtenu était encore virulent.

Il reste beaucoup de travail à faire, notamment, sur des bactéries pour lesquelles on ne sait pas grand-chose, en particulier, parce qu’on ne sait pas les cultiver, comme c’est le cas pour les bactéries anaérobies de l’intestin, du sol ou des océans

La grande révolution à l’heure actuelle, c’est la métagénomique. Les machines sont devenues très performantes pour séquencer l’ADN. Elles séquencent des mélanges d’ADN et sont capables d’identifier tous les ADN différents présents et donc les espèces d’où ils proviennent. Par exemple, dans la mission Tara, une goélette récolte du microbiome marin. Les séquenceurs vont être capables d’identifier des milliers de petits bouts de séquences d’ADN. Un logiciel va faire le catalogue des espèces présentes. Tout ceci serait impensable sans ordinateur.

B : Est-ce qu’un séquençage prend beaucoup de temps ?

PC : Avant, en 2000, séquencer un génome bactérien prenait au moins dix-huit mois. Maintenant, en trois jours on a la séquence et les premières analyses. L’ordinateur sait comparer deux génomes l’un à l’autre, ou encore comparer un génome à une banque de génomes. Il sait « regarder » le génome et faire son « analyse grammaticale », identifier les gènes et donc les protéines que ces gènes peuvent produire. C’est une révolution. Des tâches qui auraient pris des années pour des humains sont maintenant faites très rapidement par des ordinateurs.

Cela nous permet maintenant de nous tourner vers les microbiotes, ces grandes assemblées de micro-organismes. On peut analyser les microbiotes de l’intestin, la bouche, l’environnement (les sols, les océans)… Cela ouvre des possibilités extraordinaires comme de comprendre pourquoi certaines personnes sont malades, pourquoi certains sols sont stériles.

B : Nous pourrions maintenant passer aux apports de l’imagerie cellulaire.

PC : Le passage de l’observation des images par l’homme à l’analyse des images par l’ordinateur a fait passer les conclusions tirées, du stade subjectif au stade objectif : deux cellules ne sont jamais identiques. Le scientifique pouvait observer par exemple qu’une bactérie semblait entrer mieux ou plus vite dans une cellule que dans une autre. Mais cette observation était relativement subjective. Il était difficile de la rendre objective : alors on refaisait des manips des milliers de fois et on calculait des moyennes. Ceci prenait un temps fou. L’imagerie numérique nous permet d’observer de nombreuses cellules en même temps. La microbiologie cellulaire est une discipline qui a évolué considérablement avec le numérique.

Les techniques d’imagerie reposent sur l’usage de marqueurs fluorescents avec lesquels on peut marquer la membrane extérieure de la cellule, ou le noyau, ou les mitochondries, etc. On utilise des programmes qui ressemblent aux programmes de reconnaissance faciale pour reconnaitre les marqueurs fluorescent qu’on a placés. On peut répondre à des questions comme : en combien de temps la bactérie va-t-elle arriver au noyau ? L’imagerie numérique est beaucoup plus sensible que l’œil humain, elle nous donne accès à des événements qui auraient échappé à l’observation à l’œil nu.

On obtient de plus en plus de données qu’on peut stocker. On fait des analyses statistiques sur ces données pour répondre à différents types de questions qui permettent de comprendre dans notre cas les facteurs qui sont critiques pour qu’une infection prenne place.

B : Tu nous as dit qu’il y avait une multitude de questions à poser. On ne peut pas les poser toutes. Il faut choisir. La sérendipité joue-t-elle un rôle pour trouver réponse à des questions intéressantes ?

PC : Oui, très important. Pasteur disait à peu près : la science sourit aux esprits préparés ! J’ai eu une grande chance dans ma vie, c’est de trouver un mutant de Listeria que je ne cherchais pas. C’était en 1990. Ça a été une histoire incroyable.

Un collègue, Dan Portnoï avait découvert grâce à ses travaux en microscopie électronique, la capacité exceptionnelle de Listeria à se mouvoir à l’intérieur des cellules et à passer d’une cellule à l’autre. Son résultat avait passionné les biologistes cellulaires qui cherchaient à comprendre comment en général les cellules bougent par exemple lors du développement d’un organisme.

C’était l’époque pré génomique. Je cherchais dans une banque de mutants un mutant qui, sur des boîtes de Pétri, ne faisait pas de halo dans du jaune d’œuf. Rien à voir donc a priori. Et je trouve un mutant qui ne fait plus ce halo. Je demande à une postdoc de vérifier au microscope si cette bactérie passe bien d’une cellule à l’autre. Elle m’appelle alors qu’elle était au microscope : « Viens voir ! » Ce mutant était incapable de motilité intracellulaire. En l’analysant, nous avons trouvé le gène et donc la protéine responsables de la motilité. Le hasard m’a donc permis de réaliser une belle avancée en biologie cellulaire, parce que ça a permis de comprendre non seulement la motilité des bactéries mais aussi celle des cellules de mammifères.

Mais pour une telle histoire, il fallait savoir profiter de l’occasion. Dans notre métier, on doit en permanence se poser des questions précises, évaluer si elles sont importantes et si on a les moyens techniques pour y répondre. Il faut aussi sans cesse être aux aguets de choses inattendues !

B : Est-ce que le numérique continue à transformer le domaine.

PC : Oui. Récemment on a vu des applications dans la prédiction des structures de protéines avec Alphafold. La cristallographie de protéines et l’analyse de diffusion de rayons X sur les cristaux de protéines nous permettaient de comprendre leurs structures 3-dimensionnelles, c’est à dire le repliements de protéines dans l’espace. On pouvait ensuite essayer de prédire comment des protéines s’assemblent, mais c’était très compliqué et à petite échelle. On pouvait aussi essayer de prédire comment inhiber la fonction d’une protéine en introduisant un composé dans un endroit clé pour toute la structure de la protéine.

Alphafold part d’énormes bases de données sur les structures tridimensionnelles de protéines. Dans les programmes d’Alphafold, des logiciels d’apprentissage automatique (machines learning) combinent toute une gamme de techniques pour prédire comment un repliement pourrait de produire, et proposent des configurations spatiales aux scientifiques. Cela ouvre des possibilités fantastiques pour comprendre comment fonctionnent les protéines, et a donc des potentialités médicales incroyables.

Serge Abiteboul et Claire Mathieu

Pour aller plus loin

Listeria monocytogenes, un modèle exceptionnel en biologie des infections, Video du laboratoire de Pascale Cossart, Unité des Interactions Bactéries-Cellules; Institut Pasteur, Paris. 2016

Les entretiens autour de l’informatique