avril 2020 – binaire

30 avril 202021 avril 2020

Le projet Folding@Home

Au moment où beaucoup d’entre nous se demandent comment être utiles pour aider les scientifiques à comprendre la maladie, puis à mettre au point des traitements et in fine un vaccin, Lonni Besançon nous propose de participer à un projet collectif en mettant à leur disposition une partie des ressources matérielles de nos ordinateurs. Pascal Guitton

Si durant vos heures de confinement vous passez quelques minutes sur les réseaux sociaux ou devant les médias, vous avez sûrement entendu parler des raisons pour lesquelles le confinement a été mis en place. C’est l’une des solutions pour espérer réduire l’impact du virus. Parmi les espoirs des scientifiques et du reste de la population pour stopper la propagation du virus reste le développement d’un vaccin ou d’un traitement efficace. Que vous ayez une formation scientifique ou non, il s’avère que chacun peut apporter sa pierre à l’édifice dans la compréhension du virus via l’installation d’un simple programme sur son ordinateur. Ce programme, Folding@Home, repose sur la notion de calcul distribué validée initialement par le projet SETI@Home.

©foldingathome.org

Folding@Home est donc un projet de calcul distribué qui permet de simuler la dynamique des protéines, y compris leur processus de repliement et leurs mouvements quand elles sont impliquées dans diverses maladies. Ces simulations demandent une énorme puissance de calcul que les scientifiques ne peuvent obtenir sur leurs seuls ordinateurs. L’idée de Folding@Home est donc d’utiliser les processeurs et cartes graphiques d’autres personnes, qu’elle soient chercheur.e.s ou non, afin de permettre de créer ces simulations plus rapidement. La liste des maladies étudiées par le projet Folding@home inclut Alzheimer, Parkinson ou Huttington et depuis peu COVID19. Le résultat de ses simulations permets aux scientifiques de mieux comprendre des mécanismes biologiques et donc de créer de nouvelles thérapies.

Image 1: l’écran d’accueil de Folding@Home

Comment participer à cette formidable initiative? C’est très simple. Il suffit d’abord de télécharger le programme via la page de téléchargement de Folding@Home puis de l’installer sur votre ordinateur. Il suffit ensuite de lancer FAHControl afin de commencer à partager son processeur et/ou sa carte graphique. Ce logiciel permet de contrôler les ressources que l’on donne au projet. Par exemple, le slider accessible sous “Folding Power” permet de déterminer la quantité de puissance de calcul que l’on souhaite donner au projet (voir l’Image1). Le logiciel permet aussi de s’identifier avec un nom d’utilisateur (via le bouton “Configure” et dans l’onglet “Identity”) afin de voir et comparer ses statistiques par rapport à d’autres utilisateurs.

Le programme Folding@Home est configuré pour automatiquement utiliser le processeur et la carte graphique (si elle est compatible, ce qui est rarement le cas sur les ordinateurs portable de chez Apple par exemple) de chaque ordinateur. Le client Folding@Home télécharge d’abord une unité de travail pour une protéine spécifique, commence un calcul sur cette unité de travail et, une fois le calcul achevé, envoie les résultats directement au projet avant de télécharger une nouvelle unité de travail. L’initiative Folding@Home est donc un moyen simple pour chaque citoyen possédant un ordinateur relativement récent et une puissance de calcul assez importante de contribuer à des projets scientifiques.

Lonni Besançon (Linköping University)

28 avril 202002 mai 2020

Enjeux sociétaux, c’est le sujet du TIPE 2020-2021

Le Travail d’Initiative Personnelle Encadré (TIPE) est une épreuve commune à la plupart des concours d’entrée aux grandes écoles scientifiques. Il permet d’évaluer les étudiant·e·s non pas sur une épreuve scolaire mais à travers un travail de recherche et de présentation d’un travail personnel original. C’est un excellent moyen d’évaluer les compétences. Cela peut être aussi une épreuve inéquitable dans la mesure où selon les milieux on accède plus ou moins facilement aux ressources et aux personnes qui peuvent aider. Pour aider à maintenir l’équité, les chercheuses et les chercheurs se sont mobilisés pour offrir des ressources et du conseil à toute personne pouvant les solliciter. Thierry Viéville.

TIPE ? Comme tous les ans, en lien avec sillages.info et l’UPS pour les CGPE, Interstices et Pixees vous proposent des ressources autour des sciences du numérique, informatique et mathématiques.

Le thème pour l’année 2020-2021 du TIPE commun aux filières BCPST, MP, PC, PSI, PT, TB, TPC et TSI est intitulé : enjeux sociétaux. Ce thème pourra être décliné sur les champs suivants : environnement, sécurité, énergie.

L’article complet sur Pixees.

Le recueil de ressources d’Interstices.

À l’heure où ces lignes sont écrites, une partie de l’humanité est confinée pour maîtriser la propagation de l’épidémie de coronavirus Covid-19. Cette crise sanitaire exceptionnelle en désagrégeant nos vies et nos organisations, a relativisé l’importance de nombreuses questions et a bousculé de nombreuses croyances. Bien malin qui peut décrire les conséquences à long terme de cette épidémie. Bien sûr, les rumeurs et les fausses informations sont toujours bien présentes mais une idée a retrouvé une place centrale dans le débat public : la science.

En cherchant à partir d’observations et de raisonnements rigoureux à construire des connaissances, la science permet de comprendre, d’expliquer mais aussi d’anticiper et parfois de prédire. Et aujourd’hui, les sciences du numérique (modélisation, simulation, communication, information…) ont un rôle capital.

Les thématiques abordées ci-dessous sont majeures : risques naturels, énergies, sécurité informatique, sobriété numérique, avec souvent des sujets reliant science et société. C’est l’occasion pour vous d’exercer vos connaissances, votre curiosité, votre capacité de synthèse. L’objectif n’est pas tant de résoudre l’une de ces questions que d’y donner un éclairage personnel et scientifique. Chacune des problématiques décrites ci-dessous ne constitue pas exactement un sujet de TIPE mais plutôt un thème duquel vous pourrez extraire votre sujet. Le TIPE s’articule souvent autour de la trilogie théorie/expérience/programme. Les recherches décrites ici portent sur les sciences du numérique, l’expérimentation numérique y a une grande place.

Même si, suite à l’épidémie de coronavirus Covid-19, les destructions ne sont pas matérielles, beaucoup est à refonder, à rebâtir. Et vous qui êtes étudiantes et étudiants de filières scientifiques, votre rôle sera prépondérant.

Pour conclure cette brève présentation et insister à nouveau sur l’importance de la science, je rappellerai l’article 9 de la charte de l’environnement (texte à valeur constitutionnelle) : « La recherche et l’innovation doivent apporter leur concours à la préservation et à la mise en valeur de l’environnement. »

Jacques Sainte-Marie, Inria & Sorbonne Université, équipe Ange, et toute l’équipe de la médiation scientifique Inria.

26 avril 202020 avril 2020

Les modèles mathématiques : miracle ou supercherie ?

En cette période de crise sanitaire, nous sommes confrontés à une avalanche de chiffres, soit en les consultant directement, soit en les voyant utilisés par des experts ou des décideurs. Au delà des chiffres bruts, un point commun : le recours à des modèles mathématiques pour expliquer ou justifier une position. Devant la difficulté à bien comprendre de quoi il s’agit, Frédéric Alexandre, chercheur en neurosciences computationnelles, nous présente les bénéfices mais aussi les limites de cette approche. Pascal Guitton et Serge Abiteboul

Comme la plupart de mes concitoyen.ne.s, en cette période particulière de confinement, j’essaie de me tenir au courant en parcourant le déluge de chiffres qui nous parvient, évoquant différentes caractéristiques de cette épidémie. Mais comme beaucoup également, j’oscille entre inquiétude et optimisme, selon les chiffres que je considère, ce qui finit par se traduire par un certain découragement car je ne sais pas identifier les informations importantes et donc par un sentiment d’impuissance à comprendre les enjeux de la situation critique que nous vivons.

Alors, je me suis dit : « je suis un scientifique, je vais essayer de comprendre cette situation, au lieu de garder les yeux fixés sur des indicateurs peu clairs », mais après avoir parcouru quelques publications d’épidémiologie, j’ai vite compris que ce domaine scientifique était trop éloigné du mien pour que je puisse y développer une pensée critique me permettant d’analyser ses productions et donc de vraiment les comprendre.

Par contre, j’ai observé que ce domaine utilise le même type de modèles mathématiques que ceux que j’utilise dans ma pratique scientifique, ce qui m’a permis de mieux comprendre certaines analyses des modèles d’épidémiologie que l’on trouve facilement sur internet.

Ce que je propose ici n’est donc en aucune manière une analyse scientifique sur la pandémie que nous vivons actuellement mais plutôt quelques éléments d’explication des modèles utilisés en épidémiologie et une introduction au sens critique pour permettre d’exploiter ces outils mathématiques avec discernement.

Des modèles pour les systèmes dynamiques

Commençons par le commencement, un modèle mathématique a pour but de décrire le plus précisément possible un objet, un phénomène, un mécanisme à l’aide d’équations afin de vérifier, comprendre, prédire certaines propriétés ou comportements. Ainsi, on peut modéliser la charpente d’un bâtiment en détaillant finement sa forme et ses matériaux, juste pour la visualiser mais aussi pour vérifier sa résistance avant de l’assembler ; grâce à cette description formelle, on peut la tester dans des conditions normales de charge mais aussi en cas de contraintes extraordinaires (simulation de secousses sismiques ou de tempêtes).

Modèle 3D d’une charpente – Société Lamécol

Si on utilise des modèles pour décrire un phénomène, c’est parfois son évolution qu’on veut comprendre. C’est ce que permet l’utilisation d’équations différentielles ordinaires qui décrivent la variation d’une quantité Q par rapport au temps. Cette variation est positive si Q augmente, négative si Q diminue. Soulignons un cas particulier important dans certains domaines comme la biologie ou la chimie : la variation peut dépendre de la quantité elle-même. On peut ainsi observer une variation positive qui est proportionnelle à Q, par exemple qui double ou quadruple à chaque itération comme quand une personne contaminée en contamine deux ou quatre autres, en moyenne. On assiste alors à une augmentation de plus en plus rapide, et on parle de croissance exponentielle pour décrire un tel emballement : si en moyenne une personne en contamine quatre autres non déjà contaminées, elle touchera 1, 4, 16, 64, 256, 1024 autres, et à la 12 étape, l’équivalent de la France entière sera contaminée (d’où la nécessité du confinement). À l’inverse, s’il n’y a plus qu’une chance sur deux de contaminer quelqu’un alors à partir des 80 000 personnes contaminées début avril, le nombre de contamination deviendra négligeable en une vingtaine d’étape.

Une autre qualité de ce type de modélisation des systèmes dynamiques, est son déterminisme : tout se passe toujours de la même manière. Cela encourage l’utilisation d’outils de modélisation pour faire des prédictions sur les évolutions à venir à partir des observations jusqu’à présent. Mais ce déterminisme est parfois discutable, d’une part parce que de tels modèles simples n’arrivent pas toujours à capturer toute la complexité des phénomènes dont ils veulent rendre compte mais aussi pour des raisons que j’évoque par la suite.

Les modèles compartimentaux en épidémiologie

Les principaux modèles utilisés en épidémiologie (en particulier pour tracer la plupart des courbes qu’on nous montre actuellement) considèrent une épidémie comme un système dynamique et décrivent principalement son évolution avec ce type d’équations. On peut consulter une description de ces modèles sur Wikipédia et un simulateur sur GitHub.

On les appelle modèles compartimentaux car ils découpent la population en classes, selon le cycle d’une épidémie (individus susceptibles d’être malades S, exposés E, infectés I, hospitalisés H, guéris R ou décédés D) et que les équations décrivent la dynamique des passages d’un état à un autre, selon des proportions mesurées expérimentalement et dépendant parfois des conditions de l’environnement (par exemple, mise en confinement). Les changements d’état correspondant à une proportion de la population considérée, nous sommes bien dans le cas où la variation est proportionnelle à la valeur (comme on peut le vérifier dans les équations mentionnées dans les deux sites web mentionnés plus haut), ce qui explique les phénomènes exponentiels dont on parle régulièrement.

Pourquoi les modèles sont intéressants

Ces modèles sont utiles car ils décrivent des phénomènes qu’on a généralement du mal à appréhender intuitivement. Autant nous pouvons par exemple comprendre facilement la variation de la position d’une voiture qui se déplace (mais qui reste une voiture), autant appréhender les changements d’une quantité qui accumule ses changements pour varier d’autant plus vite n’est pas intuitif. C’est la même chose avec cette dynamique de population. Et même si c’est parfois assez difficile à accepter, on peut constater que nous sommes tous soumis à ces variations et que les calculs issus de ces modèles aboutissent à des résultats finalement assez fiables. Les données visualisées sur ce site web montrent que, face à cette épidémie, tous les pays suivent la même trajectoire de variation, jusqu’au moment où ils sortent de cette logique d’épidémie.

Mais, il faut aussi accepter que tous ces modèles reposent sur des observations et sur des paramètres qui peuvent être approximatifs et donc sujets à des erreurs. En fait, ces modèles ne sont pas faits pour obtenir des résultats très précis mais pour produire des tendances, considérées comme fiables même si elles combinent un ensemble d’approximations, ( cf Estimation de Fermi). C’est ce qu’on appelle estimer des ordres de grandeur.

Pourquoi il faut se méfier des modèles

Cependant, ces modèles peuvent aussi induire des erreurs importantes si on les utilise mal. Autant (comme l’expliquait bien Fermi) combiner plusieurs valeurs entachées d’erreur peut permettre de trouver un ordre de grandeur acceptable, autant cumuler des erreurs dans le temps peut se révéler problématique. C’est en particulier le cas quand on utilise ces modèles pour faire de la prédiction. Si on prédit une valeur pour le jour d’après et qu’on se sert de cette valeur pour prédire celle du jour suivant, une erreur commise lors de la première prédiction va s’amplifier sur les jours suivants en suivant également cette loi exponentielle, ce qui fait que ces modèles sont en général peu fiables pour la prédiction en boucle ouverte, c’est à dire sans les recaler régulièrement avec des mesures réelles.

Une autre erreur également commise fréquemment est que l’on considère souvent l’environnement comme passif alors qu’il peut inclure lui même d’autres systèmes dynamiques modifiant certains des paramètres du modèle qui ne pourra pas donc être utilisé comme tel trop longtemps. Dans cet article, l’auteur explique que certains pays ont préféré ne pas prendre des mesures fortes de confinement car les modèles épidémiologiques leur expliquaient qu’elles se bornaient à retarder la crise. Ils oubliaient seulement que le temps gagné peut aussi servir à se préparer et donc ne plus être dans les mêmes conditions qu’au début de l’épidémie pour affronter la crise…

Simulation des conséquences des différents scénarios – Extrait de l’article de T. Pueyo

Alors, les modèles mathématiques, à quoi ça peut servir ?

Le même auteur avait auparavant proposé un article très consulté depuis sa sortie. Dès le début mars, en se basant sur ce type de modèles, il expliquait qu’il fallait choisir le confinement, considérant notre état de préparation et que, finalement, un critère majeur à suivre (comme l’explique Jérôme Salomon, le directeur général de la santé) était le nombre d’admission en réanimation car le nombre de morts dépend principalement de la robustesse et la capacité des systèmes de santé et des mesures qui peuvent étaler ou faire baisser le nombre de cas (ce qui dans les deux cas permet aux systèmes de santé de mieux supporter la vague).

Par ailleurs, tout ce temps gagné nous permet de mieux nous préparer pour être dans de meilleures conditions pour combattre l’épidémie, en ayant stocké des masques, des respirateurs (ou des vaccins) et en ayant surtout eu le temps de changer les mentalités et les procédures, pour reprendre des activités (presque) normales en sachant protéger les plus faibles.

Alors les modèles mathématiques sont-il inutiles pour soigner des gens (cf la tribune de D. Raoult) ?

C’est vrai qu’un modèle mathématique ne constitue pas une thérapie et ne peut être utilisé pour soigner et guérir un patient individuel. Mais si l’on considère la population globale, alors oui, les modèles mathématiques ont démontré une nouvelle fois leur importance et oui, ils ont permis de sauver de nombreuses vies !

Frédéric Alexandre (Inria, Institut des maladies neurogénératives, NeuroCampus Bordeaux)

Pour aller plus loin, nous vous proposons de lire cet article rédigé par François Rechenmann et publié sur le site Interstices

25 avril 202025 avril 2020

Le traçage anonyme, dangereux oxymore

Le traçage anonyme, dangereux oxymore

Les applications de contact tracing soulèvent des espoirs et des inquiétudes. Cette semaine binaire a publié un article de Serge Abiteboul décrivant le fonctionnement de l’application Stop Covid [1] qui sera discutée la semaine prochaine au parlement. Cette application a également fait l’objet d’une tribune de Bruno Sportisse [2] qui s’appuie sur les travaux de plusieurs équipes européennes. Un autre collectif de chercheurs, majoritairement français, a publié le site internet Risques-Tracages.fr afin de proposer une analyse des risques d’une telle application, fondée sur l’étude de scénarios concrets, à destination de non-spécialistes. Nous vous en conseillons la lecture, de façon à vous forger votre propre opinion sur les avantages et les risques de tels outils. Car pour faire un choix éclairé, il faut savoir à quoi s’en tenir.

Depuis quelques jours, on lit et on entend (y compris dans Le Monde [3]) que « la tension monte », que « les scientifiques s’étrillent », que la guerre est ouverte entre les différents camps des experts. Il n’en est rien. Certes, il serait bien naïf de croire que les querelles d’égos n’existent pas dans un monde où l’évaluation et la compétition sont très présents, mais il est également tout aussi faux de dire que les chercheurs s’affrontent sur le sujet. Les collègues mentionnés ci-dessous se connaissent, s’apprécient et ont souvent eu l’occasion de travailler ensemble. En revanche, ils apportent des points de vue complémentaires, parfois contradictoires, qui doivent permettre d’éclairer la décision publique.

Le débat, vous l’imaginez, a été riche chez binaire et c’est une très bonne chose. Nous continuerons donc à publier les avis qui nous semblent scientifiquement pertinents sur le sujet.

binaire

[1] Contact tracing contre Covid 19, par Serge Abiteboul

[2] « Contact tracing » : Bruno Sportisse, PDG d’Inria, donne quelques éléments pour mieux comprendre les enjeux

[3] Coronavirus : les applications de traçage des malades divisent les chercheurs en Europe, par David Larousserie et Martin Untersinger, Le Monde, 23/04/2020.

24 avril 202021 avril 2020

Crise sanitaire, risque cyber et résilience

Dans le contexte de la crise sanitaire, les escrocs ne se mettent pas au chômage. Les cyberattaques se multiplient au contraire, visant même parfois le système de santé. Bruno Teboul et Thierry Berthier nous parlent des risques que courent les TPE-PME, les grands groupes, les collectivités territoriales, et les individus. #cybersécurité #vigilance Clémentine Maurice et Serge Abiteboul

Alors que le gouvernement français déroule son plan de lutte contre la propagation du Coronavirus, les entreprises et les administrations incitent leurs salariés à privilégier le travail à distance lorsque cela est possible. Par principe, les options du télétravail et du téléenseignement vont ralentir la diffusion du virus tout en garantissant la continuité d’activité des entreprises et des administrations.

Une fois cette option choisie, les généralisations momentanées du télétravail, des télé-transactions, des téléconsultations et du téléenseignement vont mettre à l’épreuve l’ensemble des infrastructures numériques du pays. Certaines n’ont pas été dimensionnées pour encaisser une montée en charge brutale alors que d’autres passent à l’échelle facilement. Dans les zones géographiques rurales, les questions des débits internet insuffisants, du non-déploiement de la fibre ou de l’absence de couverture compliquent considérablement la transition vers le télétravail. Ces disparités territoriales mettent en lumière la fameuse fracture numérique, déjà difficilement subie en temps de paix sanitaire par les habitants concernés, mais encore plus difficilement acceptée en temps de crise et d’isolement forcé. L’école à distance, l’Université en mode « remote » sont des merveilleux concepts sur le papier que nous allons tester en vraie grandeur dans les prochaines semaines.

Bien entendu, nous devons relativiser ces potentielles difficultés techniques face aux drames humains en cours et face à la pression croissante que le secteur de la santé doit encaisser. Au-delà du bilan sanitaire, cette crise pandémique agit également comme un impitoyable révélateur de la robustesse ou de la fragilité des organisations, des systèmes et des infrastructures. Elle vient nous rappeler, au passage, que nous ne sommes jamais à l’abri des cygnes noirs si bien décrits par Nassim Nicholas Taleb (*) en 2010 et qu’il convient de raisonner en termes de risques acceptables.

Le travail à distance généralisé et l’utilisation des moyens numériques au service de l’entreprise en dehors de ses murs étendent considérablement le périmètre du risque cyber. La distribution de ce risque est loin d’être uniforme. Certaines structures vont être plus exposées que d’autres, c’est la raison pour laquelle il convient de bien distinguer les contextes et d’identifier les « points chauds ».

Pour les entreprises habituées aux mécanismes du télétravail, la transition se fera dans une relative sérénité renforcée par l’expérience acquise et des bonnes pratiques mises en place. Les télétravailleurs habituels auront moins de mal à s’adapter à plusieurs semaines d’isolement en maintenant leur activité sans prise de risque supplémentaire.

Dans les grands groupes, le RSSI (responsable de la sécurité des systèmes d’information) a peut-être mis en place un plan de continuité d’activité qui intègre les situations de travail à domicile, souvent à partir des machines de l’entreprise dotées de bonnes protections. Le transfert de données sensibles entre le travailleur posté à son domicile et le système d’information de son entreprise pourra être sécurisé via du chiffrement et les systèmes utilisés auront été mis à jour (OS, antivirus, clients de messagerie, plateformes pro déportées).

Les choses se compliquent lorsque l’entreprise est une TPE-PME ou une grande entreprise, avec peu d’expérience dans la gestion d’employés en télétravail. Le contexte typique est celui d’une TPE-PME qui n’a pas les moyens d’avoir de spécialiste de sécurité ou de faire appel à des entreprises spécialisées pour cela, qui ne dispose pas de plan de continuité d’activité et dont le système d’information n’est protégé que par des outils de cybersécurité basiques. Le basculement de la majorité des salariés vers le télétravail modifie la trajectoire des données, leur flux entrant et sortant. La partie des données qui est traitée en interne en fonctionnement normal est amenée à sortir du système d’information et à transiter sur des postes à distance. C’est cette modification des flux de données qui créé de la vulnérabilité et qui engendre un risque accru de captation, d’exfiltration ou de destruction de données sensibles pour l’entreprise. Dans ce contexte dégradé, le risque d’usurpation d’identité, de fraude au Président, de fraude au faux virement, au faux fournisseur ou au faux support technique augmente considérablement. Il est important de sensibiliser les salariés travaillant à distance et de leur signaler qu’ils deviennent des cibles privilégiées pour les attaquants.

Les collectivités territoriales sont également concernées par l’augmentation du risque cyber induit par la « distanciation sociale ». Les attaquants savent parfaitement exploiter les contextes dégradés et les vulnérabilités créées par une situation d’urgence pour monter des opérations lucratives. Chacun doit savoir qu’il n’y aura aucune trêve durant ces semaines de confinement forcé.

Au titre individuel, nous pouvons tous devenir une cible de fraude via nos boites mails, en recevant un avis de colis recommandé urgent contenant un lien malveillant, un avis de trop perçu, une alerte de résultat d’analyse médicale en ligne, un avis de facture urgente à régler ou un message envoyé par un « ami » qui vous indique qu’il a été testé positif au Coronavirus et qui vous demande de l’aide en ligne… L’environnement de crise est propice à la mise en place d’architectures de données fictives immersives destinées à tromper une cible et à la faire agir contre ses intérêts.

Dans tous les cas, il faut rester vigilant. Les premiers cas de cyberfraude ont été enregistrés en Italie et en Suisse. Des réponses se mettent en place. Par exemple, L’ANSSI sensibilise et transmet des recommandations de sécurité à destination des collectivités territoriales. Et des spécialistes de cybersécurité mettent gratuitement leurs services à disposition des entreprises exposées pour le durée de confinement.

L’épreuve pandémique sans précédent que nous traversons aujourd’hui doit nous rendre plus résilient et plus prudent face à la montée des menaces. Notre plasticité cérébrale et nos capacités cognitives devraient nous y aider !

Bruno Teboul est Docteur de l’Université Paris-Dauphine, spécialiste de Philosophie et de Sciences Cognitives. Chercheur associé à l’Université de Technologie de Compiègne (Costech). Il a été le cofondateur de la Chaire Data Scientist de l’École polytechnique. Entrepreneur et directeur Conseil, Data, IA & Blockchain dans plusieurs ESN en France. Il est membre du groupe « Sécurité Intelligence Artificielle » du Hub France IA. .

Thierry Berthier est Maître de conférences en mathématiques. Il est chercheur associé au CREC Saint-Cyr et à la Chaire de cyber défense Saint-Cyr. Expert en cybersécurité & cyberdéfense, Il copilote le groupe « Sécurité Intelligence Artificielle » du Hub France IA. Il est par ailleurs cofondateur des sites VeilleCyber, SécuritéIA et fondateur du blog Cyberland

Thierry Berthier et Bruno Teboul sont les auteurs de l’ouvrage « From digital traces to algorithmic projections » publié en 2018 aux éditions ISTE Wiley & Elsevier, et en version française.

(*) https://fr.wikipedia.org/wiki/Th%C3%A9orie_du_cygne_noir

22 avril 202022 avril 2020

Geek toi même !

Vous connaissez la méthode « agile » ? Non ? Vous n’êtes pas informaticien·ne alors ! Vous connaissez quelqu’un qui ressemble à un « nerd´´ ou un « geek´´ ? Ça ne doit pas être un·e informaticien·ne alors ! Dans ce billet, Pauline Bolignano avec la complicité de Camille Wolff pour les illustrations, déconstruit des idées reçues et nous explique ce que méthode « agile´´ veut dire. Serge Abiteboul et Thierry Viéville

Après quelques jours de confinement, une amie me dit : « je travaille dans la même pièce que mon coloc’, il passe sa journée à parler ! Je n’aurais jamais imaginé que votre travail était si sociable !». Son coloc’, tout comme moi, fait du développement informatique. L’étonnement de mon amie m’a étonnée, mais il est vrai que l’on n’associe pas naturellement « informaticien·ne » à « sociable ». D’ailleurs, si je vous demande de fermer les yeux et d’imaginer un·e informaticien·ne, vous me répondrez surement un homme aux cheveux cachés sous la capuche de son sweat-shirt, tout seul devant son écran, et pas sociable pour un sous :

Un geek quoi. En réalité, le métier d’ingénieur·e informaticien·ne demande énormément de collaboration. Je voulais donc plonger dans cet aspect du métier qui me semble être rarement mis en avant.

Les spécificités du domaine informatique

Lorsqu’on construit un logiciel, les contraintes et les possibilités sont différentes que lorsque l’on construit un édifice. Prenez par exemple la construction d’un pont. L’architecte passe de longs mois à dessiner le pont. Les ingénieur·es civil·e·s passent des mois, voir des années, à étudier le terrain, les matériaux et faire tous les calculs nécessaires. Puis les conducteurs/trices de travaux planifient et dirigent la construction pendant quelques années. Ensuite le pont ne bouge plus pendant des centaines d’années.

En informatique, c’est tout à fait différent. D’une part, il arrive que l’ingénieur·e soit à la fois l’architecte, le/a planificateur/rice, et le.a programmatrice/teur du logiciel. D’autre part, les cycles sont en général beaucoup plus courts. Pour reprendre la comparaison avec le pont, avant même de commencer l’architecture, on sait qu’il est possible que dans quelques mois le sol ait bougé, et qu’il faille adapter les fondations. Les ingénieur·e·s de l’équipe doivent sans cesse se synchroniser car il y a une forte dépendance entre les tâches de chacun·e.

Le développement logiciel offre plein de nouvelles possibilités. Il donne l’opportunité de construire de manière incrémentale, d’essayer des choses et de changer de direction, de commencer petit et d’agrandir rapidement. C’est comme si vous construisiez un pont piéton, puis que vous puissiez par la suite l’agrandir en pont à voiture en l’espace de quelques semaines ou mois, sans bloquer à aucun moment le trafic piéton.

L’organisation de la collaboration

La malléabilité et la mouvance du logiciel demandent une grande collaboration dans l’équipe. C’est d’ailleurs ce que prône la méthode Agile [1]. Ce manifeste met la collaboration et les interactions au centre du développement logiciel. Déclinée en diverses implémentations, la méthode Agile est largement adoptée dans l’industrie. Scrum est une implémentation possible de la méthode Agile, bien que la mise en place varie fortement d’une équipe à l’autre.

Prenons un exemple concret d’organisation du travail suivant la méthode Scrum : la vie de l’équipe est typiquement organisée autour de cycles, disons 2 semaines, que l’on appelle des « sprints ». A chaque début de sprint, l’équipe se met d’accord sur la capacité de travail de l’équipe pour le sprint, et sur le but qu’elle veut atteindre pendant ce sprint. Les tâches sont listées sur un tableau, sur lequel chacun notera l’avancement des siennes. Tous les jours, l’équipe se réunit pour le « stand-up ». Le « stand-up » est une réunion très courte, où chaque membre de l’équipe dit ce qu’ille a fait la veille, ce qu’ille compte faire aujourd’hui et si ille rencontre des éléments bloquant. Cela permet de rebondir vite, et de s’entraider en cas de problème. Régulièrement, au cours du sprint ou en fin de sprint, un ou plusieurs membres de l’équipe peuvent présenter ce qu’illes ont fait au cours de « démos ». Enfin, à la fin du sprint, l’équipe fait une « rétro ». C’est une réunion au cours de laquelle chacun·e exprime ce qui s’est bien passé ou mal passé selon lui.elle, et où l’on réfléchit ensemble aux solutions. Ces solutions seront ajoutées comme des nouvelles tâches aux sprints suivants dans une démarche d’amélioration continue.

Une pratique très courante dans les équipes travaillant en Agile est la programmation en binôme. Comme son nom l’indique, dans la programmation en binôme, deux programmeuses/eurs travaillent ensemble sur la même machine. Cela permet au binôme de réfléchir ensemble à l’implémentation ou de détecter des erreurs en amont. Le binôme peut aussi fonctionner de manière asymétrique, quand l’une des deux personnes aide l’autre à progresser ou monter en compétence sur une technologie.

Ainsi si vous vous promenez dans un bureau d’informaticien·ne·s, vous y croiserez à coup sûr des groupes de personnes devant un écran en train de débugger un programme, une équipe devant un tableau blanc en train de discuter le design d’un système, ou une personne en train de faire une « démo » de son dernier développement. Bien loin de Mr Robot, n’est ce pas ?

De Monsieur robot à Madame tout le monde

On peut également enlever son sweat-shirt à capuche à notre représentation de l’informaticien·ne, puisque développer du logiciel peut a priori être fait dans n’importe quelle tenue. En revanche, notre représentation de l’informaticien a bien une chose de vraie : dans la grande majorité des cas, c’est un homme. Si vous vous promenez dans un bureau d’informatique, vous ne croiserez que très peu de femmes. En France, il y a moins de 20 % de femmes en informatique, tant dans la recherche que dans l’industrie [2]. À l’échelle d’une équipe, cela veut dire que, si vous êtes une femme, vous ne travaillez probablement qu’avec des hommes.

Ceci est surprenant car l’informatique est appliquée à tellement de secteurs qu’elle devrait moins souffrir des stéréotypes de genre que d’autres domaines de l’ingénierie. L’informatique est utilisée en médecine, par exemple pour modéliser la résistance d’une artère à l’implantation d’une prothèse. Elle est utilisée dans le domaine de l’énergie, pour garantir l’équilibre du réseau électrique. L’informatique est aussi elle-même sujet d’étude, quand on souhaite optimiser un algorithme ou sécuriser une architecture [3,4]. Elle est même souvent une combinaison des deux. Quand l’informatique est appliquée à des domaines considérés comme plus « féminins » comme la biologie, la médecine, les humanités numériques, le déséquilibre est d’ailleurs moins marqué.

Il y a encore du chemin à faire pour établir l’équilibre, mais je suis assez optimiste. Beaucoup d’entreprises et institutions font un travail remarquable en ce sens, non seulement pour inverser la tendance, mais aussi pour que tout employé·e se sente bien et s’épanouisse dans son environnement de travail.

Pour inverser la tendance, il me semble important de sortir les métiers de leur case, car sinon on prend le risque de perdre en route tout·te·s celles et ceux qui auraient peur de ne pas rentrer dans cette case. En particulier, il me semble que cette image du développeur génie solitaire, en plus d’être peu représentative de la réalité, peut être intimidante et délétère pour la diversité. Dans ce court article, j’espére en avoir déconstruit quelques aspects.

En conclusion, cher·e·s étudiant·e·s, si vous vous demandez si le métier d’ingénieur·e informaticien·ne est fait pour vous, ne vous arrêtez pas aux stéréotypes. À la question « à quoi ressemble un·e ingénieur·e informaticien·ne ?», je réponds : « si vous choisissez cette voie … à vous, tout simplement ! ».

Pauline Bolignano, docteure en Informatique, Ingénieure R&D chez Amazon, Les vues exprimées ici sont les miennes..

Camille Wolff, ancienne responsable communication en startup tech en reconversion pour devenir professeur des écoles, et illustratrice ici, à ses heures perdues.

Références :

[1] Manifeste pour le développement Agile de logiciels
[2] Chiffres-clés de l’égalité femmes-hommes (parution 2019):
[3] L’optimisation est dans les crêpes
[4] La cybersécurité aux multiples facettes

21 avril 202021 avril 2020

La création 3D à la portée de tou·te·s

Un nouvel « Entretien autour de l’informatique ». Parmi les récentes nominations à l’Académie des sciences, nous avons eu le plaisir de voir figurer le nom de Marie-Paule Cani, professeure d’informatique à l’École polytechnique et spécialiste en informatique graphique. Marie-Paule partage avec binaire ses sujets de recherche. Passionnant !

binaire – Pour commencer, pourrais-tu nous dire comment tu es devenue professeure d’informatique ?

MPC – Quand j’étais petite, j’adorais dessiner, faire des maquettes et j’étais bonne en math. Je me suis alors dirigée vers des études scientifiques et j’ai intégré l’École Normale Supérieure où j’ai découvert l’informatique que je ne connaissais absolument pas. A mon arrivée dans le DEA d’informatique d’Orsay, on m’a parlé d’un prof – Claude Puech – qui « faisait des arbres » et j’ai découvert l’informatique graphique qui m’a tout de suite attirée parce qu’elle me permettait, en utilisant les maths et l’algorithmique, de modéliser puis de visualiser des personnages, des objets en 3D, ou des paysages, comme lorsque je dessinais ou je faisais des maquettes. C’était une sorte de lien entre mes centres d’intérêt entre mes loisirs et mes études, et plus tard mon métier.

binaire – Cette informatique graphique est maintenant au cœur de nombreuses d’applications, tu pourrais nous parler de quelques-unes ?

MPC – Le grand public la retrouve dans les jeux vidéo, dans les films ou les dessins animés, de façon explicite dans Toy Story ou Avatar. Il la retrouve également de façon moins perceptible dans Titanic ou Le jour d’après où certaines scènes sont construites à partir d’images de synthèse tant de personnages que de décors. Dans le monde professionnel aussi, on retrouve l’informatique graphique, par exemple dans des simulateurs que ce soit pour apprendre à piloter un véhicule (avion, voiture, navire…), pour étudier des processus complexes comme la déforestation ou encore les conditions de vie de nos ancêtres préhistoriques. Dans le monde industriel, notamment pour la conception de bâtiments, voitures, avions…), des prototypes numériques ont remplacé les maquettes physiques dans des revues de projet, en réalité virtuelle.

binaire – Et on voit apparaitre de fausses images ou de fausses vidéos (deep fake) que le grand public ne peut pas détecter.

MPC – C’est vrai mais principalement en 2D : si l’on utilise de gigantesque bases de données de visages, on est capable, en utilisant des réseaux de neurones adverses, d’en produire de nouveaux qui seront crédibles mais ne correspondront pas à un individu spécifique. Par ailleurs, comme nous sommes en 2D, il ne sera pas possible de l’animer. Personnellement, je suis plutôt opposée à ces approches qui consomment énormément d’énergie pour construire et stocker ces images alors qu’on peut bâtir des méthodes alternatives pour arriver au même type de résultats. De plus, il est intellectuellement beaucoup plus intéressant d’accompagner le créateur humain en lui fournissant des systèmes d’aide à la création plutôt que de le laisser passif et laisser faire des intelligences artificielles.

binaire – Qu’est-ce qui est difficile dans la conception et la mise au point dans ces outils d’aide à la création, ce qui a fait l’objet de ta recherche ?

MPC – Un humain ajoute immédiatement de la sémantique à une forme dans un dessin. Si je commence à dessiner un visage, je sais tout de suite ce qui est devant/derrière, ce qui se passe si le visage tourne, etc. En fait, ma connaissance de l’environnement me permet d’obtenir une interprétation immédiate. Et bien entendu, ce n’est absolument pas le cas d’un logiciel. Si je considère la façade d’un bâtiment, je vais commencer par tracer une porte, des fenêtres, et puis je peux faire un geste de « dilatation » pour agrandir ce que je viens de dessiner. Il faut que la machine « comprenne » et choisisse entre dupliquer l’existant ou bien augmenter les dimensions des ouvertures que j’ai créées. Pour trancher, l’ordinateur doit disposer de connaissances soit définies à l’aide de règles, soit apprises à l’aide d’exemples. Personnellement, je travaille sur des mode d’apprentissage dits légers, basés sur des distributions statistiques qui permettent d’obtenir rapidement des connaissances à partir de petits exemples fournis par l’utilisateur.

binaire – Les outils dont tu nous parles sont-ils réservés aux professionnels ?

MPC – Non ! Ils comment à pouvoir être utilisés par le grand public comme ceux que vous pouvez trouver sur le site web de mon équipe GéoVic : Matisse, un système de création 3D à base de dessin ou bien NEM qui permet d’esquisser, puis de naviguer dans des environnements 3D. C’est le fruit d’un long travail qui a démarré avec des systèmes de sculpture virtuelle que l’on a développé dans des salles de réalité virtuelle au début des années 2000. Ces équipements étant beaucoup trop coûteux pour une utilisation massive, nous nous sommes alors intéressés à la création à partir de dessins 2D pour ensuite passer au 3D. Récemment nous avons travaillé avec des géomorphologues pour développer un système de création d’images de paysages montagneux qui soit crédibles d’un point de vue géologique. Le créateur utilise une tablette tactile sur laquelle il va d’abord délimiter les différentes plaques tectoniques qu’il va ensuite déplacer ; le système interprète enfin ces gestes pour créer des massifs résultants de ces déplacements.

Edition d’un paysage montagneux – Image extraite de [1]

binaire – Mais en quoi consiste le travail du scientifique pour concevoir de tels systèmes ?

MPC – En fait, il n’existait pas de méthode générique pour interpréter un dessin 2D pour en faire un modèle 3D. Nous avons donc commencé par réfléchir aux aspects perceptuels pour interpréter puis traiter les gestes des utilisateurs. Nous avons découvert que notre cerveau favorise les symétries que l’on peut construire à partie d’une forme 2D. Un peu comme si on centrait une armature en fil de fer dans contour 2D, et qu’on l’enrobait de pâte à modeler, pour créer un volume correspondant au contour. Nous avons développé un outil exploitant ce constat en utilisant un modèle mathématique assez peu utilisé en informatique graphique : les surfaces implicites à squelettes. Nous avons créé un nouveau modèle géométrique dans lequel deux surfaces ne vont se raccorder que là où elles s’intersectent pour demeurer fidèle à l’intuition du créateur. Dans d’autres cas, nous basons au contraire l’interprétation d’un dessin 2D sur des hypothèses fortes sur la forme dessinée (un arbre, un vêtement, etc).

On parle alors de modélisation géométrique expressive et notre but est de la rendre transparente à l’utilisateur. Cela signifie par exemple que c’est à notre système de s’adapter aux gestes de l’utilisateur en les interprétant plutôt que de lui faire apprendre une grammaire de gestes imposée par l’outil.

binaire – Mais en plus de s’adapter aux contraintes du processus de créativité humaine, le numérique peut lui ouvrir des horizons imaginaires sans équivalent dans le monde réel ?

MPC – Oui, absolument. Quand nous avons travaillé sur la sculpture virtuelle nous avons imaginé comment étendre les propriétés physiques de la pâte à modeler pour qu’elle ne sèche pas, ne subisse pas la gravité, etc. Dans un système numérique, il est facile de zoomer sur une partie qui nécessite des détails fins ou de décomposer un objet complexe en parties indépendantes pour y accéder plus facilement. Nous avons poussé cet élargissement encore plus loin en construisant un système de sculpture d’objets 3D à partir de connaissances préalables, par exemple pour un château le repliement d’un rempart crée automatiquement une tour, l’étirement d’un mur va rajouter des créneaux, etc.

Edition d’un château fort par extensions incrémentales – Image extraite de [2]

binaire – Mais ces connaissances sont spécifiques à un contexte particulier ; comment les généraliser ?

MPC – Certes, cet ensemble de règles de transformation explicites forme ce que l’on appelle un système expert, qui est adapté à un problème précis, une expertise particulière. Aujourd’hui, nous travaillons sur des systèmes d’apprentissage léger à partir d’exemples pour que ce soit le système qui construise les connaissances qu’il va ensuite utiliser. Dans un article de 2015 [3] nous avons ainsi décrit WorldBrush, un outil qui permet d’analyser de mini-exemples créées à la main par l’utilisateur, et d’en déduire des modèles permettant de créer des forêts, des prairies, des éboulis tous différents mais toutes répondant à la structuration apprise.

WorldBrush : création d’arbres le long du déplacement de l’outil virtuel tout en respectant les règles d’implantation sur le relief rencontré – Image extraite de [1]

binaire – Est-ce qu’il est possible de se rapprocher plus de la réalité ? D’utiliser des algorithmes de simulation pour créer ces environnements virtuels ?

MPC – Oui, bien sûr. Si je reprends l’exemple des forêts, on peut, si l’on connait les règles de croissance de plantes, bâtir un simulateur de développement de la végétation pour obtenir facilement des résultats crédibles. Comme ces modèles sont complexes, ils prennent des temps de calcul prohibitifs. Pour éviter cela, nous avons sélectionné toutes les zones avec des conditions similaires de croissance (sol, altitude, exposition, etc.) Nous avons ensuite réalisé des calculs pour chaque type de zone. Nous avons enfin utilisé les résultats de ces simulations comme une base d’exemples auxquels nous avons appliqué la technique d’apprentissage que j’aie décrit précédemment (EcoBrush, [4]). On arrive à de très beaux résultats, très crédibles, avec des calculs raisonnables.

EcoBrush : édition d’un motif de paysage d’un canyon méditerranéen à partir d’une implémentation basique enrichie par l’utilisateur – Image extraite de [2]

binaire – As-tu visité l’exposition Faire Corps (*) ? Elle est basée sur plusieurs dispositifs affichant des environnements virtuels avec lesquels le visiteur peut interagir par le déplacement. Les visualisations ne répondent pas à des critères de réalisme mais évoquent des mondes imaginaires. Les approches que vous avez conçues pourraient-elles être utiles dans un tel contexte poétique ?

MPC – Oui, il existe des équipes qui s’intéressent à ce type de création par exemple en utilisant des équipements de réalité virtuelle dont la baisse des coûts a favorisé une plus large adoption. Leur principal intérêt est de plonger le créateur dans l’environnement qu’il est en train d’imaginer et de lui permettre d’y naviguer pour bien le percevoir. Par ailleurs, nous essayons de rendre dynamique ces mondes en les peuplant de créatures vivantes (réalistes ou imaginaires comme un dragon), en animant la végétation, etc.

binaire – Quels sont les grands défis que tu veux relever dans les années qui viennent ?

MPC – Le premier porte justement sur cette animation de mondes virtuels que je viens juste d’évoquer. Une des plus grandes complexités à maîtriser est de rendre « facile » le contrôle de ces peuplements. Si je reprends l’exemple de nos collègues préhistoriens qui souhaitent tester dans le modèle virtuel leurs hypothèses sur les lieux de vie, les déplacements de nos ancêtres ou des troupeaux d’animaux qu’ils chassent, il faut leur offrir des outils qui autorisent une saisie simple de leurs connaissances.

binaire – Ce type de méthodes se rapproche de ce que fait le cinéma ?

MPC – Oui, sauf que dans la plupart des cas, ils utilisent des démarches manuelles où un opérateur humain va dessiner tous les éléments un par un. Il existe des approches plus automatiques où nous allons essayer d’accélérer ce temps de saisie par exemple en utilisant la ligne d’action des personnages utilisées par les animateurs pour, en un seul geste, commencer à passer au 3D. Nous travaillons aussi avec des systèmes d’animation de foules comme ceux mis au point par nos collègues rennais et grâce auxquelles on va par exemple « sculpter » une rue peuplée de piétons qui se déplacent pour obtenir facilement un milieu urbain.

De façon plus générale, ce qui me passionne n’est pas de reproduire à l’identique le monde réel mais, en partant de données réelles, d’imaginer comment les détourner, les étendre à des contextes oubliés (préhistoire), à découvrir (sciences) ou tout simplement imaginaires (fiction).

binaire – Comment souhaites-tu conclure ?

MPC – J’aimerais exprimer ma très grande joie d’avoir été élue dans la section « Intersection des applications des sciences » de l’Académie des sciences. En effet, toute ma vie de chercheuse en informatique graphique s’est déroulée en osmose avec des domaines très variés de la médecine, l’art, la géologie, la biologie, à actuellement la préhistoire.

Serge Abiteboul (Inria & ENS-Paris) & Pascal Guitton (Université de Bordeaux & Inria)

(*) L’entretien a été réalisé avant la période de confinement du printemps 2020.

Références bibliographiques

[1] G. Cordonnier, M.P. Cani, B. Benes, J. Braun, E. Galin, IEEE Transactions on Visualization and Computer Graphics, 2018

[2] A. Milliez, M. Wand, M.P. Cani, H.P. Seidel. Mutable elastic modelsfor sculpting structured shapes. Computer Graphics Forum, Wiley, 2013, 32 (2pt1), pp.21-30.

[3] A. Emilien, U. Vimont, M.P. Cani, P. Poulin, B. Benes. WorldBrush: Inter-active Example-based Synthesis of Procedural Virtual Worlds. ACM Transactions on Graphics, 2015, Proceedings of SIGGRAPH, 34 (4), pp.11

[4] J. Gain, Harry Long, G. Cordonnier, M.P. Cani. EcoBrush: Interactive Control of Visually Consistent Large-Scale Ecosystems. Computer Graphics Forum, Wiley, 2017, 36 (2), pp.63-7

20 avril 202020 avril 2020

Contact tracing contre Covid 19

On trouve profusion d’articles sur l’utilisation du contact tracing pour combattre le virus. Le sujet passionne : les informaticiens qui aimeraient participer plus à la lutte contre le virus, les médecins souvent sceptiques, les défenseurs des libertés qui ne veulent pas que ce soit l’occasion de rogner sur la protection de la vie privée. Certains mélangent tout, géolocalisation et Bluetooth, avoir attrapé un jour le virus et être contagieux, etc. Et puis, l’utilité n’est encore pas très claire.

L’idée est simple. À partir d’applications sur les téléphones mobiles, on peut savoir que deux personnes ont peut-être été en contact et si l’une développe le virus, on peut prévenir l’autre qu’elle a été peut-être contaminée. Il y a deux grandes techniques possibles : la géolocalisation qui est intrusive et flique en permanence son utilisateur, et le Bluetooth discuté en France en ce moment.

Bluetooth est une norme de communication qui utilise des ondes radios pour échanger des données entre un téléphone (intelligent) et un ordinateur, ses écouteurs, ou un autre téléphone… Le Bluetooth fonctionne sans géolocalisation.

On peut être a priori réticent mais les choix du gouvernement comme évoqués par Cédric O vont dans le bon sens pour protéger la confidentialité des données personnelles.

Comment marche une telle App ?

Il y a de nombreuses possibilités techniques plus ou moins intrusives. En voici une.

Quand deux téléphones sont proches physiquement (quelques mètres ?) pendant un certain temps (par exemple, 5mn ou plus), ils utilisent leur connexion Bluetooth pour se dire « coucou » ; chacun envoie à l’autre un nombre aléatoire utilisé juste pour cette rencontre (ou pour un laps de temps très court). Si une personne se découvre le virus, elle le déclare volontairement dans l’application et son téléphone transmet alors à un site centralisateur les nombres aléatoires qu’elle a utilisés avec les dates associées. Chaque téléphone consulte régulièrement la base de données de ces nombres et s’il trouve dans un des nombres un de ceux qu’il a reçus d’un téléphone au cours d’un de ces coucous, il prévient son utilisateur qu’il a peut-être été contaminé. Il suffira ensuite de suivre les recommandations des autorités de santé, comme se faire tester, se confiner chez soi…

Des pays ont déjà utilisé des applications pour contrôler la propagation du virus notamment Singapour, Taïwan et la Corée du Sud. La France, l’Allemagne, des centres de recherche, des entreprises… travaillent aussi là-dessus. Pour la France et un consortium de chercheurs piloté par Inria, une application StopCovid est considérée en lien avec l’Europe et le projet Peppt-PT dont une App est déjà testée en Allemagne. Dans le cadre de cette collaboration, Inria et Fraunhofer AISEC ont publié le protocole ROBERT, pour ROBust and privacy-presERving proximity Tracing (1). Google et Apple préparent les briques de bases d’une API commune qui permettraient à ces App de fonctionner aussi bien sur Android que sur iOS. L’aide des entreprises est importante, mais il reste préférable que l’application elle-même soit développée par des scientifiques, en toute transparence.

Des difficultés techniques

Le Bluetooth apprécie mal les distances surtout si le téléphone est dans une poche ou un sac ; on cherche à améliorer cela. Une autre difficulté, s’il y a trop de personnes contaminantes en circulation, on risque assez vite d’être inondé de notifications et tous être considérés potentiellement comme contaminés. Ça ne marche plus.

Et puis, cette technique n’est utile que si une proportion importante de la population joue le jeu, on parle de 60%. Il faut déjà exclure une petite, mais non négligeable, partie de cette population qui n’a pas de téléphone intelligent ou qui aurait des difficultés à se servir d’une App même simple. (Des solutions sont à l’étude pour inclure également ces personnes.) Et parmi les connectés, qui aura assez confiance dans l’appli pour l’installer, pour se déclarer infecté… ? Ce n’est pas bien parti en France selon des sondages. Espérons que, devant l’urgence médicale, si une App « éthique » est proposée, et si les médecins nous disent que c’est efficace, les mentalités changeront.

La protection de la vie privée

On est en plein dans le domaine de la CNIL. Marie-Laure Denis, sa Présidente, a pris des positions claires (2), ainsi que le Comité National Pilote d’Éthique du Numérique (3).

On semble se diriger en France vers de bons choix : (i) l’utilisation du Bluetooth, (ii) la décision d’installer l’appli est laissée totalement à l’utilisateur, sans atteinte aux libertés, (iii) le code de l’application est open-source, comme cela des spécialistes pourront vérifier qu’il n’y a pas de trou de sécurité, (iv) l’utilisation est limitée dans le temps.

Est-ce que cela pourrait présenter des risques pour la protection de la vie privée ? Plus ou moins selon les Apps utilisées. L’équipe Privatics d’Inria, par exemple, travaille sur le sujet , comme d’autres équipes scientifiques.

Dernier point : qui sera en charge de la centralisation des données ? Pour l’instant, en France, Inria pilote le projet. Mais, qui sera l’opérateur à l’heure de l’exploitation ? Qui aura accès aux données ? Si les nombres aléatoires anonymes protègent quelque peu les utilisateurs, on n’est jamais à l’abri d’analyses de données qui permettraient de désanonymiser. Les choix des contenus des messages échangés entre les téléphones conduisent à des solutions plus ou moins sûres.

Les difficultés médicales

Une question pour les épidémiologiste sera de choisir les paramètres de l’appli suivant leurs connaissances du virus et de sa propagation (combien de temps faut-il être proche pour contaminer ? Comment définir proche ? …). Une autre : que faire si l’App détecte qu’on a peut-être été contaminé ?

Est-ce que qu’une telle App serait utile ? Les avis sont partagés. Par exemple, une appli super claire (en anglais) décrite dans ncase.me/contact-tracing/ explique qu’avec le Covid 19, il faut environ 3 jours avant de devenir contagieux, et deux de plus environ avant de savoir qu’on est infecté. Si on a été contaminé par quelqu’un qui utilise l’App, on est prévenu et on peut se mettre en quarantaine avant d’avoir contaminé quelqu’un. Voir la figure en fin du document. Donc avec une telle application, on casse la chaine de contamination.

Des médecins contestent ces chiffres. Évidemment, tout dépend du virus dont on ignore encore beaucoup de choses, même si les connaissances progressent rapidement. C’est aux épidémiologistes, aux médecins, suivant la situation sanitaire, d’évaluer l’utilité ou pas d’une telle App. C’est à l’État de décider. Ce qui semble certain, c’est qu’elle ne sera pas un remède miracle pour enrayer l’épidémie, mais qu’elle pourrait peut-être permettre de casser certaines chaines de contamination, être un des outils au service des médecins.

Et les craintes à long terme

On peut s’interroger sur le fait qu’il y ait tant de débat sur une utilisation de données médicales totalement anonymisées alors que les Google, Apple et les FAI utilisent depuis longtemps de telles données sur nous, par exemple avec la géolocalisation à détecter des ralentissements de circulation. Il ne faudrait pas que cela nous encourage à livrer au gouvernement ces données. Cela devrait plutôt nous interroger sur le fait que des entreprises les possèdent… À poser la vraie question : à quoi servent-elles ?

Pour ce qui est de leur utilisation en période de crise sanitaire, on peut craindre que cela habitue les gens à ce genre d’outils. C’est aujourd’hui une urgence sanitaire, une utilisation d’exception. Mais on a vu par le passé des lois d’exception devenir des lois de toujours. C’est en cela que finalement ces techniques même réalisées correctement posent question, et qu’il faut être tout particulièrement vigilant.

Serge Abiteboul

Note : je prend la parole ici à titre personnel. Je suis membre du Collège de l’Arcep mais ne parle pas ici en son nom. Je suis également chercheur émérite à Inria qui est très engagée dans la lutte contre le Covid 19 et communique sur le sujet (1).

Quelques références

(1) « Contact tracing » : Bruno Sportisse, PDG d’Inria, donne quelques éléments pour mieux comprendre les enjeux, 18 avril 2020. Voir aussi ROBERT – pour ROBust and privacy-presERving proximity Tracing, protocole disponible sous Github.

(2) Coronavirus : « Les applications de “contact tracing” appellent à une vigilance particulière », entretien avec Le Monde, 5 avril 2020.

(3) Réflexions et points d’alerte sur les enjeux d’éthique du numérique en situation de crise sanitaire aiguë, Bulletin de veille n°1, 7 avril 2020

(4) Une vidéo sur Arte

Mon interprétation de la présentation de ncase.me

18 avril 202018 avril 2020

Le Divulgâcheur de The Good Wife

Pour ce nouvel article de la série Le divulgâcheur, Fabien Tarissan, chercheur en analyse des grands réseaux, décrypte pour nous une scène de la série « The Good Wife » (1). L’épisode (S04E03), intitulé « Two girls, one code », est centré sur le procès intenté par les héros de la série, les avocats Will Gardner et Alicia Florrick, à un géant du net, ChumHum : leurs clientes, fondatrices d’une petite start-up, disent avoir fait faillite en raison de leur mauvais classement dans les moteurs de recherche de ChumHum. Crédible, ou pas crédible ? Fabien Tarissan décrypte pour nous les dessous d’une scène de procès (de 7’05 à 10′). Charlotte Truchet

Attention !

cet article spoile l’épisode 3, saison 4 de The Good Wife

Dans cette scène de procès, nous voyons la mise en accusation Neil Gross, PDG de l’entreprise ChumHum, dont l’économie est basée sur l’activité de son moteur de recherche. Dans la série, ChumHum est une sorte de personnage récurrent qui représente globalement les géants du net : ici, c’est l’activité de son moteur de recherche qui est visée, faisant de ChumHum un Google de la série. Il est reproché à Neil Gross de modifier l’algorithme sur lequel repose le moteur de recherche afin de défavoriser la position de certaines pages web dans les classements de résultats.

Deux éléments sont mis en avant dans cette scène. Tout d’abord, une vidéo promotionnelle de ChumHum montre le fonctionnement du moteur de recherche. Même si l’explication n’est que partielle, on voit bien que ce dernier, recevant la requête d’un utilisateur exprimée par des mots-clés, cherche à identifier des pages web pertinentes pour cette requête. Cette tâche nécessite de collecter l’ensemble des pages existantes et de les indexer (c’est-à-dire d’associer ces pages à des mots-clés) afin de pouvoir très rapidement déterminer la liste des pages web en lien avec la requête. Une fois cette liste obtenue, il reste une deuxième étape, cruciale pour la suite du procès : ordonner les résultats.

Le second élément qui est mis en avant pose la question d’un possible trucage de l’algorithme, et notamment de savoir s’il est possible pour ChumHum de faire arbitrairement descendre une page web dans un classement.

C’est précisément ce cas qui est discuté lors du procès car Julie Doyle et Elisabeth Sun, dirigeantes d’une start-up développant un logiciel de reconnaissance vocale, reprochent à Neil Gross d’être à l’origine de la chute de la présence de leur start-up dans le classement des pages associées précisément à la requête « logiciel de reconnaissance vocale », passant de la 1ère à la 28ème position du jour au lendemain et déclenchant leur faillite. Or cette chute soudaine intervient moins d’une semaine après le refus par la start-up de payer ChumHum pour obtenir des encarts publicitaires. On voit donc là une suspicion de détournement des résultats de l’algorithme à des fins économiques. Cette suspicion est d’ailleurs renforcée par le fait qu’un concurrent de la start-up connaît les effets inverses : une rapide montée dans le classement concomitante avec l’acceptation d’utiliser le service de publicité de ChumHum…

L’accusé rétorque un peu plus tard qu’il n’est en rien responsable car aucune modification de l’algorithme n’est opérée. On voit un Neil Gross très catégorique sur ce point : « L’algorithme fonctionne tout seul, on n’y touche pas ! ».

Cette scène de procès est-elle réaliste ? Tout à fait. L’explication donnée dans la vidéo promotionnelle décrit de façon correcte le fonctionnement d’un moteur de recherche. Et surtout, les questions posées ici et les enjeux du procès, qui imagine qu’un géant du net pourrait volontairement faire « disparaître » des entreprises de son moteur de recherche pour des raisons économiques, reviennent régulièrement dans le débat public. Les possibilités de trucage, par les moteurs de recherche eux-même, des résultats de leurs classements, sont réelles.

Si l’on est rigoureux, on voit cependant que quelques aspects sont déformés dans la présentation du fonctionnement de l’algorithme. L’intuition qui est véhiculée dans la vidéo promotionnelle est que tout se passe au moment où l’utilisateur tape les mots-clés de sa requête, notamment que c’est à ce moment-là que le moteur de recherche commence son travail. En réalité, la phase de collecte de l’information, de même que celle de l’indexation, se fait en amont, de manière régulière et en continu, par des programmes (des crawlers) qui collectent et mettent à jour de gigantesques bases de données mémorisant le contenu des pages web. Cette étape est réalisée en permanence, justement pour que, lorsque le moteur de recherche reçoit une requête, il n’ait plus que la phase de classement à faire.

La partie la plus délicate du fonctionnement d’un moteur de recherche n’est donc pas discutée dans la scène, puisque la manière d’opérer le classement proprement dit n’est pas décrit. Or la véritable question ici est justement de savoir comment mesurer l’importance d’une page web pour établir un classement. L’arrivée de Google en 1998 a produit un tournant à la fois scientifique et technique. Jusque là, la mesure de l’importance d’une page web se faisait principalement à l’aide d’indicateurs médiamétriques (nombre de personnes cliquant sur une page, nombre de visites régulières, etc…). C’étaient donc avant tout celles et ceux qui consultent les pages web qui, par leur activité, déterminaient cette notion d’importance.

Les fondateurs de Google, Larry Page et Serguey Brin, renversent ce point de vue en proposant de considérer l’activité non pas des personnes qui consultent le web, mais de celles et ceux qui créent le web et éditent des pages web. La notion clé devient le lien hypertexte entre deux pages web qui sert alors de marqueur d’autorité pour les algorithmes de classement : peu importe le nombre de visites que reçoit une page, pour qu’elle monte dans les classements, il faut qu’elle soit beaucoup référencée par des liens hypertextes de pages faisant elles-mêmes autorité.

La question qui se pose alors est de savoir comment opérer ce calcul. C’est là que réside le tour de force de Brin et Page qui, non seulement construisent un score (le PageRank) se basant sur la structure relationnelle entre les pages web, mais, surtout, mettent au point un algorithme capable de calculer ce score sur des graphes gigantesques.

En ce sens, comme l’indique Neil Gross, l’algorithme fonctionne effectivement de façon autonome, pas besoin d’y toucher. Mais cette remarque ne clôt pas le débat pour autant. Car si le principe de l’algorithme est bien connu et ne change pas, une multitude d’éléments déterminants se cachent dans les détails de son implémentation qui nécessite, au contraire, de « toucher » à l’algorithme quotidiennement. On assiste d’ailleurs à une belle passe d’armes rhétorique entre Will Gardner, avocat de la start-up, et Neil Gross autour de la bonne formulation pour caractériser cette nécessaire mise à jour : « Donc vous ne modifiez jamais l’algorithme ? » demande à un moment Will Gardner ? Et l’accusé de répondre prudemment « Je n’ai pas dit ça… ».

On peut noter pour finir que, pour des raisons scénaristiques bien compréhensibles, cette scène campe volontairement les protagonistes dans des positions figées, laissant penser notamment qu’une entreprise comme ChumHum ne devrait sous aucun prétexte chercher à modifier les résultats de ses classements. L’actualité récente nous a montré que cette position n’est pas si évidente et que, parfois, nous voulons au contraire que les moteurs de recherche ne permettent pas à leur algorithme de rendre visibles certaines pages web. C’est précisément le sens d’un arrêt de la Cour de Justice de l’Union Européenne du 24 septembre 2019 qui rappelle que les pages web mentionnant les données à caractère personnel d’une personne physique, en particulier « [son] origine raciale ou ethnique, [ses] opinions politiques, [ses] convictions religieuses […] ainsi que [sa] vie sexuelle », peuvent faire l’objet d’un « déréférencement », à la demande de la personne concernée. Si la demande est légitime, les moteurs de recherche doivent alors exclure ces pages de leurs classements. C’est ce qu’on appelle communément le droit à l’oubli.

La Cour va même un peu plus loin dans l’analyse du fonctionnement d’un moteur de recherche en se penchant sur le cas particulier d’une personne qui voudrait faire disparaître des classements une référence à une procédure judiciaire le concernant. La Cour précise que, même s’il n’est pas tenu de faire disparaître la référence (parce qu’elle « s’avère strictement nécessaire pour protéger la liberté d’information » par exemple), le moteur de recherche doit en revanche « aménager la liste de résultats de telle sorte que l’image globale qui en résulte pour l’internaute reflète la situation judiciaire actuelle ». Ainsi, si une personne est acquittée d’un crime dont elle avait été accusée, le moteur de recherche est tenu de faire en sorte que les pages web mentionnant l’acquittement soient systématiquement mieux classées que celles mentionnant sa mise en accusation !

On voit là un exemple bien réel où, à l’inverse de ce qui est discuté dans la scène du procès, il est très clairement demandé aux moteurs de recherche de truquer les résultats de leurs algorithmes afin de respecter la législation en vigueur en Europe.

Fabien Tarrissan (CNRS, Professeur ENS Saclay, Laboratoire ISP)

(1) The good wife est une série juridique. C’est surtout une série où l’on voit une femme s’émanciper d’un mari (très) politicien pour embrasser la fonction d’avocat. Dans cet épisode, l’intrigue fait le lien entre technologie et droit.

Quelques références pour étayer certaines parties :

Décision de la CJUE : http://curia.europa.eu/juris/document/document.jsf?docid=218221&mode=lst&pageIndex=1&dir=&occ=first&part=1&text=&doclang=FR&cid=1910446
Article du Monde sur le droit à l’oubli, en lien avec la dernière partie : https://www.lemonde.fr/pixels/article/2019/09/24/le-droit-a-l-oubli-ne-s-applique-pas-au-monde-entier-tranche-la-justice-europeenne_6012818_4408996.html
Sur le fonctionnement d’un moteur de recherche (Attention, publicité déguisée !) : chapitre 4 de https://www.editions-lepommier.fr/au-coeur-des-reseaux

Vous souhaitez nous proposer une scène à divulgâcher par un.e spécialiste ? N’hésitez pas ! Il suffit de nous en donner la référence en commentaire à cet article.

16 avril 202016 avril 2020

La fin d’un tout petit monde

Eric Tannier est directeur de recherche Inria au sein de l’équipe-projet Beagle. Il participe à plusieurs groupes de réflexion sur la responsabilité et les leviers des chercheurs à l’heure de l’anthropocène. Pour binaire, Eric nous parle des enjeux et des initiatives qui existent sur ces sujets au sein du monde de la recherche. Antoine Rousseau

« vrrrrrrrrrrrrOUUUUUUMMMMMMMMM ! Pour certains, aucun bruit sur Terre n’est plus excitant que le bruit fait par trois ou quatre gros réacteurs… Vrrrrrouuuummm!… Nous sommes au mois de juin, et la saison des colloques bat son plein… Vrrrrouuuummm! Tout le monde universitaire semble être en transhumance. La moitié des passagers sur les vols transatlantiques en ce moment sont des professeurs d’université. » Cet extrait du roman de David Lodge un tout petit monde, de 1984, et avec lui toute la trilogie universitaire dont il est issu, prend ses premières rides avec les calculs d’empreinte environnementale qui, depuis quelques années, sortent des laboratoires du monde entier. Ou plutôt avec les bilans carbone, qui mesurent les émissions de gaz à effet de serre, dont l’accumulation dans l’atmosphère est une cause majeure du réchauffement climatique.

Même s’il peut être dangereux de s’en tenir aux seules émissions de carbone pour tout calcul de l’empreinte environnementale, et au réchauffement climatique comme seul enjeu écologique, et même si on pourrait envisager d’adopter des visions plus englobantes, le bilan carbone est accessible sans trop de difficulté et offre une prise pour commencer les discussions et actions collectives. Et partout, ce sont les voyages en avion des chercheurs, principalement pour des conférences, congrès, colloques, séminaires, rencontres internationales, qui apparaissent en tête, avec environ la moitié des émissions totales des laboratoires.

Le phénomène est amplifié dans les laboratoires d’informatique et numérique, qui ont plutôt moins d’activités émettrices par ailleurs, et sont d’autant plus encouragés à prendre l’avion que les actes des congrès internationaux sont le principal outil de publication : chaque communication scientifique est associée à un voyage. Et à lui seul, un voyage transatlantique provoque plus d’effet de serre par passager que la quantité moyenne annuelle par habitant préconisée par les objectifs français pour la COP21, toutes activités confondues (environ deux tonnes par an). Cette manie des colloques nécessiterait plusieurs fois les capacités de la Terre pour ne pas aggraver la dette envers le vivant, y compris nous et nos enfants. Impossible de tendre vers une trajectoire soutenable sans revoir cette façon de communiquer en voyageant.

C’est tout un petit monde qui s’écroule. Les congrès, ce sont des rencontres, des découvertes, une ouverture à d’autres cultures et d’autres pratiques (mais qui résulte aussi souvent en l’uniformisation des cultures et des pratiques), un réseau international, des collègues et des amis partout sur la planète (enfin surtout en Amérique du Nord, au Japon et en Australie), la construction d’un savoir mondialisé, et en informatique un système de publication rapide et addictif. François Weyergans écrivait dans Trois jours chez ma mère des phrases qui, transposées à l’activité scientifique, disent à quel point nous avons fait des voyages un élément vital de notre équilibre : « Voyage, sexe, prose, quelle trinité ! Si je n’avais jamais voyagé, ce serait comme si je n’avais jamais fait l’amour… Ce serait bien triste ». Cependant, pour relativiser l’équilibre de cette trinité, on peut calculer, quand on a la mauvaise habitude de tout mesurer et l’obsession des bilans environnementaux, que les émissions de dioxyde de carbone liées à un rapport sexuel (nécessitant une production de nourriture pour l’énergie dépensée) sont environ 6000 fois inférieures à celles d’un aller-retour à New-Yorkⁱ. On comprend pourquoi le groupe Oblomoff conseille aux chercheurs de rester couchés.

Certes l’impact direct de notre activité est peut-être négligeable en comparaison de celui du monde que nous contribuons à construire. Il y a un côté dérisoire et dangereux à cette conversation carbone qui culpabilise précisément celles et ceux dont la conscience écologique est la plus avancée, et risque de les encourager à laisser le ciel et le monde aux moins scrupuleux. Pourtant, tendre vers la soutenabilité de l’activité scientifique est une question de cohérence pour la communauté. La communauté scientifique est porteuse d’un message sur la dégradation de l’environnement : « Vous devez écouter les scientifiques », concluait Greta Thunberg à l’Assemblée nationale en juillet 2019. On ne compte plus les tribunes signées par des centaines de scientifiques, alarmant et appelant à des actions politiques, voire soutenant les actions de désobéissance. On compte plus les réelles actions politiques, les actes de désobéissance et l’exemplarité dans les pratiques. Des études psychologiques montrent pourtant que l’exemplarité des porteurs de message joue sur l’efficacité de la transmission du message. « Une recherche qui ne s’applique pas à elle-même des règles pour d’abord œuvrer à préserver le vivant et l’habitabilité de la Terre a-t-elle encore un sens ? » écrivent les membres de l’atecopol de Toulouse. D’autre part, l’empreinte environnementale est parfois un moyen pour les chercheurs, qui aiment quantifier, de trouver une prise dans leur besoin d’aborder les questions écologiques, autrement tellement difficiles qu’elles peuvent être décourageantes. Alors, en se promettant d’aller plus loin avant la fin de cet article, attrapons cette prise : besoin de voyager vital et encouragé par les institutions d’un côté, activité destructrice de l’autre, comment résoudre cette dissonance ?

D’abord en examinant de près cette apparente dépendance de l’activité scientifique au congrès international, et en trouver les faiblesses. Car en se plongeant dans les statistiques, on peut constater que les voyages à répétition ne sont pas pratiqués par tous les chercheurs (60 % de l’empreinte carbone issue des trajets en avion est émise par 10 % des chercheurs), mais surtout par les plus vieux (les professeurs d’université voyagent six fois plus que les doctorants), les plus mâles, et les plus riches. Mais pas forcément par les plus reconnus : des études indépendantes et convergentes de l’EPFL, en Suisse, et de l’UBC, au Canada montrent des relations très faibles entre les émissions de CO2 et la reconnaissance académique, mesurée par des indices bibliométriques. Toutes ces statistiques à elles seules résolvent une partie de l’injonction contradictoire à voyager pour plus de reconnaissance et à respecter l’environnement : une grande partie des voyages sont décorrélés du besoin de reconnaissance, et pas forcément plus pratiqués par ceux qui en ont le plus besoin.

En ce qui concerne le système de publication en informatique, là aussi l’addiction mérite d’être examinée de près. Individuellement, une publication dans les actes de certains congrès ne vaut pas mieux qu’une publication dans une revue, elle est juste plus rapide. Collectivement, cette manie de la publication rapide dans des actes de congrès nuit fortement à la qualité des articles, qui serait sans doute grandement améliorée si les publications n’étaient pas contraintes par les dates des conférences. Des plateformes comme Episciences concilient rapidité, qualité, et reprise en main par la communauté d’un système de publication scientifique à la dérive. Il semblerait donc qu’on puisse à peu de frais renoncer à une bonne part de cette prétendue addiction.

C’est ce à quoi s’engagent publiquement de plus en plus de chercheurs ou institutions : les initiatives individuelles, collectives (Labos1.5, noflyscientists, Hypocrites in the air) ou institutionnelles dans ce sens sont nombreuses. Les universités, instituts et écoles partout dans le monde se dotent de cellules chargées de faire des propositions pour décarboner la science, et promeuvent l’utilisation de la visio-conférence, l’achat de vols directs plutôt qu’indirects, l’usage du train pour les trajets inférieurs à 800km, la publication systématique des bilans carbone de toutes les institutions, le remplissage avant tout trajet en avion d’un questionnaire étudiant toutes les autres possibilités, la publication dans des revues scientifiques plutôt que des actes de congrès. Certaines institutions comme le GIEC pratiquent la compensation carbone, même si on peut avoir des doutes sur son efficacité et la possibilité de généraliser cette pratique. Des taxes carbones internes sont à l’étude pour décourager les voyages en avion. On pourrait imaginer la création de « comités d’éthique environnementale », chargés de se prononcer sur la nécessité d’un voyage, comme les comités d’éthique actuels, présents dans beaucoup d’institutions, donnent des avis sur la nécessité de telle expérimentation animale ou humaine, et accompagnent les chercheurs pour construire une pratique plus respectueuse des valeurs. L’empreinte environnementale étant une nuisance possiblement comparable à celles dont les comités d’éthique ont l’habitude, probablement de plus grande ampleur et plus irréversible pour un plus grand nombre d’êtres vivants, l’évaluation de pratiques polluantes comme la participation aux congrès par des comités d’éthique spécialisés, où seraient représentés les intérêts des acteurs non humains, ne serait pas absurde.

Mais ces réponses, certes utiles, sont-elles à la hauteur de l’enjeu ? L’École Polytechnique Fédérale de Lausanne (EPFL), qui a été pionnière dans le milieu académique pour les enjeux environnementaux, et qui continue avec plusieurs longueurs d’avance sur les autres instituts, applique un programme appelé « Travel less without loss », qui reprend une bonne partie de ces propositions. Cette appellation a le mérite de pointer clairement le problème de ce programme et de ses homologues : on propose quelques aménagements, mais dans le fond on promet de ne rien changer. Et comment croire que l’empreinte carbone peut être divisée par 5, ce qui est l’objectif français pour 2050, d’après ses engagements auprès de la COP21, « without loss », c’est-à-dire en gardant les mêmes objectifs, les mêmes questions, les mêmes moyens ?

Vouloir à ce point ne rien changer est-il vraiment la réaction que l’on attend de la communauté académique face au danger qu’elle contribue elle-même à découvrir et à diffuser ? Cette question des voyages pourrait soulever des soubassements plus profonds de la recherche scientifique. Par exemple, l’habitude de trouver intéressantes des questions que comprennent seulement quelques personnes à l’autre bout du monde mais pas ses voisins de bureau ou de pallier. L’hyper-spécialisation des domaines scientifiques est peut-être ce qui empêche de trouver des solutions à un problème aussi complexe et multi-disciplinaire que les crises environnementales. Les injonctions à innover constamment, à jouer le rôle de moteur de la croissance économique, à promettre des mondes plus sûrs, plus productifs, plus optimisés, dans lesquelles baignent quotidiennement les chercheurs, font de la recherche scientifique un instrument important du processus suicidaire dans lequel est engagé l’humanité et qu’elle ne résoudra pas si facilement « without loss ». Plus que la question de nos pratiques, l’écologie pose la question de nos objectifs. La réflexion plus profonde dans laquelle l’anthropocène nous engage est peut-être un moyen de revoir les modes de production du savoir. Comme de redonner le primat aux questions simples, aux proximités géographiques plutôt que thématiques, aux aspirations sociales, à la science impliquée, ou à la science allongéeⁱⁱ.

Éric Tannier est chercheur Inria au sein de l’équipe-projet BEAGLE, à Lyon.

i) Pour ce calcul, on se réfère à Frappier et al, « Energy Expenditure during Sexual Activity in Young Healthy Couples », PloS One 2013, qui estime à 6 kcal par heure et par kilogramme (MET) la quantité d’énergie dépensée lors de l’activité sexuelle, tandis qu’on trouve dans le rapport de l’union cycliste européenne « Cycle more often 2 Cool down the planet ! », ECF report, 2016, que la production de nourriture équivalente à 1 kcal émet en moyenne 1.44g CO2. Pour un rapport de 30 minutes entre deux personnes d’un poids cumulé de 130kg, on atteint donc 561.6g, soit un surplus de 421g par rapport à une activité usuelle moins énergivore, estimée par un « Compendium of physical activities » à 1.5 MET. Un aller-retour Paris-New-York, selon la base carbone de l’Ademe, émet 2.6t CO2, soit l’équivalent de 6173 fois le septième ciel pour seulement deux vols. Excepté en cas de fécondation, où l’impact peut dans ce cas se révéler plus important, selon une étude controversée parue en 2017.

ii) Qui pourrait être à la fois une traduction de la « slow science », si c’est le temps qu’on allonge, une implémentation des préconisations d’Oblomoff à rester couchés, ou de celles de Bruno Latour qui utilise l’« engendrement » pour parler d’une direction orthogonale au « productivisme ». Ou alors renouer avec une position contemplative et réflexive qui contrebalancerait l’activité incessante et la connectivité ininterrompue. Claude Levi-Strauss concluait Tristes Tropiques sur une attitude contemplative qui « procure à l’homme l’unique faveur qu’il sache mériter : suspendre la marche, retenir l’impulsion qui l’astreint à obturer l’une après l’autre les fissures ouvertes au mur de la nécessité et à parachever son oeuvre en même temps qu’il clôt sa prison ».

15 avril 202015 avril 2020

Lire une courbe épidémique

Nous entendons beaucoup : il faut aplatir la courbe. Mais de quoi s’agit il ? Tina Nikoukhah prend ici le temps de nous expliquer le plus simplement du monde de quoi il s’agit, nous propose une animation logicielle et … nous permet de faire des jeux avec ses voisins par la fenêtre … Thierry Viéville et Serge Abiteboul.

Cher·e lecteur ou lectrice, je suppose que toi aussi, comme près de la moitié de la population mondiale, tu es confiné chez toi afin d’aplatir la courbe épidémique. Cette fameuse courbe qui représente le nombre de nouvelles personnes connues pour être infectées par le virus en fonction du temps, dans une population, un lieu et une période donnée.

Mais qui a dessiné cette courbe ?

De nombreux scientifiques travaillent en ce moment sur la modélisation de l’épidémie. Pour ce faire, ils établissent à partir des données qu’ils récupèrent chaque jour, des modèles mathématiques afin de prédire l’évolution de l’épidémie du Covid-19. Elles ou Ils obtiennent des courbes comme celle-ci :

Courbe d’évolution du nombre de nouveaux cas en France depuis mi-mars.

Mais c’est quoi ce pic que tout le monde cherche ?

Le pic de l’épidémie représente le point à partir duquel la courbe commence à descendre. Cette pente descendante représente le moment où le nombre de nouvelles personnes déclarées avec un Covid 19 quotidiennement décroit.

Ok bah le pic il est là sur le dessin, où il y a une croix.

Oui, mais ce qu’on cherche à connaître, c’est la position de ce pic. Pour cela, il faut comprendre comment est fait ce graphique. Sais-tu de quoi est composé un graphique ?

Pas vraiment… Je n’ai pas bien suivi mon cours de mathématiques malheureusement.

Il s’agit d’un moyen de visualiser « virtuellement » des données. Plus simplement, ce dessin est composé d’un titre, d’un axe vertical représentant la grandeur mesurée et d’un axe horizontal représentant la grandeur variable. Ici, l’axe vertical appelé l’axe des ordonnées est le nombre de nouvelles personnes infectées par le virus et l’axe horizontal appelé l’axe des abscisses est le temps, en jours. Alors, on cherche à connaître sa position horizontale et sa position verticale, c’est-à-dire ses coordonnées. On appelle souvent ces données par les lettres x et y.

Courbe d’évolution du nombre de nouveaux cas de Covid 19 déclarés en France depuis mi-mars.
Le pic aura lieu la `x-`ième journée et il y aura `y` nouveaux cas.

Ok ok, donc c’est encore des maths mais ça ne sert qu’à lire des graphiques.

Tu veux dire que les mathématiques ça sert partout et en effet, toute la journée, tout autour de toi, il y a des éléments qui récupèrent des coordonnées.
Par exemple, chaque petit point sur ton écran qui te permet de lire cet article possède une coordonnée horizontale et une coordonnée verticale. Tout comme chaque pixel qui compose tes photos est représenté par ses coordonnées en x et en y.
Les lutins que tu peux programmer dans ton logiciel Scratch possèdent eux aussi des coordonnées, tout comme toi qui possède des coordonnées géographiques qui ne varient pas beaucoup ces derniers temps dû au confinement !

Ah donc savoir se repérer sur un graphique en fait c’est quelque chose qui est fait partout autour de moi sans que je m’en rende compte et sans que je ne m’en serve directement.

Alors toi cher lecteur du blog binaire, je ne sais pas… Mais moi, durant cette durée de confinement, je m’en sers pour jouer à la bataille navale par la fenêtre avec mon voisin Gaspard, 5 ans.

Tina Nikoukhah est doctorante en traitement d’images au Centre Borelli (ex-CMLA), ENS Paris-Saclay.

Pour en savoir plus:

– Un article de Tomas Peyo traduit en français qui utilise un simulateur épidémique montrant combien il est indispensable de ce confiner :coronavirus-le-marteau-et-la-danse
– Un exemple d’étude scientifique datant de début mars qui permet de prédire (partiellement) ce qui se passe au niveau de cette pandémie.
– Un ancien article toujours d’actualité qui explique comment modéliser une épidémie.

14 avril 202016 avril 2020

Le divulgâcheur Arkangel de Black Mirror

Pour ce nouvel article de la série Le divulgâcheur, nous nous sommes intéressés à un épisode de la série Black Mirror intitulé Arkangel et qui traite d’un système numérique de contrôle à distance et de censure visuelle en temps réel. À partir de cette fiction effrayante, nous avons demandé à des chercheurs experts de la visualisation de nous parler de ce mécanisme et de ses applications dans d’autres contextes. Pascal Guitton

Dans l’épisode Arkangel de Black Mirror, suite à un incident durant lequel elle perd de vue sa fille, une mère surprotectrice décide de l’inscrire à un essai gratuit d’une version préliminaire d’Arkangel, un système révolutionnaire de surveillance pour enfants. Arkangel est une technologie qui, grâce à l’implantation d’une puce dans le cerveau des enfants, permet aux parents de suivre en temps réel leur localisation et leur état médical via une tablette. Il offre également la possibilité de consulter la vision de l’enfant en direct, d’enregistrer et de rejouer tout ce qu’il a vu, et de censurer l’obscénité et autres stimuli stressants par pixellisation (voir Figure 1) et distorsion audio. L’épisode tourne autour de la mère protectrice et de sa fille pour montrer à quel point une telle technologie pourrait être dangereuse et porter atteinte à la vie privée, selon le schéma classique de la série télévisée.

Cette photo montre une forme pixellisée qui correspond à un chien en colère qui est censuré visuellement par l'implant cérébral Arkangel dans un épisode de la série Black Mirror — Figure 1 : Reproduction d’une scène de Black Mirror, où un chien en colère est censuré visuellement par l’implant cérébral Arkangel. Photo originale de Roger Kidd, CCBYSA 2.0.

Malgré les problèmes évidents de protection de la vie privée et d’éthique ainsi que l’avenir dystopique que présente l’épisode, la censure visuelle automatique peut potentiellement répondre à de réels besoins utilisateurs. Environ deux ans avant la sortie de l’épisode de Black Mirror, notre équipe de recherche a commencé à travailler sur la façon de réduire l’effet répulsif des photos d’interventions chirurgicales en appliquant un traitement d’image automatique. Bien que l’aversion pour des images chirurgicales soit naturelle pour la plupart d’entre nous, elle limite la capacité de nombreuses personnes à se renseigner, à prendre des décisions informées ou plus simplement à satisfaire leur curiosité. Par exemple, parce que de nombreux patients trouvent les images ou les vidéos chirurgicales répugnantes, la communication avec leur chirurgien peut en souffrir. Nos recherches se sont concentrées sur la possibilité d’utiliser des techniques de traitement d’images existantes qui pourraient réduire l’impact émotionnel des images d’interventions médicales, tout en préservant l’information importante. En effet, il est facile de rendre une image pratiquement méconnaissable comme dans l’épisode de Black Mirror (voir Figure 1), mais cela supprimerait toute information utile que l’image était censée transmettre. Afin d’identifier les techniques qui conservent le plus d’informations utiles, nous avons demandé à quatre chirurgiens de nous faire parvenir des photos de leurs interventions. Nous avons ensuite transformé ces photos en appliquant treize techniques différentes, imprimé les images et demandé aux chirurgiens de les ordonner en fonction de leur capacité à préserver les informations importantes. Ce faisant, nous avons éliminé sept techniques qui ont été considérées comme supprimant trop d’informations utiles à une bonne communication avec les patients.

Cette image montre des mains coupant des lasagens à l'aide de couteaux. Le rendu est modifié pour atténuer les détails. — Figure 2 : GIF animé montrant les six techniques testées sur des non-spécialistes. Nous utilisons ici des lasagnes car leur photo est moins choquante que des images chirurgicales.

Nous avons ensuite testé les six autres techniques de traitement d’images sur des non-chirurgiens (visibles sur l’animation de la figure 2) pour comprendre lesquelles seraient les plus à même de réduire l’impact émotionnel des images de chirurgie. Puisqu’il fallait exposer les gens à des images chirurgicales potentiellement dérangeantes, l’obtention de l’approbation éthique pour notre étude a été un long processus itératif. Nous avons montré aux participants des images chirurgicales non filtrées et filtrées, et leur avons demandé d’évaluer dans quelle mesure ils les trouvaient dérangeantes. Selon nos résultats, l’une des techniques les plus prometteuses a été une technique d’abstraction d’images mise au point à l’Institut Hasso Plattner de l’Université de Postdam, en Allemagne, qui utilise un filtrage structure-adaptatif à partir des couleurs pour donner aux images un aspect bande dessinée (voir Figure 3). Cette technique a diminué les réactions affectives négatives des participants tout en préservant une grande partie du contenu informationnel. Certains de nos participants ont signalé que les images étaient moins dérangeantes parce que leur aspect bande dessinée les rendait moins réelles. Dans une étude suivante avec cinq chirurgiens, nous avons montré que des filtres similaires peuvent également être appliqués avec succès aux vidéos.

Cette image montre la même scène de découpe de lasagnes mais avec une méthode de rendu proche de la bande dessinées (lmoins de détails, zones avec des couleurs plus constantes...) — Figure 3: Abstraction de type « bande dessinée » de l’image de lasagnes à l’aide d’une technique appelée filtrage structure-adaptatif.

Bien que nos recherches se soient concentrées sur les images et les vidéos de chirurgies, les techniques de censure visuelle automatique pourraient être utilisées pour d’autres types de contenus dérangeants, tels que les images hyper-violentes ou pornographiques. Il est clair qu’avec le développement du web et des réseaux sociaux, le contenu explicite est, aujourd’hui plus que jamais, facilement, et souvent par inadvertance, accessible. Par exemple, les enfants qui naviguent sur le web pour des projets scolaires courent le risque d’être exposés par inadvertance à du contenu explicite (1). Wikipédia, par exemple, contient des images ou des vidéos qui peuvent être jugées choquantes ou inappropriées pour certains publics. De même, les réseaux sociaux permettent actuellement aux gens de publier du contenu potentiellement choquant, comme le soulignent les conditions d’utilisation de Facebook ou de Twitter. Si l’interdiction de tout contenu explicite est possible, il est souvent avancé que ce genre de contenu peut informer ou sensibiliser le public, par exemple sur des questions politiques ou sanitaires. Ainsi, les rédactions en chef de journaux ont justifié leur utilisation de photos violentes en expliquant qu’elles aident à informer leur lectorat. De même les associations de défense des droits des animaux telles que L214 et Red Pill en France ou PETA, PEA à l’étranger diffusent régulièrement les photos et vidéos de leurs enquêtes dans les abattoirs ou élevages sur les réseaux sociaux afin d’informer le public, mais ces images sont ignorées par une majorité du public en raison de leur contenu choquant. Enfin, des études ont suggéré que les logiciels destinés à protéger les enfants bloquent également l’accès à des informations utiles et pourraient donc avoir un impact négatif sur les processus d’apprentissage.

Pour aider à rendre la navigation sur Internet informative mais sans risque pour les publics sensibles, nous avons développé une extension Google Chrome que nous avons nommée Arkangel, en hommage à l’épisode de Black Mirror. Notre Arkangel utilise des réseaux neuronaux pour trouver, dans une page web, les images susceptibles de contenir du contenu médical, de la violence ou de la nudité, et les traiter avant que l’utilisateur ne puisse les voir. Dans le même temps, Arkangel laisse à l’utilisateur la possibilité (1) de déterminer l’intensité du traitement de l’image et (2) de dévoiler l’image originale. Bien que nous n’ayons testé empiriquement les techniques de traitement que sur des images chirurgicales, nous supposons qu’elles pourraient également fonctionner de manière similaire sur toute image impliquant du sang ou des mutilations, comme les photographies de guerre ou d’accident. Nous imaginons que les mêmes filtres ou des filtres semblables peuvent aussi aider à réduire l’impact psychologique d’autres contenus fréquemment jugés répugnants (par exemple des photos de maladies de la peau, de vomissements ou d’excréments) ou de la pornographie. Il est néanmoins nécessaire de conduire des études supplémentaires afin de valider ou d’infirmer ces hypothèses. Malgré le nom que nous avons donné à notre extension Google Chrome, son but est fondamentalement différent de l’outil présenté dans l’épisode de Black Mirror. Alors que l’Arkangel de Black Mirror se concentrait sur l’idée de protéger les enfants des stimuli que leurs parents jugent potentiellement dérangeants, nous avons développé notre extension Arkangel dans l’espoir qu’elle aidera les gens à s’informer en s’exposant à du contenu qu’ils auraient évité autrement. Ainsi, son but n’est pas de restreindre, mais d’aider les utilisateurs à pouvoir accéder aux médias nécessaires à leurs recherches. Cependant, il est nécessaire de rester vigilants pour que ces outils restent sous le contrôle total de l’utilisateur et ne soient jamais imposés à d’autres contre leur gré.

Quel avenir pour les technologies de censure visuelle automatique ? Un obstacle important réside dans la reconnaissance automatique de contenus potentiellement dérangeants : aujourd’hui, les machines ne peuvent le faire que dans les cas les plus évidents. Un autre problème réside dans le matériel informatique utilisable. Il est peu probable que dans un avenir proche, les gens souhaitent que des puces soient implantées dans leur cerveau ou dans le cerveau de leurs proches. De plus, malgré les recherches actuelles sur l’électronique implantable (et la possibilité d’augmenter cybernétiquement des requins ou des insectes), de telles technologies sont encore loin d’être prêtes aujourd’hui. Il est cependant possible d’imaginer que des technologies de censure visuelle personnelle deviendront disponibles sur les appareils portables. Les lunettes pourraient être un support idéal, et certaines d’entre elles comprennent déjà des implants auditifs. Il est facile d’imaginer que certaines modifications d’appareils comme les Google Glasses pourraient les faire fonctionner de la même façon que l’implant cérébral Arkangel. Ils pourraient modifier ce que le porteur voit en ajoutant un flou local à la surface des lunettes et pourraient également censurer l’information auditive grâce à l’implant auriculaire intégré. Des casques antibruit sont actuellement disponibles sur le marché et démontrent la faisabilité d’une censure auditive en temps réel. Il est possible d’imaginer un processus similaire appliqué au champ visuel. Les travaux de recherche sur la réalité diminuée ont par exemple étudié comment les affichages de réalité augmentée peuvent être utilisés pour supprimer (plutôt que d’ajouter) du contenu au monde réel.

Munis de dispositifs de censure sensorielle entièrement personnalisables, de nombreuses personnes pourraient, par exemple, assister à des chirurgies en direct pour s’instruire. Les personnes sensibles seraient également capables de s’immuniser contre les actes d’agression non physiques tels que les jurons et leurs analogues visuels. Cependant, il est raisonnable de craindre que de tels outils ne fassent que fragiliser les populations sensibles en les privant d’occasions de développer une résistance à des événements de la vie de tous les jours. De tels outils pourraient également nous rapprocher de scénarios de suppression des libertés individuelles comme celui illustré dans l’épisode Black Mirror. Par exemple, il n’est pas difficile d’imaginer comment des lunettes de censure sensorielle pourraient être complétées par une carte SIM, de petites caméras et des capteurs de signes vitaux, afin que les parents puissent surveiller et contrôler leurs enfants comme jamais auparavant. Pire encore, les technologies portables de censure perceptuelle pourraient être utilisées à mauvais escient par des organisations militaires ou terroristes afin de faciliter les actes de torture ou de meurtre. Par exemple, de telles technologies pourraient changer la couleur du sang, faire apparaître le monde comme un dessin animé, ou bien faire croire que les ennemis sont des créatures répugnantes comme l’illustre un autre épisode de Black Mirror : Men Against Fire. Elles pourraient même être utilisées pour prétendre que les événements réels font partie d’une simulation, un thème repris dans Ender’s Game d’Orson Scott Card.

Bien que nous nous soyons concentrés sur la façon dont la censure visuelle peut être utilisée pour aider les gens à s’éduquer en éliminant un obstacle potentiel au libre accès à l’information, la censure visuelle peut aussi être extrêmement utile aux personnes dont le travail quotidien consiste à regarder des contenus troublants, comme les journalistes ou les modérateurs de contenus en ligne. De récents reportages et documentaires sur la santé mentale des modérateurs travaillant pour des réseaux sociaux tels que Facebook, Twitter ou Youtube, ont souligné la difficulté de leur travail. Ils doivent regarder du contenu particulièrement violent et choquant tout au long de leur journée de travail pour comprendre si le média affiché enfreint ou non les conditions d’utilisation du service. Pour ce faire, ils doivent clairement identifier l’information présentée dans les médias, mais cela peut se faire au détriment de leur santé mentale à long terme. Nous espérons que des filtres comme notre extension de navigateur Arkangel pourront les aider dans leur tâche. Des difficultés similaires semblent être au centre des préoccupations de certaines salles de rédaction lorsqu’elles doivent regarder des dizaines de photos ou de vidéos de zones de guerre pour décider lesquelles utiliser. Notre étude a déjà suggéré que les techniques d’abstraction d’images peuvent réduire la réponse affective aux images chirurgicales tout en préservant les informations essentielles de l’image, et il serait intéressant d’étudier si elles peuvent aussi être utilisées pour réduire l’impact que la modération de contenu ou les tâches de sélection d’images peuvent avoir sur la santé mentale des travailleurs.

(1) on appelle « contenu explicite » des documents (textes, images, vidéos…) contenant des aspects pouvant choquer le public (violence, pornographie, insultes…). Cette expression est issue du monde de la chanson où elle est utilisée depuis très longtemps.

Lonni Besançon (Linköping University), Amir Semmo (Hasso Plattner Institute), Tobias Isenberg (Inria) et Pierre Dragicevic (Inria)

Plus d’informations sur notre extension pour Google Chrome sont disponible dans la vidéo de ce TEDx donné par un des membres de l’équipe de recherche

13 avril 202014 avril 2020

Bravo & merci Internet !

En ces moments de confinement, beaucoup de nos activités reposent sur l’utilisation d’Internet. Que ce soit pour télétravailler quand c’est possible, pour étudier, nous informer, nous distraire, nous utilisons de façon intensive les réseaux informatiques quand nous disposons des ressources (en termes de matériel, de connexion et de maîtrise des outils) nécessaires. Pour l’instant, les infrastructures, tant logicielles que matérielles, répondent de façon raisonnable à la forte croissance de la demande (pas toujours raisonnable). Pourquoi ? Laurent Fribourg (CNRS) nous explique le coeur de ce fonctionnement : le protocole TCP/IP. Pascal Guitton

A l’heure où notre gratitude de confinés s’adresse à juste titre aux soignants de la première ligne, aux agriculteurs, postiers, distributeurs, caissiers de la seconde ligne, ainsi que, parmi d’autres, aux pompiers, policiers, militaires et bénévoles, nous, lecteurs de Binaire, avons, je crois, aussi une pensée émue pour un service qui remplit admirablement sa tâche, vitale dans le contexte démultiplié de télétravail et de streaming d’aujourd’hui : j’ai évidemment nommé Internet et, tout particulièrement, son protocole TCP/IP.

Son créateur, Joseph Kahn (avec Vinton Cerf), déclarait encore récemment [4] qu’il était optimiste par raport aux défis extraordinaires qu’Internet allait devoir de toute façon relever en période “normale” : milliards d’objets connectés, lutte contre la cybercriminalité par exemple. Il est aujourd’hui remarquable de constater qu’alors que des cercles de rush et de pénurie s’instaurent dangereusement dans plusieurs secteurs, nous continuons à mener nos tâches, loisirs et communications virtuelles toujours aussi efficacement.

Pourtant, à ses débuts, dans les années 1986-1987, la situation n’a pas été aussi facile pour le réseau des réseaux, et son trafic connut de graves problèmes d’engorgement qui le virent même s’écrouler de façon répétée [2]. Malgré de multiples interventions, ces problèmes ne prirent fin qu’en 1988 , année où s’acheva l’implantation de l’algorithme de gestion de contrôle du trafic TCP de Jacobson&Karels [1]. Ce sont sur certaines des innovations de cet algorithme salvateur que nous revenons ici.

Rappelons d’abord la raison qui amena Internet à connaître en octobre 1986 la première occurrence d’une série d’effondrements, le débit passant soudainement de 32 kbit/s à 40 bit/s [2]. A l’origine, le protocole TCP (Transmission Control Protocol) [6] utilisait l’idée classique de « fenêtre glissante » : l’information à transmettre était découpée en paquets, puis l’émetteur envoyait sur le réseau W paquets d’information et attendait l’accusé de réception (ACK) de ces W paquets, avant d’envoyer une nouvelle séquence de W paquets, et ainsi de suite. Ce protocole de fenêtre glissante (sliding window) était bien connu en télécommunication et avait largement fait ses preuves en termes de fiabilité de transmission, contrôle de flux et d’engorgement.

Schématiquement, le problème apparaissant avec ce protocole sur un réseau de la taille d’Internet était le suivant : lorsque l’émetteur accroit son débit, la file du récepteur, dans laquelle s’entassent les paquets en attente d’envoi d’acquittement, augmente ; du coup, ne recevant pas l’accusé de réception (ACK) attendu au bout d’une durée (Time-Out) établie statiquement (à l’avance), l’émetteur croit, à tort, que ses paquets émis sont perdus ; il les réémet alors, encombrant ainsi davantage le réseau. L’engorgement s’aggrave ainsi , et le phénomène s’amplifie exponentiellement avec le nombre de connexions. La retransmission prématurée de paquets non perdus entraine donc à terme l’effondrement de tout le réseau.

Pour éviter ce problème d’engorgement, il convient de diminuer la réactivité du réseau (ou d’augmenter sa latence). Pour atteindre un tel objectif, Jacobson&Karels [1] ont proposé des modifications décisives de l’algorithme classique de la fenêtre glissante, dont notamment :

• un calcul dynamique de la durée du Time-Out lorsque l’émetteur attend un ACK ; désormais, quand un Time-Out expire, la valeur du Time-Out suivant est augmentée exponentiellement (exponential backoff) ;

• un auto-cadencement (self-clocking) des accusés de réception : quand le tuyau de la connexion est proche de la saturation, la vitesse d’émission des ACKs s’auto-régule pour prévenir un encombrement accru du tuyau ;

• un paramétrage dynamique, lui aussi, de la taille de la fenêtre d’émission afin de trouver un bon compromis entre maximalisation du débit et minimisation du temps de latence.

Le progrès exceptionnel du contrôle de trafic Internet permis par l’algorithme de Jacobson&Karels a fait l’objet, depuis sa réalisation, d’une vague de travaux théoriques passionnants pour modéliser le protocole Internet (IP) et sa couche transport (TCP) ainsi que le réseau et le trafic lui-même. Ces travaux théoriques ont à leur tour suggéré des versions améliorées de l’algorithme TCP, en s’appuyant sur des méthodes de preuve de propriétés bien établies en algorithmique distribuée, comme la convergence, la stabilité et l’équité. Ainsi, un cercle fécond d’interactions entre modélisation, preuve, algorithmes, expérimentation s’est mis en place autour de la problématique d’Internet. Des ponts inattendus ont été jetés entre disciplines comme l’algorithmique distribuée, la théorie du contrôle et la théorie des jeux [5]

C’est donc en pensant aussi à Internet, TCP/IP et la toile d’études interdisciplinaires tissée autour, que j’applaudis très fort, tous les jours, à 20h.

Laurent Fribourg (CNRS, LSV, Saclay)

Références

1. V. Jacobson & M. J. Karels. Congestion avoidance and control. Proc. SIGCOMM’88. 1988.
2. Xiaowei Yang. CompSci514: Computer Networks Lect. 4 (End-to-end Congestion Control) https://www.google.com/search?client=firefox-b-d&ei=WXqDXvyYLO-KjLsPl_mAiAk&q=CompSci+514%3AComputer+Networks+Lecture+4%3A+End-to-end+Congestion+Control+&oq=CompSci+514%3AComputer+Networks+Lecture+4
3. Steven H. Low, Fernando Paganini, and John C. Doyle. Internet Congestion Control. IEEE Control Systems Magazine (Vol. 22) Feb. 2002
4. R. Kahn. « Il n’y a pas de limite à l’expansion d’Internet”. Le Temps.2017 https://www.letemps.ch/economie/robert-kahn-inventeur-protocole-tcpip-ny-limite-lexpansion-dinternet
5. S. Zampieri. Trends in Networked Control Systems. Proceedings of the 17th World Congress IFAC, Seoul, Korea, July 6-11, 2008
6. V. Cerf & R. Kahn. A Protocol for Packet Network Intercommunication. IEEE Transactions on Communications (Vol. 22:5), 1974

12 avril 202002 avril 2020

Snowden : d’Orwell à La Boétie

Dans notre série Le divulgâcheur, nous avons le plaisir de vous proposer un article publié en collaboration avec nos ami.e.s d’Interstices. Ils ont demandé à Jean-Louis Lanet (Directeur du Laboratoire Haute Sécurité à l’Inria Rennes) de décrypter les aspects liés à la collecte et à l’analyse des données dans le film consacré à Edward Snowden. Pascal Guitton

Il y a eu un avant et un après l’affaire « Snowden », on ne pourra plus dire qu’on ne savait pas… Décortiquons quelques aspects du film sur le lanceur d’alertes !

Sorti en 2016, Snowden, le film d’Oliver Stone, relate un fragment de la vie du lanceur d’alertes Edward Snowden. Celui-ci semble réaliser son rêve lorsqu’il rejoint les équipes de la CIA puis de la NSA après un passage raté dans l’armée. Il découvre que les services de renseignements de l’Agence nationale de la sécurité américaine (NSA) collectent massivement les données et pistent toutes les formes de télécommunications à une échelle planétaire. Il décide alors de rendre public ce viol de la constitution américaine (le quatrième amendement) par les services de l’État.

On aime ou on n’aime pas ce qu’a fait Snowden, là n’est pas la question. L’affaire Snowden aura au moins eu le mérite d’éveiller une prise de conscience collective. Auparavant, lorsqu’on disait à nos étudiants de faire attention à leurs traces numériques laissées sur Internet, au mieux on recevait un sourire goguenard (encore un enseignant qui a lu Georges Orwell !). Maintenant, au moins, ils ne peuvent plus dire qu’ils ne savaient pas : utiliser un objet numérique laisse des traces qui peuvent un jour être utilisées contre vous. Ces traces sont collectées de votre plein gré ou non. En effet, après une recherche sur Google, la publicité devient ciblée car le contenu de votre requête a été analysé et monétisé après une mise aux enchères. Vous laissez aussi des traces involontairement via votre téléphone sur les bornes de télécommunications (les stations de base). On suit votre téléphone où qu’il aille mais aussi votre carte bancaire, vos billets d’avion ou de train (depuis mai 2019). Vous offrez vos empreintes digitales à votre téléphone, votre voix à votre assistant vocal et vos goûts personnels à Facebook. Ce réseau social vous invite même à « tagger » vos amis ou vos connaissances, c’est-à-dire à participer à l’identification des différentes photos de vos amis. Vous vous transformez ainsi en assistant de cette surveillance. S’il n’était pas évident que nous vivions dans un monde de surveillance globale avant les révélations d’Edward Snowden, la chose est indéniable aujourd’hui.

Le film traite de trois aspects différents : la collecte de données, l’analyse de ces données et le cadre légal de la surveillance. Dans cet article, nous allons revenir sur les deux premiers points relevant de la cybersécurité, la collecte et l’analyse de nos traces.

La collecte de données

Le film montre avec beaucoup de précision comment l’agence obtient les données brutes soit par ses propres logiciels, soit à travers la collaboration ou la connexion directe avec les grandes entreprises de télécommunications ou les fournisseurs d’accès à Internet comme AT&T, Verizon, Google, Microsoft et Facebook. Tous les citoyens voient ainsi leurs données collectées mais en plus, ils font l’objet d’une surveillance continue. Cette surveillance est devenue de plus en plus visible à travers l’omniprésence des caméras dans les rues, l’identification automatique des automobiles, l’utilisation de cartes de crédit et de cartes de fidélité. Les médias sociaux sont devenus une partie dominante du Web, facilitant la surveillance des usagers à une échelle inimaginable auparavant. Dans le film, on voit que l’analyse des connaissances (les contacts du téléphone, des réseaux sociaux) permet de dresser un graphe des relations. Au-delà des empreintes laissées, il est possible d’obtenir en temps réel d’autres informations. Arrêtons-nous par exemple sur la scène où la belle-sœur du financier rentre chez elle le soir, pose son ordinateur portable et commence à se déshabiller. À distance, la NSA allume la webcam, le micro et observe. Un fantasme de voyeur ? Hélas non, ce n’est pas de la fiction, c’est la dure réalité de la cybersécurité. Bienvenue dans un monde où la technologie ne travaille pas toujours pour les citoyens et citoyennes.

Décortiquons ensemble quelques scènes emblématiques. Au début du film, lorsque Snowden reçoit les journalistes, il procède à une étrange cérémonie : il place les téléphones cellulaires dans un four à micro-ondes. Il ne veut pas que l’agence écoute ce qu’ils se disent. Il s’agit des moyens d’écoute à travers les terminaux des usagers. Lorsqu’un logiciel espion est installé sur votre téléphone, quelqu’un peut vous écouter, prendre des photos et vous suivre à la trace — cela est également vrai de Facebook me direz-vous. Seule solution pour Snowden : placer le téléphone dans une enceinte hermétique aux ondes afin que, si le téléphone est sous contrôle, il ne puisse communiquer avec l’agence. J’ai mis mon téléphone dans mon four à micro-ondes (sans allumer le four bien entendu) pour vérifier : quatre barres de réseau, juste parfait. Désolé Edward, mais un four à micro-ondes est bien une cage de Faraday c’est-à-dire qu’elle est conçue pour que les ondes générées par le four ne s’échappent pas dans la cuisine. On peut parler d’un piège à ondes fonctionnant dans les deux sens, elles ne peuvent ni entrer ni sortir. Cependant, la cage est optimisée pour les ondes du four. Pour la soupe à réchauffer, aucun intérêt d’empêcher les ondes radio de France Inter d’entrer dans le four. Donc, cette cage ne laisse pas sortir (ni entrer) les ondes du four, qui émet à 2.4 GHz alors que le téléphone émet sur la bande des 900 MHz. Là, c’est Hollywood qui prend le pas sur la réalité. Edward, il fallait éteindre les téléphones et retirer les batteries, ou bien ne pas introduire les téléphones dans l’hôtel.

Quand sa fiancée lui demande ce qu’il fait au département, elle ajoute une information intéressante : « à chaque fois que tu visitais mon site web, tu avais une adresse IP en Virginie alors que le département d’État n’a pas de bureau en Virginie ». Effectivement, il est possible de réaliser facilement une géolocalisation via l’adresse IP, ce qui fait que l’on peut dire qu’un appareil ayant une telle adresse est localisé dans une zone. Mais ce qu’on localise de cette façon, c’est l’appareil disposant de cette adresse. Or l’adresse est rarement fixe, elle est réattribuée dynamiquement (essayez donc de redémarrer votre box Internet sans la déplacer puis vérifiez votre adresse IP). Il serait donc impossible de savoir appairer un ordinateur avec une adresse ? Là intervient la notion d’empreinte d’un ordinateur. Un ordinateur possède une empreinte qui est unique, votre ordinateur est différent du mien. Pour vous en convaincre, déposez votre empreinte sur le site AmIUnique. La liste des webcam, micro et haut-parleur connectés sur ma machine (ou ayant un jour été connectés) me rend unique sur ce seul critère. À partir de là, dès que je me connecte sur un site web, plus besoin de cookies, je suis reconnaissable, mais pas encore identifiable. Mais si je me connecte sur un réseau social comme LinkedIn, je deviens identifiable. On peut alors associer mon identité à mon ordinateur.

Et Edward dans tout cela ? Il se connecte toujours avec la même machine personnelle, même sur les serveurs de la NSA. Donc, où qu’il soit dans le monde dès qu’il se connecte, la NSA doit être en mesure de le retrouver immédiatement en l’ayant géolocalisé et identifié. Et là, Hollywood nous laisse croire qu’il peut rester plusieurs jours à l’hôtel Mira de Hong Kong sans être repéré.

On voit donc qu’il est possible d’identifier une machine parmi des millions. Mais ensuite, que peut-on en extraire comme information ? Avec son collègue le « geek » de la NSA, ils regardent en direct la belle-sœur du financier qui se dévêt dans sa chambre. Une caméra espion posée par des plombiers ? Non, juste la webcam de l’ordinateur même pas allumée. La technique utilisée est connue sous le nom de RAT (pour Remote Access Tool) qui permet de prendre le contrôle à distance de votre terminal. L’objectif, en ayant installé un tel logiciel généralement non repérable, est d’avoir accès à tous les périphériques de votre terminal : le gestionnaire de fichiers, le microphone, la caméra, la géolocalisation… Non, ce n’est pas Hollywood, là c’est malheureusement la vraie vie. Ces logiciels sont disponibles en accès libre pour certains, monétisés pour d’autres. Donc si c’est disponible pour le grand public, imaginez ce qui est réservé à la NSA. D’ailleurs, récemment, le grand patron d’un GAFA s’est fait pirater son téléphone cellulaire et écouter, comme la chancelière allemande aussi il y a quelques années.

Il est clair que les ordinateurs individuels sont très surveillés, mais ils ne représentent que peu de chose par rapport à l’ensemble des supports électroniques de contrôle, qui eux aussi sont attaquables avec des enjeux stratégiques importants. La NSA tient une réunion avec des officiels japonais qui ne semblent pas très contents : ils apprennent qu’ils sont surveillés depuis des années. De toute manière, le collègue d’Edward lui annonce qu’« on a introduit des logiciels dormants dans leurs infrastructures comme les hôpitaux, barrages, centrales électriques… de façon à ce que le jour où le Japon n’est plus allié… le terrorisme c’est une excuse. Le vrai enjeu, c’est le contrôle économique et social ». C’est une évidence et les États-Unis ne sont plus les seuls à jouer à ce jeu. L’an passé, la société ARM a emboité le pas à Google et Microsoft en cessant sa collaboration avec la société Huawei afin de satisfaire les dernières réglementations du gouvernement américain. Or, il n’y a jamais eu d’explications des raisons pour lesquelles le gouvernement pense que Huawei est une menace, en grande partie à cause des intérêts de la sécurité nationale. Huawei est l’un des principaux fournisseurs d’infrastructure réseau (essentiellement, le matériel auquel votre téléphone se connecte), aux côtés d’Ericsson et de Qualcomm, mais largement en avance sur tous pour la 5G. Une grande partie des preuves restent difficiles à établir. Cependant, ce type d’équipement, à l’instar de nos ordinateurs, fait des mises à jour dynamiquement. Et donc un équipement au dessus de tout soupçon au moment de son installation pourrait facilement être corrompu lors d’une mise à jour. Un logiciel espion peut donc être déployé et retiré à la demande sans laisser de traces. Tant qu’il y aura un pipeline entre le siège de Huawei en Chine et les tours de téléphonie cellulaire aux États-Unis, il y aura un risque élevé que les agences chinoises de surveillance l’utilisent pour introduire des logiciels malveillants dans le réseau, qu’elles le fassent avec l’aide de Huawei ou pas.

L’analyse des données

Cette image montre une succession de O et de 1 sur un fond d'image constitué d'un visage flouté. Elle est à base de couleurs bleues foncées et noires. — © Jiris / Fotolia

Plutôt que de surveiller cet immense flux de données au fur et à mesure que les informations arrivent, la NSA les archive afin de pouvoir extraire ce qui est pertinent ultérieurement. Le film ne fait pas clairement la distinction entre avoir la capacité d’espionner chaque citoyen ou citoyenne et le faire. Espionner chaque individu nécessite d’analyser des volumes de données très importants et de comprendre les interactions entre les gens. Dès lors, le défi technique est de corréler les informations pertinentes, ce qui est connu en tant que champ scientifique de fouille de données (ou Data Mining). La fouille de données apparaît au milieu des années quatre-vingt-dix aux États-Unis comme une nouvelle discipline à l’interface de la statistique et des technologies de l’information comme les bases de données, l’intelligence artificielle ou l’apprentissage automatique. Le postulat fondamental de ces approches est que, dans toute base de données enregistrant les événements d’un processus, les données ne sont pas distribuées au hasard. Les approches analytiques cherchent à mettre en évidence, décrire et permettre de reconstruire les effets de ces processus. Cette action d’identification des effets d’un processus à partir de données se caractérise par la construction d’un modèle, ensemble de règles, d’équations, de formules qui rendent compte de la distribution des données dans la base. Le modèle est construit en fonction des régularités (patterns) de l’ensemble des données. Le succès de l’analyse se mesure à sa capacité à détecter les régularités fortement significatives. Les informations révélées par Snowden comprennent des détails sur la façon dont le système XKeyScore peut analyser la masse de données massives, trouver des connexions entre les personnes et des modèles de voix correspondants. Différents types de modèles peuvent être utilisés pour extraire des informations pertinentes.

En particulier, son collègue lui montre qu’il est possible, à partir des liens qui relient chaque individu, de découvrir des personnes suspectes. Il explique qu’ils établissent les contacts à trois degrés du suspect d’origine. Les six degrés de séparation sont une théorie établie par le Hongrois Frigyes Karinthy en 1929 qui évoque la possibilité que toute personne sur le globe puisse être reliée à n’importe quelle autre, au travers d’une chaîne de relations individuelles comprenant au plus six maillons. Autrement dit, vous êtes forcément ami de quelqu’un qui connait quelqu’un etc. qui connait Donald Trump (par exemple). Mais cette théorie date du temps vénérable où, pour communiquer, on mettait un joli timbre sur une lettre et on attendait le facteur. L’eau a coulé sous les ponts depuis et si vous appartenez à un réseau social, cette distance tombe à 3,5. Facebook annonce fin 2019 avoir des distances de 3,2 en moyenne voire inférieures à 2,9 dans certains cas. Dans ce cadre, le programme de la NSA connectant un suspect avec ses contacts ayant une distance au plus de 3 ferait tomber dans le terrorisme la moitié de la planète (Donald inclus) — si la distance entre chaque terrienne et terrien est de 6 et que Facebook en connait 3, cela représente donc en moyenne la moitié de la population.

Pour revenir à XKeyScore, c’est un programme de surveillance de masse créé par la NSA et opéré conjointement avec les services de renseignement britanniques, canadiens, australiens et néo-zélandais, services dont la coopération historique en matière de partage de l’information a entraîné le surnom des « Five Eyes ». Il permettrait une collecte quasi-systématique des activités de tout utilisateur ou utilisatrice sur Internet. Plus l’échelle de surveillance est grande, plus il est probable que de faux positifs apparaissent. Les statistiques donnent des chiffres qui sont des moyennes, des écarts-types avec évidemment des erreurs. On parle alors de faux positifs : vous êtes classé suspect « à l’insu de votre plein gré ». Il y a aussi les faux négatifs : un terroriste classé dans la catégorie sans risque. Mais sur la masse de données traitées, ces erreurs sont négligeables. Sauf pour l’individu négligé évidemment.
Conclusion

Ce film a un intérêt pédagogique indéniable. Il met en lumière plusieurs éléments essentiels. La vie privée est généralement interprétée comme une question relative aux intérêts ou aux droits d’une personne identifiable. Mais ce n’est plus le cas aujourd’hui. Le profilage réalisé par la NSA est anticipateur (ce n’est qu’une prédiction) et un éventuel lien avec le terrorisme est la base de la suspicion, un défi nouveau et fondamental à la vie privée émerge : vous devenez suspect par une chaîne de relations. Vous devenez comptable des relations de vos relations.

Un autre point concerne l’absence de discernement sur les capacités des technologies utilisées par le grand public. Il s’agit de la manière dont les citoyennes et citoyens s’engagent dans leur quotidien, dans des communications, des interactions et des échanges, par l’usage de technologies numériques. Il est possible de concevoir qu’une proportion croissante de la population mondiale vit au sein d’une culture de la surveillance à laquelle elle s’est habituée. Il devient très difficile de comprendre les enjeux, les risques encourus par les individus et au-delà par la collectivité. L’apprentissage du numérique ne peut être décorrélé de la sensibilisation aux risques d’usage.

Dans le Périgord, Étienne de La Boétie a écrit il y a fort longtemps, un petit opuscule étonnamment moderne : De la servitude volontaire. Il serait utile de le relire de nos jours « … soyez résolus de servir point et vous voilà libre… ». En raison de la valeur des données personnelles, il semble étrange que les utilisateurs des réseaux sociaux autorisent la large diffusion de leurs données en ligne. Lorsque vous vous identifiez avec des données (nom, date de naissance…) il devient possible de faire un lien (une corrélation) entre le contenu de votre page sur le réseau et vous. Si en plus vous identifiez des tiers (je tague mon ami) vous collaborez à cette approche. Les données offertes volontairement rendent vulnérables à une surveillance intense tant par des entreprises qui recherchent leurs informations à des fins de marketing que par les agences de renseignement. Une telle servitude volontaire aurait certainement troublé George Orwell, sensible qu’il était à l’utilisation de nouvelles technologies pour assurer la servitude des masses à l’État.

Grâce à Snowden, nous avons pris conscience que la surveillance est globale. Les enjeux sont considérables et demandent une compréhension renouvelée de l’importance de la surveillance, mais aussi d’être avertis des possibilités de résistance en diffusant avec parcimonie et en connaissance de cause nos données. La protection de la vie privée devient un enjeu non seulement scientifique mais aussi sociétal.

Jean-Louis Lanet (Inria, directeur du Laboratoire Haute Sécurité à l’Inria Rennes Bretagne Atlantique)

11 avril 202007 avril 2020

“Parlons Maths” : Animath se démathérialise !

Les mathématiques s’invitent chez vous ! Une nouvelle activité pour parler de maths a été lancée en quelques jours par l’association Animath. Sur “Parlons Maths”, des bénévoles proposent chaque jour une vidéo en direct avec une énigme, des exposés ainsi que des discussions mathématiques. Pendant le direct, les internautes peuvent commenter à l’écrit via le tchat.

Les publics visés par cette activité sont les élèves de collège et lycée, dans la continuité des activités existantes d’Animath. Il s’agit d’activités périscolaires et non de cours, les contenus ne suivant pas nécessairement le programme scolaire.

Actuellement, la chaîne “Parlons maths” diffuse 2h par jour, du lundi au vendredi de 16h à 18h. Plusieurs exposés de 30 min à 1h s’enchaînent pendant ce créneau : conférence grand public, analyse d’un problème (du tournoi TFJM², des Correspondances, ou de MATh.en.JEANS, notamment, présentation d’une notion mathématique, historique, d’une énigme qui sera résolue le lendemain, questions/réponses avec l’intervenant, etc.

Retrouvez-nous sur :

10 avril 202010 avril 2020

The Game, d’Alessandro Baricco

Dans son essai The Game, Alessandro Baricco remonte le temps pour nous expliquer les mutations liées aux nouvelles technologies. Isabelle Collet, enseignante-chercheuse à l’université de Genève, nous le fait découvrir et en fait l’analyse critique. Clémentine Maurice.

Alessandro Baricco est ce magnifique auteur qui a écrit Novecento : pianiste, et pour cela, il a ma reconnaissance éternelle.

Il n’a pas écrit que cela. En Italie, c’est un auteur à succès, très présent dans les médias, il écrit des romans, des essais, du théâtre, des films, des chroniques dans des journaux, et il a refusé le Ministère de la Culture. C’est un auteur avec un style indéniable (qui plaît ou pas), un avis, un humour et un bel optimisme sur la vie.

Il a remporté le Prix de la fondation Veillon de l’essai européen pour son ouvrage sur la révolution numérique : The Game sorti en 2019 chez Gallimard. Il va être invité à Lausanne pour une cérémonie, ainsi qu’à une table ronde à l’Université de Lausanne le lendemain, où je serai invitée également pour discuter de l’absence des femmes dans la révolution numérique, parce que, me dit-on, il y fait allusion dans son ouvrage.

J’achète alors son livre et je me prépare à jouer les groupies, en me demandant si je lui demanderai un autographe sur The Game ou sur Novecento… parce que sur les deux, ça fait plouc (j’ai aussi Soie, Châteaux de la colère, Océan mer… bref, je suis fan…).

Et paf, le Covid. Tout est reporté, mais je lis quand même The Game.

Bon, tout d’abord, enlevons tout suspens : les allusions à l’absence de femmes dans la révolution numérique sont minuscules. Je dirais 2 x 2 lignes sur 400 pages. Les femmes elles-mêmes y sont aussi remarquablement absentes : 0 sur 400 pages aussi. Pêché véniel : difficile de parler des femmes dans le numérique, quand on est préalablement persuadé qu’il n’y en a pas… Il n’est pas sociologue, il est pardonné. Mais c’est quand même un point aveugle.

Qu’y a-t-il alors dans ce livre ?

Tout d’abord, c’est un ouvrage qui m’a donné de la peine. À la fois, il est tout à fait brillant dans beaucoup de ce qu’il dit. La construction de son récit est originale, agrémentée de cartes de géographie pour nous repérer dans Le Game, qui est le nom qu’il donne à tout l’espace numérique. On retrouve dans ce livre son style, son humour, sa manière particulière de raconter les histoires. Personnellement, c’est là que je décroche. C’est un livre littéraire qui parle de sociologie du numérique et je n’arrive pas à me caler. Le littéraire, les artifices de style me gênent. Les raccourcis ou les partis-pris me dérangent. Mais en réalité, ce que je dis, c’est qu’il n’a pas écrit un ouvrage sociologique, mais un essai. Ce qui tombe bien, c’est précisément ce qu’il prétendait faire. Ce faisant, il ouvre le sujet vers un public qui ne lirait peut-être pas un ouvrage de sociologie, mais qui pourrait lire un essai, un public de littéraires qui serait en demande d’un autre type de récit, d’un autre storytelling.

Et il s’y connaît en storytelling, Baricco, il le défendra même à la fin de l’ouvrage. Le storytelling, ce n’est pas un déguisement des faits, c’est une partie du réel, c’est le design qu’on donne aux faits pour les mettre en mouvement et leur permettre de s’intégrer dans la réalité, leur faire prendre sens. Baricco donne un certain design à la révolution numérique qu’il nomme même finalement : « insurrection numérique ». C’est avec un certain sens du design, que Baricco nous fait entrer dans sa réflexion… et c’est aussi ce design qui m’a fatigué à la longue. Mais revenons au contenu.

Tout d’abord, Baricco pense résolument du bien de la transformation numérique du monde et se moque de ceux qui y voient la mort de la culture : « Quand les gens pensent voir la fin de la culture chez un jeune de 16 ans qui n’emploie pas le subjonctif, sans remarquer que par ailleurs ce garçon a vu trente fois plus de films que son père au même âge, ce n’est pas moi qui suis optimiste, ce sont eux qui sont distraits ».

Il part d’une idée extrêmement intéressante : ce n’est pas la révolution numérique qui produit une révolution mentale (c’est à dire une nouvelle manière de penser). Le monde numérique n’est pas la cause des changements de mentalités, il en est la conséquence. C’est bien une nouvelle forme d’intelligence qui a généré la révolution numérique et non le numérique qui a produit ex nihilo une nouvelle façon de penser. Cette nouvelle forme d’intelligence avait besoin d’outils pour sa nouvelle façon d’être au monde. Et elle s’en est dotée avec internet, les apps, les réseaux sociaux… Il faut en fait se demander quel genre d’esprit désire utiliser Google ? Quel genre d’esprit s’amuse sur un smartphone ? Quel genre d’esprit s’est passionné pour Space Invaders ? Ce sont ces esprits-là qui ont créé la révolution numérique en se dotant des outils qu’ils avaient envie ou besoin d’utiliser. Et qui continuent de l’alimenter.

Comme le dit Stewart Brand, l’auteur de l’ouvrage de chevet de Steve Jobs The Whole Earth Catalog : « Beaucoup de gens croient pouvoir changer la nature des personnes, mais ils perdent leur temps. On ne change pas la nature des personnes. En revanche, on peut transformer la nature des outils qu’ils utilisent. C’est ainsi qu’on changera le monde ».

Voilà ce qu’il s’est passé : le numérique a supprimé les intermédiaires, a shunté les anciennes élites. Il a transformé en profondeur les manières de faire et ainsi il nous a transformés. Mais à l’origine, il y a eu une poignée de hippies, en Californie qui ont voulu un autre monde. Attention, Baricco ne dit pas qu’ils avaient une idéologie pour un autre monde, au contraire. Certains l’avaient, mais ce n’est pas l’essentiel. Ils voulaient un autre type d’interaction au monde. Pourquoi aller dans une librairie alors qu’on veut juste acheter un livre ? Pourquoi aller au cinéma si on veut juste voir un film ? Pourquoi réunir des experts, se soumettre à des protocoles, respecter des rites de passage, prendre un dictionnaire, un annuaire, une encyclopédie pour produire une connaissance si finalement la somme des connaissances de tout le monde permet de générer la même chose ou presque ? Pourquoi passer par une agence de voyages alors qu’on veut juste voyager ?

Ces gens n’avaient pas une théorie sur le monde, mais une pratique du monde. Ils faisaient de la résolution de problèmes, créaient des outils. Jeff Bezos se moque de la mort des librairies. Airbnb de la mort des hôtels ou de la disparition des appartements à louer dans les grandes villes. Les apps apportent des solutions à des problèmes précis. C’est tout.

Parmi ces hippies de Californie, certains avaient tout de même un combat : enterrer le XXe siècle qui a été le siècle le plus atroce de l’histoire de l’humanité. Une civilisation riche et raffinée, possédant toute sorte de ressources matérielle et culturelle, a déclenché sous de vagues prétextes deux guerres mondiales, a généré la Shoah, le moyen de se détruire elle-même avec une bombe et s’en est aussitôt servie. Et encore, Baricco oublie la colonisation… Bref, les meneurs de l’insurrection numérique ont voulu faire en sorte que le XXe siècle devienne impossible, tout d’abord parce qu’il deviendra impossible de dissimuler des mensonges géants ou des tueries géantes. On retrouve là les rêves de Norbert Wiener, le père de la Cybernétique, tels qu’il les expose dans Cybernétique et Société, en 1948… et Norbert Wiener n’était certainement pas un hippie. « Le XXe est le siècle de Hiroshima et de Bergen-Belsen » disait-il.

L’insurrection numérique abat des élites et en particulier, les faiseurs de vérité. Baricco raconte que dans son enfance, le journal télé de l’unique chaîne était la nouvelle messe. Il n’y avait qu’un seul journal, détenu par l’homme le plus riche de la ville et quand les USA ont bombardé Hiroshima, tout le monde a trouvé ça génial. Certes, il y a aujourd’hui des fake news… Mais quand Colin Powell a parlé des armes de destructions massives en Irak en agitant une fausse capsule d’Anthrax, c’était une méga fake news qui a emporté le monde à la guerre. Aujourd’hui, tout le monde a accès à de nombreux médias, et peut poster son avis, même incompétent. La bataille contre les fake news est certes utile mais elle est aussi menée par ceux qui hier étaient les seuls à avoir le pouvoir de les créer. Aujourd’hui, il n’y a plus une poignée de gens qui vont décider ce qui a le droit d’être écrit et qui a le droit de le faire.

Tout le monde ou presque a accès à toute la musique du monde ou presque, peut voir tous les films possibles ou presque, écouter des concerts, voir des spectacles, et plus seulement le top de la bourgeoisie. Certes il existe des fractures numériques. Le « ou presque » est là pour signifier que la culture nord-américaine est surreprésentée. Mais les pauvres ont des smartphones. A quelle époque a-t-on connu un tel partage de l’information ? Un tel accès généralisé à une culture mondiale (certes, un peu trop occidentale-centrée) ? Autant de moyen de mettre en cause les « vérités » énoncées par l’élite ? Autant d’accès au savoir ?

Mais pourquoi appeler le monde numérique The Game ? Pour Baricco, l’instant fondateur, c’est la présentation de l’iPhone par Steve Jobs en 2007. Regardez-le sur scène : il présente un outil qui n’est pas vraiment un téléphone et il s’amuse avec. Tout est léger, tout est en mouvement, l’objet est joli, coloré et amusant. Une cabine téléphonique, ce n’était pas amusant. Le BlackBerry n’était pas amusant. l’iPhone était élégant, confortable et amusant. L’iPhone existe pour les joueurs qui ont délaissé le babyfoot pour Space Invaders. La transition numérique, c’est la ludification d’un monde toujours en mouvement.

Un monde toujours plus dense, plus riche. C’est pour cela qu’on le poste sur les réseaux sociaux. Il n’y a pas 2 mondes, le réel et le virtuel. Le monde réel a colonisé le 2^e monde via les réseaux sociaux : si on poste des photos de soi et de sa vie, c’est pour enrichir le 1^er monde. On peut y voir des personnes incapables d’apprécier le quotidien, le présent, d’apprécier ce qu’elles ont. On peut y voir aussi une façon de refuser de se résigner au banal, de lancer sa vie dans le deuxième monde pour la rendre plus vivante, pour y mettre encore plus de vie, faire en sorte qu’elle soit à la hauteur de nos attentes.

Pour Baricco, l’insurrection numérique n’est pas finie. Il constate que les riches du Game le sont de manière traditionnelle (et les pauvres également). Il constate aussi que cette succession de pratiques a généré beaucoup d’individualisme de masse et souvent, quand le Game croise la politique, on en ressort des mouvements populistes. Il conclut en plaidant pour remettre de l’humanité dans le Game, sans le remettre en cause, car il lui est reconnaissant d’avoir tué le XX^e siècle.

Il manque à ce livre une analyse critique et politique du fonctionnement actuel du numérique, de ses liens en particulier avec l’argent, et des stratégies psychologiques d’addiction dissimulée sous la ludification. L’individualisme de masse n’est-il pas consubstantiel au Game ? Néanmoins, pour l’originalité de l’éclairage qu’il apporte, le travail d’histoire de l’informatique qui fait plaisir à lire et la légèreté de ton, je pense que The Game est un ouvrage brillant. Et s’il est un peu fouillis, l’auteur a l’amabilité de nous en faire une très belle synthèse en conclusion.

Isabelle Collet est une informaticienne, enseignante-chercheuse à l’université de Genève et romancière française qui travaille sur les questions de genre et les discriminations des femmes dans l’informatique et dans les sciences.

09 avril 202007 avril 2020

Gouvernance numérique et santé publique. Vers un confinement sélectif basé sur les informations personnelles ?

Vers un confinement sélectif basé sur les informations personnelles ? Stéphane Grumbach et Pablo Jensen. posent clairement la question qui va se poser dans les heures qui viennent dans notre pays, et nous propose une analyse sereine et factuelle de ce choix pour notre société. Thierry Viéville.

La présente pandémie de coronavirus confronte les gouvernements à une question simple : comment utiliser les données et les systèmes numériques pour une plus grande résilience sociale et économique ? Car force est de constater que le confinement généralisé tel qu’il est assez largement pratiqué aujourd’hui dans le monde est tout à fait anachronique. Il ne fait aucune distinction entre les personnes, infectées, à risque, malades ou déjà immunisées. Or, de telles informations personnelles sont désormais potentiellement accessibles grâce aux technologies numériques. Certains pays d’Asie, comme la Corée et Singapour, ont mis en place des politiques combinant dépistage à large échelle et exploitation des données personnelles et d’interaction sociales. Les données disponibles à ce jour indiquent que ces pays ont réussi à infléchir leur courbe de contagion avec succès.

Si la capacité de récolter ce type de données n’est pas sans poser de questions politiques essentielles, il nous semble qu’il fait peu de doute que de telles méthodes seront déployées rapidement dans la majorité des pays du monde. Elles seront justifiées par la protection des personnes les plus faibles, premières victimes des pandémies, mais également par le coût abyssal du confinement généralisé, en termes monétaires, mais également de santé publique: suicides, maltraitances, etc. Les arbitrages dans ces domaines se font généralement en faveur de l’intérêt collectif au détriment de l’avantage personnel. En ce qui concerne l’accès aux données personnelles, des moyens technologiques et légaux ont été mis en oeuvre dans la plupart des pays dans la dernière décennie pour renforcer la sécurité globale. Ils permettent la surveillance de la population et la censure de contenus jugés indésirables par les Etats. Ces outils ne relèvent pas d’une nécessité plus impérieuse que celle des crises sanitaires. De surcroît, la politique de santé est souvent coercitive, comme c’est le cas pour la vaccination, qui est obligatoire.

S’il nous apparaît évident qu’une forte pression vers une gouvernance numérique invasive résultera de cette crise, il convient de réfléchir aux conditions de sa mise en oeuvre. Il faut avoir conscience que cette crise offre une extraordinaire opportunité pour les grandes plateformes globales de se saisir des données santé personnelles en offrant des services dont l’utilité garantira leur adoption d’abord par les individus puis par les acteurs de la santé, faisant sauter les barrières légales. Mais la crise offre aussi une extraordinaire opportunité aux Etats de mettre en place un véritable service numérique de santé public satisfaisant des exigences éthiques fortes. Un des principes de base d’un tel déploiement consiste à remonter seulement l’information strictement nécessaire vers les centres de contrôle. Ainsi, des techniques basées sur bluetooth, capables d’enregistrer des voisinages entre personnes sans dévoiler leurs positions, semblent moins invasives que le traçage GPS, tout en fournissant des informations de contact plus précises pour prévenir la propagation de l’épidémie. Un consortium européen s’est créé pour proposer ce type d’outils de traçage, qu’il convient de maintenir sous surveillance citoyenne.

Dans un récent article de Science, Ferretti et al., proposent des modèles de l’impact d’un traçage numérique personnalisé, en fonction de son adoption par la population (e.g., pourcentage d’utilisateurs, respect des consignes) et des paramètres externes, comme le nombre de tests, de masques, de lits d’hôpitaux, etc. Ces simulations montrent qu’une adoption même partielle de ces techniques de traçage combinées à un dépistage suffisamment large peut contribuer significativement au ralentissement de la propagation de l’épidémie. En combinant les comparaisons entre pays à des outils de simulations numériques, une vision informée des compromis nécessaires pour la santé publique sera possible.

Stéphane Grumbach et Pablo Jensen.

Pour en savoir plus :

Pablo Jensen, Pourquoi la société ne se laisse pas mettre en équations, Paris, Seuil, coll. « Science ouverte », 2018, 336 p., ISBN : 978-2-02-138010-1 https://journals.openedition.org/lectures/25155
Stéphane Grumbach L’Entropie du Numérocène Quelques réflexions sur la Révolution Numérique et l’Anthropocène DataSphere https://hal.inria.fr/hal-02021716

08 avril 2020

Comité national pilote d’éthique du numérique – BV1

Bulletin de veille n°1

Réflexions et points d’alerte sur les enjeux d’éthique du numérique en situation de crise sanitaire aiguë: Ce premier bulletin de veille du Comité national pilote d’éthique du numérique présente le contexte et développe deux points spécifiques. D’une part les questionnements éthiques liés à l’usage des outils numériques dans le cadre d’actions de fraternité, et d’autre part celui des enjeux éthiques liés aux suivis numériques pour la gestion de la pandémie. Télécharger le document

08 avril 202009 avril 2020

Raconte-moi un algorithme : à la recherche du web perdu

En 2020, chaque mois, Charlotte Truchet et Serge Abiteboul nous racontent des histoires d’algorithmes. Des blockchains aux algorithmes de tri en passant par le web, retrouvez tous leurs textes, ainsi que des petits défis mathématiques, dans le Calendrier Mathématique 2020 et dans la série binaire associée… Antoine Rousseau

Avril : À la recherche du web perdu

Comment les moteurs de recherche du Web permettent-ils à leurs utilisateurs de trouver ce qu’ils cherchent parmi les volumes phénoménaux d’information disponibles ?

Le Web, c’est d’abord un nombre impressionnant de pages de texte. Imaginons un moteur de recherche comme un index de ces pages, un peu comme l’index d’un très grand livre – vous lui donnez quelques mots, il vous dit quelles pages du web les contiennent. Le travail est énorme parce que le moteur de recherche le plus populaire aujourd’hui indexe des milliards de pages et répond chaque jour à des milliards de questions. Si on imprimait un tel index, il faudrait plus de pages de papier que n’en stocke la Bibliothèque Nationale de France. Alors comment un moteur de recherche du Web arrive-t-il à faire cela ?

L’astuce est de partager l’index entre un très grand nombre de serveurs. Par exemple, nous allons le partager entre un million de serveurs. Pour cela, construisons d’abord une fonction H, qui transforme, le plus aléatoirement possible, un mot en un entier entre un et un million. Si H(« Rodin ») = 250 853, alors le numéro de la machine qui conserve l’index du mot « Rodin » est 250853. Cela permet de partager le travail de l’index assez équitablement entre tous les serveurs. Pour obtenir l’entrée de l’index pour « Rodin », il suffit de calculer H(« Rodin ») et on sait à quel serveur demander cette entrée.

La distribution aléatoire des mots entre tous les serveurs permet d’exploiter au mieux le parallélisme pour répondre à toutes vos questions.

Reste maintenant à choisir, parmi les millions de pages qui contiennent les mots d’une requête, les plus intéressantes. C’est essentiel car un utilisateur va rarement au-delà des dix ou vingt premiers résultats proposés. Ce qui a fait le succès de Google, c’est un algorithme, PageRank, qui basait le classement sur la popularité des pages sur le Web. Les algorithmes de classement des moteurs de recherches utilisent aujourd’hui de nombreux critères pour classer les résultats. La formule précise est un secret industriel au moins aussi secret que la composition du Coca Cola.

Ici, nous avons hyper-simplifié le problème. Le système traite plusieurs langues, il retrouve les pages qui contiennent des synonymes des mots que vous avez entrés, il fonctionne même quand des ordinateurs qui le composent tombent en panne, il s’adapte quand les pages changent, quand de nouvelles pages sont ajoutées , il accepte même vos fautes d’orthographe. Rien de magique, juste de super algorithmes.

Serge Abiteboul et Charlotte Truchet

07 avril 202007 avril 2020

Des logiciels pour gérer le cyberharcèlement

Les outils numériques permettent la diffusion des connaissances et des contacts riches entre les internautes. Ils ont aussi permis le développement de comportements toxiques comme les fakenews ou les messages de haine sur les réseaux sociaux. Des chercheurs spécialisés en traitement automatique du langage naturel de l’Université Côte d’Azur nous parlent ici de nouvelles technologies qu’ils développent pour lutter contre un autre mal des réseaux sociaux, le cyberharcèlement. Tamara Rezk, Serge Abiteboul

Le cyberharcèlement est une forme d’intimidation perpétrée par des moyens électroniques. Ce type de harcèlement est en croissance constante, en particulier du fait de la propagation d’Internet et des appareils mobiles chez les jeunes. En 2016, un million d’adolescents ont été harcelés, menacés ou soumis à d’autres formes de harcèlement en ligne uniquement sur Facebook. On estime qu’environ 70 % des victimes de harcèlement classique ont également subi des épisodes via des canaux virtuels. On sait maintenant que le cyberharcèlement peut conduire les victimes à la dépression, nuire à leur santé mentale, ou augmenter leur propension à consommer des substances. On a aussi observé, qu’en particulier chez les jeunes, le cyberharcèlement pouvait encourager au suicide.

Pinar Arslan, Elena Cabrio, Serena Villata, Michele Corazza

L’informatique, qui fournit aux intimidateurs de nouveaux moyens de perpétrer un comportement nocif, permet également de lutter contre le cyberharcèlement. Le projet CREEP (pour Cyberbullying Effects Prevention ) s’efforce de développer des logiciels dans ce sens. C’est un projet multidisciplinaire cofinancé par l’Institut Européen de la Technologie et du Numérique (EIT-Digital) qui regroupe un certain nombre de partenaires en Europe, la Fondation Bruno Kessler , les sociétés Expert System et Engineering, l’Université Côte d’Azur et Inria Rennes.

Le projet envisage notamment la création de deux produits innovants.

CREEP Virtual Coaching System est un assistant virtuel qui offre des conseils et des recommandations de prévention aux adolescents victimes ou susceptibles de l’être. L’utilisateur interagit avec son propre système de coaching virtuel via un chatbot, un assistant vocal s’appuyant sur l’intelligence artificielle.
CREEP Semantic Technology est un outil de surveillance automatique des réseaux sociaux permettant de détecter rapidement les situations de cyberharcèlement et de surveiller des jeunes victimes (même potentielles), dans le strict respect de la législation en vigueur, de la confidentialité et protection des données personnelles.

Un groupe interdisciplinaire de sociologues et psychologues a coordonné des analyses sociologiques, qualitatives et quantitatives, visant à mieux comprendre le phénomène du cyberharcèlement, les profils des victimes et des intimidateurs ainsi que la dynamique sous-jacente pour répondre aux exigences socio-techniques nécessaires pour le développement de technologies. Par exemple, une enquête a été menée sur un échantillon d’étudiants italiens âgés de 11 à 18 ans (3 588 répondants) dans le but de comprendre la composition socio-démographique des victimes, leurs mécanismes de réaction et ce qui les influence. Les résultats de l’enquête ont montré par exemple que les plus jeunes (11-13 ans), en particulier, refusaient fortement de demander de l’aide. L’objectif est de définir les suggestions les plus efficaces à fournir par l’assistant virtuel en fonction du profil de l’utilisateur.

Pour cette raison, les conseils doivent viser à briser le « mur de caoutchouc », à pousser les harcelés à se confier aux adultes et à renforcer les réseaux sociaux sur lesquels ils peuvent compter (enseignants, amis, parents). Dans le même temps, des différences significatives ont été constatées entre les hommes et les femmes. Pour cette raison, l’assistant virtuel fournira des suggestions diversifiées en fonction du genre. Enfin, de manière générale, la nécessité de sensibiliser les jeunes à l’utilisation consciente des réseaux sociaux et des applications mobiles est apparue, l’activité intense en ligne augmentant de manière exponentielle le risque de nouveaux cas de harcèlement.

CREEP Semantic Technology (réseaux utilisateurs, et messages haineux détectés)

Pour ce qui concerne la détection, le problème est complexe.

Un défi vient de l’énorme masse de données échangées tous les jours dans les réseaux sociaux par des millions d’utilisateurs dans le monde entier. La détection manuelle de ce type de messages haineux est irréalisable. Il faut donc bien s’appuyer sur des logiciels, même si un modérateur humain doit être impliqué pour confirmer le cas de harcèlement ou pas.

La tâche algorithmique de détection de cyberharcèlement ne peut pas se limiter à détecter des gros mots, insultes et autres termes toxiques. Certains termes qui sont insultants dans certains contextes peuvent sonner différemment entre amis ou accompagnés d’un smiley. Pour des adolescents par exemple, un mot très insultant, comme bitch en anglais, peut être utilisé de manière amicale entre amis. Il faut donc se méfier des faux positifs. Au contraire, des messages qui a l’apparence ne contiennent pas de termes toxiques peuvent être beaucoup plus offensifs s’ils contiennent du second dégré ou des métaphores haineuses. Un risque de faux négatifs existe donc aussi si on se limite à l’analyse textuelle des contenus.

Alors comment faire ? On s’est rendu compte qu’on pouvait détecter les cas de cyberharcèlement en effectuant une analyse de réseau et des contenus textuels des interactions. Puisque le cyberharcèlement est par définition une attaque répétée dirigée contre une victime donnée par un ou plusieurs intimidateurs, un système détectant automatiquement ce phénomène doit prendre en compte non seulement le contenu des messages échangés en ligne, mais également le réseau d’utilisateurs impliqués dans cet échange. En particulier, il convient également d’analyser la fréquence des attaques contre une victime, ainsi que leur source.

C’est ce que réalise CREEP Semantic Technology en analysant un flux de messages échangés sur les réseaux sociaux liés à des sujets, hashtags ou profils spécifiques. Pour ce faire, l’équipe a d’abord développé des algorithmes pour identifier les communautés locales dans les réseaux sociaux et isoler les messages échangés uniquement au sein de cette communauté. Elle a ensuite produit un algorithme de détection de cyberharcèlement qui s’appuie sur plusieurs indicateurs pour la classification des messages courts comme les émotions et sentiments identifiés dans les messages échangés. C’est là que l’intelligence artificielle trouve sa place : des méthodes d’apprentissage automatique et d’apprentissage profond, des réseaux de neurones récurrents.

Afin de tester l’efficacité du prototype, plusieurs tests ont été réalisés sur différents jeux de données contenant des instances de cyberharcèlement ou d’autres types de harcèlement sur les plates-formes de médias sociaux. Les résultats sont bons.

Dans l’avenir, la CREEP Semantic Technology va évoluer dans deux directions : l’analyse des images potentiellement associées aux messages (avec une équipe de recherche d’Inria Rennes), et l’extension du prototype à d’autres langues telle que le Français, l’Espagnol et l’Allemand, en plus de Italien et de l’Anglais qui ont été pris en compte au début du projet.

Elena Cabrio et Serena Villata, Université Côte d’Azur, CNRS, Inria, I3S