janvier 2018 – binaire

29 janvier 2018

Le temps des prix

En janvier 2017, nous vous faisions part de la sortie du livre « Le temps des algorithmes » écrit par Serge Abiteboul et Gilles Dowek aux éditions Le Pommier. Aujourd’hui, nous avons l’occasion d’en reparler car cet ouvrage vient de recevoir le prix « La Science se livre » catégorie adulte. Cette manifestation destinée à valoriser la culture scientifique auprès du grand public est organisée par le Département des Hauts-de-Seine en partenariat avec l’association BiB 92 et la Bibliothèque Nationale de France. » Le temps des algorithmes« a été primé pour « l’originalité des sujets abordés, la rigueur scientifique de son contenu, et les qualités de transmission des connaissances au public ».

Couverture Livre le temps des algorithmes par Serge Abiteboul et Gilles Dowek Nous avions partagé avec vous notre enthousiasme pour cet ouvrage cité en référence à maintes reprises pour la qualité de son approche et la pertinence de son contenu. Il permet en effet de comprendre la notion d’algorithme, de nous faire découvrir comment ils façonnent notre société actuelle et surtout il invite le citoyen à acquérir un socle de connaissance suffisant pour pouvoir appréhender les enjeux liés à ses algorithmes.

Dans un tout autre domaine, le prix « la Science se livre » catégorie adolescent a été attribué à Hélène Rajcak et Damien Laverdunt pour leur ouvrage « Le monde invisible des animaux microscopiques » paru aux éditions Actes Sud Junior.

Très bonne lecture à toutes et tous.

Marie-Agnès Enard

PS : le comité éditorial de binaire (sauf Serge Abiteboul) a jugé pertinent d’annoncer ce prix.

26 janvier 201830 janvier 2018

Parce qu’elle le vaut bien

La Fondation L’Oréal remettait le 11 octobre 2017 à 30 jeunes femmes leurs bourses 2017 L‘Oréal-UNESCO Pour les Femmes et la Science en partenariat avec l’Académie des sciences et la Commission nationale française pour l’UNESCO. Ce programme identifie et récompense de jeunes chercheuses talentueuses dans les sciences formelles, les sciences du vivant et de l’environnement, les sciences de la matière, les sciences de l’ingénieur et technologiques. Florence Sèdes qui anime à la Société Informatique de France le groupe « femmes & informatique » partage ici le beau succès en informatique de Tahina Ralitera. Serge Abiteboul et Thierry Viéville.

30 jeunes femmes scientifiques au parcours d’excellence ont reçu la bourse « Pour les Femmes et la Science » doté de 15 000€ pour les doctorantes et de 20 000€ pour les post-doctorantes. Elles ont été sélectionnées parmi plus de 1 000 candidates par un jury indépendant composé d’académiciens qui ont tenu à récompenser l’excellence de leur niveau académique, l’originalité de leur projet scientifique, mais aussi leur désir de transmettre leur passion aux plus jeunes.

« Depuis 10 ans, la Fondation L’Oréal s’engage en faveur des femmes dans le monde afin de les soutenir et de les valoriser. A travers le programme Pour les Femmes et la Science, nous avons déjà pu soutenir plus 2700 jeunes femmes scientifiques pour les aider à briser le plafond de verre », déclare Alexandra Palt, Directrice Générale de la Fondation L’Oréal.

Tahina Ralitera, jeune informaticienne malgache, actuellement en troisième année de doctorat au Laboratoire d’Informatique et de Mathématiques de l’Université de La Réunion, figure parmi les lauréates.

Tahina Ralitera a 24 ans. En 2009, elle obtient à Madagascar, son île natale, un baccalauréat série C et réussit le concours d’entrée à l’École Supérieure Polytechnique d’Antananarivo, dans la filière télécommunications. En 2013, elle reçoit une bourse du gouvernement français pour poursuivre des études d’ingénieur en informatique et télécommunications à l’École Supérieure d’Ingénieurs Réunion Océan Indien à La Réunion. Elle obtient un Master 2 en 2016, major de promotion. Diplômée ingénieure en Informatiques et Télécommunications, elle se lance dans une thèse d’informatique.

Laissons parler Tahina Ralitera : cette bourse représente une réussite pour moi, j’en suis très fière. Étant moi-même dans une discipline dite « masculine », la promotion de la participation de la femme dans la recherche scientifique est une cause qui m’importe beaucoup. Dès mon plus jeune âge, mes parents m’ont orientée vers un parcours scientifique, par le choix des dessins animés ou des émissions télévisées qu’ils me faisaient regarder, par les livres qu’ils me faisaient lire, en m’incitant à visiter des salons scientifiques. Tout cela a cultivé mon intérêt pour les sciences. Je voulais devenir médecin, puis chimiste, puis biologiste, puis physicienne, puis astronaute, finalement, je me suis orientée vers l’informatique, une discipline que j’ai découverte assez tard, au lycée. Le cybercafé du coin (nous n’avions pas d’ordinateur à la maison, et les connexions étaient payantes à la durée) offrait un cours d’initiation à l’informatique où ma mère m’a inscrite. C’est à ce moment-là que s’est révélée ma passion pour l’informatique.

Tahina Ralitera a commencé une thèse sous la direction du Professeur Rémy Courdier, spécialiste des « Systèmes Multi-Agents ». Son travail doctoral vise à développer un simulateur des flux de véhicules électriques sur un territoire, un outil d’aide à la décision pour placer des bornes de recharge et éviter les pannes.

Pour sa première conférence, elle se rend au Portugal, découvre la couverture wifi et le covoiturage avec des véhicules électriques. Elle prend conscience de la richesse de son sujet et plus largement de la mobilité dans des villes dites »intelligentes ». Le concept s’impose à elle : Une île intelligente ! Mon projet ne se limite pas à la mobilité ou aux bâtiment, c’est tout un système ! Il faut penser à la gouvernance, l’économie, l’éducation, la santé.

C’est cette vision globale de services qu’on va appeler île intelligente.

La Réunion dans vingt ans, elle l’imagine déjà, avec une circulation plus fluide et une meilleure qualité de vie. La voiture électrique a-t-elle une place dans cet avenir ? Si on arrive à développer l’infrastructure, ça résoudra en partie le problème, car les gens ont encore peur d’être à court de batterie à Cilaos et de ne pas pouvoir revenir ! Quant à la voiture électrique en libre service, elle sait que techniquement, c’est tout à fait possible. Elle a déjà réalisé un prototype logiciel qui fonctionne à Londres dans le cadre d’une collaboration avec l’Imperial College. Un deuxième prototype pour La Réunion est en cours de validation. Si elle n’a jamais encore conduit de voiture électrique à La Réunion, Tahina Ralitera est en mesure de proposer une carte de l’île avec tous les points de recharge utiles pour développer une flotte de véhicules électriques ! Il lui faut aussi réfléchir aux impacts sociétaux, à ce qui pourrait freiner le déploiement de la voiture électrique sur l’île.

Florence Sèdes, chercheuse en informatique à l’IRIT et membre du CA de la SIF.

23 janvier 201805 février 2019

Le lave-vaisselle de la mémoire

Pour expliquer ce qu’est un algorithme, on utilise souvent l’analogie : « c’est un peu comme une recette de cuisine ». Cette analogie, certes galvaudée, est si forte qu’on peut la pousser jusqu’à l’exécutant de la recette, le cuisinier lui même, qui représente l’ordinateur exécutant l’algorithme, voire jusqu’à ses assistants. C’est ainsi que Yannick Zakowski, doctorant de l’ENS Rennes, nous explique le sujet sa thèse, réalisée à l’IRISA à Rennes, pendant laquelle il a proposé un outil de garbage collecting garanti sans erreur pour des langages concurrents. Charlotte Truchet

Léon travaille dans les cuisines du restaurant La Marne. Aujourd’hui, Albertine, une cliente, a commandé un « Tian suave d’aubergine et de poivron ». Pour faire ce plat, Léon doit suivre pas à pas une liste d’instructions : la recette. On retrouve là trois composants bien connus des programmeurs : la recette est un algorithme. Celui-ci a besoin d’une machine pour l’exécuter, en l’occurrence, c’est Léon qui joue ce rôle. Plus subtil, car on n’y fait pas forcément attention, le troisième élément est l’énoncé du plat : c’est une description, qui permet à Albertine de choisir un plat sans avoir à regarder les détails de la recette. En programmation, on appelle ça la spécification.

Crédit photo Pexels

Mais ce soir, les choses se gâtent à La Marne ! Albertine reçoit un plat insupportablement épicé, très loin de la suavité annoncée. Elle est furieuse. Le résultat de l’algorithme ne correspond pas à la spécification : c’est un exemple de ce que l’on appelle communément un bug. Pour Albertine, c’est désagréable mais pas dramatique. En informatique, cela devient vite très ennuyeux, et même dangereux : on le sait, les algorithmes sont partout, au sein des voitures, des avions, d’appareils médicaux… Je m’intéresse à des situations où l’on veut s’assurer formellement de l’absence de bug. En clair, la prouver. Car oui, il existe des outils mathématiques permettant de prouver que l’algorithme respecte bel et bien sa spécification. Ce domaine étant extrêmement vaste, revenons à notre tian pour en voir un exemple.

Le concepteur de la recette utilisée par Léon est catégorique, sa recette est démontrée infaillible. Suavité garantie ! Du côté de Léon, pas d’erreur possible non plus, c’est un cuisinier hors pair. Alors ? Une enquête approfondie révèle un simple problème de traduction : l’auteur de la recette étant anglais, il a indiqué d’utiliser un « pepper » comme ingrédient. Ce terme a été traduit par piment, en lieu du poivron utilisé à l’origine. En programmation, le concept de traduction est central, si central qu’on lui a donné un nom particulier, la compilation. Le programmeur écrit son algorithme dans un langage (relativement) facile à manipuler, et un compilateur s’occupe de traduire cet algorithme dans le langage beaucoup plus obscur que l’ordinateur comprend. Ma thèse s’inscrit dans un effort collectif visant à mettre au point des compilateurs qui n’introduisent jamais d’erreur dans les algorithmes qu’on leur confie, une sorte de traduction garantie sans faux-sens.

Crédit photo Pexels Pendant ma thèse, je me suis tout particulièrement intéressé aux récipients dans lesquels Léon stocke ses ingrédients pendant qu’il cuisine. Il mesure la farine dans un verre doseur, la transvase temporairement dans un bol, puis verse le sucre dans ce même verre doseur. Dans un ordinateur, une partie de l’exécution d’un algorithme ressemble un peu à ces transvasements permanents : la gestion de la mémoire. On stocke des valeurs dans différentes cases mémoire que l’on souhaite réutiliser autant que possible. Dans les premiers langages de programmation, il fallait expliciter tout cela, comme si votre recette de cuisine vous indiquait constamment quels récipients manipuler. Fort heureusement, les langages modernes soulagent le programmeur de cette responsabilité. C’est un peu comme si le compilateur fournissait à Léon une assistante, Casimira, sorte de responsable des transvasements dont le rôle est de gérer la vaisselle. On l’appelle le glaneur de cellules. C’est lui-même un algorithme que le compilateur ajoute, en supplément de la recette / programme, au moment de sa traduction. Mais tout comme le compilateur pouvait faire des erreurs de traduction, il pourrait fournir à Léon un assistant faillible. Casimira pourrait par exemple faire preuve d’un excès de zèle et envoyer à la vaisselle un bol encore rempli de farine, gâchant ainsi l’exécution de la recette !

Durant ma thèse, j’ai travaillé sur des méthodes permettant de prouver formellement l’infaillibilité de Casimira. Et les choses ne sont pas faciles, notamment à cause d’un détail que je ne vous ai pas précisé : Léon n’est pas seul en cuisine, il partage sa vaisselle avec une armée d’autres cuisiniers ! On dit qu’ils travaillent de façon concurrente. Un fond de farine que Léon semble avoir abandonné peut en réalité être sur le point d’être utilisé par un de ses collègues. Détecter les récipients dont plus personne n’a l’utilité sans jamais interrompre un cuisinier dans sa tâche est alors un exercice de synchronisation particulièrement subtil.

Autrement dit, ce que j’ai fait durant ma thèse, c’est prouver l’infaillibilité d’un glaneur de cellules (garbage collector) réaliste pour un langage concurrent, tel que Java par exemple.

Yannick Zakowski

19 janvier 201817 janvier 2018

Sécurité routière et cybersécurité

Avec les objets connectés, notre sécurité est remise en question. Binaire publiait l’an dernier une nouvelle « You are under arrest » qui essayait d’imaginer ce qui pourrait se produire dans le futur si, aujourd’hui, nous n’accordons pas au sujet de la sécurité, toute l’importance qu’il mérite. Nous avons demandé à Gérard Le Lann, un spécialiste de la question, de nous expliquer cette fois techniquement ce qu’il en était. Serge Abiteboul.

Une réduction significative du nombre d’accidents graves (invalidités, pertes de vies humaines) et une meilleure efficacité (réduction des temps de trajet, quasi-élimination des embouteillages) sont deux des buts principaux de la conduite automatisée (avec ou sans chauffeur humain). Les buts d’innocuité (*) et d’efficacité ne pouvant être atteints en se limitant à la robotique embarquée (radars, lidars, caméras, etc.), des travaux ont été entrepris dès 2004 dans le but de doter les véhicules d’émetteurs/récepteurs radio. Cela a conduit au concept de véhicule autonome « connecté » (VAC). À partir de 2020, les véhicules mis en circulation aux USA devront être dotés d’équipements radio conformes aux solutions WAVE (pour Wireless Access in Vehicular Environments) actuelles, qui comprennent un ensemble de protocoles basés sur des télécommunications de type wifi, connues sous l’acronyme V2X (vehicule-to-everything), permettant à un VAC d’être « connecté » à des relais terrestres (infrastructures routières, réseaux de télécommunications) et de communiquer avec d’autres VAC. Si rien ne l’entrave, cette décision s’imposera en Europe et ailleurs. Cette perspective est inquiétante.

Waymo Chrysler Pacifica Hybrid, testée dans la région de la Baie de San Francisco.Wikipedia

On sait que, dans des conditions de trafic moyennement dense, le nombre de véhicules en compétition pour accéder au canal radio partagé est tel que les délais de transmission de message sont trop grands pour éviter les accidents. En outre, les communications radio étant non fiables, les messages V2X émis peuvent ne pas être reçus par les destinataires visés. Il est donc impossible de prédire quoi que ce soit concernant la coordination inter-véhiculaire. Des diffusions périodiques de balises sont censées procurer l’innocuité désirée. Tout véhicule doit diffuser, entre 1 fois et 10 fois par seconde, un message V2X daté donnant, en particulier, sa géolocalisation et sa vitesse, nécessairement non chiffrées. L’idée sous-jacente est que les VAC co-localisés peuvent maintenir la même carte donnant leurs positions exactes et celles des véhicules qui les environnent, et ainsi éviter les accidents. C’est malheureusement faux. A raison de 10 balises par seconde, en conditions de trafic moyennement dense, le canal radio est vite saturé. Du coup, les véhicules ne peuvent plus être géolocalisés. A des fréquences plus faibles, en présence de pertes de balises, les cartes des VAC ne peuvent être identiques. En dépit du gaspillage de ressources de calcul et de communication, on ne peut éviter les accidents.

Du point de vue « connexion », avec WAVE, les VAC sont équivalents à des smartphones-sur-roues. Ils sont donc potentiellement sujets à cyberespionnage et vulnérables aux cyberattaques dont sont victimes les équipements radio sans fil. Le problème est que les smartphones-sur-roues peuvent tuer. La possibilité d’une prise de contrôle à distance de véhicule a été démontrée à plusieurs reprises, lors de conférences Black Hat et par des agences gouvernementales. Les techniques cryptographiques en cours de normalisation destinées à contrer le cyberespionnage et les cyberattaques (usurpation d’identité, falsification de messages légitimes, injection de messages frauduleux, etc.) n’éliminent pas complètement les vulnérabilités. Par exemple, les attaques de « l’homme du milieu » (**) sont possibles. On montre également qu’il est possible de pister les trajets, en reliant des géolocalisations. Même avec des messages V2X « anonymisés », si l’on peut associer des lieux fréquemment visités (par exemple un lieu de travail et un lieu de résidence), alors le piratage de données d’ordre privé devient réalisable. Ces faiblesses sont connues mais la communauté WAVE 1.0 (***) tente de s’en dédouaner en affirmant que l’on ne peut faire mieux. C’est faux.

D’autres solutions proposées plus récemment (toute une gamme que nous appellerons ici WAVE 2.0) permettent de garantir à la fois l’innocuité maximale et la cybersécurité « by-design ». Les protocoles WAVE 2.0 reposent sur des communications directes V2V (vehicule-to-vehicle) qui garantissent des délais d’échange de messages et de coordination inter-véhiculaire extrêmement courts, ce qui permet de prouver l’innocuité. Les technologies de communications radio et optiques utilisées sont de courte portée et bien plus performantes que les technologies WAVE. Les messages V2V n’étant échangés qu’entre voisins « immédiats », les attaquants potentiels d’un VAC sont aisément et immédiatement détectables, ce qui permet de prouver que les cyberattaques rapprochées ne peuvent mettre en péril l’innocuité (une propriété fondamentale). Les identifiants des VAC émetteurs de messages V2V étant totalement anonymisés, le cyberespionnage rapproché n’est d’aucun intérêt.

L’architecture des systèmes bord des VAC garantit que les télécommunications V2X ne peuvent avoir d’impact sur la robotique du véhicule. Ainsi, la prise de contrôle à distance devient infaisable. Plus généralement, on peut montrer que les cyberattaques ourdies par des entités inconnues distantes ne peuvent mettre en péril l’innocuité. Quant aux risques de cyberespionnage distant, ils n’existent qu’à la condition d’autoriser les télécommunications V2X sortantes (accès à Internet, etc.). Il est donc indispensable d’offrir à un passager de VAC la possibilité d’exprimer via une option « furtivité » son refus ou son consentement pour activation des télécommunications sortantes V2X individuelles. Avec WAVE 2.0, en cas de comportement malveillant, la robotique embarquée prend le contrôle du VAC et l’immobilise en lieu sûr, pendant que sont diffusés, à destination des autorités, des messages V2X chiffrés permettant d’identifier et de géolocaliser le véhicule immobilisé, ainsi que de fournir le contenu pertinent d’une boite noire. Malgré l’anonymat, les enregistrements consignés dans les boites noires assureront l’indispensable imputabilité (****).

Les capteurs intérieurs à un VAC (caméras, par exemple) dont les avantages sont abondamment médiatisés (s’assurer de la vigilance humaine, par exemple) sont des sources supplémentaires de cyberespionnage. Les atteintes à la vie privée sont bien certaines. Que deviennent ces données, notamment en cas de piratage des serveurs qui les hébergent ? Les passagers des VAC ont pourtant droit au respect de leur vie privée. Tout comme l’option « furtivité », une option « désactivation des capteurs intérieurs » doit être offerte.

Les voitures autonomes Navlab. Navlab 5 (le véhicule le plus proche ) achevé et 1995, a été la première voiture à traverser en autonome les États-Unis d’une côte à l’autre.

Faux dilemme—Vrai choix de société

Nous n’avons pas à choisir entre innocuité et cybersécurité, les deux propriétés existent avec WAVE 2.0. Nous sommes donc dès à présent confrontés à un choix de société :

soit les solutions WAVE 1.0 sont déployées, et alors nous seront potentiellement cybersurveillés et sujets aux cyberattaques lors de nos déplacements motorisés,
soit, grâce aux actions combinées des mondes académique, juridique, de sociologues, de spécialistes de l’éthique, du monde industriel et des autorités gouvernementales européennes, nous leur préférons au contraire les solutions WAVE 2.0 et leurs options « furtivité » et « désactivation des capteurs intérieurs », qui vont dans le sens du Règlement Général sur la Protection des Données. WAVE 2.0 deviendrait ainsi le socle d’une nouvelle génération de standards pour les technologies des véhicules autonomes du futur.

Dans quel type de société voulons-nous vivre ? Voilà la question qui est posée.

Gérard Le Lann, Inria

NB : le lecteur intéressé pourra consulter la publication C&ESAR 2017

(*) Non-dangerosité (quasi élimination des accidents graves).

(**) L’attaque de l’homme du milieu (man-in-the-middle attack) a pour but d’intercepter les communications entre deux parties, sans que, ni l’une, ni l’autre ne puisse se douter que le canal de communication entre elles a été compromis. L’attaquant doit d’abord être capable d’observer et d’intercepter les messages envoyés par une victime, disons Alice, à l’autre, Bob. L’attaquant parle à Alice en prétendant être Bob, et à Bob en prétendant être Alice.

(***) WAVE 1.0 (WAVE + balisage périodique) et WAVE 2.0 sont des notations d’ordre pratique proposées par l’auteur.

(****) Attribution des responsabilités et non-dénégation des causes ayant entrainé un accident grave.

15 janvier 201816 janvier 2018

Les liaisons dangereuses du renseignement français

L’analyse de données massives, le big data, a de nombreuses applications : on peut vouloir faire parler les données dans de nombreux domaines. Nous nous intéressons ici à un en particulier, le renseignement. Des matériels informatiques de plus en plus puissants, des algorithmes de gestion et d’analyse de données de plus en plus sophistiqués, la disponibilité de données numériques de plus en plus massives changent notre monde. Ils permettent des avancées extraordinaires de la recherche scientifique dans de nombreux domaines, comme la médecine, l’astronomie ou la sociologie. Ils mettent à notre service des outils fantastiques comme, aujourd’hui, des moteurs de recherche du Web tel Qwant (1) et, peut-être demain, les systèmes d’informations personnelles tel celui en cours de développement par l’entreprise française Cozy Cloud. Ils sont beaucoup utilisés par les entreprises, par exemple pour le marketing… et aussi par les gouvernements. Il suffit de collecter des masses de données numériques – on y trouvera toute l’intelligence (au sens anglais (2)) du monde – pour lutter contre la criminalité, détruire ses opposants politiques, découvrir les secrets industriels de ses concurrents.

Une société s’est imposée sur ce marché juteux, Palantir Technologies. Le cœur de leur technologie est un système, Palantir Gotham, qui permet d’intégrer massivement des données structurées (provenant de bases de données) et non structurées (par exemple des textes du Web ou des images), de faire des recherches sur ces données, de les analyser, d’en extraire des connaissances.

Comment ça marche ?

La difficulté est de comprendre le sens des données. Celles d’une entreprise sont relativement propres et bien structurées. Quand nous utilisons les données de plusieurs entreprises, quand nous les « intégrons », c’est déjà moins simple. Les données sont organisées différemment, les terminologies peuvent être différentes. Par exemple, les deux systèmes peuvent utiliser des identifiants différents pour une même personne, des adresses ou des courriels différents, etc. Les informations du Web et des réseaux sociaux peuvent être encore plus difficiles à extraire : les personnes utilisent parfois juste des prénoms ou des surnoms; les imprécisions, les erreurs, les incohérences sont fréquentes; surtout, les données sont très incomplètes. En outre, une grande masse des informations disponibles consiste en des textes et des images où il faut aller chercher des connaissances.

Les « progrès » de la technique ont été considérables ces dernières années. Par exemple, le système XKeyscore, un des bijoux (en termes de coût aussi) de la NSA, peut réunir, pour une personne, quasi instantanément la liste de ses appels téléphoniques, de ses paiements avec une carte de crédits, de ses courriels, ses recherches Web, les images de vidéosurveillance d’un magasin où elle a réalisé des achats… Palantir propose à ses utilisateurs XKeyscore Helper pour importer des données de XKeyscore, les interroger, les visualiser, les analyser et les réexporter.

Palentir et la DGSI

Est-ce la fin de la vie privée ? Ne s’agirait-il là que d’exagérations ? De la parano ? J’ai peur que non. Nous n’en sommes pas encore là en France, même si des lois comme la celle de 2015 relative au renseignement nous engagent dans cette direction. Heureusement, nos services de renseignements ont moins de moyens, et d’autres textes, la loi informatique et libertés ou le règlement européen sur la protection des données personnelles à partir de 2018, nous protègent.

Revenons à Palantir. Parmi ses premiers investisseurs, on trouve la CIA, et parmi ses clients étatsuniens, la CIA, la NSA, le FBI, les Marines, l’US Air Force, les Forces d’opérations spéciales. La technologie de Palantir est utilisée notamment pour relier les données de plusieurs agences de renseignement et leurs permettre ainsi de coopérer. Depuis 2016, Palantir travaille aussi en France pour la Direction générale de la sécurité intérieure. Nous nous inquiétons peut-être pour rien, mais que font-ils pour la DGSI ? À quelles données sur des Français ont-ils accès ? Dans le cadre de la transparence de l’État, il nous semble que nous avons le droit de savoir.

Naïvement, nous aurions aussi pu penser que, sur des données de sécurité intérieure, une entreprise européenne aurait été plus appropriée, ne serait-ce que parce qu’elle serait plus directement soumise aux lois européennes.

Pour tenter de nous rassurer, nous pouvons consulter le site Web de Palantir, où sous l’intitulé What We Believe (Ce que nous croyons), on peut lire :

« Palantir is a mission-focused company. Our team is dedicated to working for the common good and doing what’s right, in addition to being deeply passionate about building great software and a successful company. » (Palantir est une entreprise concentrée sur sa mission. Notre équipe est dévouée à travailler pour le bien commun et à faire ce qui est bien, en plus d’être profondément passionnée par la création de logiciels géniaux et d’une entreprise prospère.)

Certes, mais après nombre de révélations, notamment celles d’Edward Snowden sur des programmes de surveillance à l’échelle mondiale, impliquant la NSA ou l’alliance de renseignement Five Eyes (Australie, Canada, Nouvelle-Zélande, Royaume-Uni, États-Unis), nous pouvons difficilement nous contenter de bonnes intentions.

Airbus parmi les clients

Parmi les clients de Palantir, on trouve aussi Airbus. Il s’agit dans ce cas, en principe, d’intégrer des informations dispersées sur plusieurs systèmes d’Airbus, et de les analyser pour comprendre les problèmes de qualité des A350. C’est pour la collecte, l’intégration et l’analyse de données qu’Airbus utilise la technologie et l’expertise de Palantir. Nous pouvons bien sûr nous réjouir de l’amélioration de la sécurité de l’A350. Mais, n’y a-t-il pas à craindre que des informations stratégiques se retrouvent par hasard, via les réseaux de la CIA proches de Palantir, dans les mains de concurrents d’Airbus ? Ne dites pas que c’est improbable ! Naïvement, nous aurions aussi pu penser que, sur de telles données, une entreprise européenne aurait été plus appropriée, ne serait-ce que pour éviter trop de connexions occultes avec des entreprises étatsuniennes ou asiatiques.

Si nous préférons penser que les services de renseignement français et ceux de la sécurité d’Airbus sont compétents, responsables, et qu’ils savent ce qu’ils font, nous pouvons légitimement nous inquiéter de les voir utiliser les services d’une société étatsunienne proche des services secrets et dont un des fondateurs est Peter Thiel, un libertarien, aujourd’hui conseiller numérique de Donald Trump, qu’il a soutenu tout au long de la campagne électorale qui mena Trump à la Maison-Blanche.

L’analyse de données massives est un outil moderne pour lutter contre le terrorisme. En croisant les bases de données des différentes agences gouvernementales, on peut détecter des comportements suspects, des activités qui intéressent la lutte antiterroriste. J’ai été marqué par ce que m’a dit un jour (c’était avant le 13 novembre 2015) un officier de renseignement : « S’il y a un attentat terroriste majeur en France, on nous reprochera de ne pas avoir fait tout ce qui était en notre pouvoir pour l’empêcher. » Pourtant, cette surveillance massive de la population, d’individus a priori suspects… ou pas dans des pays démocratiques peut raisonnablement inquiéter, être prise pour une atteinte aux libertés. C’est bien là le dilemme. Après chaque attentat, les politiques, bouleversés par les images, l’horreur, sont prêts à tout pour éviter que cela se reproduise, même à restreindre les libertés. On peut les comprendre. Mais, entre l’épouvante du terrorisme et la répulsion du totalitarisme, il faut choisir où placer le curseur. Peut-être faudrait-il garder en tête que le renseignement intérieur se fait, dans un état de droit, sous le contrôle de la justice et ne surtout pas oublier qu’un affaiblissement de la démocratie est une victoire du terrorisme.

Serge Abiteboul, Arcep, Inria et École normale supérieure, Paris.

(1) Qwant est un moteur de recherche européen qui préserve la vie privée et ne transmet ni ne retient donc d’informations vous concernant.

(2) En effet, nul ne penserait à traduire Intelligence Service par « service intelligent », ça se saurait !

Pour en savoir plus

Sam Biddle, How Peter Thiel’s Palantir Helped the NSA Spy on the Whole World, The Intercept, 2017.
Ashlee Vance et Brad Stone, Palantir, the War on Terror’s Secret Weapon, Bloomberg Businessweek, 2011.
Vous pouvez aussi consulter le blog binaire.blog.lemonde.fr.

Cet article est paru originellement dans la revue Progressistes, Numéro 18, oct-nov-déc 2017. Le numéro, dans sa totalité, est disponible électroniquement ou en format papier.

11 janvier 201811 janvier 2018

La malédiction de la grande dimension

Stéphane Mallat est le titulaire de la chaire « Sciences des données » du Collège de France où il présente le cours « L’apprentissage face à la malédiction de la grande dimension » (leçon inaugurale le 11 janvier 2018). Il a été professeur d’informatique à l’École normale supérieure de la rue d’Ulm de 2012 à 2017. En 2001, il a cofondé une start-up, Let It Wave, qu’il a dirigé jusqu’en 2007. Les algorithmes d’apprentissage peuvent nous émerveiller par leurs résultats, nous effrayer aussi parce qu’ils sont mal compris. Le cours de Stéphane Mallat devrait permettre de mieux les appréhender. Serge Abiteboul.
Cet article est publié en collaboration avec The Conversation.
Voir la page binaire sur l’informatique au Collège de France

Nous assistons à un déluge de données numériques, sous la forme d’images, de sons, de textes, de mesures physiques ainsi que toutes les informations disponibles sur Internet. L’analyse automatique de ces données est devenue un enjeu industriel, sociétal et scientifique majeur. La performance des algorithmes d’analyse de données a fait un bond ces dernières années, grâce à l’augmentation des capacités de calcul et des masses de données, mais aussi grâce à l’évolution rapide des algorithmes d’apprentissage. Ce bond est à l’origine de la renaissance de l’Intelligence Artificielle. En particulier, les réseaux de neurones ont récemment obtenu des résultats spectaculaires pour la classification d’images complexes, la reconnaissance vocale et de musique, pour la traduction automatique de textes ou la prédiction de phénomènes physiques et même pour battre le champion du monde de Go. Ils sont utilisés dans des applications industrielles et médicales, y compris pour les voitures autonomes. La chaire de sciences des données présentera les algorithmes et les principes mathématiques permettant de comprendre la nature des connaissances acquises par ces algorithmes d’apprentissage.

Un algorithme d’apprentissage prend en entrée des données, par exemple une image, et estime la réponse à une question, par exemple trouver le nom de l’animal dans l’image. Ces algorithmes d’apprentissage ne sont pas entièrement déterminés à l’avance. Ils incluent de nombreux paramètres qui sont optimisés avec des exemples, lors de la phase d’apprentissage. Pour la reconnaissance d’animaux, on donne à l’algorithme des exemples d’images et le nom des animaux dans chaque image. L’apprentissage assure que l’algorithme ne fasse pas d’erreur sur les exemples d’entrainement. Cependant cela ne présente aucun intérêt en soit. Il faut garantir que ce résultat se généralise et donc que l’algorithme soit capable de prédire le bon résultat sur des données qu’il n’a jamais vues au préalale. Cette généralisation est liée à l’existence de régularités, que l’algorithme utilise pour relier le résultat sur une donnée inconnue avec les exemples connus.

La complexité de ce problème vient du très grand nombre de variables dans chaque donnée. Ainsi une image a typiquement plus d’un million de pixels, et donc plus d’un million de variables dont il faut tenir compte pour répondre à une question. L’interaction de ces variables produit un nombre gigantesque de possibilités. C’est la malédiction de la dimensionnalité. Pour faire face à cette malédiction, il est nécessaire d’avoir des informations à priori qui sont utilisées par les algorithmes. Comprendre la nature de cette régularité en grande dimension est un enjeu fondamental qui fait appel à de nombreuses branches des mathématiques, dont les statistiques, les probabilités, l’analyse et la géométrie.

Sciences des Données et Mathématiques Appliquées

La chaire s’intitule « sciences des données » par opposition au singulier « la science des données » car ce domaine est une auberge espagnole, où cohabitent des approches et des cultures scientifiques totalement différentes, qui s’enrichissent mutuellement. Cela comprend les mathématiques et notamment les statistiques, mais aussi l’informatique et l’intelligence artificielle, le traitement du signal et la théorie de l’information, et toutes les sciences comme la physique, la biologie, l’économie ou les sciences sociales, qui traitent et modélisent des données. Apporter une vision et un langage commun au-delà des spécificités de chaque domaine est la vocation des mathématiques. C’est ce point de vue qui sera développé, tout en restant enraciné dans les applications qui sont sources de problèmes nouveaux, de créativité et d’idées. Cet aller-retour entre mathématiques et applications, qui efface progressivement les frontières entre expérimentations et théorie, est au cœur de la démarche des mathématiques appliquées. La beauté des concepts qui se dégagent ne s’enracine pas seulement dans leur pureté, comme celle d’un diamant qui se suffirait à lui-même, mais dans la beauté des correspondances entre domaines aussi différents que la reconnaissance d’images, la neurophysiologie, la chimie quantique, la cosmologie ou l’économie. Révéler ces correspondances est aussi l’ambition des mathématiques appliquées.

En sciences des données il s’agit de comprendre le lien entre les applications, l’algorithmique, les expérimentations numériques et la compréhension mathématique du traitement de masses de données. Les mathématiques sont importantes pour garantir la robustesse des résultats, notamment pour des usages critiques comme la conduite de voitures autonomes. Le cours offrira la possibilité de participer à des challenges de données, organisés par mon équipe de recherche à l’École Normale Supérieure. Ces challenges proviennent de start-ups, d’hôpitaux ou des laboratoires scientifiques, et permettent à chacun de développer ses propres idées, et ainsi comparer la performance de différents types d’algorithmes sur de vrais problèmes. Ces challenges sont disponibles sur cette page web.

Cette chaire a aussi pour objectif de mieux faire comprendre les avancées des algorithmes et des mathématiques de l’apprentissage et de l’intelligence artificielle, à un plus large public. Diffuser la connaissance dans ce domaine est important car ces technologies auront probablement un impact croissant sur l’industrie, la médecine mais aussi sur certains aspects de notre organisation économique et sociale. Il faut y réfléchir bien au-delà des cercles scientifiques.

Face à la Malédiction de la Dimensionnalité

Le cours de cette année introduira les outils algorithmiques et mathématiques liés à la généralisation pour des données incluant un grand nombre de variables. Il approfondira la notion de régularité qui est centrale dans ce domaine, et son utilisation par des différents types d’algorithmes, y compris des réseaux de neurones. Le cours commencera par la notion de régularité pour des données en basse dimension, à travers la transformée de Fourier et la transformée en ondelettes, avec des applications pour le débruitage et la compression de signaux. Il considérera ensuite l’apprentissage supervisé, les algorithmes à noyaux, et la performance des réseaux de neurones à une couche cachée.

Chaque séance de cours sera suivie par un séminaire présentant l’état de l’art dans différents domaines d’applications. Des challenges de données seront proposés aux participants et présentés lors des premières séances. Au menu de cette année, plus de 10 challenges, pour l’économie d’énergie, le diagnostic de cancer à partir de données génomiques, la prédiction en finance, l’analyse de questionnaires, la reconnaissance d’images de célébrités ou la prédiction de scores de football.

Stéphane Mallat, Professeur au Collège de France

06 janvier 201808 janvier 2018

Meltdown et Spectre, c’est grave docteur ?

Nous avons déjà publié un article de David Monniaux sur les failles des ordinateurs, Meltdown et Spectre, qui occupent le devant de l’actualité. L’importance de cette information est suffisante pour nous conduire à enrichir le débat avec un deuxième texte que nous ont proposé Jean-Jacques Quisquater et Charles Cuvelliez.
binaire

La faille largement médiatisée sur Intel et ses concurrents, AMD et ARM, sonnera comme une piqûre de rappel : performance et sécurité ne riment pas souvent. Il s’agit en fait de deux failles dénommées Spectre et Meltdown par leurs découvreurs respectifs.

Spectre

Spectre utilise la technique d’anticipation dans l’exécution des instructions envoyées au microprocesseur. Il arrive souvent qu’un microprocesseur, pour gagner du temps, spécule sur les prochaines instructions qui doivent lui être envoyées de la mémoire. A ce niveau élémentaire de programmation, c’est souvent possible avec succès et utile lorsque l’exécution de cette instruction dépend de valeurs en mémoire. La rapatrier de la mémoire prend relativement tellement de temps par rapport à la rapidité du microprocesseur, que ce dernier préfère encore la deviner et exécuter l’instruction quitte à tout laisser tomber s’il s’était trompé. Il revient en arrière en se basant sur l’état dans lequel il était avant de spéculer à tort. Cela arrive rarement et au final, le gain en performance est substantiel. En fait, les microprocesseurs n’exécutent pas souvent dans l’ordre les instructions d’un programme. Il exécute parfois des instructions, qui arrivent plus loin dans le flux en question, bien en avance pour gagner du temps même si leur déroulement dépend (du résultat) des instructions antérieures. Plutôt que d’être bloqué à ce niveau, il spécule encore. C’est là que se trouve la vulnérabilité Spectre : comme les microprocesseurs sont censés revenir à leur état antérieur, en effaçant matériellement tout, si l’instruction spéculée n’était pas correcte, pas suffisamment de sécurité n’a été introduire à ce niveau.

L’erreur de conception est que le microprocesseur n’efface pas toutes les conséquences de l’exécution anticipée d’une instruction qui n’était pas la bonne. En d’autres termes, il n’efface pas tout ce que cette instruction anticipée à mauvais escient a créé comme changements dans l’état des différents éléments du microprocesseur, en particulier, les caches. Dès lors, il suffit de forcer le microprocesseur à spéculer sur une instruction qui donne accès à l’attaquant à des données sensibles.

Les chercheurs ont montré que c’était possible. Ils ont créé un programme qui contenait des données secrètes stockées dans la mémoire. Ils ont compilé ce programme et ont recherché dans le code exécutable les instructions qui accèdent à cette mémoire pour en extraire les données confidentielles. Ils ont ensuite forcé le microprocesseur à spéculer sur les prochaines instructions à effectuer en allant chercher précisément ces instructions-là. Bingo : le microprocesseur a tout simplement lu le contenu en mémoire du programme « normal ». Il avait donc accès à des données confidentielles d’un autre utilisateur auxquelles l’attaquant n’aurait pas dû avoir accès. Plus inquiétant : ils ont pu renouveler l’exploit avec un code javascript portable. Ceci dit, pour mettre cette attaque en pratique, ce ne sera pas une sinécure. Toute la difficulté de l’attaque consiste à donner au microprocesseur la bonne instruction à exécuter de manière spéculative et anticipée pour accéder à de l’information confidentielle. Dans leur démo, les chercheurs ont simplement forcé le processeur à lire le contenu d’une adresse mémoire choisie par eux et qui pourrait dans un cas réel contenir de l’information confidentielle d’une tierce personne.

En fait, les techniques d’isolation des programmes qui tournent sur un même ordinateur sont connues et déployées depuis longtemps. Elles empêchent un programme d’accéder à la mémoire utilisée par un autre programme concurrent. Ouf. Ce que ces techniques n’ont pas prévu est qu’à un niveau inférieur, le microprocesseur, l’exécution anticipée d’une instruction pourrait amener un attaquant à violer, au niveau matériel, cette séparation qui se passe au-dessus. Toutes ces techniques se basent sur l’idée que seules les instructions officielles sont réputées avoir été effectuées, et pas des instructions spéculatives qui vont aller là où il ne faut pas sans contrôle élémentaire.

Bien sûr, cette attaque, pour être réaliste, exige que l’attaquant puisse interagir avec la victime, par exemple utiliser le même CPU et d’avoir accès, d’après le compilateur utilisé par la victime, aux zones probables de la mémoire où il pourrait y avoir de l’information confidentielle. Il n’empêche : Spectre affecte tous les microprocesseurs : AMD, ARM, Intel. Spectre est difficile à exploiter mais il existe des remèdes. On devrait pouvoir stopper l’exécution spéculative d’instructions mais c’est alors au prix d’une sérieuse dégradation de performance. On ne pourrait stopper que les instructions de lecture mémoire spéculative mais ce n’est pas suffisant car de l’information sensible pourrait ne pas venir que de la mémoire. La seule bonne nouvelle est que seul le secret des données peut être violé, par leur intégrité.

Meltdown

Meltdown est une autre vulnérabilité qui viole un principe fondamental de sécurité des microprocesseurs : l’isolation des mémoires utilisées par les différents programmes qui tournent sur un ordinateur en fonction de leur niveau de privilèges. On parle d’exécution en mode kernel (privilégié) ou en mode utilisateur. Le mode kernel donne accès au système lui-même. Face à ce danger, la mémoire utilisée par le mode kernel est normalement totalement séparée de la mémoire utilisée en mode utilisateur. Le problème est que passer du mode kernel au mode utilisateur finale ou l’inverse exige de passer d’une zone mémoire à l’autre totalement invisibles et isolées l’une de l’autre. Cela prend un temps fou et dégrade les performances du processeur. Mais c’est indispensable : la mémoire kernel peut contenir tous les secrets imaginables de votre machine : mots de passe, contenus de fichiers chargés en mémoire … Dans les microprocesseurs modernes, cette isolation entre mode kernel et mode utilisateur est réalisée au plus profond du microprocesseur : un seul bit définit dans quel mode on est et autorise ou non l’accès à la mémoire réservée au mode kernel. C’est une protection matérielle qui permet alors de faire coexister dans la mémoire pour le mode utilisateur, la référence à la mémoire pour le mode kernel. Le passage en mode kernel est alors rapide et immédiat. Ce ne serait pas le cas s’il fallait parcourir l’ensemble de la zone mémoire en sauvegardant à chaque fois le contexte du mode que l’on quitte.

Autre protection : lorsqu’un mode utilisateur essaie d’accéder à une zone kernel, votre machine réagit très mal et fait crasher le programme en mode utilisateur qui s’essayait à cette liberté. L’attaque Meltdown consiste aussi, comme pour Spectre, à faire exécuter par le microprocesseur des instructions de manière spéculative pour gagner du temps, dont celle qui donnera accès à la mémoire kernel et à éviter ou retarder le test de savoir si ce sont les bonnes instructions qui ont été exécutées. Lorsque le microprocesseur exécute des instructions de manière spéculative, il le fait en avance de phase d’autres instructions, dont celle qui lui donnerait le droit d’accéder au kernel. C’est donc normal, à ses yeux, de ne pas exécuter le contrôle d’accès au kernel. Erreur !

Contrairement à Spectre, il existe des remèdes logiciels contre Meltdown même s’il s’agit, comme pour Spectre, d’un problème hardware, de sorte que les Linux, Microsoft et consorts sont affectés. Les remèdes consistent à imposer à nouveau de manière stricte la séparation entre les références mémoires kernel en utilisateurs de sorte que le mode utilisateur n’imagine même pas qu’il puisse existe une zone mémoire kernel. Meltdown a le plus d’impact sur les clouds car la même mémoire kernel est alors partagée entre plusieurs utilisateurs. En d’autres termes, tous les mots de passe et autres données sensibles de plusieurs utilisateurs simultanées s’y trouvent ! C’est le cas des clouds non totalement complètement virtualisés. Meltdown pourrait obliger ces fournisseurs de clouds à totalement virtualiser leur utilisateurs ou à pratiquer une séparation totale des zones mémoires utilisateurs et kernel, avec un impact sur leur performance. Bref, cela va coûter.

Meltdown et spectre, pas si neufs que ça

Ceci dit, Meltdown et Spectre ne sont pas tout à fait neufs dans leur essence et il fallait s’y attendre. On sait depuis longtemps que si l’optimisation matérielle peut aller jusqu’à modifier le statut des éléments matériels contenus dans le microprocesseur, il met en péril toutes les protections softwares au-dessus. Les algorithmes cryptographiques sont considérés comme fautifs s’ils ne sont pas immunisés contre cela. Meltdown va cependant un cran plus loin puisque la granularité d’accès va jusqu’au bit même.

C’est pourquoi les auteurs craignent d’avoir ouvert la boite de pandore : on ne serait qu’au début de nos déboires de voir combien les optimisations matérielles qui s’autorisent à changer des éléments matériels du microprocesseur peuvent amener des vulnérabilités.

Dans les deux attaques, il y aussi l’étape cruciale qui consiste à faire fuiter les informations contenues dans le cache pour lesquelles des techniques connues existent.

Jean-Jacques Quisquater (École Polytechnique de Louvain, Université catholique de Louvain) et Charles Cuvelliez (École Polytechnique de Bruxelles, Université libre de Bruxelles)

Pour en savoir plus

Meltdown, Moritz Lipp et al. https://meltdownattack.com/meltdown.pdf
Spectre Attacks: Exploiting Speculative Execution, Paul Kocher et al., https://spectreattack.com/spectre.pdf

05 janvier 201805 janvier 2018

L’attaque Meltdown

Depuis quelques jours on parle beaucoup d’une nouvelle forme d’attaque informatique qui sort des approches « habituelles » et qui laisse présager de nombreuses fuites de données dont beaucoup ne seraient pas détectables. Nous vous proposons de lire l’article de David Monniaux publié sur son blog personnel. David Monniaux est Directeur de recherche au CNRS et travaille au sein du laboratoire VERIMAG (CNRS, Université de Grenoble).
binaire

Les réseaux sociaux et les blogs spécialisés en sécurité bruissaient de rumeurs depuis une semaine (pourquoi des modifications si urgentes dans le système de gestion de mémoire du noyau Linux, alors que d’habitude il faut des mois et des mois pour que le moindre changement soit accepté ?). Comme d’habitude lorsque des trous de sécurité majeurs sont découverts, ceux-ci n’étaient documentés que sous embargo, c’est-à-dire qu’on a d’abord informé les industriels ou groupes de développeurs susceptibles de fournir des correctifs, en leur laissant un délai suffisant, avant de publier les articles décrivant les problèmes.

Il y a en fait deux catégories d’attaques publiées ce jour : MELTDOWN et SPECTRE, qui partagent certaines caractéristiques. J’ai publié un autre billet sur SPECTRE, dont je vais reprendre ici quelques éléments explicatifs. Je vais discuter ici de MELTDOWN, en me basant sur la lecture de l’article décrivant les attaques (Lipp et al., Meltdown). Les attaques MELTDOWN sont celles contre lesquelles Microsoft, Apple et les développeurs de Linux ont intégré des contre-mesures. Je vais tenter de les expliquer à un niveau ne nécessitant pas de connaissances particulières en informatique.

Dans un ordinateur, un ou plusieurs processeurs exécutent des séquences d’instructions de calcul (additions, soustractions, multiplications, lecture ou écriture de données dans la mémoire). Ce sont ces instructions qui constituent les logiciels : quelle que soit la complexité ou le domaine d’application de celui-ci, ou le langage de programmation utilisé, on en revient toujours à l’exécution d’une suite de petites instructions comme cela.

On décrit parfois l’exécution de ces instructions de la façon suivante : le processeur lit l’instruction dans la mémoire, la décode (s’agit-il d’une addition, d’une soustraction, etc.), récupère éventuellement dans la mémoire les données dont elle a besoin, exécute l’opération demandée, puis écrit éventuellement son résultat dans la mémoire. C’est ainsi, en effet, que fonctionnaient les processeurs du début des années 1980 (Motorola 68000, par exemple).

Ce mode de fonctionnement est inefficace : il faut attendre que chaque étape soit achevée pour aborder la suite. On a donc fait par la suite des processeurs qui, bien qu’ils semblent, du point de vue du programmeur, exécuter successivement les instructions, les exécutent en fait comme sur une chaîne d’assemblage automobile (on parle, en terme techniques, de pipeline) : une unité du processeur décode, dès que l’instruction est décodée on la transfère aux unités qui lisent en mémoire qui la gèrent tandis que l’instruction suivante est décodée et que l’opération de calcul de l’instruction précédente est exécutée. On en est même venu à avoir des processeurs qui réordonnent l’exécution de parties d’instruction afin d’utiliser au maximum leurs unités, voire des processeurs qui tentent d’exécuter deux programmes à la fois sur les mêmes unités en tirant parti du fait que certaines sont inoccupées (hyperthreading) ! Ce qu’il faut retenir, c’est qu’il y a de nos jours, dans les processeurs à haute performance (dont ceux des PC portables, de bureau ou serveurs), des mécanismes extrêmement complexes qui essayent, grosso modo, de simuler une exécution « comme en 1980 » alors que ce n’est pas ce qui se passe dans la machine. Voyons certains de ces mécanismes.

J’ai dit plus haut qu’il fallait souvent chercher dans la mémoire de la machine (la RAM) les données nécessaires à l’exécution d’une instruction. Or, l’accès à la RAM prend du temps, beaucoup plus que l’exécution d’une instruction : cet écart entre la vitesse d’exécution des instructions et le temps nécessaire pour obtenir une donnée de la RAM a crû au cours du temps. Pour compenser, on a intégré dans les processeurs des mécanismes de mémoire cache qui, grosso modo (c’est en réalité bien plus compliqué) retiennent dans le processeur les données accédées les plus récemment et évitent le trajet vers la mémoire si la donnée recherchée est dans le cache.

Par ailleurs, les processeurs intègrent des mécanismes de protection de la mémoire, qui isolent les applications les unes des autres et isolent le système d’exploitation des applications. Ils évitent qu’un banal bug dans, par exemple, un traitement de textes, provoque des dysfonctionnements dans le système d’exploitation, avec possibilité de panne plus large que l’application défectueuse et pertes de données. Le déclenchement de ces mécanismes dans une application utilisateur se manifeste généralement par la fermeture autoritaire de celle-ci par le système d’exploitation et l’affichage d’un message d’erreur (« faute générale de protection » sous Windows, « erreur de segmentation » sous Linux…).

Ces mécanismes de protection de la mémoire servent également à la sécurité, puisqu’ils permettent d’isoler les uns des autres les utilisateurs de la machine. Ceci est bien évidemment d’une extrême importance quand cette machine fait cohabiter des utilisateurs très divers, par exemple un serveur utilisé par les étudiants d’une université, encore plus lorsqu’il s’agit d’un serveur de cloud computing, c’est-à-dire d’une machine située chez un prestataire (OVH, Microsoft Azure, Amazon Web Services…) où des clients sans aucun rapport les uns avec les autres louent la possibilité de lancer des applications.

L’attaque MELTDOWN est possible parce que dans certains cas, sur certains modèles de processeurs, notamment du fabricant Intel, le processeur commence à exécuter des instructions dépendant d’un accès mémoire illégal avant de se rendre compte de l’illégalité de celui-ci. Bien entendu, il ne s’agit pas d’une erreur aussi naïve que d’autoriser la récupération directe d’une donnée qui devrait rester protégée : lorsque le processeur s’aperçoit de l’erreur de protection, il rétracte l’opération illégale ainsi que celles qui dépendaient de lui. Or, et c’est le même phénomène qui est exploité dans les attaques SPECTRE, cette rétractation est imparfaite : si des instructions qui ont commencé d’être exécutées avant d’être rétractées ont provoqué des chargements dans le cache, les données ainsi chargées dans le cache y restent. Il est ensuite possible d’y détecter leur présence par des moyens indirects (la présence ou l’absence de certaines données dans le cache produit des différences de temps d’exécution qu’il est possible de mesurer). J’ignore pourquoi ces processeurs ne commencent pas par vérifier la protection avant de lancer les chargements dans le cache. L’article dit que c’est peut-être pour des raisons d’efficacité.

Quelles conséquences de l’attaque MELTDOWN ? Dans certaines circonstances (cela dépend des mécanismes précis de protection), un simple utilisateur peut lire le reste de la mémoire de la machine, y compris la mémoire du noyau et celle des autres utilisateurs, accédant à toutes les données y compris sensibles (mots de passe). C’est donc une attaque particulièrement gênante pour les prestataires de cloud computing (mais, dans leur cas, sa possibilité dépend du mécanisme technique d’isolation des utilisateurs les uns des autres, car tous ne sont pas vulnérables), ou pour les gestionnaires d’environnements avec un grand nombre d’utilisateurs ayant le droit de lancer des logiciels de leur choix (universités, entreprises). Dans le cas de machines personnelles, elle ne permet qu’une escalade de privilège : l’individu malveillant doit déjà trouver un moyen de lancer un logiciel de son choix sur cette machine, et ensuite seulement peut exploiter la faille pour obtenir l’accès à des données auxquels ce logiciel ne devrait pas déjà avoir normalement accès ; cela me semble un problème plus limité.

Comment pallier l’attaque MELTDOWN ? Microsoft (Windows), Apple et les développeurs de Linux ont des solutions. Bien évidemment, seule celle de Linux est documentée : elle consiste à « cacher » totalement la mémoire du système d’exploitation aux applications, au lieu de, comme actuellement, l’exposer mais avec l’indication « cette mémoire est protégée et n’est accessible que par le système d’exploitation ». Cela implique qu’à chaque fois que le système d’exploitation sera appelé par l’application, celui-ci change la « carte mémoire » utilisée, et devra la changer à nouveau dans l’autre sens au retour dans l’application. Ceci a bien entendu un coût, les applications faisant beaucoup appel au système d’exploitation (on parle de 30 % d’efficacité en moins pour des bases de données) étant plus fortement touchées que celles qui font juste des calculs en mémoire. Une rectification du matériel serait bien entendu préférable, mais implique probablement de changer le parc informatique existant.

David Monniaux, Directeur de recherche au CNRS

03 janvier 201807 décembre 2017

Rien de nouveau dans les Fake News

Le 25 octobre 2017, une session passionnante d’Inria Alumni était consacrée au phénomène des Fake News au Conservatoire National des Arts et Métiers en partenariat avec la Société Informatique de France, avec Francesca Musiani (CNRS), Ioana Manolescu (Inria) et Benjamin Thierry (Université Paris-Sorbonne). Ce dernier est maître de conférences en histoire contemporaine et Vice-président chargé des Humanités numériques et des Systèmes d’information à l’Université Paris-Sorbonne. Binaire lui a demandé de nous apporter son point de vue d’historien sur le sujet. Serge Abiteboul.

Fake News et post-vérité ont été mis sous le feu des projecteurs en 2016 à l’occasion de la dernière présidentielle états-unienne. À la suite de cette couverture médiatique mondiale, le dictionnaire Oxford choisit « post-truth » comme mot de l’année. Le terme est pourtant déjà ancien puisqu’on le voit émerger dès 2004 dans les travaux de Ralph Keyes^[1]. Ce dernier étudie alors la viralité qui semble désormais primer sur la véracité dans la circulation de plus en plus massifiée, décentralisée et accélérée de l’information.

C’est alors que Donald Trump est porté à la magistrature suprême que le grand public découvre par la presse que des entreprises de manipulation de grande envergure ont accompagné et probablement favorisé la défaite d’Hillary Clinton et la victoire du candidat républicain. Au-delà de l’espace nord-américain, ces fausses nouvelles seraient désormais la norme et de nombreuses analyses convergent pour expliquer les conditions supposées du débat public à l’heure des réseaux.

Anatomie d’une fausse nouvelle

En premier lieu, c’est la composante technique du débat public qui est le plus régulièrement pointée du doigt. Fabrice Arfi considère le numérique responsable d’ « une forme d’horizontalité et de viralité très particulière » qui favorise le recours au mensonge comme arme politique^[2] ; Frank Rebillard dans son article sur le PizzaGate considère que « les schèmes conspirationnistes, dont la rumeur en ligne constitue l’un des véhicules privilégiés, trouvent avec le numérique et l’Internet des éléments documentaires de nature à renforcer l’illusion d’une démonstration de leurs constructions intellectuelles^[3]. » Bruno Patino voit également dans nos nouveaux outils d’information et l’habitude prise du partage immédiat le ferment de la post-vérité : « Ce qu’on appelle « post-vérité » et fake news, c’est le symptôme d’une transition qui a commencé avec le smartphone. On a oublié ce qu’est un fait : le fait commence à exister avec le télégraphe. Les endroits où il y a un pouvoir ou bien où il se passe quelque chose, télégraphient le fait brut : « Le ministre a déclaré que… », « Il y a douze morts à tel endroit ». La séparation fait /analyse, fondatrice du journalisme, vient de là. On transmettait l’info, sans transformation, puis on hiérarchisait et on commentait ces informations. Aujourd’hui, le fait ne se transmet plus, il se partage. Or le partage transforme le fait à tout moment, à tel point que la traçabilité du fait est désormais une question essentielle^[4]. »

Autre facteur souvent cité pour expliquer l’irruption des fausses rumeurs et fortement lié à la supposée dictature technique des réseaux, notre tendance à rechercher l’immédiateté dans la consommation, mais surtout dans les relais que nous donnons à l’information. « Tout a lieu en temps réel et instantanément. Il n’y a pas de temps pour la réflexion ni de pause pour la pensée ou le souvenir […] nous n’avons plus besoin de nous souvenir puisque la technique le fait pour nous^[5] » nous explique Manya Steinkoler avant de souligner que nous sommes également poussés à chercher les informations qui nous confortent dans nos opinions et croyances plutôt que des éléments déstabilisants parce que divergents d’avec nos idéologies personnelles ; tendance encore renforcée par les phénomènes de bulles filtrantes. Ajoutons les réseaux sociaux qui, dans leur fonctionnement même, n’ont pas fondamentalement intérêt – hors des déclarations d’intention de leurs fondateurs pour rassurer utilisateurs et autorités – à limiter le recours au mensonge : une information est une information qu’elle soit vraie ou fausse : « Facebook a intérêt à ce que l’info se partage beaucoup et vite et une info scandaleuse et fausse se partage mieux et plus vite qu’une info ennuyeuse, mais vraie^[6]. »

Enfin, il existe un marché de la rumeur, instrumentalisée à des fins partisanes, comme l’a montré le New York Times avec l’exemple de Cameron Harris et d’autres.

Modernité technologique chaotique, horizontalité, recherche d’immédiateté effrénée et acteurs intéressés à la monétisation du mensonge, voici les principaux éléments qui sont évoqués pour expliquer la prolifération des fake news et l’entrée dans l’ère de la post-vérité dont notre époque serait frappée.

La longue histoire du faux

Tous ces facteurs semblent s’entretenir mutuellement, mais contribuent-ils réellement à créer une rupture dans l’histoire de l’information et de ses rapports à nos démocraties occidentales ? Ne cédons-nous pas à une idéalisation du passé comme à chaque fois que le présent nous déçoit ?

Force est d’abord de constater que l’instrumentalisation du mensonge et de la rumeur ne date pas d’hier. Les formes mêmes de cette instrumentalisation n’ont finalement pas beaucoup changé. Dans un article important de 2017, Catherine Bertho rappelle que les mazarinades au XVIIe siècle ou les campagnes de dénigrement de Marie-Antoinette au siècle suivant reposent elles aussi sur le mensonge structuré autour d’« un labyrinthe de textes éphémères, elliptiques, bourrés d’allusions aux événements du jour, rompu à toutes les ruses de la controverse^[7]. » Les calomnies circulent « par rebonds. Les textes, loin de développer des argumentaires cohérents, se répondent de façons confuses et embrouillées ». Ces opérations de guérilla médiatique visent à la désacralisation et à la déligitimisation du pouvoir en place et de l’adversaire. Dans le cas des libelles contre Marie-Antoinette, « ils sont fabriqués par des officines et diffusés par des médias marginaux avant d’alimenter la rumeur avec une impitoyable efficacité. L’accusation d’inceste, par exemple, poursuivra la reine jusque devant le tribunal révolutionnaire^[8]. »

Confortablement installés dans notre modernité technologique contemporaine, nous n’échappons pas non plus à ce brouillage du réel dont les effets ne sont certes et heureusement pas comparables. Dans son numéro 115, Le Monde Diplomatique publie une enquête saisissante sur l’économie des « pièges à clics » qui incarnent la forme numérisée de la presse à scandale au travers de plusieurs témoignages de salariés de Melty, Konbini ou BuzzFeed. Gouvernées par la recherche du lectorat à tout prix au moyen d’outils de surveillance des tendances supposées de l’actualité, ces rédactions font elles aussi peu cas de la « vérité » tel qu’on peut s’y attendre chez des journalistes : « Dès que l’algorithme voyait un sujet remonter dans les statistiques, il fallait faire un article dessus, même s’il n’y avait pas d’info. Une fois, je suis allée voir la rédactrice en chef, et je lui ai dit que je n’avais pas d’info sur le thème demandé (la chanteuse Britney Spears). Elle m’a répondu : ‘Ce n’est pas grave, tu spécules’^[12]. »

Les fake news sont-elles faites pour être crues ?

Lecteurs abusés, citoyens déboussolés et trompés, ce panorama peut faire craindre un affaiblissement possiblement fatal de notre capacité à fonder notre jugement. L’information conçue depuis la loi de 1881 comme l’élément déterminant de l’exercice raisonné de la citoyenneté est de moins en moins fiable. À l’heure du fake globalisé, c’est désormais sur le fonctionnement même de nos démocraties que pèse la menace du grand brouillage rendant notre action citoyenne dépourvue de sens.

Un premier élément de réflexion à la lumière des exemples évoqués ci-dessus pourrait être qu’il ne faut pas idéaliser un passé que l’on érigerait en âge d’or de la vérité. Le lecteur de ou du Figaro était-il mieux informé et moins soumis à l’orientation de ses lectures que l’internaute d’aujourd’hui ? Le contexte est différent et la surcharge informationnelle a succédé à la rareté, mais considérer nos aïeux comme de parfaits acteurs rationnels en matière politique est une erreur que la littérature historienne sur le vote, l’histoire de la république et le politique en général a démystifiés depuis belle lurette.

Un second point qui mérite notre attention est soulevé par Jean-Claude Monod relisant Arendt à l’heure des Fake News : la vérité n’est pas la seule valeur dans la sphère politique d’une démocratie. L’utilisation massive du mensonge et de la rumeur dans le cadre de la présidentielle de 2016 ainsi que son traitement sous cet angle, conduit à nous faire oublier le poids des opinions. Comme le rappelle Arendt dans Vérité de fait et opinion politique qui est initialement publié dans le New Yorker le 25 février 1967, « on peut dire que l’opinion, plus que la vérité, constitue le véritable fondement de la démocratie^[13] ». L’opinion c’est « savoir un peu et croire beaucoup » pourrait-on dire en forme de boutade.

Deux questions valent la peine d’être posées une fois ce constat dressé : à quoi peuvent bien servir les fake news si elles ne sont pas toutes entières contenues dans le projet de tromper leurs destinataires et que nous disent-elles de notre modernité sur le plan informationnel ?

La fausse nouvelle en ce qu’elle est virale comme l’ont souligné nombre d’analystes, ne circule que grâce aux truchements de la multitude, c’est-à-dire nous. Mais nous ne la relayons pas uniquement parce qu’elle est prise pour vraie, mais pour beaucoup d’autres raisons. Pour faire communauté avec celles et ceux qui partagent une indignation ou un engagement commun par exemple. Quand un site parodique déclare que des prostituées russes ont témoigné avoir eu des relations sexuelles avec le futur président américain et qu’il est affublé d’un micropénis^[14], peut-être certains seront portés à le croire, mais à en croire les commentaires sur les réseaux sociaux ou les forums, cela sert avant tout au dénigrement caricatural de Donald Trump dans une version actualisée des poires de Daumier^[15].

Quand en 2015, la photographie de Justin Trudeau en visite dans une mosquée canadienne^[16] est reprise sur plusieurs sites proches de l’extrême droite et qu’on y ajoute des interrogations sur sa « possible » conversion à l’islam, est-ce toujours une fake news puisqu’elle n’affirme rien ou plutôt une instrumentalisation politique par insinuation pour dénoncer la proximité de Trudeau avec les musulmans canadiens ?

Quelques études commencent à montrer que la seule alternative entre le vrai et le faux n’est pas la bonne focale pour comprendre le phénomène des fake news. Quand ils essayent d’apprécier l’impact de ces dernières sur l’élection de Trump^[17], Hunt Allcott et Matthew Gentzkow revoient considérablement à la baisse l’hypothèse d’une tromperie généralisée des électeurs au moyen des fausses nouvelles. John Bullock et ses coauteurs ont également montré qu’un panel représentatif d’électeurs choisissait délibérément d’ignorer les fausses nouvelles et de ne pas les faire circuler si l’on intéressait cet acte de sélection par une légère rémunération^[18]…

Pour massif que le phénomène soit, son impact est donc à relativiser. Il ne s’agit pas non plus d’en faire un détail sans importance. Qu’on souhaite la combattre ou la comprendre, la fausse nouvelle comme la rumeur ouvrent des perspectives sur nos mentalités collectives en ce qu’elles « font appel aux émotions élémentaires et aux souhaits réprimés^[19]. » En 1921, Marc Bloch qui avait servi sous les drapeaux et dans la boue des tranchées, ne disait pas autre chose en invitant l’historien à se pencher avec lui sur les rumeurs du front, « ces singulières efflorescences de l’imagination collective » qui en disent parfois plus sur les acteurs qu’ils n’en déclarent eux-mêmes, car « l’erreur ne se propage, ne s’amplifie, ne vit enfin qu’à une condition : trouver dans la société où elle se répand un bouillon de culture favorable. En elle, inconsciemment, les hommes expriment leurs préjugés, leurs haines, leurs craintes, toutes leurs émotions fortes^[20]. »

Pour finir, je pense que ces trop courts développements à propos d’un phénomène complexe invitent à deux attitudes complémentaires.

En tant qu’historien, les fake news constituent un « terrain de jeu » sans pareil pour, dans les pas de Bloch, ouvrir la boîte noire des idéologies contemporaines en abandonnant la vision surplombante et stérile de la disqualification a priori du « faux ». Les collègues intéressés à la pratique d’une histoire immédiate appuyée sur les archives nouvelles que sont les archives du Web ont un champ nouveau et passionnant à investir.

En tant que citoyen enfin et dans le sillage d’Arendt cette fois, il s’agit de garder à l’esprit que si la démocratie ne peut se passer de « vérité factuelle », la tentation d’opposer une vérité parfaite au mensonge est tout bonnement illusoire et contre-productif. La démocratie n’est pas affaire de spécialistes du vrai transformés en censeurs des opinions dissidentes et la mobilisation politique passe par bien d’autres voies que l’adhésion au vrai et le simple rejet du faux.

Benjamin Thierry, Université Paris-Sorbonne, @BGThierry ‏

[1]. KEYES Ralph, The Post-Truth Era. Dishonesty and Deception in Contemporary Life, St. Martin’s Press, New York, 2004, 312 p.

[2]. « Rendre public ». Entretien avec Fabrice Arfi, in Médium, n°52-53, 2017, p. 59-84.

[3]. REBILLARD Franck, La rumeur du durant la présidentielle de 2016 aux États-Unis. Les appuis documentaires du numérique et de l’Internet à l’agitation politique, in Réseaux, n°202-203, 2017, p. 273-310.

[4]. Pouvoirs de l’algorithmie. Entretien avec Bruno Patino, in Médium, n°52-53, 2017, p. 174.

[5]. STEINKOLER Manya, Mar a logos. L’élection de Trump et les fake news, in Savoirs et clinique, n°23, 2017, p. 30.

[6]. Pouvoirs de l’algorithmie. Entretien avec Bruno Patino, in Médium, n°52-53, 2017, p. 178.

[7]. Ibid.

[8]. Ibid.

[9]. Brian Denis, Pulitzer: A Life, Wiley, New York, 2001, 464 p.

[10]. Taguieff Pierre-André, Les Protocoles des Sages de Sion. Faux et usages d’un faux, Fayard, Paris, 2004, 489 p.

[11]. ZAKHAROVA Larissa, Accéder aux outils de communication en Union soviétique sous Staline, in Annales. Histoire, sciences sociales, 2, 2013, p. 463-497.

[12]. EUSTACHE Sophie & TROCHET Jessica, De l’information au piège à clics. Ce qui se cache derrière Melty, Konbini, Buzzfeed…, in Le Monde diplomatique, n°115, 2017, p. 21.

[13]. MONOD Jean-Claude, Vérité de fait et opinion politique, in Esprit, octobre 2017, p. 143-153.

[14]. Voire par exemple https://www.snopes.com/trump-russian-poorly-endowed/, consulté le 20/11/2017.

[15]. Qui entretient une relation certaine avec le travail d’Illma Gore, voire ici : http://www.huffingtonpost.fr/2016/04/18/donald-trump-nu-micropenis-artiste-risque-proces_n_9719306.html.

[16]. https://www.islametinfo.fr/2015/10/22/photos-canada-le-nouveau-premier-ministre-serait-il-converti-a-lislam/, consulté le 06/11/2017.

[17]. ALLCOTT Hunt & GENTZKOW Matthew, Social Media and Fake News in the 2016 Election, in Journal of economic perspectives, voL. 31, n°2, 2017, p. 211-236.

[18]. BULLOCK John G., GERBER, ALAN S., HILL Seth J. & HUBER Gregory A. et al., Partisan bias in factual beliefs about politics, in Quarterly Journal of Political Science, vol. 10, 2015, p. 519-578.

[19]. STEINKOLER Manya, Mar a logos. L’élection de Trump et les fake news, in Savoirs et clinique, n°23, 2017, p. 28.

[20]. Bloch Marc, Réflexions d’un historien sur les fausses nouvelles de la guerre, Allia, Paris, 1999, p. p. 23.

Pour aller plus loin

« Rendre public ». Entretien avec Fabrice Arfi, in Médium, n°52-53, 2017, p. 59-84.

ALLCOTT Hunt & GENTZKOW Matthew, Social Media and Fake News in the 2016 Election, in Journal of economic perspectives, voL. 31, n°2, 2017, p. 211-236.

BELIN Célia, Comment anticiper la politique étrangère de Donald Trump ?, in Esprit, n°1, 2017, p. 131-139.

BERTHO-LAVENIR Catherine, Déjà-vu, in Médium, n°52-53, 2017, p. 85-100.

BLOCH Marc, Réflexions d’un historien sur les fausses nouvelles de la guerre, Allia, Paris, 1999, 64 p.

BRIAN Denis, Pulitzer: A Life, Wiley, New York, 2001, 464 p.

BULLOCK John G., GERBER, ALAN S., HILL Seth J. & HUBER Gregory A. et al., Partisan bias in factual beliefs about politics, in Quarterly Journal of Political Science, vol. 10, 2015, p. 519-578.

COLIN Nicolas & VERDIER Henri, L’âge de la multitude. Entreprendre et gouverner après la révolution numérique, Armand Colin, Paris, 2015, 304 p.

EUSTACHE Sophie & TROCHET Jessica, De l’information au piège à clics. Ce qui se cache derrière Melty, Konbini, Buzzfeed…, in Le Monde diplomatique, n°115, 2017, p. 21.

MONOD Jean-Claude, Vérité de fait et opinion politique, in Esprit, octobre 2017, p. 143-153.

Pouvoirs de l’algorithmie. Entretien avec Bruno Patino, in Médium, n°52-53, 2017, p. 173-185.

REBILLARD Franck, La rumeur du durant la présidentielle de 2016 aux États-Unis. Les appuis documentaires du numérique et de l’Internet à l’agitation politique, in Réseaux, n°202-203, 2017, p. 273-310.

STEINKOLER Manya, Mar a logos. L’élection de Trump et les fake news, in Savoirs et clinique, n°23, 2017, p. 23-33.

TAGUIEFF Pierre-André, Les Protocoles des Sages de Sion. Faux et usages d’un faux, Fayard, Paris, 2004, 489 p.

ZAKHAROVA Larissa, Accéder aux outils de communication en Union soviétique sous Staline, in Annales. Histoire, sciences sociales, 2, 2013, p. 463-497.

01 janvier 201803 mars 2022

Bonne année 2018

Toute l’équipe de binaire vous souhaite une belle année 11111100010.