Les experts à Grenoble

Nous avons rencontré Paul Vidonne, créateur de la société Lerti spécialisée dans l’Expertise et l’investigation numérique. Paul, ancien professeur d’université, directeur du Lerti, est expert judiciaire depuis 1992 auprès de la cour d’appel de Grenoble. Nous lui avons demandé de nous parler d’informatique légale. 

Binaire : Comment définiriez vous l’informatique légale ? Est-ce la traduction littérale de Computer Forensic ?

Crédit photo : LERTI
Crédit photo : LERTI

Paul Vidonne : La traduction du terme « Computer Forensic » est effectivement « Informatique Légale », sa compréhension en est relativement facile pour tout le monde car elle fait le parallèle avec la médecine légale. Elle est ainsi définit dans Wikipedia : « On désigne par informatique légale ou investigation numérique légale, l’application de techniques et de protocoles d’investigation numériques respectant les procédures légales et destinée à apporter des preuves numériques à la demande d’une institution de type judiciaire par réquisition, ordonnance ou jugement. On peut encore la définir comme l’ensemble des connaissances et méthodes qui permettent de collecter, conserver et analyser des preuves issues de supports numériques en vue de les produire dans le cadre d’une action en justice. »

Binaire : Il y a une grande différence entre les fonctionnements de la justice entre les pays anglo-saxons et latins. Cela impacte-t-il votre pratique ?

PV : Dans beaucoup de pays, les analyses pratiquées par les experts sont les mêmes, il n’y a pas de différence dans les techniques d’investigation numérique. Néanmoins pour comprendre les différences, il est important de préciser comment sont régis les experts et l’expertise judiciaire.

Crédit photo : LERTI
Crédit photo : LERTI

En France les personnes reconnues pour leur expérience et leur expertise dans leur spécialité peuvent demander leur inscription sur des listes dressées par les Cours d’appel. Ils portent alors le titre d’« expert judiciaire ». Dans le domaine pénal, ils peuvent être désignés par les juges d’instruction et les parquets pour effectuer des expertises, rémunérées par l’État. En matière civile, ils sont désignés par ordonnance ou par jugement et seront payés par les parties, selon un montant et des modalités fixées par une décision de justice. En revanche, dans beaucoup de pays, de telles listes n’existent pas. Les experts des parties sont alors désignés et rémunérés par les parties elles-mêmes, les parties pouvant aussi échanger des preuves de manière privée avant le procès.

Binaire : Comment devient-on expert ?

PV : On devient expert après une longue expérience professionnelle de type cadre d’entreprise, direction ou professeur – il y très peu d’experts jeunes – et l’inscription sur une liste comme nous venons de le voir. Le titre d’expert judiciaire est un engagement de servir la Justice et non un gallon de plus ou une ligne à ajouter au CV. En échange de quoi, pour un prix raisonnable, la justice fait appel à vous pour réaliser des expertises dont elle a besoin pour mener à bien ses investigations et la recherche de la vérité. Un expert doit avoir un autre travail. Les experts sont inscrits sur des listes de Cour d’appel, mais leur compétence n’est pas limitée à leur Cour d’inscription.

Aperçu du PCB et de la puce Mémoire Samsung KLM8G1WEMB-B031 Photo Lerti
Aperçu du PCB et de la puce Mémoire Samsung KLM8G1WEMB-B031
Crédit photo : LERTI

Binaire : Pourriez-vous nous parler des outils que vous utilisez ? C’est quoi votre boîte à outil ?

PV : Il existe tout un ensemble d’outils dédiés et spécifiques, la plupart étant des outils commerciaux. On trouve ainsi des outils pour expertiser et investiguer les disques durs, les téléphones mobiles et les GPS… Pour ces objets, on trouve des outils comme EnCase Forensic ou Forensic Toolkit qui permettent de retrouver des informations sur des disques durs et de passer à travers certaines protections des ordinateurs personnels et de bureau. Pour pratiquer des expertises plus exhaustives, il est parfois nécessaire de disposer de plusieurs logiciels car il y a des différences importantes dans les informations remontées par ces derniers.

Pour les téléphones mobiles, ce qui inclut aussi les tablettes et les GPS, nous utilisons les produits de la société suédoise MSAB ou israélienne Cellebrite. Ces produits permettent de connecter un grand nombre de téléphones et d’analyser leurs mémoires avec des logiciels pour en extraire des informations . On a aussi des produits de niche sous forme de « box » qui permettent de connecter des téléphones d’origine chinoise.

Ces éditeurs vendent les licences et des abonnements annuels ainsi que des formations pour être « expert agréé sur leurs logiciels ». Selon les pays, ces logiciels sont plus ou moins reconnus par les juridictions.

Il existe des solutions issues du monde du libre mais elles ont du mal à être à jour. Par ailleurs elles souffrent d’un manque de reconnaissance auprès des tribunaux.

Pour une société comme Lerti dont le chiffre d’affaire est de 500 K€, le coût des licences de ces outils n’est pas négligeable : il représente de l’ordre de 15% du chiffre d’affaire. On remarquera que pour un expert réalisant 1 ou 2 expertises par an, l’investissement dans ce type d’outil est quasiment impossible et il ne pourra mener à bien son expertise… qui pourra d’ailleurs être demandée à Lerti au final.

Mais on ne s’arrête pas là ! Par exemple, si un téléphone est cassé ou a été immergé, les puces mémoires peuvent ne pas être endommagées… Dans ce cas, après avoir enlevé les soudures, celles-ci sont mises sur un banc permet d’accéder aux données contenues dans la puce. Sous certaines conditions, un disque dur pourra être réparé en changeant les têtes de lectures si celles-ci sont défectueuses.

Extraction de la mémoire par points de contact sur le PCB. Source LERTI
Extraction de la mémoire par points de contact sur le PCB.
Crédit photo : LERTI

Binaire : Il fut un temps ou l’on recommandait d’effacer de très nombreuses fois un disque dur pour s’assurer que personne ne pourrait (re)lire les anciennes informations, qu’en est-il aujourd’hui ?

PV : Ces techniques nécessitaient la mise en œuvre de moyens considérables. Aujourd’hui, avec les disques durs modernes ce type de précaution n’est plus nécessaire.

Binaire : Quel est le protocole mis en place pour expertiser un objet ou un système informatique ?

PV : Il n’y a pas de protocole validé par des instances reconnues ou de norme, on est seulement dans les bonnes pratiques. Ainsi, on ne met jamais en marche un ordinateur – le faire serait une faute professionnelle -, on extrait le disque dur, on interpose un dispositif de blocage de toute écriture sur ce disque, on fait une copie de ce dernier avec des dispositifs techniques qui permettent de faire une copie de l’image physique, qui sera toujours signée avec une fonction de hachage pour avoir une copie « conforme » et non altérée.

La puce Skhynix après extraction (vues recto) Crédit photo : LERTI
La puce Skhynix après extraction (vues recto)
Crédit photo : LERTI

Il est intéressant de remarquer que depuis le début des années 2000, la Gendarmerie avec l’IRCGN et la police disposent de cellules à même de mener des investigations numériques. La différence avec les experts judiciaires c’est que ces investigations  sont rapidement et directement utilisés  dans les enquêtes.

La puce Skhynix après extraction (vue verso). Crédit photo : LERTI
La puce Skhynix après extraction (vue verso).
Crédit photo : LERTI

Binaire : Avez-vous un exemple d’affaires où l’informatique a joué le premier rôle ?

PV : Par exemple dans les affaires civiles, c’est l’expertise qui fait la décision dans des procès liés à des contrefaçons. De même, dans les procès aux assises, j’ai le souvenir d’une affaire ou un médecin gynécologue a été condamné pour agressions sexuelles ou viols de mineurs de moins de 15 ans ; les preuves, vidéos/photos des agissements du médecin, avaient été retrouvées sur des supports numériques. Sans ces éléments, le médecin aurait sans doute obtenu un non lieu ou un acquittement.

De même, l’expertise permet parfois de prouver la préméditation ou la bande organisée, ce qui change fortement le niveau de condamnation des coupables pour un délit ou un crime.

Binaire : Le crime numérique parfait existe-t-il ?

PV : Non… Pour un crime parfait, il vaut mieux ne pas toucher et/ou utiliser des outils numériques et détruire physiquement les objets…

Binaire : Un exemple de l’impuissance de l’informatique ?

PV : Oui, il y en a. Sous certaines conditions, la cryptographie permet de protéger des éléments d’information. L’autre nouveau défi pour les experts, c’est le volume colossal des informations à traiter : il n’est pas rare de devoir analyser des millions de fichiers sur un disque dur, 100 000 SMS/MMS dans un téléphone portable !

Binaire : Un dernier mot ?

PV : On rencontre lors de chaque affaire/expertise de nouvelles questions, c’est ce qui fait que c’est un métier passionnant.

Pierre Paradinas, CNAM.

Pour aller plus loin :

La page wikipedia sur le sujet : https://fr.wikipedia.org/wiki/Informatique_légale

La liste de diffusion sur laquelle les experts du domaine échanges régulièrement : http://mail.kreatys.com/cgi-bin/mailman/listinfo/forensic-list

A propos de Lerti : http://www.lerti.fr

Barack a dit : apprenez l’informatique !

Qui a dit ?

Dans la nouvelle économie, l’informatique n’est plus une compétence optionnelle. C’est une compétence basique, comme la lecture, l’écriture, et l’arithmétique.

Non. Cette fois, ce n’est pas nous.  C’est le Président Barack Obama, le 30 janvier 2016 en lançant l’initiative CS4ALL.

A la demande de Binaire, sa vidéo a été sous-titrée en anglais et en français par la communauté (un travail de crowd sourcing), un grand merci à toute l’équipe SLIDE du LIG à Grenoble et à Sihem Amer-Yahia en particulier !

Pour choisir les sous-titres, lancer la vidéo, puis choisir cc en bas et choisir la langue désirée.

Qui devrait voir cette vidéo ?

  • d’abord tous les responsables politiques à commencer par ceux du ministère de l’industrie et ceux de l’éducation nationale.
  • ensuite tous les élèves, les étudiants, leurs parents.
  • enfin tous les citoyens.

L’enseignement en France a bougé. Bravo ! Il faut maintenant réussir les réformes initiées, et il faut aller plus loin.

Binaire, et la Société Informatique de France

Panama papers : du fax au … big data

S’il se dit parfois qu’apprendre l’informatique pendant ses études ne sert qu’à devenir informaticien, et bien en lisant l’excellent article du blog ami «data.blog.lemonde.fr» sur le sujet, on peut se convaincre que le monde a bien changé sur ce point aussi. Ça fait plaisir de voir que l’informatique aide aussi à assainir nos démocraties. Charlotte Truchet et Thierry Viéville.

« Panama papers » : un défi technique pour le journalisme de données

Derrière les « Panama papers », [des] centaines de journalistes confrontés à ce « basculement de l’investigation dans l’ère du big data », [..] les 110 médias partenaires de l’enquête ont dû abandonner le calepin et le crayon au profit d’outils informatiques avancés.

et pour en savoir plus sur «Les coulisses technos de l’affaire « Panama papers »» voici une référence.

Mais si ! Le mieux est parfois l’ami du bien :)

Tous les ans les étudiantes et étudiants des classes préparatoires aux écoles d’ingénieur-e-s font un travail d’initiative personnelle encadré (TIPE) qui permet de les évaluer, au delà de compétences plus scolaires, sur leur capacités à proposer un projet de recherche en équipe et le mener à bien.
Ce travail pourrait défavoriser les candidat-e-s éloignés des ressources humaines et documentaires utiles, mais la mission de médiation scientifique Inria se met au service de toutes et tous à ce propos, avec Interstices (sélection des ressources) et Pixees (accompagnement et ressources), en lien avec ePrep.
Cette année le thème est Optimalité : choix, contraintes, hasard, c’est un sujet scientifique passionnant ; laissons à la parole* Guy Cohen, Pierre Bernhard et ses collègues pour nous l’expliquer. Thierry Viéville.

Optimiser pour résoudre un problème ? Une idée d’ingénieur-e !

Écoulement de fluides : optimisation de forme sans contrainte sur un multi-corps en régime subsonique. Objectif : réduction de la trainée et augmentation de la portance pour une aile développée en position d'atterrissage. La forme et les positions sont changées par l'optimisation. Optimisation sur maillage à connectivité et nombre de points variables (maillage adaptatif par contrôle de métrique).
Écoulement de fluides : optimisation de forme sans contrainte sur un multi-corps en régime subsonique.
© INRIA

Faire « le mieux possible » est somme toute une attitude naturelle dans la vie courante. Pour un ingénieur également, c’est un objectif permanent lorsqu’il a par exemple en charge la conception d’un équipement ou le dimensionnement d’une installation.

Mais, l’expression doit être relativisée. Tout dépend des contraintes, par exemple de budget ou de sécurité, tandis que le choix du critère à optimiser a fait l’objet de décisions préalables et souvent extérieures au travail à réaliser.

L’arbitraire du choix du critère et des contraintes ne fait donc pas partie du formalisme. Cet arbitraire est la marge de manœuvre qui permet à l’utilisateur ou au client d’exprimer ses désirs plus ou moins précis, voir même contradictoires.

Une fois ces spécifications arrêtées, il faut expliciter une solution (ou une décision) qui soit « meilleure » que toutes les autres. Il s’agit alors de modéliser le problème : caractériser cette solution pour la reconnaître (conditions d’optimalité) car la définition informelle de l’optimalité n’est pas utilisable de façon opérationnelle. On peut ensuite voir comment la faire calculer.

Soit. Mais une compréhension de la méthode mathématique et informatique qui vient ensuite permettre de guider ces choix est très utile, y compris aux « utilisateurs finaux », évitant par exemple des formulations difficiles à résoudre, fournissant des retours sur la nature du problème posé, quantifier dans une certaine mesure les choix a priori les uns par rapport aux autres.

Regardons alors cet aspect.

Optimiser pour résoudre un problème ? Une idée d’informathématicien-ne !

Les formes hexagonales des alvéoles d’abeilles correspondent à un certain optimum en terme de pavage de l’espace.
©Merdal at tr.wikipedia (CC-BY-SA)

Cette façon de poser le problème place la théorie de l’optimisation dans une famille plus large dite des « problèmes variationnels » qui contient notamment tous les problèmes d’équilibre rencontrés dans de nombreuses branches de la physique, des problèmes de transport, de théorie des jeux, les algorithmes d’apprentissage automatique, etc. Inversement, certains états d’équilibre de la Nature peuvent se réinterpréter comme les solutions de problèmes d’optimisation, ce qui donne souvent des moyens efficaces pour étudier leurs propriétés. Ainsi considère-t-on, en général que les espèces au cours de leurs évolutions se sont adaptées au mieux à l’environnement. Et si ingénieurs et mathématinformaticiens ont l’habitude de poser  les problèmes d’optimisation en termes de minimisation (d’un coût), les économistes aussi utilisent ce paradigme mais eux maximisent (un profit).

On se convaincra que c’est (au signe près : maximiser une fonction est bien équivalent à minimiser son opposé) la même théorie qui s’applique.

Quel est le levier pour résoudre un tel problème ? Une « cuisine » algorithmique. Une fois que le mathématicien a su caractériser une solution, et se prononcer sur son existence, voire son unicité, l’ingénieur voudrait bien pouvoir calculer cette solution. Il est hors de question de passer en revue tout ce qui est imaginable ou autorisé; il s’agit d’aller au plus vite vers la solution en améliorant par touches successives une ébauche de celle-ci.

Il y a une première idée très simple : partir d’une proposition initiale raisonnable voir même choisie au hasard. Ensuite, regarder dans son voisinage si une autre proposition ne serait pas encore meilleure. Oui ? Prenons là alors ! C’est déjà ça de gagné. Et recommençons avec cette nouvelle proposition, regardant de proche en proche comment améliorer. Rien de meilleur dans le voisinage ? Dans ce cas, cela signifie que la proposition est localement optimale. Facile, non ?

Racontons l’histoire avec un langage mathématique.
Brrr il fait froid ici ! Trouvons un endroit, une position p, idéale où il fasse bien chaud. Comme c’est des maths, j’écris T(p) = 30 pour dire : « je veux une position p où la température T est de 30 degrés ». C’est la solution à mon problème. Mais … comment deviner quelle est la bonne position : le bon p ? Essayons avec ma position actuelle, je la nomme p0. Je calcule T(p0) = 10. Dix degrés : Ouf ! Ça caille. Allez, bougeons un peu, vers la droite j’arrive à une position p1, avec T(p1) = 5. Mauvaise pioche. Et vers la gauche ? Là  j’arrive à une position p2, avec T(p2) = 15. C’est déjà mieux. Je vais alors tester le voisinage et aller vers un endroit encore plus chaud. Exactement comme lorsque nous étions enfants et nous jouions à deviner une cachette en guidant le joueur à force de « tu te réchauffes » ou « tu refroidis » jusqu’au « tu brûles » qui … bon. Tout le monde a compris.

Au lieu de trouver la bonne solution à un problème, on utilise un algorithme qui va améliorer d’itération en itération la solution initiale pour trouver la meilleure solution. Ici, le mieux est l’ami du bien.

De belles mathématiques pour que l’idée fonctionne.

Que faut-il pour que cette idée fonctionne bien ? Les mathématiques nous fournissent deux grandes idées : la première est la continuité.  Dans cet exemple, il faut que la température varie continument pour que ma recherche ait un sens. Si, à contrario, tout change dans tous les sens dans le voisinage je vais vite errer de manière chaotique à la merci de valeurs difficiles à relier entre elles.

Une deuxième grande idée est la convexité. Finalement, avec mon mécanisme, je ne fait que trouver un optimum local. Qui me dit que si je n’explore pas plus loin, quitte à passer par une zone fort froide, je ne vais pas trouver finalement un bon coin de feu, tout à fait réchauffant ? Garantir qu’il n’y a qu’un seul optimum global, sans concavité (autrement dit sans minimum local qui empêcherait de rechercher plus loin une meilleure solution) a été étudié en détail, c’est cette notion de convexité.

Et quand l’informatique vient au secours des mathématiques.

Placement géométrique et aménagement de satellites.  Il s'agit de placer l'antenne jaune, en tenant compte de certaines contraintes : laisser le champ de vision libre, éviter les contacts entre les antennes. En rose : positions autorisées. Pour en savoir plus
Placement géométrique optimal et aménagement de satellites sous contraintes.
© INRIA – MATRA Marconi Space

Dans beaucoup de problèmes d’ingénierie (ou d’économie), on sait calculer la fonction objectif, mais au prix d’un programme complexe. Dans certains cas on sait aussi calculer les variations de cette fonction pour aller vers l’optimum, mais encore au prix d’un programme compliqué (parfois déduit automatiquement du précédent). Dans des cas plus graves, on ne sait même pas calculer les variations exactes. Et puis il y a beaucoup de situations où il n’existe pas « un » optimum global mais plusieurs optima locaux qui ne s’obtiennent pas avec une formule mathématique, il faut alors ajouter des mécanismes d’exploration.

Il existe ainsi un grand nombre d’algorithmes d’optimisation. Par exemple des algorithmes génétiques, qui s’inspirent de ce que l’on comprend de l’évolution génétique des systèmes biologiques pour coupler optimisation locale d’une solution, avec un mécanisme de mutation vers de nouvelles solutions inédites. En pratique, c’est le dernier recours quand rien de plus efficace n’est possible !

L’étude des algorithmes d’optimisation, plus ou moins sophistiqués, est donc un sujet de la plus haute importance. Certains auteurs ont voulu opposer une mathématique “traditionnelle”, préoccupée de théorèmes, à une informatique “contemporaine”, préoccupée d’algorithmes. Mais que serait un algorithme sans un théorème disant qu’il calcule effectivement ce qu’on veut ? La création et l’étude des algorithmes est un objet essentiel, aussi ancien que les mathématiques elles-mêmes, et qui requiert des théorèmes de convergence, de cohérence (“consistency”, c’est à dire que si l’algorithme converge, c’est bien vers le résultat recherché) et qui mobilise tout l’arsenal des mathématiques « traditionnelles ».

Des humains aux cellules … Dame Nature ferait-elle de l’optimisation ?

Regardons deux exemples d’applications un peu inattendues.

Embouteillage ©commons.wikimedia.org

Embouteillages. Dans une ville encombrée, les automobilistes ont le choix entre plusieurs routes possibles pour se rendre d’un point à un autre. Tous souhaitent éviter les encombrements, et, disons, effectuer leur déplacement dans le temps le plus court possible. Pour fluidifier la circulation, les pouvoirs publics peuvent (en dépensant beaucoup d’argent !) ouvrir de nouvelles voies ou améliorer considérablement la vitesse de parcours de certaines. Mais il est arrivé (Stuttgart 1969) que cela fasse tellement empirer la situation de tout le monde qu’il faille fermer une voie récemment ouverte. (Paradoxe de Braess). On a pu observer ce paradoxe à New York lors de la fermeture de la 42ème rue.

Bref il faut parfois   « bloquer des voies » pour … limiter les embouteillages.

L’étude de cette question, notamment par John Glenn Wardrop (1952), et Dietrich Braess (1968) rejoint des questions de théorie des jeux, et pose de nombreuses questions annexes : l’occurence d’un paradoxe de Braess est-elle fréquente ou exceptionnelle ? Pourrait-on améliorer le trafic en étant plus directif, et de combien ?, etc.

Une chercheuse Inria, Paola Goattin, étudie ce type de problème et … sauve des vies humaines en montrant que lors de l’évacuation d’une foule (par exemple dans un cinéma en feu) il faut mettre des poteaux qui freinent les gens (en fait évitent les phénomènes de bousculade) pour optimiser les chances que tout le monde sorte vivant. Ce qui est remarquable c’est que le modèle est celui d’un fluide dont les humains seraient les particules et dont on éviterait les turbulences.

La spirale de l’évolution des espèces. ©.wikimedia.org

Évolution des espèces. On admet que l’évolution des espèces biologiques a sélectionné les comportements les plus efficaces. Pourquoi, donc, observe-t-on des comportements différents au sein d’une même espèce ?

Un peu de dynamique des populations (comment évoluent les effectifs des populations) permet de répondre. L’exemple type est celui dit « des faucons et des colombes » par référence non pas à deux espèces animales (on parle bien de variablité intra-spécifique : au sein d’une même espèce) mais à la terminologie désignant au congrès des USA les députés belliqueux ou pacifistes. «Être agressif ou ne pas l’être» ? that is the question, here 🙂 La coexistence de plusieurs comportements au sein d’une même espèce vivante est prédite C’est  un phénomène de théorie des jeux. L’équilibre de l’évolution est atteint quand plusieurs comportements donnent le même résultat, et, c’est ce qui est original par rapport à une simple non-unicité de l’optimum, quand la proportion des individus qui adoptent chaque comportement est exactement celle qui permet l’équilibre. C’est exactement la même chose que la multiplicité des trajets utilisés par les automobilistes qui tous prennent le chemin le plus rapide. (́Équilibre de Wardop) C’est très voisin du phénomène des stratégies aléatoires (on dit « mixtes », mauvaise traduction de “mixed”, mélangées) en théorie des jeux.

Plus généralement, la théorie de l’évolution introduit aussi une source d’optimalité par le hasard. La reproduction de notre ADN via les ribosomes et l’ARN messager produit des erreurs de recopie. Ces erreurs donnent naissance à des individus « mutés ». La plupart d’entre eux sont non ou peu viables. Mais si une mutation aléatoire donne naissance à un animal mieux adapté (disons avec une meilleure efficacité reproductive) il peut être à l’origine d’un nouveau groupe d’animaux (une nouvelle espèce) qui va petit à petit envahir toute la « niche écologique ». La reproduction et ses mutations aléatoires se comporte donc comme un algorithme de recherche aléatoire de la meilleure efficacité reproductive.

Récemment, un chercheur en neuroscience (Karl Friston 2006) a pris le risque de proposer une explication « unifiée » du comportement d’un système biologique : assurer sa survie, en s’assurant que ses variables vitales restent dans des intervalles de valeurs « acceptable ». Mais comme un tel système ignore le fonctionnement de son environnement et ce qu’il peut y arriver, le système va alors se doter d’un modèle interne de son environnement et de lui-même. Il va activement inférer les paramètres de ce modèle, de façon à pouvoir optimiser ses perceptions et ses actions. Cette théorie prédit que minimiser la surprise par rapport à ce qui pourrait lui arriver (y compris en explorant pour mieux connaître cet environnement donc éviter les surprises futures) est le comportement optimal, compte-tenu de ce qui est observable. Depuis près de dix ans, cette théorie explique pas à pas les fonctionnalités de notre cerveau et notre survie. Comme souvent en science, si la personne citée est anglo-saxonne, l’antériorité est plus internationale. Dès 1980, Jean-Pierre Aubin, Patrick Saint-Pierre et leurs collaborateurs développent cette idée et les outils mathématiques qui vont avec sous le nom de théorie de la viabilité. Le théorème de départ est dû à Georges Haddad, dans sa thèse préparée sous la direction de J-P. Aubin, 1981.

Si Dieu, qu’Elle ou Il soit, nous prête vie :).

(*) Ce texte est repris et adapté de l’introduction  du cours  de Guy «convexité et optimisation», donné à l’École des Ponts et Chaussées entre 2000 et 2010 et de deux cours de Pierre sur l’optimisation.

Pierre Bernhard et Guy Cohen, avec l’aide de Charlotte TruchetColin de la HigueraCorinne Touati, sur une suggestion et avec un travail d’édition de Valérie François et Martine Courbin-Coulaud.

 

Valérie Masson-Delmotte : les yeux dans les nuages

Cet article est publié en collaboration avec The Conversation

Valérie Masson-Delmotte  est chercheuse au Laboratoire des sciences du climat et de l’environnement du CEA, co-présidente d’un groupe de travail du GIEC. Elle a obtenu le prix Irène-Joliot-Curie pour la femme scientifique de l’année 2013. Elle explique le climat avec passion et avec un véritable talent de pédagogue.

Valérie Masson-Delmotte,
Valérie Masson-Delmotte, LSCE

Binaire : Valérie, pourrais-tu nous dire comment tu t’es orientée vers les sciences du climat et de l’environnement ?
Valérie Masson-Delmotte : J’aimais beaucoup regarder les nuages quand j’étais jeune. Je dévorais des articles de vulgarisation dans des magazines comme « La recherche ». D’abord,  j’ai eu envie d’être archéologue, puis ingénieur, sans même savoir ce que c’était. J’ai fait prépa, puis une école généraliste. Et un jour, j’ai décidé d’arrêter de juste suivre la pente naturelle suggérée par mon environnement. Je voulais décider de ma vie. Alors, j’ai fait une thèse au CEA en climatologie. Depuis, je suis chercheuse au CEA.

Tu pourrais nous parler ta spécialité ?
VMD : Je suis paléoclimatologue. J’étudie les climats dans le passé et leurs variations. Nous essayons d’établir quelles étaient les conditions environnementales dans les différentes périodes climatiques. J’étudie les indices que les variations du climat dans le passé ont laissés sur le milieu naturel, par exemple sur les carottes de glace et les cernes des arbres. Prenons les molécules d’eau. Les atomes d’hydrogène et d’oxygène ont chacun un nombre de neutron variable (deutérium ou hydrogène, oxygène de nombre de masse 16, 17 ou 18). L’abondance de ces molécules lourdes ou légères de l’eau dans les précipitations dépend de l’histoire de la vapeur d’eau dans l’atmosphère (depuis son évaporation jusqu’à la formation de la précipitation sous forme de pluie ou de neige) et donc des conditions climatiques. A partir de principes physiques bien maîtrisés, de modèles mathématiques, et de simulations informatiques, nous pouvons comprendre le climat il y a quelques siècles, plusieurs centaines de milliers d’années, peut être jusqu’à 1,5 millions d’années si on arrive à identifier et extraire les glaces les plus anciennes de l’Antarctique. C’est un travail de détective, c’est passionnant.

Acquisition des données

Peux-tu nous expliquer comment on arrive à prédire le temps, à prévoir comment le climat va évoluer ?
VMD : Il faut commencer par observer le temps qu’il fait. Tout commence donc par l’acquisition de toujours plus de données. Les réseaux d’observation météo ont été construits graduellement et sont coordonnés par l’Organisation Météorologique Mondiale. Il y a tout un travail sur les normes pour que les observations soient standards, homogènes,  et qu’on puisse les intégrer dans de grandes bases de données. Certaines de ces données sont en accès libre; ce sont souvent les données standard brutes. D’autres représentent un certain travail ; elles peuvent être monnayées, par exemple dans des services très spécifiques pour les agriculteurs.

Une caractéristique des données récoltées est leur hétérogénéité. Nous avons des mesures à terre, en mer, par satellite, verticales dans l’atmosphère… Les échelles d’échantillonnement varient dans le temps, dans  l’espace, tout comme les précisions, les incertitudes…

Grilles utilisées pour modéliser l'atmosphère, l'océan et les surfaces continentales (de manière imparfaite car il manque en particulier la grille en profondeur pour l'océan). © IPSL et CEA
Grilles utilisées pour modéliser l’atmosphère, l’océan et les surfaces continentales (de manière imparfaite car il manque en particulier la grille en profondeur pour l’océan). © IPSL et CEA

Les prévisions à court terme

L’ensemble de ces données permet de prévoir l’évolution du temps, à quelques jours. Pour cela, on utilise des modèles numériques de circulation dans l’atmosphère, régionale ou globale. Ceux-ci sont construits à partir des lois physiques mais aussi de représentations simplifiées des processus de petite échelle (nuages, turbulence…). On simule avec des ordinateurs les équations qui traduisent les lois de conservation de masse, d’énergie, etc.

Peux-tu nous expliquer ça plus en détail ?
VMD : On réalise un maillage, c’est-à-dire qu’on découpe l’espace en petits cubes. On a des données dans chaque cube : la température, la pression, le mouvement de l’air. Les cubes interagissent entre eux. On fait évoluer tout cela dans le temps. Plus les cubes sont petits, donc nombreux, plus il faut de calculs. On est donc limité par la puissance des ordinateurs dont on dispose. On se pose des questions comme : quel maillage choisir ? Quelles méthodes numériques ? Comment représenter la diffusion entre les cubes ?

Certains phénomènes physiques sont très complexes à représenter, comme la turbulence, les mouvements verticaux violents de l’atmosphère, ou les nuages, ou des interactions entre des particules et des nuages. Tous ces phénomènes sont importants pour la prévision du temps et pour le fonctionnement du climat.

À partir de l’état actuel de l’atmosphère, les calculs nous permettent de prévoir son évolution à court terme. Mais la nature est chaotique. Les calculs sont très  sensibles aux conditions initiales – que nous connaissons très imparfaitement. Cela demande donc d’effectuer de multiples simulations en perturbant un peu cet état initial et en assimilant un ensemble d’observations. A partir de cet ensemble de simulations, les précisions peuvent alors être exprimées de manière probabiliste. Cela pose des limites à cette prévisibilité. Plus on vise loin, un jour, deux jours, trois jours, plus on a d’incertitude. Ce n’est pas simple d’expliquer cette incertitude au grand public : que veut dire 40% de chance de pluie dans deux jours ? Des progrès énormes ont déjà été réalisés.  Les prévisions à quatre jours sont aussi bonnes que les prévisions à un jour dans les années 80. Nous pouvons nous attendre à encore plus d’améliorations à venir.

Les prévisions à moyen terme

On parle surtout du court terme (la météo) et du long terme (les évolutions du climat). Mais le moyen terme, disons entre quelques semaines et une année, est important aussi, par exemple, pour anticiper des conditions exceptionnelles de sécheresse ou d’excès d’eau dans les régions tropicales. C’est aussi important sous nos climats pour gérer la demande d’énergie (besoins de chauffage, par exemple) et anticiper les capacités de production (hydroélectricité par exemple). Le moyen terme permet aussi de prévoir au niveau mondial ou régional, les situations de pénurie, de surplus, les évolutions des cours des produits agricoles, pour le coton, cacao, café…

À moyen terme, c’est l’état de l’océan qui est déterminant. L’état de l’océan aujourd’hui permet dans certaines régions d’anticiper sur plusieurs mois la température de surface de la mer, ce qui va énormément jouer sur les prévisions. Le phénomène d’El Nino en est l’exemple le plus connu. S’il n’est pas encore possible de prévoir quand un évènement El Nino va se mettre en place, lorsqu’il a démarré, il est maintenant possible, en assimilant les observations dans des modèles océan-atmosphère de prévoir son évolution, sur plusieurs mois.

De nombreuses études sont en cours pour évaluer la prédictibilité climatique sur des échelles de temps de quelques mois à plusieurs années, en tirant parti de grands modes de variabilité du climat et de la circulation océanique. Cela passe par exemple par le fait de rejouer les évolutions récentes, en initialisant des modèles de climat (océan-atmosphère) par différents états et trajectoires de départ, puis en comparant leurs performances aux évolutions observées. Il existe une prédictibilité de ce type dans de nombreuses régions, y compris autour de l’Océan Atlantique Nord. Les données brutes sont imparfaites, les modèles ne sont pas parfaits, les méthodes de calcul sont perfectibles. Tout cela peut s’améliorer. La coopération internationale joue à fond (voir le programme CLIVAR) dans ces domaines même si elle peut être fragile…

À quoi tient cette fragilité ?
VMD : Nous sommes dépendant des politiques nationales. Par exemple, un des organismes publics australiens, le CSIRO, a décidé récemment de réduire massivement son effort de recherche en sciences du climat (observations atmosphériques et océanographiques, modélisation) en arguant que « l’aspect scientifique est établi » et en planifiant des recrutements autour de l’adaptation au changement climatique, ce qui témoigne d’une méconnaissance complète des enjeux scientifiques. Cela pose le risque d’une dégradation du réseau d’observation de l’Océan Austral, particulièrement critique pour le climat global. Et, sur certains points, nous n’avons pas assez de données : sur l’épaisseur de la neige  dans certaines zones de Sibérie, sur des observations à fine échelle en Afrique, dans des zones de populations nomades ou des zones de montagne.

Échelles de temps caractéristiques des rétroactions du « système Terre » (Rohling et al., 2012). De [1]
Échelles de temps caractéristiques des rétroactions du « système Terre » (Rohling et al., 2012). De [1]

Le long terme : le dérèglement climatique

Et le long terme ? Le dérèglement climatique ?
VMD : Il est possible de suivre précisément l’évolution d’indicateurs clés du climat comme la température moyenne à la surface de la Terre. Les recherches sur l’évolution du climat sont coordonnées au niveau international depuis 150 ans, bien moins avant.  Nous pouvons dire que la composition atmosphérique a beaucoup changé récemment. Le taux de CO2 dans l’atmosphère est passé de 280 à 400 parties par millions entre 1750 et aujourd’hui. Nous sommes certains que cette augmentation est due aux activités humaines (combustion d’énergies fossiles et déforestation), et le niveau actuel dépasse largement la gamme de variations au cours des glaciations des derniers 800 000 ans, préservées dans les glaces de l’Antarctique. Pour retrouver une telle concentration de gaz à effet de serre, il faut remonter à 3 millions d’années, pendant les phases chaudes du Pliocène (qui montrent aussi un niveau des mers très élevé du fait d’un recul des calottes du Groenland et de l’Antarctique).

L’évolution de la composition atmosphérique http://www.esrl.noaa.gov/gmd/aggi/aggi.fig2.png
L’évolution de la composition atmosphérique http://www.esrl.noaa.gov/gmd/aggi/aggi.fig2.png

Depuis ces temps reculés, sur le très, très long terme, on a assisté à une baisse très graduelle du taux de CO2 par des mécanises d’érosion et de sédimentation. Depuis la révolution industrielle, la combustion des énergies fossiles (accumulées pendant des dizaines de millions d’années antérieures) a conduit à un rejet brutal de CO2 dans l’atmosphère. Dans ce qui se passe actuellement, il y a une dimension irréversible qui est extrêmement préoccupante. Si nous arrêtions aujourd’hui, il faudrait plusieurs dizaines de milliers d’années pour revenir au niveau de CO2 pré-industriel. Nous pourrions même sauter une glaciation à cause de cela.

Qu’est-ce que cela veut dire « sauter une glaciation » ?
VMD : Les variations climatiques du  dernier million d’années sont marquées par de longues périodes froides, des périodes glaciaires, entrecoupées de périodes de climat plus doux  relativement brèves, 10 000 ou 20 000 ans.  Nous avons aussi mis en évidence que le moteur de ces variations glaciaires-interglaciaires est lié à des facteurs astronomiques (les modifications des caractéristiques de l’orbite de la Terre autour du Soleil et son axe d’inclinaison, qui agissent sur la répartition de l’ensoleillement en fonction des saisons et des latitudes). Ces facteurs astronomiques sont calculés par exemple par le français Jacques Laskar avec une très grande précision sur des millions d’années passées et futures. Mais deux autres facteurs jouent aussi un rôle clé dans ces variations glaciaires-interglaciaires : le volume des glaces continentales (présence ou absence de calottes, et leur effet réfléchissant ou albédo) et la teneur de l’atmosphère en CO2 (et son effet de serre). Des modèles de climat simplifiés sont utilisés pour comprendre ces glaciations passées et également pour évaluer la possibilité d’une glaciation future, en fonction du facteur astronomique et du devenir à long terme de nos rejets actuels.

Le contexte astronomique actuel et futur ne sera pas favorable à une glaciation, et nos rejets de gaz à effet de serre auront un effet à très long terme qui repousserait de plus de 100 000 ans la prochaine occasion d’une nouvelle ère glaciaire. Cet exemple illustre les conséquences possibles (ici plutôt positives) à très long terme de notre utilisation des énergies fossiles. A plus court terme, c’est à dire pour les prochaines décennies et les prochains siècles, ces rejets de gaz à effet de serre seront déterminants pour l’évolution du climat.

Tout cela a l’air très compliqué. Est-ce qu’on peut arriver à savoir ce qui va se passer dans un futur moins lointain ?
VMD : Nous travaillons intensément pour mieux comprendre ce qui va se passer dans les 50 ans à venir. Quels seront les changements du cycle de l’eau, des évènements météorologiques extrêmes, à l’échelle régionale? Comme augmentera la température ? Le niveau des mers ? Différents scénarios sont explorés : poursuite de l’augmentation des  rejets de gaz à effet de serre, ou stabilisation à moyen ou long terme, ou enfin diminution dans les prochaines décennies. Il faut prendre en compte également les rejets des particules de pollution et les modifications des surfaces continentales (forêts, cultures…). Enfin, pour évaluer la manière dont le climat pourrait réagir à chacun de ces scénarios, nous comparons systématiquement les différents  modèles de climat développés dans le monde.

Il existe une quarantaine de modèles de climat dans le monde, deux en France, à l’Institut Pierre Simon Laplace et à Météo France. Ces modèles comportent une représentation en 3D de l’atmosphère et de l’océan, leurs interactions, ainsi qu’une représentation des sols et de la glace de mer (banquise). Ils peuvent aussi intégrer une représentation simplifiée de la chimie atmosphérique et du cycle du carbone. Pour le moment, les calottes de glace continentales (Groenland, Antarctique) ne sont pas incluses de manière interactive dans les modèles de climat.

Ces modèles ont en commun le fait de résoudre les équations de base de la dynamique et de la physique de l’atmosphère et de l’océan mais diffèrent par les méthodes numériques mises en œuvre, par leur résolution spatiale, et par la représentation des processus de petite échelle (par exemple la turbulence, les nuages…). Ces modèles sont testés par rapport au climat actuel, aux études de processus, et à leur capacité à simuler les évolutions récentes observées ainsi que les grands changements climatiques passés.

Il n’existe pas de modèle « parfait » ayant une meilleure performance pour tous les aspects. Certains groupes de modélisation se sont attachés à avoir une représentation plus sophistiquée de certains processus (pour les uns cela peut être la banquise arctique, pour d’autres les processus de convection tropicale…). De ce fait, il est essentiel de comparer leurs résultats afin d’évaluer les réponses à des perturbations qui sont « robustes » (commune à de nombreux modèles avec une compréhension physique des mécanismes) et d’identifier les dispersions et incertitudes.

Pour prendre un exemple, nous avons réalisé que la banquise arctique diminuait fortement depuis une trentaine d’années, plus fortement que ce qu’annonçaient les différents modèles. Les modèles présentent donc le défaut de surévaluer la résistance de la banquise. Nous essayons de comprendre pourquoi, d’améliorer nos projections. Soit ce désaccord provient d’un défaut des modèles de climat (qui surestiment la résistance de la banquise) soit il provient du fait que l’évolution observée est accélérée par la superposition de mécanismes régionaux (transport de chaleur par les vents et les courants marins) au réchauffement climatique. Cela demande de confronter des ensembles de simulations, pour prendre en compte la variabilité « spontanée » du climat, à ces observations, mais aussi des simulations de climats passés et futurs pour analyser les comportements spécifiques de chaque modèle.

Pour les simulations d’évolutions climatiques à 30 ou 100 ans, il ne s’agit pas de « prévisions » mais de projections qui analysent les risques d’évolution future du climat en fonction de différents scénarios. L’évolution future du climat simulée va donc dépendre du scénario, c’est-à-dire de nos actions, mais aussi de la réponse des différents modèles de climat et enfin de la variabilité spontanée du climat. A court terme disons 20 ans et à l’échelle régionale, ces deux derniers termes peuvent être dominants. A moyen et long terme, le scénario d’émissions de gaz à effet de serre joue un rôle déterminant.

Projections d'évolution de la température moyenne à la surface de la Terre (en changement de °C par rapport à la moyenne 1950-2000) (a), de l'extension de banquise arctique en millions de km2 (b), et du pH de l'océan, en fonction de différents scénarios de développement et d'émissions de gaz à effet de serre (RCP2.6 : fort déclin des émissions de gaz à effet de serre dans les prochaines décennies; deux scénarios de stabilisation, RCP4.5 et 6.0, et un scénario d'augmentation des rejets de gaz à effet de serre (RCP8.5).
Projections d’évolution de la température moyenne à la surface de la Terre (en changement de °C par rapport à la moyenne 1950-2000) (a), de l’extension de banquise arctique en millions de km2 (b), et du pH de l’océan, en fonction de différents scénarios de développement et d’émissions de gaz à effet de serre (RCP2.6 : fort déclin des émissions de gaz à effet de serre dans les prochaines décennies; deux scénarios de stabilisation, RCP4.5 et 6.0, et un scénario d’augmentation des rejets de gaz à effet de serre (RCP8.5).

Peut-on dire que l’informatique a pris beaucoup d’importance en  climatologie ?
VMD : évidemment. Traditionnellement, avec les moyens de calculs et les bases de données. Plus récemment, nous nous sommes mis à utiliser l’informatique au service de la transparence de nos activités. Cette transparence est indispensable à cause de l’importance sociétale de nos travaux. Cela nous pousse à mettre en ligne nos données, les algorithmes que nous utilisons, à mettre nos journaux en accès ouvert (http://www.egu.eu/publications/open-access-journals/). Le regard critique nous conduit à toujours plus d’exigence de qualité. L’informatique s’est avérée aussi indispensable parce que nous fonctionnons de manière de plus en plus distribuée : des chercheurs de différents pays collaborent, partagent des données, des logiciels. Et comme ce que nous faisons est souvent incertain, il nous a même fallu définir des normes pour partager des connaissances sur cet incertain.

Tu adores expliquer, même aux enfants. Tu as écrit des livres sur le climat pour les enfants.
VMD : Si on arrive à expliquer les choses aux enfants, on arrivera à l’expliquer à tout le monde. Les enfants, en particulier au niveau pré-collégien, disent quand ils ne comprennent pas, et cela permet d’adapter ses explications. Ce sont aussi eux qui seront amenés à faire face au changement climatique et aux deux facettes des actions possibles (la transition énergétique d’une part et l’adaptation à un climat changeant d’autre part). Nous avons un vrai déficit sur les émissions scientifiques à la télévision en France. Le décalage entre les connaissances dans les laboratoires de recherche et la culture générale est énorme. Il faudrait une commande massive de l’Etat aux télévisions publiques. Cela tient du service public ! On le fait pour l’art et la musique classique, mais pas pour les sciences. En Angleterre, la BBC  fait un travail énorme, avec le soutien de la Royal Society. En France, c’est le désert.

C’est particulièrement vrai en informatique. Penses -tu que les étudiants de ton domaine ont assez de connaissances en informatique ?
VMD : Un grand nombre des chercheurs de mon équipe programment. Dans les équipes qui sont plus sur les modèles et la simulation, tout le monde programme. Ce sont des physiciens, des mathématiciens, parfois des informaticiens en support, mais tous ont besoin de programmer. Chez les jeunes qui nous arrivent, nous constatons souvent un vrai déficit pour ce qui est de la formation à la programmation, à l’analyse statistique de données, aux méthodes numériques, à l’optimisation de calculs. Au quotidien dans nos labos, nous mettons en place pour nos personnels et pour nos étudiants des formations, aussi par exemple à l’ingénierie du logiciel : comment développer des librairies logicielles, commenter ses programmes, etc. Nous avons aussi de gros besoins en développement et gestion de bases de données, en visualisation de données…

Quand j’étais en 6ème, j’ai eu la chance énorme de pouvoir participer à un club informatique. Nous pouvions même monter nos propres ordinateurs, des ZX81. Mes filles n’ont jamais eu droit à cela, ni au collège, ni au lycée. Elles utilisent beaucoup plus d’outils informatiques mais on ne leur a pas donné de cours d’informatique pour leur expliquer comment ça marche, et elles n’ont jamais eu le moindre projet de programmation. Donc tout ça leur va leur paraître magique. Je vais dans des classes ; je leur demande : « comment on fait pour savoir quel temps il va faire demain ? » On me répond : « on demande au téléphone portable ». Et je leur demande : « comment est-ce que le téléphone sait ? » Mystère ! C’est magique ! Ça me donne l’occasion de leur parler de réseaux d’observation météo, de collecte des données, de modèles de prévision météo, de simulation numérique… La plupart des jeunes ne se posent même pas la question. Ils faut les faire sortir de là, leur faire comprendre l’informatique,  comment fonctionnent les services de météo. Il faut en finir avec la « pensée magique ».

Entretien recueilli par Serge Abiteboul et Claire Mathieu

Crédit photo : Les photos viennent d’un numéro spécial de La Météorologie

Wanted : un informaticien pour venir en appui de la rédaction du prochain rapport du du groupe de travail I (« Physique du climat ») du GIEC entre 2016 et 2022. Voir http://ipcc.ch/pdf/vacancies/IT_Officer_wg1.pdf
GIEC (www.ipcc.ch): Le Groupe d’experts intergouvernemental sur l’évolution du climat (GIEC) est un organisme intergouvernemental, ouvert à tous les pays membres de l’ONU. Il « a pour mission d’évaluer, sans parti-pris et de façon méthodique, claire et objective, les informations d’ordre scientifique, technique et socio-économique qui nous sont nécessaires pour mieux comprendre les risques liés au réchauffement climatique d’origine humaine, cerner plus précisément les conséquences possibles de ce changement et envisager d’éventuelles stratégies d’adaptation et d’atténuation. Il n’a pas pour mandat d’entreprendre des travaux de recherche ni de suivre l’évolution des variables climatologiques ou d’autres paramètres pertinents. Ses évaluations sont principalement fondées sur les publications scientifiques et techniques dont la valeur scientifique est largement reconnue ». (Wikipédia 2016)

[1] Masson-Delmotte, Valérie, et al. « Qu’apprend-on des grands changements climatiques passés? » Rubrique: Paléoclimatologie (2015).
[2] La modélisation du climat, CEA Sciences, Vidéo
[3] Critical insolation–CO2 relation for diagnosing past and future glacial inception

La fouille de données et de texte au service des sciences

Cet article est publié en collaboration avec The Conversation

La société se trouve à la croisée des chemins. Aller vers des données ouvertes ou contractualiser ad nauseam. Le sujet a une importance considérable pour les chercheurs, mais aussi pour l’industrie. Binaire a demandé à un ami d’Inria, Florent Masseglia,  de nous éclairer sur les enjeux. Serge Abiteboul.

Florent Masseglia © Inria / Photo H. Raguet
Florent Masseglia © Inria / Photo H. Raguet

Pour les chercheurs, accéder aux publications de leurs pairs est une nécessité quotidienne. Mais avec l’accélération constante de la production d’écrits scientifiques arrivent deux constats :

  • Il peut devenir humainement difficile de faire le tri, manuellement, dans l’ensemble de la production scientifique.
  • Les machines pourraient faire sur ces écrits ce qu’elles font déjà très bien sur le big data : transformer les données en valeur.

Pour un acteur industriel, la valeur extraite à partir des données peut-être commerciale. C’est ce que le business a très bien compris, avec des géants du Web qui font fortune en valorisant des données (par exemple, en créant des profils utilisateurs pour vendre de la publicité ou des services). Mais valoriser des données ce n’est pas obligatoirement en tirer un profit commercial. Cette valorisation peut se traduire dans l’éducation, dans les sciences, dans la société, etc. C’est exactement ce que le TDM (Text and Data Mining, la fouille de textes et de données) peut faire quand il est appliqué aux données de la recherche : créer de la valeur scientifique.

Pour expliquer cela, j’aimerais introduire rapidement les notions de données et d’information. J’emprunte ici l’introduction de l’excellent article sur « les données en question », de Patrick Valduriez et Stéphane Grumbach  : « Une donnée est la description élémentaire d’une réalité ou d’un fait, comme par exemple un relevé de température, la note d’un élève à un examen, l’état d’un compte, un message, une photo, une transaction, etc. Une donnée peut donc être très simple et, prise isolément, peu utile. Mais le recoupement avec d’autres données devient très intéressant. Par exemple, une liste de températures pour une région donnée sur une longue période peut nous renseigner sur le réchauffement climatique. »

La température à un instant précis est donc une donnée. L’évolution de cette température dans le temps peut apporter une information.

Le data mining, ou la fouille de données, c’est l’ensemble des méthodes et des algorithmes qui vont permettre à ces données de nous parler. La fouille de données peut nous révéler des informations que l’on n’aurait peut-être jamais soupçonnées et que l’on ne pourrait pas obtenir en explorant ces données « à la main ». Des informations utiles et qui auront un impact sur nos décisions. Et plus la quantité d’information est grande, plus la crédibilité des informations découvertes est renforcée.

noun_406774_ccPour découvrir ces informations nouvelles, chaque algorithme fonctionne comme un engrenage. Et dans l’engrenage d’un algorithme de fouille de données, les pièces (les roues dentées) vont s’imbriquer et se mettre en mouvement. Elles vont dialoguer entre elles. Chaque pièce, chaque roue dentée, va jouer un rôle précis en travaillant sur une source de données particulière. On peut ainsi fabriquer un engrenage à chaque fois qu’on veut découvrir des informations dans les données.

Si vous voulez découvrir une éventuelle relation entre la météo et la fréquentation des médiathèques, vous pouvez fabriquer un engrenage qui utilisera deux roues. Une roue pour travailler sur les données de la météo des dernières années. Et une autre qui travaillera sur les données de fréquentation des médiathèques. Si ces données sont accessibles, que vous connaissez leur format et leur emplacement, alors il ne reste plus qu’à fabriquer les roues de l’engrenage et les assembler !

Mais vous pouvez aller encore plus loin. Par exemple, si vous ne savez pas encore quelle information sera révélée mais vous pensez qu’elle se trouve quelque part entre la météo, la fréquentation des médiathèques, et le budget que ces dernières allouent aux activités pour la jeunesse. Est-ce la météo qui influence la fréquentation ? Ou plutôt le budget ? Ou bien les deux ? Et c’est là tout l’intérêt de la fouille de données. On ne sait pas, à l’avance, ce que les algorithmes vont nous permettre de découvrir. On ne sait pas quelles sources de données seront les plus impliquées dans l’information à découvrir. Alors on croise des données, et on met les engrenages en place. Plus on utilise de sources de données différentes et plus on peut découvrir des informations qui étaient peut-être au départ insoupçonnables !

L’open-access, ça change quoi pour le TDM ?

noun_22108_ccLes données de la recherche (publications, projets, données d’expérimentations, etc.) sont un véritablement gisement pour les algorithmes de fouille de données. Pour expliquer cela, fabriquons ensemble un engrenage qui fonctionne sur ces données pour découvrir de nouvelles informations dans un domaine scientifique comme, par exemple, l’agronomie. Nous voulons savoir s’il y a des facteurs qui favorisent l’apparition d’un bio-agresseur. Nous aimerions utiliser des données concernant les champs (pour chaque champ : le type de culture, la hauteur de haie, type de faunes, bosquets, etc.) mais nous voudrions aussi utiliser des données concernant l’environnement (la météo, les zones humides, etc.) et enfin nous allons utiliser des études scientifiques existantes sur les bio-agresseurs (comme leur localisation, périodes d’apparitions, etc.). En utilisant l’ensemble de ces données, à très grande échelle, nous espérons découvrir un ensemble de facteurs souvent associés à la présence de ces bio-agresseurs, ce qui permettra de mieux lutter contre ces derniers.

La bonne nouvelle, c’est que toutes ces données existent ! Et les algorithmes, eux aussi, existent… Cependant, le monde de la recherche française se trouve face à deux voies.

Dans la première voie, toutes ces données sont accessibles facilement. Les données concernant les champs et leur environnement sont publiques. Les données concernant les articles scientifiques le sont, au moins, pour la communauté académique. C’est la voie de l’open-access.

Dans la deuxième voie, toutes les données ne sont pas accessibles librement. On peut avoir accès aux données concernant les champs car elles sont toujours publiques, mais pour les autres c’est plus difficile. Par exemple, les articles scientifiques sont la propriété des éditeurs. Ou encore, les données d’expérimentations sont sur des ordinateurs de différents chercheurs et ne sont pas rendues publiques. Pour y accéder, il faut passer par des filtres, mis en place par les ayants-droit selon leurs conditions. C’est la voie de la contractualisation du TDM.

En avril 2016, la France doit faire un choix entre ces deux voies. Le sénat étudie le projet de loi pour « une république numérique ». C’est la souveraineté scientifique de la France qui est en balance dans ce débat.

Avec l’open-access pour le TDM, vous pouvez regarder librement le format de toutes les données. Vous pouvez les lire, les copier, les transformer, etc. Vous pouvez fabriquer vos propres roues dentées pour qu’elles travaillent sur ces données. Et vous pouvez donc fabriquer vos propres engrenages. Sans limite. Sans condition, autre que l’éthique scientifique.

Graphe de données du moteur de recherche exploratoire Discovery hub © Inria / WIMMICS
Graphe de données du moteur de recherche exploratoire Discovery hub © Inria / WIMMICS

Avec la contractualisation, ce sont les ayants-droit qui vont fabriquer les roues pour vous. Si la roue n’est pas au bon format pour votre engrenage, si elle n’est pas compatible avec ses pièces voisines, ou alors si elle vient tout simplement à manquer… Alors votre engrenage ne tournera pas. Et il n’est pas question de remplacer la roue mise en cause par une autre car les données, hébergées chez l’ayant-droit, ne sont accessibles que par cette roue et aucune autre. Cependant, si on ne peut pas fabriquer l’engrenage qui utilise toutes les données, alors on pourrait se contenter d’un engrenage plus petit, qui n’utilise que les roues fabriquées par un seul et même ayant-droit, donc compatibles entre elles. Oui, mais cet engrenage ne fonctionnerait que sur les données de ce dernier. Les nouvelles informations découvertes le seraient donc sur un sous-ensemble très restreint des données. On ne verrait alors qu’une toute petite partie de l’image globale. Cela n’aurait aucun sens. De plus, il se trouve que certains organismes de recherche traitent avec 80 éditeurs différents ! Il faudrait alors fabriquer 80 engrenages différents au lieu d’un seul ? Le pire c’est que, utilisés tous ensemble, ces 80 engrenages n’arriveraient pas à la cheville de l’engrenage global fabriqué pour l’ensemble des données. Tout simplement parce que l’engrenage global peut croiser toutes les données alors que ces 80 engrenages différents, avec chacun des roues différentes, ne peuvent pas le faire. Ils n’ont accès qu’à un sous-ensemble des données et dans leur cas l’union ne fait pas la force… Ils ne peuvent pas s’échanger les données entre eux pour les croiser. Ainsi, pour lutter contre nos bio-agresseurs, mais aussi de manière générale pour extraire de nouvelles informations et découvrir des connaissances dans tous les domaines scientifiques, la recherche française doit pouvoir utiliser le tandem TDM & open access !

Effectivement, dans le cas de l’open-access, ce serait radicalement différent. Puisque les données seraient accessibles facilement, il deviendrait tout à fait possible pour notre engrenage de trouver, par exemple, des liens entre quelques variables qui concernent les champs, d’autres variables sur l’environnement, et encore avec d’autres variables issues d’articles scientifiques sur les bio-agresseurs. Et les informations découvertes auraient alors une sorte de force statistique bien plus grande. Elles seraient validées par le fait que l’on travaille sur l’ensemble des données. Sans restriction.

Grâce au droit d’exploiter les données de la recherche en open-access avec des outils de TDM complets, la recherche française disposera, comme ses concurrentes anglaises, japonaises, américaines ou allemandes, d’une vue d’ensemble sur les données, dont elle manque aujourd’hui. Et ce n’est pas un problème de technologie. La technologie est disponible. Elle fonctionne très bien dans d’autres domaines et elle est largement prometteuse pour les données scientifiques ! Si on leur donnait accès aux données de la recherche, les engrenages de la fouille de données fonctionneraient certainement à plein régime pour révéler des informations qui seraient peut-être surprenantes, ou qui pourraient confirmer des théories. Mais cela ne pourrait aller que dans une seule direction : encore plus de découvertes scientifiques.

 Florent Masseglia, Inria

S’il vous plaît… dessine-moi un superordinateur

Dans le petit monde de l’informatique, les superordinateurs occupent une place à part : ces grosses machines, souvent utilisées pour faire des simulations numériques de phénomènes météorologiques, physiques, chimiques, ou autres, affichent des puissances de calcul impressionnantes. Pour Binaire, Camille Coti, Maître de Conférences à l’Université Paris Nord, nous explique comment on mesure les performances de ces grosses bêtes. Charlotte Truchet

En novembre dernier, à Austin (Texas), le nouveachine_smu classement des 500 ordinateurs les plus rapides du monde a été dévoilé. Ce classement, appelé le Top 500, parait deux fois par an depuis 1993 : en juin et en novembre, à l’occasion de la conférence International SuperComputing. Mais… d’où sort ce classement ? Comment classe-t-on des ordinateurs ? Comment mesure-t-on leurs supposées performances ?

Ces ordinateurs, appelés supercalculateurs ou superordinateurs, sont des machines spéciales pour effectuer des calculs trop gros pour être faits par une machine de bureau. Ils ont une architecture spécifique, celle-ci ayant évolué au cours du temps. Ils sont pour la plupart hébergés dans des centres de calcul, et sont utilisés par un grand nombre d’utilisateurs qui se partagent leurs capacités.

Comment mesurer la performance des supercalculateurs ?

Tout d’abord, qu’est-ce que la performance des supercalculateurs ? C’est tout simplement la rapidité avec laquelle ils sont capables d’effectuer un calcul. Le Top 500 fournit deux chiffres : RPEAK et RMAX. Le RPEAK correspond à la puissance maximale théorique que peut fournir la machine. C’est une mesure très optimiste, qui ne tient pas compte des conditions réelles dans lesquelles les opérations sont effectuées. Cette mesure n’est donc pas vraiment équivalente à la performance du supercalculateur.

Le RMAX, lui, est mesuré par un vrai calcul, aux caractéristiques bien connues et représentatif des futurs calculs effectués sur ces machines : c’est ce qu’on appelle un benchmark. Le benchmark utilisé pour le Top 500 s’appelle LINPACK. Il effectue un calcul sur des matrices, très courant dans les applications de calcul scientifique, comme les résolutions de systèmes d’équations ou la simulation numérique. La performance est obtenue en divisant le nombre d’opérations de calcul effectuées par le benchmark par le temps pris par ce calcul. Il existe d’autres benchmarks, le plus connu étant le HPC Challenge : lui ne donne pas qu’un seul chiffre, mais un ensemble de mesures de différentes caractéristiques bien précises. Les résultats sont présentés sous forme d’un schéma appelé diagramme de cible.

Par exemple, sur la figure suivante nous voyons le diagramme obtenu pour deux machines qui ont figuré tout en haut du Top 500 : la machine K, qui fut première en 2011 et actuellement quatrième, et la machine Mira, actuellement cinquième. On voit que, suivant ce qui est testé, ces deux machines ne s’illustrent pas du tout sur les mêmes caractéristiques.

hpcc_kiviat_K_BGL
Crédits : HPCC / UTK

 

Que nous apporte ce classement

Les retombées de ce classement sont multiples. Tout d’abord, ne le cachons pas, être dans le peloton de tête constitue une formidable vitrine pour plusieurs acteurs. Le propriétaire de la machine s’affiche ainsi en tant que centre de calcul majeur, mais le prestige revient aussi au constructeur de la machine, aux constructeurs des différentes pièces, à l’institution qui a financé la machine… Même pour des machines situées à des rangs plus modestes, afficher une entrée dans le classement Top 500 permet de donner un retour aux organismes de financement : « voici ce que nous avons fait de l’argent que vous nous avez confié, le centre de calcul possède une machine qui fait partie des plus rapides du monde et le monde entier le sait ».

Observer les caractéristiques des machines est aussi très intéressant, notamment si l’on regarde leur évolution au cours du temps. On peut voir par exemple l’évolution des architectures matérielles. Aujourd’hui, les machines les plus puissantes sont des clusters, c’est-à-dire des grappes de petits processeurs astucieusement reliés entre eux, dont les nœuds disposent souvent d’accélérateurs, comme des GPGPU (processeurs de cartes graphiques, en français ou presque) ou des processeurs Cell. On voit aussi que la performance des machines du Top 500 double tous les 18 mois.

perfdev
Crédits : Top 500 / UTK

Récemment, la consommation électrique des machines est apparue dans les tableaux de résultats du Top 500. Une liste alternative, le Green 500, classe les supercalculateurs en fonction du nombre d’opérations par seconde et par watt.

Le classement

Mais au fait, qui a gagné en novembre dernier ? Sans surprise, la tête du classement est restée inchangée, avec en première position la machine Tianhe-2 du National Super Computer Center à Guangzhou. Cette machine est dotée de plus de trois millions de cœurs : 16.000 nœuds de calcul, chacun équipé de deux microprocesseurs Intel Xeon (12 cœurs chacun) et de deux accélérateurs Intel Xeon Phi. Les nœuds sont reliés par un réseau très rapide créé par le centre de recherche où la machine est située, appelé TH Express-2. Derrière cette machine on trouve Titan, un Cray XK7 appartenant au laboratoire national d’Oak Ridge (Tennessee), et en troisième position Sequoia, un IBM Blue Gene/Q appartenant au laboratoire national Lawrence Livermore (Berkeley, Californie), ces deux laboratoire dépendant du ministère américain de l’énergie. Quant aux machines françaises, elles pointent aux 33e (Total), 44e (CINES) et 53e (CEA) places.

Camille Coti (@camille_coti )

A lire aussi sur le même sujet : Comparer la puissance de deux ordinateurs, c’est facile ! dans Interstices 

Informatique : ta mémoire fout le camp !

C’est l’histoire d’un sauvetage que nous avons décidé de vous raconter aujourd’hui. Nos deux envoyés spéciaux ont volé au secours du patrimoine informatique et partagent avec nous cette aventure. Marie-Agnès Enard

La France s’en souvient mal, mais elle a une véritable histoire informatique. Nous sommes en 1966, l’Académie Française vient de définir l’informatique comme la « science du traitement rationnel, notamment par machines automatiques, de l’information considérée comme le support des connaissances humaines et des communications … ». Au même moment, le Général de Gaulle, lance le plan Calcul pour tenter de contrer la prise de contrôle « étatzunienne » de la seule société française produisant des machines informatiques, Bull. De ce plan, un consortium européen va naître pour tenter de devenir un « Airbus » de l’informatique, mais les choix stratégiques de ses dirigeants sont trop tardifs et ce sera finalement un échec, jalonné tout de même de succès comme le lancement des premiers plans pour l’enseignement de l’informatique et la filière composants électroniques, et surtout, la naissance d’un institut de recherche, qui deviendra Inria, et fêtera bientôt 50 ans de succès.

sos-amisa-1Nous sommes à Sophia-Antipolis, en mars 2016, un demi-siècle a passé. Dans une cave, sont entassés des dizaines d’ordinateurs et autres machines numériques, témoins de belles réussites, plutôt mal connues car la presse regarde trop facilement de l’autre côté de l’atlantique quand elle veut parler de science ou de technologie ; c’est plus tendance de parler « yankee » que « froggy » quand on parle de  «high tech».

Dans quelques heures, ce précieux patrimoine va être benné. Il y a beaucoup de machine étazuniennes, mais aussi quelques ordinateurs français. Pour ceux qui n’ont pas l’habitude des massacres de mémoire, cela signifie les balancer dans une benne à ordures et laisser se perdre ce patrimoine. C’est une catastrophe ! Le local est vendu, l’acheteur des lieux ne comprend juste pas de quoi on lui parle.

sos-amisa-3Exit, le calculateur analogique qui permet de simuler avec des circuits électriques des phénomènes physiques, bien avant que l’on puisse tout numériser. À la poubelle, la trieuse de carte perforée, témoin des débutsos-amisa-4s du calcul mécanique et son moteur électrique qui nous regardent avec plus d’un siècle de recul. Au rebut, la trace d’années d’innovations électroniques. À dégager, les documentations devenues exemplaires uniques, témoins que le patrimoine intellectuel des fondements du monde numérique s’incarne … dans les livres. Au-se-cours !!!

sos-amisa-5Cet appel au secours, la petite communauté française qui œuvre pour créer un musée de l’informatique http://www.musee-informatique-numerique.fr l’a entendu. Voilà l’association ACONIT (et ses experts) qui accourent, inventorient et conseillent. Le musée des arts et métiers, conformément à ses
missions, a prêté également main forte en dépêchant Isabelle Astic,
responsable de la collection Informatique. Elle sos-amisa-6 passera deux jours dans le noir, à expertiser à la lampe de poche chaque machine, chaque document, pour préserver ce qui a bien plus qu’une valeur commerciale. Il a manqué les masques car la poussière et les odeurs des fuites d’eaux usées, c’est pas agréable. Tiens ! Un livre sur l’intelligence artificielle des années 1970 ! Y lit-on les mêmes fantasmes sur l’«IA» que ceux que la presse en mal de sujet aime à répandre aujourd’hui ?

sos-amisa-7

À l’approche du parking et du garage, où sont stockés les objets, la pancarte a quelque chose d’ironique.

Le sujet est important. Binaire n’a pas hésité à dépêcher deux envoyés spéciaux pour participer au sauvetage de ce patrimoine informatique et du numérique, et témoigner de cette urgence. Bon : les objets sont sauvés. Le centre Inria de Sophia-Antipolis va offrir un sanctuaire ; merci à son directeur Gérard Giraudon !

Mais la prochaine fois ? Ce sera peut être trop tard… Depuis des années nous sommes quelques uns à nous inquiéter de la fragilité du patrimoine de l’informatique en France. Que font les acteurs publics ? Parmi nos belles entreprises du numérique, n’y en-a-il aucune pour s’inquiéter de la situation ? D’autres pays se sont lancés. Et nous ? Quand aurons-nous un organisme spécifiquement chargé de protéger le patrimoine informatique et numérique en France ? Et quand sera-t-il valorisé dans une « maison des muses * » ?

Pierre Paradinas et Thierry Viéville (toutes les photos ont été prises par les auteurs).

(*)  Une forme vivante et participative de musée, à déployer de manière ubiquitaire à travers les territoires, pour relier le passé de l’informatique à son futur, invitant chacune et chacun à découvrir à la fois le patrimoine scientifique et industriel et à s’exprimer sur ce que la recherche scientifique pourrait proposer (ref:#MINF/colloqueactes).

La data du vibromasseur

Le Big Data, l’analyse de données massives, peut être à l’origine d’avancées majeures en médecine notamment. Son utilisation sur des données personnelles pouvait déjà inquiéter. Avec les sex toys, le big data s’invite encore un peu plus loin dans l’intimité des utilisateurs des nouvelles technologies. Binaire a rencontré Andzelika Zabawki, la PDG de Galalit, une start-up qui vient de lancer Godissime, un vibromasseur connecté nourri au Big Data.

Depuis le OhMiBod, on ne compte plus les vibromasseurs connectés. Ils peuvent être contrôlés depuis un smartphone. Ils enrichissent les vies de couples, un partenaire pouvant guider à distance le plaisir de l’autre, peut-être même de la voix. Le vibromasseur Godissime de la société Galalit, en avant première au Salon de l’Érotisme, révolutionne la profession.

oh-my-god

L’idée est simple, avec plusieurs capteurs, on récupère toutes les données de chaque utilisation du vibromasseur. On analyse ensuite ces données pour mieux accompagner les plaisirs. Les données d’une utilisation, ça ne va pas bien loin ? Vous n’y êtes pas. Les données de toutes les utilisations. Nous sommes dans le Big Data. L’analyse de toutes ces données va permettre de mettre en évidence des similarités entre les utilisateurs-trices, de comprendre ce qui fait vibrer. Ensuite, à l’écoute de tous ses capteurs, Godissime va accompagner l’utilisateur-trice, contrôler le plaisir avec ses différentes options de vibreurs, guider de la voix. On peut choisir la voix, peut-être Scarlett Johansson, ou Benedict Cumberbatch.

Les techniques rappellent celles expliquées pour la musique dans « J’ai deux passions, la musique et l’informatique » (Voir Binaire 13 avril 2015). Comme l’ordinateur est capable d’écouter un musicien humain, de communiquer, de jouer avec lui, le vibromasseur est à l’écoute, communique et se comporte comme un.e partenaire idéal.e.

Petit soucis quand même. Pour que cela marche, il faut que Godissime dispose des données de millions de séances de vibromassage. Une employée de Galalit (demandant l’anonymat) nous a confirmé que la société disposait déjà de telles données. Des vibromasseurs en béta-test transmettent déjà depuis plusieurs semaines de telles données aux serveurs de la société. Nous avons vérifiés les conditions générales d’utilisation. C’est écrit en tout petit, mais c’est écrit : c’est fait en toute légalité !

Vous qui utiliserez peut-être un jour Godissime, serez-vous conscients que des données aussi intimes circulent sur le réseau ? Est-ce que les plaisirs que vous pourriez trouver dans de tels sex toys seront suffisants pour vous faire accepter les risques ?

Nous voilà bien dans un dilemme classique du Big Data.

L’histoire drôle (si vous aimez ce genre d’humour) qui fait fureur chez Galalit : « Dieu aurait pu se contenter de créer la femme. Pourquoi a-t-il aussi créé l’homme ? Parce que Godissime n’existait pas. »

Le nom de code du prochain produit de Galalit est Tanguissime. Les amateurs de Carlos Gardel auront compris que l’on passait à une autre dimension.

Pour aller plus loin :

  • Very deep learning and applications to vibrating devices, Andżelika Zabawki, PhD thesis, 2015.
  • Big data analysis and the quest of orgasms, submitted to The Journal of Irreproducible Result, Andżelika Zabawki, 2016

Serge Abiteboul, Marie-Agnès Enard, Thierry Viéville