Simuler les tornades

Dans le cadre de la rubrique « Il était une fois… ma thèse », Binaire a demandé à Matthieu Dorier, qui a effectué sa thèse à l’ENS Rennes et au laboratoire IRISA et qui est maintenant en postdoc à Argonne National Laboratory (Illinois) de nous présenter ses travaux. Derrière de nombreuses découvertes scientifiques se cachent de plus en plus souvent des millions d’heures de calculs effectués par de gigantesques machines. Vous ne savez pas comme c’est compliqué de commander des centaines de milliers, des millions de travailleurs-processeurs, peut-être obéissants mais bien loin d’avoir l’intelligence et la créativité de travailleurs humains. Et si vous pensez que c’est trop facile, ou si vous pensez que c’est trop compliqué, juste impossible, demandez à Matthieu et il vous envoie une copie de sa thèse. Si vous demandez poliment, il vous laissera peut-être voir ses milliers de lignes de code… Torride ! Serge Abiteboul.

Matthieu Dorier (source: Matthieu Dorier)
Matthieu Dorier (source: Matthieu Dorier)

En 2010, je m’envolai pour l’université d’Illinois à Urbana-Champaign, aux Etats-Unis, un coin paumé au milieu des champs de maïs, parfois frôlé par des tornades. Les tornades, c’était justement le domaine de recherche de mes collègues, qui voulaient en simuler le comportement sur un ordinateur. Ils me tendirent une feuille pleine de nombres. Le premier qui me frappa fut celui-ci : 300 000, le nombre de processeurs (ou « cœurs ») nécessaires pour exécuter ce genre de simulation. Trop dingue ? « A-t-on une telle puissance de calcul sous la main, demandai-je ? Non, répondirent-ils, mais nous l’aurons plus tôt que tu ne l’imagines. » Il n’en fallait pas plus pour m’accrocher. J’allais m’éclater à Urbana-Champaign. Difficile à croire, mais vrai !

Une tornade (source: Wikipedia)
Une tornade (source: Wikipedia)

Dans la science fiction, on parle souvent d’ordinateurs super puissants. Maintenant, on les fabrique. Comment ? On sait fabriquer un cœur. Et bien on va combiner un max de cœurs pour obtenir des supercalculateurs avec de super puissances de calcul. Et effectivement, le plus puissant au monde aujourd’hui possède plus de 3 millions de cœurs. Ces supercalculateurs sont utilisés par des chercheurs dans de nombreux domaines : météo, biologie, astrophysique, etc. J’ai eu la chance, l’honneur, le plaisir, la redoutable tâche de travailler sur un de ces supercalculateurs.

Le supercalculateur "Intrepid" d'Argonne National Laboratory (source: Wikipedia)
Le supercalculateur « Intrepid » d’Argonne National Laboratory (source: Wikipedia)

Les problèmes arrivent lorsque les programmes que l’on exécute sur un tel nombre de cœurs produisent des données. Si chaque cœur produit ne serait-ce qu’un fichier de 60 Méga octets  (plus que l’espace disque par une chanson dans votre téléphone) toutes les 30 minutes, et que le programme est exécuté pendant une semaine (c’est le cas de notre simulation de tornades, par exemple) avec 300 000 cœurs, on se retrouve avec 5.6 Peta-octets de données réparties dans 100 millions de fichiers. Pour vous donner une idée, cela représente 5 600 disques durs de 1 To ! Les supercalculateurs ont bien sûr des « super systèmes de stockage », mais écrire de grandes quantités de données prend du temps, et les programmes sont donc ralentis. De plus, comment retrouver des informations scientifiques intéressantes dans une telle masse de données ?

Visualisation d'une simulation atmosphérique via le logiciel Damaris (source: Matthieu Dorier)
Visualisation d’une simulation atmosphérique via le logiciel Damaris (source: Matthieu Dorier)

L’ensemble de ma thèse a donc consisté à résoudre ces problèmes : d’une part faire en sorte que la production de données ne ralentisse pas les simulations, d’autre part faire en sorte de pouvoir trouver facilement une information scientifique pertinente sans avoir à lire des centaines de milliers voir des millions de fichiers. Pour cela, j’ai développé un logiciel nommé Damaris. Celui-ci se « branche » sur une simulation et lui « emprunte » un certain nombre de ses cœurs, qu’il va utiliser pour traiter les données produites avant qu’elles ne soient écrites dans des fichiers. Ce logiciel sert aussi d’interface entre une simulation et son utilisateur, qui peut s’y connecter en temps réel et demander à ce qu’il produise des images de la simulation. Tout cela sans avoir besoin d’écrire les données dans des fichiers ! Grâce à cette méthode, les scientifiques peuvent obtenir les résultats qu’ils cherchent avant même que la simulation ne soit terminée.

Après avoir soutenu ma thèse fin 2014, je me suis de nouveau envolé pour l’Illinois, cette fois-ci à Argonne National Laboratory, près de Chicago. J’y travaille toujours sur la gestion de données dans les supercalculateurs.

Matthieu Dorier

Visualisation de la simulation d’une tornade F3

La faute à l’algo

Le mot « algorithme », qui désigne un objet bien précis en informatique, est utilisé dans la presse pour n’importe quelle utilisation de n’importe quelle technologie informatique dans n’importe quel cadre. Dans ce chaos médiatique, l’informaticien ne retrouve bien souvent pas ses petits. Pour binaire, David Monniaux, Directeur de Recherche au CNRS à Grenoble, résume le désarroi de la communauté informatique devant cette nouvelle habitude. Charlotte Truchet

La faute à l'algo, Nolife
La faute à l’algo, Nolife

« Les algorithmes. » Depuis la discussion de la loi sur le renseignement, cette expression revient sous la plume de journalistes et autres commentateurs, que ce soit pour désigner des méthodes mystérieuses censées retrouver les djihadistes sur le Net, ou celles employées par les grands services en ligne (Google, Amazon, Facebook, Twitter…) pour classer utilisateurs, produits et messages.

Le nom « algorithme » a subi un glissement de sens semblable à celui de « banlieue ». Le dictionnaire peut bien en donner comme définition « Territoire et ensemble des localités qui environnent une grande ville », on sait bien que « les banlieues », dans la langue de ceux qui ont accès aux médias, ne désigne pas Versailles ou le Vésinet, mais plutôt Le Blanc-Mesnil ou Vaulx-en-Velin… De même, un « algorithme », on ne sait pas vraiment ce que cela désigne précisément, mais c’est en tout cas effrayant.

Un algorithme, ce n’est jamais que la description non ambiguë d’un procédé de calcul, quel qu’il soit. Par exemple, une méthode pour trier des fiches par ordre alphabétique est un algorithme, et d’ailleurs l’étude des algorithmes de tri classiques est une étape obligée des cours d’algorithmique. Les professionnels de l’informatique trouvent donc assez curieux du point de vue du vocabulaire que l’on s’émeuve, par exemple, qu’un site comme Twitter envisage de trier des messages par un algorithme et non par ordre chronologique, alors qu’un simple tri par ordre chronologique découle déjà de l’application d’un ou plusieurs algorithmes…

L’algorithmique n’est pas une alchimie mystérieuse. Elle est enseignée à l’université, il y a de nombreux ouvrages traitant d’elle et de ses spécialités. Les grandes lignes des procédés mis en œuvre par les grandes entreprises du Net sont le plus souvent connus, même si leurs réglages fins et leurs combinaisons exactes relèvent du secret industriel.

Dessin : © Paul Gendrot http://www.gendrot-illustration.com
Dessin* : © Paul Gendrot http://www.gendrot-illustration.com

 

Dans les médias, et pour ceux qui s’y réfèrent, le mot « algorithme » a pris un sens nouveau, qui n’est pas celui des professionnels de l’informatique. L’algorithme des médias est un procédé hautement mystérieux, complexe, aux paramètres obscurs, voire quasi-magique. Ceci ne peut que troubler ceux qui pensent, à mon avis à tort, que nous sommes dans une société « scientifique ».

L’écrivain de science-fiction Arthur C. Clarke, avec son sens de la formule, a énoncé que « toute technologie suffisamment avancée est indistinguable de la magie ». De fait, les débats sur les « algorithmes » montrent bien la pensée magique à l’œuvre, lorsqu’ils sont considérés par des décideurs publics et des commentateurs comme des solutions miracles, économiques et objectives, sans compréhension de leur fonctionnement et de leurs limitations et d’ailleurs sans esprit critique. L’opposition aux « algorithmes », quant à elle, relève souvent plus d’une vision romantique et quasi luddite (« l’homme remplacé par la machine ») plus que d’une analyse objective et informée.

Le 10 février dernier a eu lieu sur France Culture un débat « Faut-il avoir peur de l’intelligence artificielle ? ». Au delà du titre provocant et anxiogène, l’existence de pareils débats montre une demande d’information dans le grand public. Par exemple, l’annonce récente de succès informatiques au jeu de Go, naguère réputé résister à l’intelligence artificielle, suscite des interrogations. Pour démystifier ce résultat et bien poser ces interrogations, il se peut qu’il faille un enseignement informatique dispensé par des personnels formés. C’est là l’un des aspects du problème : ces question sont peu abordées dans l’enseignement général, ou alors en ordre dispersé dans des enseignements divers.

Une partie du travail du chercheur est d’informer la population, de contribuer à sa culture scientifique et technique, notamment en démystifiant des concepts présentés comme mystérieux et en déconstruisant des argumentations trompeuses. Que faire ?

David Monniaux, CNRS

(*) Le dessin de Paul Gendrot a été initialement publié dans l’article interstices Idée reçue : C’est la faute à l’ordinateur !.

J’ai 9 ans et l’informatique c’est quand je veux

Il n’est jamais trop tôt pour bien faire. Et l’informatique n’y fait pas exception. Elle est arrivée au lycée, mais cela aura pris le temps. Binaire s’intéresse à des expériences de la découverte de l’informatique à l’école primaire. Nathalie Revol et Cathy Louvier nous parlent d’une expérience en banlieue lyonnaise. Sylvie Boldo

Nathalie Revol, par elle-même
Nathalie Revol, par elle-même

Prenez une classe de CM1 en banlieue lyonnaise. Une classe probablement dans la moyenne, avec des origines sociales et géographiques très mélangées : 26 enfants curieux, motivés, joueurs, remuants, faciles à déconcentrer.

Prenez une chercheuse en informatique qui se pose des questions sur ce qu’il est important de transmettre de sa discipline, dès le plus jeune âge.

Prenez une enseignante de CM1 désireuse de proposer un enseignement des sciences en général et de l’informatique en particulier, de façon attrayante et motivante, à ses élèves.

Faites en sorte que l’enseignante soit en charge de cette classe de CM1. Faites en sorte que la chercheuse ait des jumeaux dans cette classe de CM1, à défaut un seul enfant suffira, pas d’enfant du tout peut aussi faire l’affaire, il suffit que la rencontre ait lieu.

Laissez reposer quelques mois les questions et les idées qui tournent dans la tête de la chercheuse et vous aurez une ébauche de programme d’informatique pour des CM1.

Faites ensuite se rencontrer la chercheuse et l’enseignante au portail de l’école ou ailleurs, la première proposant d’expérimenter ce programme, la seconde acceptant bien volontiers de servir de cobaye. Quelques demandes d’autorisation plus tard, c’est ainsi que la chercheuse et l’enseignante ont démarré un programme de 8 séances de 45 minutes intitulé « informatique débranchée ».

Questions et réponses

La question qui tournait comme une rengaine dans la tête de la chercheuse était de savoir comment s’y prendre pour faire passer le message suivant :

l’informatique est une science.

Comment faire comprendre que l’informatique ne se réduit pas à une technologie, comment la désengluer de la confusion avec ses usages ?

L’informatique n’est pas plus la science des ordinateurs que l’astronomie n’est celle des téléscopes, aurait dit E. Dijkstra. En d’autres termes plus compréhensibles par les élèves du primaire, l’informatique n’est pas plus la science des ordinateurs que les mathématiques ne sont la maîtrise de la calculatrice.

Approche, accroche, algorithmes pour les gavroches, codage binaire sans anicroche

Ne le prenez pas, le parti était pris : ce serait un enseignement sans ordinateur. Cela tombait bien, le site « Computer Science Unplugged » regorge d’activités à pratiquer sans ordinateur, tout comme le site de Martin Quinson consacré à la médiation, ou le site pixees destiné à offrir des ressources pour les enseignant-e-s. D’ailleurs, le titre de ce projet d’informatique en CM1 est informatique débranchée, la traduction – sans les références musicales – de Computer Science unplugged.

L’approche étant choisie, il fallait encore définir le contenu. L’inspiration a été puisée dans le programme d’ISN : Informatique et Sciences du Numérique, élaboré pour les lycéen-ne-s de 1e et Terminale. Ce programme comporte quatre volets : 1 – langages et programmation, 2 – informations, 3 – machines, 4 – algorithmes. Les volets « algorithmes » et « informations » ont été retenus parce qu’ils se prêtent bien à des activités sans ordinateur. Pour la partie « informations », l’accent a été mis sur leur représentation utilisant le codage binaire.

Enfin, pour que les élèves adhèrent à ce projet d’informatique, une accroche basée sur les jeux a été choisie pour la partie algorithmique. Quant au codage binaire, c’est par des tours de magie qu’il a été présenté. On a privilégié les manipulations, qui permettent d’établir le lien entre les objets et la formalisation plus abstraite des algorithmes, ainsi que des activités engageant tout le corps, comme le réseau de tri pour les algorithmes et la transmission d’un message codé en binaire par la danse.

Cela permet d’accrocher l’attention des élèves et de les motiver pour qu’ils et elles se mettent en situation active de recherche, d’élaboration des algorithmes ou de compréhension du codage binaire.

Algorithmes

Chaque partie a demandé quatre séances. Côté algorithmes, on a commencé par le jeu de nim, popularisé par le film «L’année dernière à Marienbad »  paraît-il (c’était la minute culturelle). Ce jeu se joue avec des jetons de belote et des règles simples…  et il existe une stratégie pour gagner à tous les coups. Appelons cette stratégie un algorithme et laissons les enfants jouer par deux, en passant entre les tables pour les mettre sur la voie. En fin de séance, on a mis en commun les algorithmes trouvés et on a mis en évidence qu’il s’agissait de formulations différentes du même algorithme.

On a ensuite défini, avec l’aide du film «Les Sépas : les algorithmes », ce qu’était un algorithme, avec les mots des enfants.

Le jeu suivant est le crêpier psycho-rigide. Un crêpier veut, le soir avant de fermer boutique, ranger la pile de crêpes qui reste dans sa vitrine par taille décroissante, la plus grande en bas et la plus petite en haut. La seule opération qu’il peut effectuer consiste à glisser sa spatule entre deux crêpes, n’importe où dans la pile, et à retourner d’un seul coup toute la pile de crêpes posées sur sa spatule. Pourra-t-il ranger ses crêpes comme il le désire ? Il s’agit d’un jeu plus ambitieux : l’algorithme à découvrir est un algorithme récursif. Autrement dit, on effectue quelques manipulations pour se ramener au même problème, mais avec moins de crêpes à ranger. Pour faire «oublier »  les crêpes déjà rangées, pour se concentrer sur les crêpes restantes, on a caché les crêpes déjà rangées par une feuille de papier…  et cela a très bien marché ! On a aussi utilisé cet écran de papier pour cacher complètement la pile de crêpes, dès le début, et pour faire comprendre aux enfants qui dictaient l’algorithme – qui était donc exécuté derrière l’écran – qu’un algorithme s’applique à toutes les configurations, que ce n’est pas une construction ad hoc pour chaque pile de crêpes.

Le dernier algorithme a été abordé de manière fort différente. On a dessiné un réseau de tri au sol et cette fois-ci, les élèves étaient les porteurs des données (soit des petits nombres, soit des grands nombres, soit des mots) qui se déplacent dans le réseau, se comparent et finissent par se trier, comme ils l’ont rapidement compris, par ordre numérique ou par ordre alphabétique.

Codage binaire, représentation des données

Les quatre séances suivantes ont été consacrées au codage binaire des informations.

Pour la première séance, les enfants ont reçu un codage binaire (une suite de 0 et de 1) et une grille. Ils ont travaillé par 2 : l’un-e dictait les «0 »  et les «1 »  et l’autre laissait blanches ou noircissait les cases correspondantes de la grille. Ils ont fini par découvrir le dessin caché pixellisé et encodé en binaire. Ils ont alors créé leur propre dessin, l’ont encodé puis dicté à leur voisin pour vérifier que l’encodage puis le décodage préservait leur image.

Pour la deuxième séance, on a commencé par un tour de magie reposant sur le codage binaire des nombres. La magicienne devait deviner un nombre, entre 1 et 31, choisi par un enfant en lui montrant successivement 5 grilles de nombres et en lui demandant si son nombre se trouvait dans ces grilles. Avec leur attention ainsi acquise, on a écrit le codage binaire des nombres de 1 à 7 tous ensemble, puis de 1 à 31. Pour cela on est revenu à une représentation des nombres par des points, un nombre étant représenté par autant de points que d’unités, par exemple 5 est représenté par 5 points. On a utilisé de petites cartes porteuses de 1, 2, 4, 8 ou 16 points (oui, les puissances de 2, mais chut, vous allez trop vite). Chaque enfant s’est vu attribuer un nombre et devait choisir quelles cartes conserver pour obtenir le bon nombre de points ; c’était plus clair en classe avec les cartes… Bref, en notant «1 »  quand la carte était retenue et «0 »  quand elle ne l’était pas, nous avons le codage binaire des nombres et on a pu expliquer finalement comment marchait le tour de magie.

La troisième séance a de nouveau commencé par un tour de magie, reposant cette fois sur la notion de bit de parité. Après avoir dévoilé le truc et expliqué pourquoi il est utile de savoir détecter des erreurs (voire les corriger – mais on n’est pas allé jusque là), on a encodé les lettres de l’alphabet, en binaire, avec 6 bits dont 1 de parité. Chaque binôme a alors choisi un mot court, l’a écrit en binaire en utilisant le codage et l’a conservé pour la séance suivante.

La dernière séance a fait appel au corps : à tour de rôle, nous avons dansé nos mots, en levant le bras droit pour «1 »  et en le baissant pour «0 »  et nos spectateurs ont décodé sans se lasser.

Au final…

l’expérience s’est bien déroulée, les cobayes se sont prêtés au jeu avec beaucoup d’enthousiasme, le calibrage des activités en séances de 40-45mn était à peu près juste et pas exagérément optimiste, la gestion de la classe a été assurée par l’enseignante et c’est tant mieux, les moments de mise en commun également. L’enseignante est même partante pour renouveler seule ce projet…  ce qui fait chaud au cœur de la chercheuse : un des objectifs était en effet de proposer un projet réalisable dans toutes les classes, sans nécessiter une aide extérieure qui peut être difficile à trouver.

On peut trouver le détail de ce projet, agrémenté de remarques après coup pour parfaire le déroulement de chaque séance, sur le site de pixees.

Nathalie Revol, Inria et Cathy Louvier.

WikiMOOC : apprendre à contribuer à Wikipédia

799px-MOOC_-_Massive_Open_Online_Course_logo.svgDes contributeurs/contributrices de Wikipédia ont conçu un MOOC (cours en ligne, gratuit et ouvert à tous) pour découvrir Wikipédia et apprendre à y contribuer. Les inscriptions au WikiMOOC sont ouvertes sur la plateforme FUN (France Université Numérique) jusqu’au 29 février.

Wikipédia est aujourd’hui le septième site le plus visité au monde. C’est aussi l’un des rares sites connus à être hébergé par une fondation à but non-lucratif. Étudiants, professeurs, professionnels, particuliers : nombreux sont les internautes à utiliser cette encyclopédie en ligne, qui compte plus de 36 000 000 d’articles en 280 langues, dont 1,7 million en français.

Si vous souhaitez découvrir le fonctionnement de l’un des sites les plus visités au monde, source majeure d’information, et/ou apprendre à y contribuer vous-même pour aider à partager la connaissance au plus grand nombre, ce cours est fait pour vous. Et cela que vous soyez étudiant(e), chercheuse ou chercheur, professionnel(le) de n’importe quel secteur d’activité, inactif ou inactive, ou bien encore retraité(e).

On rappelle que Binaire est à l’initiative d’une série d’actions regroupées sous le nom de code « Cabale Informatique de France ». Il s’agit de contribuer aux pages de Wikipédia sur l’informatique, en français. C’est co-organisé avec la Société Informatique de France et Wikimédia France, donc Binaire ne peut que soutenir ce MOOC.

Serge Abiteboul et Marie-Agnès Enard.

Codifier… c’est coder ?

En voyage au pays du soleil levant, le correspondant de binaire Colin de la Higuera partage avec nous, ses étonnements avec ses yeux d’informaticien remplis de codes et d’algorithmes…

Quand un informaticien voyage, sa curiosité fait qu’il a envie de comprendre les algorithmes utilisés au quotidien par les habitants. Plutôt que de s’extasier devant une coutume ou même d’en discuter son importance, l’informaticien aura envie de décoder celle-ci comme on décode un programme qui s’exécute.

Au risque de prêter le flanc aux stéréotypes, il y a des cas où c’est plus facile que d’autres. Dans certains pays (au hasard latins) il est difficile de comprendre les algorithmes suivis parce qu’une large part est laissée à l’imagination, à l’esprit du moment : quand dans une situation similaire deux personnes vont avoir deux attitudes différentes, on admettra volontiers qu’il ne s’agit pas d’une situation codifiée ou que le code n’est pas très rigide.

Kodai-ji, Kyoto
Kodai-ji, Kyoto

Dans d’autres pays, c’est tout aussi difficile, mais pour des raisons bien différentes : ainsi, au Japon, de nombreux gestes sont codifiés, de nombreuses situations sont parfaitement et logiquement prévues. C’est cependant difficile de décoder. Sans doute parce que les codes sont très anciens et ont été lissés par des siècles d’histoire différente de la nôtre. Ainsi, le prince Shotoku a-t-il rédigé les premiers articles de sa constitution dès l’an 604.

L’informaticien se trouve alors au Japon en terrain ami et face à une tâche qu’il connait : la reverse engineering… regarder les résultats du code et essayer d’imaginer, de reconstruire celui-ci. Certains informaticiens s’en sont fait une spécialité : des entreprises, en particulier en Inde, sont capables même de reconstruire un compilateur à partir de programmes écrits dans un langage informatique éteint, le genre de défis que le linguiste et l’historien aimeraient relever par le Linéaire A…

Au Japon donc, les codes sont rois. Il suffit de se retrouver deux fois de suite dans des situations similaires mais des lieux différents pour se rendre compte que ce n’est pas l’improvisation qui prime.

Payer au supermarché, prendre le train ou l’autobus, lever son verre en disant Kampai, sans parler des règles très différentes à suivre au sanctuaire plutôt qu’au temple, tout est précis, logique et… différent.

Ainsi on entre dans le bus par l’arrière et on prend tout de suite un billet. Au moment de descendre, ce billet montrera où on est monté et permettra de calculer le tarif. Logique.

On paye toujours en posant l’argent sur le plateau… Si vous tentez autre chose, l’argent reviendra inévitablement sur le plateau, ce qui déclenche un bien étrange discours, un calcul de la monnaie à rendre et un rendu de celle-ci. Dans un supermarché, si la loi de Poisson (la même que la nôtre, ouf) fait qu’une nouvelle caisse s’ouvre, la caissière s’empressera d’aller chercher le premier de la file d’attente pour qu’il inaugure la caisse ouverte et ne soit pas frustré…

On peut fumer dans un restaurant mais pas dans un jardin public ; on peut circuler à vélo sur un trottoir mais pas transporter celui-ci par train jusqu’à la prochaine gare…

DSCN4030Le train est d’ailleurs un endroit où l’on voit l’importance des codes : malgré la complexité due à la compétition entre plusieurs lignes différentes, la coordination est à la minute près : deux trains arriveront en même temps sur un quai permettant l’échange de leurs passagers. Dans ce train, les uns dorment, les autres regardent un écran. Certains sièges peuvent être utilisés par tous, d’autres pas, d’autre seulement à certaines heures ; certains wagons ne sont accessibles qu’aux femmes…

DSCN4085
Personnage à Asuka

Bien entendu, on peut se poser des questions sur les effets de tous ces codes sur la santé mentale des individus. Sur celle du narrateur mais aussi sur celle des habitants d’un pays dans lequel les codes pèsent si lourd.

Différents moyens existent heureusement pour y échapper : une liberté vestimentaire étonnante, des vendredi soirs aux abus notoires (essayez une sortie entre collègues ou un banquet d’entreprise…). Et si cela ne suffit pas, promenez-vous le long de la rivière Kamo. Sous les ponts saxophonistes et clarinettistes soufflent, soufflent…

Colin de la Higuera

 

Cozy Cloud : Vertueux par nécessité

Serge Abiteboul nous parle d’une startup, Cozy Cloud, qui développe un système de gestion d’informations personnelles. Il nous explique ce que sont ses systèmes, quels sont leurs buts. Avec les enjeux autour du contrôle des données personnelles, cette nouvelle approche prend tout son sens. Une startup qui mérite vraiment qu’on la suive de près.

2 février 2016 : La startup Cozy Cloud et le bureau d’enregistrement Gandi sont lauréats de la 2ème édition du Concours d’Innovation Numérique pour leur projet de cloud personnel grand public.
@Maev59
@Maev59

Nos données sont un peu partout, dans des services, dans de plus en plus de services différents. Nous finissons par ne plus très bien savoir, où elles sont, ni même ce qu’elles sont, ou ce qu’on fait avec. Donc, nous ne nous y retrouvons plus. Par exemple, nous nous rappelons que nous avons l’adresse de ce copain, mais nous ne savons pas la trouver : dans nos contacts, dans nos mails, sur Linkedin, sur Facebook, dans un SMS peut-être, ou qui sait sur WhatsApp… Chacun de ces systèmes nous rend un service particulier, mais leur multiplication devient chaque jour un peu plus notre problème.  Des systèmes se proposent de corriger cela, les systèmes de gestion de données personnelles, les Pims (pour Personal Information Management Systems).

Si vos données sont partout, c’est qu’elles ne sont nulle part,
Benjamin André, PDG de Cozy Cloud

L’idée est simple : plutôt que de regrouper les données par services (les données sur les courriels de millions d’utilisateurs avec Gmail, sur les films avec Netflix, sur les déplacements avec Waze, etc.), on va regrouper les données par utilisateur. Donc nous aurons notre système à nous, pour nous, avec toutes les données des applications que nous utilisons. Ces données, nous voudrions qu’elles soient disponibles en permanence, de partout, on va dire que c’est « notre cloud personnel ».

Pourquoi promouvoir les Pims ? Parce que la situation actuelle avec quelques sociétés, en caricaturant les Géants du Web, s’appropriant toutes les données du monde est fondamentalement malsaine. D’abord, à terme, nous y perdons notre liberté : nous sommes profilés par ceux qui savent tout de nous, qui choisissent pour nous ; et les services qu’ils nous offrent deviennent incontournables parce que eux seuls ont certaines informations et peuvent les fournir. Ensuite, ces grandes sociétés finissent par être à même d’étouffer la compétition. Internet et le web qui ont servi véritablement de catalyse pour l’innovation, sont en train de devenir le royaume des oligopoles, les fossoyeurs des belles idées de liberté et de diffusion libre des connaissances des débuts. Bon, c’est résumé un peu rapide, un peu brutal. Mais le lecteur intéressé pourra trouver un développement de ces idées [1] dans CACM, la principale revue de l’ACM, une organisation internationale dédiée à l’informatique.

Donc, partons de l’hypothèse qu’il faille que chacun regroupe toutes ses données dans un système unique. Un geek saura installer un serveur, et en voiture Linux ! Mais la plupart des gens n’ont pas cette compétence, et même s’ils l’ont ou pourraient l’acquérir, ils ont probablement d’autres façons de dépenser leurs temps libre (le sport, les expos, le farniente,…).

Il y aurait bien une solution, ce serait de choisir les grands de l’internet. Pourquoi pas tout mettre chez eux ? Parce que nous aimerions avoir confiance dans le gardien de nos données. La confiance, le gros mot… Nous avons fait confiance aux fondateurs de Google, Brin et Page, quand ils disaient « Don’t be evil ! ». Mais qui dirige Google aujourd’hui ? Des actionnaires qui veulent maximiser leurs revenus ? Pour protéger nos données personnelles, nous aimerions plus que de vagues promesses. Nous voulons des garanties !  Nous allons donc plutôt choisir un tiers de confiance.

Copie d'écran : le bureau de Cozy Cloud
Copie d’écran : le bureau de Cozy Cloud

Un de ces tiers de confiance possibles, c’est la startup Cozy Cloud. Pour écrire cet article, j’ai rencontré son PDG Benjamin André. J’ai aussi côtoyé au Conseil national du numérique, son CPO, Tristan Nitot. Je suis fan des deux. Il faut rajouter que je suis un fervent supporteur des Pims, et que ma recherche porte sur les Pims.  Donc je ne suis pas toujours objectif quand j’en parle. Je pourrais parler objectivement de la recherche sur des Pims. Mais ce n’est pas le sujet de cet article. Ce qui m’intéresse ici c’est la gestion de données avec des Pims comme levier pour aller vers une société meilleure. Donc j’ai plus une casquette de militant que de scientifique. Cet article ne revendique donc aucune objectivité. Pourtant, je tiens quand même à souligner pour éviter les malentendus que je n’ai aucune participation financière dans Cozy Cloud ou d’ailleurs dans quelque société de Pims que ce soit.

Un vrai argument des Pims (en tous cas, dans ma vision des Pims), c’est que leur logiciel est open-source. Bien sûr, nous n’avons pas le temps d’aller auditer leur code, mais d’autres peuvent le faire pour nous. Cette transparence sur la gestion des données est essentielle pour garantir que la plate-forme ne va pas faire n’importe quoi avec nos données. Excusez du peu. Sans vouloir nous angoisser, toutes les données que nous avons à droite ou à gauche, des informations peut-être stratégiques pour nos entreprises, des informations intimes surement,  les nôtres et celles de nos amis. Nous ne savons pas ce qu’on fait d’elles. Nous ne savons pas où elles atterrissent.  Bon le mieux, c’est de ne pas trop y penser, ça va pourrir l’ambiance.

Le fait que le logiciel de la plate-forme soit open-source et la transparence donc qui en résulte, est une qualité essentielle de ces systèmes. Cela facilite la vérification. Il faut aussi mentionner un autre aspect : la « portabilité ». N’ayez pas peur, c’est technique mais ça s’explique très bien.

cozy_logoLa portabilité des données, c’est la possibilité pour un internaute de récupérer ses données depuis les grands services centralisés pour les mettre où il le veut. Pour lui, c’est une liberté fondamentale, celle de pouvoir « déplacer sa vie numérique » où bon lui semble, y compris chez lui. Tristan Nitot, CPO de Cozy Cloud

Pour comprendre la portabilité, prenons un exemple de portabilité dans un autre domaine, l’automobile. Nous avons une Peugeot. Et puis, un jour, nous voulons changer de voiture. Nous sommes libres, d’acheter une Renault, même une Volkswagen, ce que nous voulons. Notre expérience de conducteur, nous la « portons » sous d’autres cieux.  Nous n’avons pas à réapprendre. Dans les applications numériques, ça peut être un peu différent. Nous avons choisi le Kindle d’Amazon. Et bien, c’est un super système, mais nous nous sommes fait avoir. Nous ne pouvons pas passer à un autre système sans perdre toute la librairie que nous avons achetée. Nous accumulons des années d’information, de données, dans un système et on nous dit « Restes avec nous ou perds tout ! » C’est l’emprisonnement par le vendeur (vendor lock-in en anglais). Nous aimerions pouvoir partir en « emportant » nos données dans le nouveau système – sans avoir à payer en argent, en temps, en quoi que ce soit. Le système doit nous garantir la portabilité, c’est à dire votre liberté de dire quand nous le souhaitons : « Ciao ! Sans rancune. »

Des systèmes comme Cozy Cloud nous permettent de partir quand nous le voulons, avec nos données. Nous restons si nous le voulons. C’est drôle de réaliser que le droit de partir peut devenir un argument pour choisir de rester. Google disait « Don’t be evil » et il fallait croire sur parole qu’ils ne seront pas diaboliques. Dans un système qui garantit structurellement la portabilité, nous n’avons pas à les croire, ils n’ont d’autre choix que d’être angéliques s’ils veulent que nous restions. Cela pourrait être indiqué dans la loi. Des gens y travaillent.

Les députés ont validé le principe de récupération des données personnelles par les internautes. Il sera ainsi possible de transférer sa playlist iTunes vers Spotify, ou ses photos Instagram vers une autre application. En revanche, cette obligation ne s’appliquerait qu’aux services grand public, excluant, devant la levée de boucliers des éditeurs de logiciels, les services inter-entreprises. Le Monde Economie, 19.01.2016  Sarah Belouezzane et Sandrine Cassini

Essayons de comprendre un peu mieux la techno. Cozy Cloud développe une plateforme pour gérer nos données personnelles. Nous pourrons un jour tout y mettre, nos contacts, nos courriels, nos déplacements GPS, nos documents, nos comptes bancaires, notre compta… Ils nous proposent des applications qui réalisent certaines fonctionnalités (comme l’agenda) ou qui nous permettent juste de récupérer nos données d’autres services, par exemple nos mails de Gmail. Cette plateforme, nous pouvons l’installer sur une machine personnelle, ou nous pouvons demander à une société de l’héberger pour nous, par exemple OVH. Et à quoi sert Cozy Cloud à part développer la plate-forme ? Ils peuvent gérer le système pour nous.

Nous n’avons pas dit grand-chose du business model de Cozy Cloud. Bien sûr, c’est une startup, alors ils ont un business model qui montre qu’ils veulent se développer, ils cherchent des investisseurs, ils vont gagner plein d’argent. Mais nous pensons (nous espérons sans nous tromper) que Benjamin André, Tristan Nitot et les autres de Cozy Cloud veulent d’abord changer le monde, en faire un endroit où il fait meilleur de vivre.  Nous avons l’impression d’avoir entendu ça des tas de fois ; ça peut prêter un peu à sourire ; mais avec Cozy Cloud, c’est tellement rafraichissant.

Allez un peu de fiction pour conclure, tout en restant conscient de la difficulté de prédire l’avenir. Nous aurons, vous et nous, (bientôt) toutes nos données chez l’hébergeur de notre choix, elles seront gérées par un cloud personnel fonctionnant avec Cozy Cloud (un Pimseur français),  et nous procureront un point d’entrée unique de toutes nos données. Le système les rendra accessibles de partout, les synchronisera, les archivera, gèrera nos Internet des objets, nous servira d’assistant personnel, suivra notre santé, notre vie sociale. Nous pourrons réaliser des analyses qui utilisent nos données mais qui, contrairement aux analyses Big data des autres, le fera pour notre bien et pas pour maximiser le profit des autres. Et puis notre Pims pourra causer avec les Pims de nos amis…  C’est dingue, nous étions totalement périphériques dans le monde des Gafas, nous voilà transportés au centre du monde grâce aux Pims…

Serge Abiteboul, Inria

Pour aller plus loin

[1] Managing your digital life : Serge Abiteboul, Benjamin André, Daniel Kaplan, Communications of the ACM, 58:5, 2015.
Tristan Nitot sur Twitter : @nitot

Internet : Y-a-t-il un pilote dans l’avion ?

Cet article est publié en collaboration avec TheConversation.

L’internet est désormais utilisé par plus de trois milliards de personnes, soit plus de 45% de la population de la planète. L’importance de l’Internet dans la vie des usagers est telle que l’on entend souvent la question : Qui gouverne l’internet ? Binaire a posé la question à un ami, Jean-François Abramatic, Directeur de recherche Inria. Si quelqu’un en France peut répondre à la question, c’est sans doute lui. Serge Abiteboul

Jean-François Abramatic, Wikipédia
Jean-François Abramatic, Wikipédia

Jean-François a partagé sa carrière entre la recherche (Inria, MIT) et l’industrie (Ilog, IBM). Il a présidé le World Wide Web Consortium (W3C) de 1996 à 2001. Il a été administrateur de l’ICANN (1999-2000). Il est, aujourd’hui, membre du Conseil Inaugural de la NETmundial initiative.

La gouvernance de l’internet est en pleine évolution alors que l’internet poursuit son déploiement au service de la société à travers le monde. La définition même de la gouvernance de l’internet fait l’objet de débats. Michel Serres, par exemple, explique qu’après l’écriture et l’imprimerie, l’internet est la troisième révolution de la communication. Alors que personne n’a jamais parlé de gouvernance de l’écriture ou de l’imprimerie,  faut-il parler de gouvernance de l’internet ?

Pour aborder la question de manière plus détaillée, il est utile de comprendre comment a été créé l’internet afin d’identifier les acteurs dont les décisions ont conduit à l’évolution fulgurante que nous avons connue (plus de 800% de croissance pour la période 2000-2015).

L’internet est la plateforme de la convergence entre l’informatique, les télécommunications et l’audiovisuel. Dans un monde où les données sont numériques, l’internet permet d’envoyer ces données n’importe où sur la planète, les ordinateurs peuvent alors traiter ces données et extraire les informations utiles à l’usager. La convergence de l’informatique, des télécommunications et de l’audiovisuel a permis de créer un environnement universel de communication et d’interactions entre les personnes. L’internet est, ainsi, un enfant de l’informatique venu au monde dans un univers de communication dominé par les télécommunications et l’audiovisuel. Si les télécommunications et l’audiovisuel ont grandi dans des environnements gouvernementaux (avant d’évoluer à travers la mise en œuvre de politiques de dérégulation), l’internet a grandi dans un environnement global, ouvert et décentralisé dès le premier jour.

binaire-internet-rayclidL’espace : Une gouvernance globale dès le premier jour

Lorsqu’un environnement de communication se développe, le besoin de gouvernance apparaît pour concevoir et déployer les standards (protocoles et conventions qui permettent aux composants, appareils et systèmes de communiquer) ainsi que pour répartir les ressources rares ou uniques (par exemple les bandes de fréquence ou les numéros de téléphone). Pour les télécommunications et l’audiovisuel, des organismes nationaux et internationaux ont été créés pour conduire les actions de standardisation et gérer l’attribution des ressources rares ou uniques.

Pour l’internet, l’approche a été globale dès le début et aucune organisation nationale ou régionale n’a été mise en place pour développer les standards de l’internet. L’attribution des ressources rares ou uniques (adressage et nommage) a été décentralisée régionalement après avoir été conçue globalement. De plus, la mise en place de l’infrastructure a été conduite par les concepteurs techniques. La fameuse citation de David Clark « We reject kings, presidents and voting, we believe in rough consensus and running code.» traduit l’état d’esprit qui régnait lors de la conception et le déploiement des standards qui sont au cœur de l’internet d’aujourd’hui.

Ainsi sont nées depuis les années 80 de nombreuses organisations (IETF, ISOC, W3C, ICANN) internationales, indépendantes des pouvoirs politiques et dédiées à des tâches précises nécessaires au bon fonctionnement de l’internet. Prises dans leur ensemble, ces organisations ont exercé le rôle de gouvernance de l’internet. Elles conçoivent les standards de l’internet et attribuent (ou délèguent l’attribution) des ressources rares ou uniques.

« Qui Dirige Internet » par Lynnalipinski of ICANN via Wikimedia Commons
« Qui Dirige Internet » par Lynnalipinski of ICANN via Wikimedia Commons

Le temps : le développement et le déploiement simultanés des innovations

Les concepteurs de l’internet ont coutume de mettre en avant qu’ils ont fait le choix de « mettre l’intelligence aux extrémités du réseau». Ce choix d’architecture a permis à des centaines de milliers d’innovateurs de travailler en parallèle et de rendre disponibles les terminaux et les services que nous utilisons tous les jours.

Pour être plus concret, les développeurs de Wikipedia ou Le Bon Coin, de Google ou d’Amazon,  de Le Monde ou Au féminin ont travaillé et travaillent encore en parallèle pendant que les ordinateurs personnels ou les tablettes, les téléphones portables intelligents ou les consoles de jeux s’équipent des logiciels qui permettent d’accéder à ces services. Les choix d’architecture technique ont donc permis le déploiement fulgurant, sans équivalent dans l’histoire, de ce que l’on appelle aujourd’hui, l’internet.

Les défis sociétaux de la gouvernance d’internet

Le déploiement de l’internet dans le grand public a été provoqué par l’arrivée du World Wide Web au début des années 90.  Les pouvoirs publics se sont donc intéressés à son impact sur nos sociétés. Aux questions de gouvernance relatives au développement technique d’internet (standards et ressources rares ou uniques) se sont ajoutées les questions de gouvernance des activités menées sur l’internet.

En France, dès 1998, le rapport présenté au conseil d’état par Isabelle Falque-Pierrotin (aujourd’hui présidente de la CNIL) recommande d’adapter la réglementation de la communication à la convergence de l’informatique, de l’audiovisuel et des télécommunications. De manière à faire croître la confiance des utilisateurs, le rapport recommande de protéger les données personnelles et la vie privée, de sécuriser les échanges et les transactions, de reconnaître la signature électronique, d’adapter la fiscalité et le droit des marques, de valoriser les contenus par la protection de la propriété intellectuelle et la lutte contre la contrefaçon, de lutter contre les contenus illicites. Enfin, le rapport recommande d’adapter le droit existant et de ne pas créer un droit spécifique à internet.

Depuis le début des années 2000, ces sujets ont fait l’objet, à des degrés divers, de travaux aux niveaux local et international. Le Sommet Mondial sur la Société de l’Information (SMSI) organisé par les Nations Unies, puis l’Internet Governance Forum (IGF), et plus récemment la NETmundial initiative ont fourni ou fournissent un cadre pour ces travaux.

Construire une gouvernance multi-acteurs globale et décentralisée

Même si la gouvernance d’internet a profondément évolué, des règles générales se sont imposées au fil des quarante dernières années. Aucune personne, aucune organisation, aucune entreprise, aucun gouvernement ne gouverne l’internet. La gouvernance d’internet est exercée par un réseau de communautés d’acteurs comprenant les pouvoirs publics, les entreprises, le monde académique et la société civile. Certaines communautés associent des personnes physiques, d’autres des organisations publiques ou privées. Ces communautés choisissent leur mode de fonctionnement en respectant des principes partagés tels que l’ouverture, la transparence ou la recherche du consensus.

L’importance prise par l’internet a attiré l’attention sur son mode de fonctionnement. Il est apparu clairement que les questions posées en 1998 dans le rapport au conseil d’état étaient devenues, pour la plupart, des défis planétaires. En particulier, les révélations relatives à la surveillance de masse ont provoqué une prise de conscience à tous les niveaux de la société (gouvernements, entreprises, monde académique, société civile).

La complexité des problèmes à résoudre est, cependant, souvent sous-estimée.  Pour de nombreuses communautés, il est tentant de projeter des mécanismes de gouvernance qui ont eu leur succès avant l’émergence d’internet. Il est rare qu’une telle approche soit efficace. Qu’il s’agisse de standards techniques ou de règlementations relatives à la protection de la vie privée, d’extension de la capacité d’adressage ou de contrôle de la diffusion de contenus illicites, de langages accessibles pour les personnes handicapées ou de surveillance de masse, la résolution des problèmes demande la contribution coopérative du monde académique, des entreprises, des gouvernements et de représentants de la société civile. De plus, ces contributions doivent tenir compte des différences d’environnements juridique, fiscal ou tout simplement culturel de milliards d’usagers.

La gouvernance d’internet devient donc un objet de recherche et d’innovation puisque aucune expérience passée ne permet de construire cette gouvernance par extension d’une approche existante.

C’est au grand défi de la mise en place d’une gouvernance multi-acteurs, globale et décentralisée que nous sommes donc tous confrontés pour les années qui viennent.

Jean-François Abramatic, Inria