Françoise en Angleterre

Le sujet de la formation à l’informatique a été beaucoup débattu en France récemment. Mais en dehors de l’hexagone ? On se pose les mêmes questions ? D’autres pays auraient-ils eu l’audace de prendre de l’avance sur nous ? Binaire a proposé à Françoise Tort, chercheuse à l’ENS Cachan et co-responsable en France du concours CASTOR informatique, d’interroger des collègues à l’étranger. Leurs réponses apportent beaucoup à nos débats parfois trop franchouillards.

FT_AngleterreTour d’horizon de l’enseignement de l’informatique… Après la Bavière, Israël, et l’Inde, Françoise nous emmène en Angleterre.

FullSizeRender

Note sur le système scolaire anglais : L’Angleterre est l’une des 4 nations constitutives du Royaume-Uni, avec l’Écosse, le pays de Galles et l’Irlande du Nord. Chacune a son propre système scolaire.  En Angleterre, la scolarité comporte 3 niveaux. L’école primaire, dès 5 ans, dure 6 années, et comporte deux cycles (key stage 1 & KS2). Le secondaire, à partir de 11 ans, dure 5 ans, et comporte aussi deux cycles (KS3 & KS4). À ce niveau, la grande majorité des écoles sont des « comprehensive schools » (publiques), il y a aussi des « public schools » (privées) et quelques « grammar schools« . Ces 11 années constituent la scolarité obligatoire, et se concluent par un examen  (GCSE) dans toutes les matières étudiées. Le dernier niveau dure 2 ans, et permet de préparer le A-Level (équivalent du Baccalauréat) pour ceux qui souhaitent poursuivre des études supérieures.

sue.sentance
Crédit photo Sue Sentance

Entretien avec Sue Sentance, enseignant-chercheur en didactique de l’informatique au King’s College à Londres et coordinatrice académique nationale pour le CAS (Computer at school). Elle travaille avec de futurs enseignants en formation pour enseigner l’informatique  à l’école, et des enseignants déjà en poste ayant commencé à enseigner les nouveaux programmes.

 Des cours de TIC rébarbatifs et sans enjeu

Dans les années 90, nous avons enseigné au secondaire l’utilisation des ordinateurs et leurs applications, il y avait aussi de la programmation. En fait, elle était rarement enseignée dans la mesure où une certaine flexibilité dans l’application des programmes était permise, et que la programmation était la partie qui était plus facilement abandonnée. Ainsi dans les années 2000, les TIC étaient prévalentes à l’école et l’informatique (en tant que science) n’apparaissait qu’à la fin du lycée (au A-level). L’enseignement des TIC souffrait d’une mauvaise image : les enfants trouvaient cela rébarbatif et peu motivant. Les décideurs n’y voyaient pas d’enjeu, comparé aux disciplines scientifiques. Un véritable cercle vicieux s’est installé : les opportunités d’emplois mieux rémunérés dans ce domaine et la mauvaise image de l’enseignement rendaient le recrutement de plus en plus difficile. Du coup, les écoles recrutaient des enseignants peu formés, non spécialistes, et cela contribuait à la baisse de réputation de la discipline. Dans le même temps, les élèves obtenaient de bonnes notes, cela à laissé croire que cet enseignement atteignait ses objectifs.

Pressions pour un changement …

Dès 2008, le CAS (Computer At School) a été créé à l’initiative de différents acteurs académiques et économiques, afin de promouvoir l’enseignement d’informatique et dénoncer cette situation. S’il était assez seul au départ, à partir de 2011, plusieurs organisations ont relayé le message. L’agence nationale pour la science, la technologie et les arts a publié un rapport sur les compétences et talents dont avait impérativement besoin l’industrie britannique et concluait à la nécessité d’enseigner l’informatique. Ce rapport a été plusieurs fois cité publiquement, notamment, par Eric Schmidt, ex-PDG de Google. En 2012, l’enseignement de l’informatique était souvent discuté dans les medias grands publics et dans plusieurs discours de décideurs politiques. L’académie des sciences britannique, la Royal Society, publia « Shutdown or restart: The way forward for computing in UK schools », recommandant de ré-introduire l’enseignement d’informatique à l’école. La même semaine, Michael Gove, le secrétaire d’état à l’éducation « annulait » le programme en vigueur pour l’enseignement des TIC et le département de l’éducation annonçait la ré-introduction de cours rigoureux de science informatique.

Développer la pensée algorithmique et pas juste programmer

Le gouvernement a fait suivre ses annonces de deux changements importants. D’une part, l’informatique a été introduite au baccalauréat dans la catégorie des sciences. D’autre part, l’enseignement obligatoire de TIC a été remplacé par une matière intitulée « computing » (informatique) composée de trois champs : littératie numérique, technologie de l’information, et science informatique. Le programme vise à encourager la dimension créative de l’utilisation de la technologie ainsi que le développement de la pensée computationnelle et de la compréhension du fonctionnement des technologies numériques. Dès le primaire, les élèves devraient être familiarisés à la pensée algorithmique, savoir ce que sont un algorithme et un programme. D’abord au moyen d’exercices « débranchés » tel que ceux proposés par Tim Bell puis, vers 7 ans, avec l’introduction d’un langage visuel comme Scratch. À partir de 11 ans, ils apprendront à utiliser un langage de programmation textuel. Le programme comporte aussi une progression sur la représentation des informations, les réseaux d’ordinateurs, les logiciels. Ce programme ne porte pas seulement sur des compétences dans l’utilisation des ordinateurs mais aussi, et surtout, sur les concepts et principes de l’informatique.

Première urgence : former les enseignants et recruter des diplômés

Les enseignants britanniques ont, le plus souvent, un diplôme universitaire dans leur discipline et un certificat obtenu après une année de formation en éducation. Concernant l’enseignement d’informatique, deux enjeux fondamentaux nous préoccupent. Tout d’abord, il est important que les nouveaux enseignants recrutés soient diplômés en informatique. Le gouvernement a lancé une campagne d’information des professionnels pour les inciter à devenir enseignants. D’autre part, il est impératif de former les enseignants en poste, la plupart n’enseignaient que les TIC et seulement 35% d’entre eux avaient une réelle  qualification en informatique. Ils auront besoin non seulement d’une formation pédagogique, mais aussi d’une mise à niveau de leurs propres connaissances et compétences. Un réseaux a été créé, sous l’égide du CAS/BCS et impliquant des universités, des employeurs, des groupes d’intérêts, dans le but de soutenir l’effort de formation des enseignants. Le ministère de l’éducation a alloué un budget permettant de libérer pendant 1 jour par semaine, 600 enseignants volontaires afin que le réseau les forme pour devenir formateurs. Le système envisagé repose sur 3 principes : la formation locale, en présentiel, par des formateurs eux-mêmes enseignants.

La transition est plus lente que prévue

Tout le monde était censé commencer l’enseignement d’informatique au 1er septembre 2014. En fait, certains établissements le font déjà depuis 2012, après l’annulation des cours de TIC, d’autres étaient tout juste prêts à la rentrée 2014 et d’autres enfin ne le feront que petit à petit. Par exemple, à Londres, certains collèges ont commencé uniquement sur les classes équivalentes à la 5e (11 ans) parce que l’équipe pédagogique ne se sentait pas suffisamment prête pour des niveaux plus élevés. Certains établissements appelées « academies » ont une plus grande autonomie dans l’application des programmes nationaux, on peut supposer qu’elles prendront plus de temps. Enfin, au primaire, les écoles auront certainement besoin de faire appel à des intervenants extérieurs, et d’autres utiliseront leur coordinateur informatique pour intervenir sur toutes les classes.

Les progressions et l’évaluation doivent encore être améliorées

Une partie des travaux menés au CAS porte sur la question de l’évaluation de l’informatique à l’école. C’est une question nouvelle dont la résolution prendra du temps. Il nous faut nous concentrer sur la progression des apprentissages aux différents niveaux. Nous y travaillons en ce moment en faisant le lien avec des étapes de la pensée computationnelle, le document est en ligne. Tout ceci est passionnant, et résulte du grand succès qu’a eu l’introduction de l’enseignement de l’informatique à l’école.

Rester vigilants pour centrer cet enseignement sur les concepts et principes

La couverture médiatique de ce changement a beaucoup mis l’accent sur le « code ». Cela inspire l’image, plutôt négative, de séances de cours pendant lesquelles les enfants restent  assis devant des ordinateurs essayant de comprendre des lignes de programme arides. Or le curriculum ne porte pas que sur la programmation, il porte sur les principes de la pensée computationnelle, la façon dont fonctionnent les ordinateurs, et la façon dont nous devons comprendre les processus pour pouvoir les automatiser. Pour cela, on doit passer du temps à penser, plus que du temps à coder. L’informatique est une matière qui doit être enseignée sans dépendance aux outils et des environnements technologiques et aux langages de programmation. Les méthodes d’enseignement actives et débranchées sont particulièrement adaptées pour cela.

Pour en savoir plus….

Restart: The Resurgence of Computer Science in UK Schools. Brown N.,
Sentance S., Crick T., Humphreys S. (2013) ACM Trans. Comput. Educ
1(1): 32. [ http://kar.kent.ac.uk/42486/1/toce-uk.pdf]

Les documents de travail en cours d’élaboration par le CAS sont en
ligne [ http://community.computingatschool.org.uk/resources/2324 ], tout
particulièrement : A computational thinking guide & Progression Pathways assessment framework including computational thinking: KS1 (Y1) to KS3 (Y9).

Deux associations pionnières d’un musée informatique en France

Nous avons rencontré deux associations actuellement très impliquées dans le projet #MINF (Projet de Musée Informatique et de la Société Numérique et France). Ce sont ACONIT à Grenoble et la FEB (Fédération des Equipes Bull). Pierre Paradinas, par ailleurs impliqué dans le projet #MINF a mené pour Binaire cette interview croisée.

B: Dan Humblot, en tant que président de la FEB, peux-tu nous dire, ce qu’est la FEB ?

DH : La « Fédération des Equipes Bull » (FEB) est une association de type loi 1901, créée en 1986. Elle a été créée à l’initiative de certains collaborateurs de Bull et a été soutenue par Jacques STERN, alors PDG du groupe Bull, qui a décidé que Bull soit le sponsor de cette association. Sa vocation est la sauvegarde et la mise en valeur du patrimoine technologique matériel, immatériel et historique de l’ensemble des sociétés qui ont constitué le Groupe Bull depuis sa création en 1931 et plus généralement de l’ensemble des acteurs de la filière informatique mondiale.

B: Philippe Duparchy et Philippe Denoyelle, respectivement Président et chargé de collection informatique d’ACONIT, dites nous : c’est quoi ACONIT ?

PhD: ACONIT est l’association pour un conservatoire de l’informatique et la télématique créée en 1985 à Grenoble. Elle a été encouragée par le professeur Jean Kuntzmann et par François-Henri Raymond (ex directeur de SEA). Notre but, un conservatoire de l’informatique, et pour cela nous sauvegardons, conservons le patrimoine informatique et diffusons les connaissances et les savoir-faire liées à ce patrimoine.

B: Vous parlez de patrimoine informatique, mais vous avez quoi, 2/3 vieux ordinateurs et 4 vieux PCs ? Que « cachent » vos réserves ?

PhD : En fait, nous en avons quelques uns de plus ! Inventoriées à ce jour, dans nos réserves on trouve plus de 2 500 machines, 4 700 documents sans oublier plus de 2 600 logiciels. Et il en reste à inventorier… L’ensemble couvre de façon homogène la période 1950 à 2010 et les principaux constructeurs européens et américains, avec une attention particulière aux machines françaises. De beaux objets qui constituent une très belle collection !

DH : La FEB gère une collection de plus de 750 machines : unités centrales d’ordinateurs et leurs périphériques associés, soit près de 75% des machines qui ont figuré au catalogue commercial de Bull, ainsi que des machines appartenant à d’autres constructeurs comme : IBM, ICL, HONEYWELL, Burroughs, Control Data, Olivetti, NCR, UNIVAC etc. Ceci sur une période de 1923 à 2010.

T30 detourée

Tabulatrice T30-Bull; Crédit Photo: FEB

Bien sûr aussi un ensemble de PC’s de nombreux constructeurs, vient compléter la collection. Il est à noter que la collection comporte la machine de traitement de l’information classée monument historique : la tabulatrice T30 première machine construite dans les ateliers de la Cie des Machines Bull en 1931. Près de 3 500 sous-ensembles, composants et pièces détachées font partie du fond et permettent d’illustrer toutes les étapes de l’histoire technologique et industrielle de Bull. Des prototypes uniques, du type « concept-design » ainsi qu’un exemplaire du fameux « transistron », font partie de notre collection. Un MICRAL N de conception française en 1974 –qui est le premier ordinateur personnel construit au monde- en parfait état est un des fleurons de la collection.

Parmi les « bijoux » de la collection, une perforatrice et une trieuse SAMAS à cartes 40 colonnes à trous ronds (!) en état de marche.

En outre, la FEB possède, maintient et fait visiter à Massy, un atelier mécanographique des années 50 complètement opérationnel.

Sea OME P2

Crédit Photo: ACONIT

PhD : Dans les collections de ACONIT, il a une machine classée au titre des monuments historiques en 2005, c’est un calculateur analogique de la SEA. Deux machines de ce type ont été utilisées par l’université de Grenoble vers 1960. Dans le secteur micro-ordinateur, en dehors du Micral S de 1973, nous avons un très rare Alcyane français de 1976. Une machine à faire classer rapidement !

B : Dan où sont aujourd’hui vos collections ?

DH : La majeure partie de la collection, surtout les gros objets, est abritée et mise en valeur dans les sous-sols de l’Etablissement Industriel Bull d’Angers. Le reste se trouve au centre Bull de Massy. Certains objets sont en prêt dans d’autres sites (Universcience à la Villette, Pleumeur-Bodou, site Amésys Aix en Provence, PB2I Belfort).

PhD : Les collections informatiques sont stockées dans nos locaux à Grenoble, nos réserves sont visitables mais ne peuvent offrir un large accès comme le ferait un musée.

B : Entre nous sont-elles bien conservées ?

PhD : C’est un équilibre périlleux, nous faisons notre meilleur pour que les objets soient conservés correctement, mais la simplicité des locaux, le manque d’espace et de moyens rendent cette tâche difficile.

DH : Néanmoins, les machines sont correctement protégées, filmées et répertoriées. Les réserves d’Angers sont visitables et font partie du cycle de visite des clients Bull/Atos. Les machines de l’atelier mécanographiques de Massy sont entretenues et maintenues en état de fonctionnement.

B :Vous ne collectionnez que des ordinateurs ?

DH : En ce qui concerne les machines conçues et commercialisées par Bull, la documentation technique est associée aux machine. Notre faiblesse concerne le volet logiciel.

PhD : Comme je l’ai dit nous conservons l’éphémère, photographies, enregistrements et vidéos, et documents d’archive qui retracent l’histoire de l’informatique…  et de l’informatique à Grenoble. Ajoutez autour de ce trésor nos bénévoles experts, découvreurs, membres ou partenaires d’Aconit qui sont des passionnés. Ces pionniers de l’informatique transmettent en puisant en leur mémoire pour intéresser les jeunes et moins jeunes, en utilisant les objets comme support.

B : Ça a vraiment de la valeur ces vieilleries ?

PhD : Bonne question !

B : Merci☺

PhD : Où est la valeur ? On ne peut pas construire le futur sans connaître le passé. Peut-on aborder l’ère digitale sans avoir conscience de l’investissement humain, du prix de l’évolution de l’informatique, de la valeur ajoutée des réussites comme des échecs ? Les collections, les objets d’Aconit permettent à chacun des parcours pour prendre la mesure des liens entre passé et avenir.

DH : C’est une question incongrue, car chacun des objets est un jalon de l’histoire de l’informatique et n’a sa place que dans un musée. Pour des raisons d’assurance, nous avons procédé à une évaluation forfaitaire de la valeur de chaque machine sur la base d’une remise en état sommaire ou de la reconstruction d’une maquette d’aspect équivalent.

B : Comment sont financées vos associations ?

DH : Notre association est sponsorisée par Bull/Atos à travers une dotation annuelle pour le fonctionnement et la mise à disposition des locaux et bureaux. Par ailleurs l’association collecte 30% de son budget auprès de ses membres.

PhD : Depuis dix ans nous avons le triple soutien de la ville de Grenoble, de la Metro et du Conseil Général ce qui permet de couvrir le loyer des locaux, ajoutez à cela une subvention du Cnam pour la mission PATSTEC (http://www.patstec.fr) de sensibilisation des acteurs du territoire à la sauvegarde du patrimoine scientifique et technique. À part ça, les adhésions et les dons de personnes morales et physiques sont notre seul revenu. Autant dire que ça “craint ». Comment financer alors, la pérennité de « notre mémoire » ?

B : Vous exposez ces machines où ? Menez vous d’autres activités autour des objets ?

DH : La FEB, depuis sa création, a organisé plus de 250 expositions valorisant le patrimoine et le savoir-faire de Bull, ainsi que des thématiques spécifiques à l’informatique et au monde numérique. Par ailleurs, FEB entretient des contacts permanents avec d’autres organismes opérant dans les domaines de la conservation et de l’enseignement.

Journées Européennes du Patrimoine - JEP 2011 - 684

PhD : Les machines sont « exposés » dans nos réserves, à deux pas de la gare de Grenoble. Les visites sont guidées selon l’intérêt des groupes par nos bénévoles « experts » qui se font un plaisir de raconter la petite histoire de chacune de nos machines. L’objet suscite curiosité, intérêt, questionnement, et on peut aussi continuer la visite virtuellement dans les Galeries du site web de l’association.

Un apport de médiation, d’ateliers scientifiques, de conférences, d’expositions hors les murs prolonge ou conforte l’accès à la connaissance. Les évènements nationaux, Journées du Patrimoine, Fête de la Science sont des temps de mutualisation lors d’actions co-construites pour valoriser ce patrimoine et en faciliter l’approche aux nouvelles générations.

B : C’est quoi le rêve pour des associations comme les votre?

DH: Le rêve, c’est de fusionner notre association dans le futur Musée de l’informatique et du Numérique, et la FEB se bat d’ors et déjà pour qu’il devienne réalité. Nos membres actifs sont très vieux, certains sont touchés par la maladie et il est indispensable qu’ils puissent, dans les toutes prochaines années, transmettre à d’autres plus jeunes, leur vécu professionnel et leurs connaissances des machines et des objets de la collection.

PhD : Notre rêve ! C’est la création d’un Musée de l’informatique et du Numérique en France par exemple sous le #MINF. Un musée innovant accessible du fonds des territoires, collaboratif afin que chaque acteur puisse, à partir d’un objet, trouver un parcours de connaissance, tester son esprit critique. Nous partageons cette volonté, avec les partenaires du projet. Le comment atteindre cet objectif résulte d’une analyse économique et politique, d’où le projet de création d’un musée distribué ou chaque centre expose des collections en lien avec l’histoire et les écosystèmes numériques actuels du territoire. Avec en support un centre unique de collections et d’études coordonnant la diffusion, accueillant les chercheurs.

DH : Je forme des vœux pour que le projet #MINF sorte de terre le plus rapidement possible !

B: Nous aussi.

Liens pour aller à la rencontre des objets et acteurs :

http://www.aconit.org

http://feb-patrimoine.com

http://www.musee-informatique-numerique.fr/

http://www.patstec.fr

Les limites de la calculabilité

Entretien autour de l’informatique : David Harel

Le Professeur David Harel de l’Institut Weisman a accordé un entretien à Serge Abiteboul et Maurice Nivat. David Harel est une des étoiles de l’informatique. Il a démontré des résultats théoriques éblouissants, apporté des contributions essentielles à l’ingénierie du logiciel et écrit un livre de vulgarisation qui est un point d’entrée exceptionnel sur le domaine. David Harel est aussi très engagé politiquement en Israël dans les mouvements pour la paix.

David Harel
David Harel

Choisir entre sciences et technologie ?

B : David, quel est celui de tes résultats dont tu es le plus fier ?
DH : si je mets à part mes cinq enfants et cinq petits-enfants, si je ne parle que de mes contributions professionnelles, il m’est difficile ce choisir entre deux : un théorème que j’ai démontré avec Ashok Chandra et le formalisme graphique des « state charts » (diagrammes états-transitions).

Le théorème établi avec Ashok étend la notion de calculabilité de Turing à des structures arbitraires. Dans un premier temps, il a été énoncé pour des structures de bases de données, ensuite il a été étendu à d’autres structures, en particulier par toi, Serge.

Les diagrammes états-transitions ne recèlent en fait aucune théorie ; il s’agit d’un langage visuel pour décrire des systèmes réactifs, riches d’interactions entre leurs composants. Le succès d’un langage se mesure au nombre de gens qui l’utilise. Comme le dit un proverbe anglais, « the proof of the pudding is in the eating » (c’est l’appétit avec lequel on le mange qui démontre la qualité du pudding). Le langage des diagrammes états-transitions a été adopté par de nombreuses personnes et est utilisé couramment dans de nombreuses industries. Il fait aussi partie de normes reconnues et populaires comme UML. L’article originel qui introduit ce langage a été cité plus de huit mille fois. Ce succès est sans doute dû au fait que c’est un langage visuel très clair qui s’inspire de la topologie.

State chart
Diagramme états-transitions d’une petite partie d’une bactérie dans son état de nage

B : cela t’a-t-il pris longtemps de concevoir ce concept de diagramme états-transitions ?
DH : non, non, j’étais consultant auprès d’industries de l’aéronautique un jour par semaine, et l’idée de ce langage m’est venue après quelques semaines de discussion avec les ingénieurs. Une représentation graphique m’est apparue comme le meilleur moyen de décrire les genres de comportements que nous cherchions à formaliser. J’en ai parlé à Amir Pnueli, en lui présentant la chose comme une extension très simple de la notion d’automate fini, rien de bien profond. Mais Amir a trouvé cela intéressant et m’a encouragé à en faire un article scientifique, ce que j’ai fait. Cet article a été rejeté à plusieurs reprises par des revues auxquelles je l’avais soumis et il a fallu trois ans avant qu’il ne soit publié. Cela veut bien dire, entre autres choses, qu’il ne faut pas abandonner une idée que l’on croit bonne juste parce que des revues rejettent l’article qui l’expose.

David with a statechart (and a little temporal logic), 1984.
David avec un diagramme d’états-transitions et un peu de logique temporelle. 1984.

Culture informatique

B : nous sommes des admirateurs de ton livre de 1987 intitulé « Algorithmics : the spirit of computing » (Algorithmique : l’esprit du calcul). Tu n’as pas cité cet ouvrage comme une de tes plus importantes contributions ?
DH : il fallait que je choisisse, mais je suis content que vous me parliez de ce livre. C’est une tentative de présenter les idées fondamentales de l’informatique au grand public, aux masses dirait un politicien. Le plus difficile était de choisir ce que j’allais mettre dedans. Notre discipline est toujours jeune, nous manquons de recul. Ce n’est pas facile de distinguer ce qui est vraiment fondamental et qui ne s’effacera pas avec le temps. Il y a eu plusieurs éditions successives mais en fait elles ne sont pas très différentes de la première.

Une expérience très riche pour moi a aussi été une émission de radio, en hébreu, en 1984, au cours de laquelle je devais expliquer, à une heure de grande écoute, ce qu’était l’informatique. Ce n’est pas simple, à la radio, on a les mains liées, on ne peut rien montrer, ni graphique, ni schéma, ni dessein. C’est quand même possible, même si c’est difficile. Beaucoup d’auditeurs ont compris et ont aimé ce que j’ai raconté.

©Addison-Wesley 1987
©Addison-Wesley 1987
©Pearson 2004
©Pearson 2004
©Springer 2012
©Springer 2012

B : qui peut lire ton livre ?
DH : tous ceux qui ont un petit bagage scientifique peuvent comprendre. Quelques connaissances de mathématiques aident et surtout une façon de penser logique ou structurée. Si vous n’avez pas ça, vous risquez de passer à côté de certaines notions, par exemple de la notion de réductibilité d’un problème à un autre. Vous pouvez « réduire » un problème donné A à un autre problème B, en d’autres termes, si vous savez résoudre le problème B, alors vous pouvez aussi résoudre A. Cette technique permet de hiérarchiser la difficulté des problèmes, y compris ceux qui ne sont pas résolubles par une machine, les problèmes que l’on nomme indécidables. La même technique permet de hiérarchiser les algorithmes en fonction de leur efficacité.

Voici que nous avons parlé de trois de mes contributions, l’une scientifique, la seconde plutôt technique et la troisième culturelle, si j’appelle culturelle la partie de la connaissance qui est accessible au plus grand nombre !

Enseignement de l’informatique

B : un des sujets favoris de Binaire est l’enseignement de l’informatique. Penses-tu que l’informatique doit être enseignée à l’école ?
DH : Je n’ai aucun doute là dessus ! Oui ! Mais pas seulement les ordinateurs, ou le « code », ce qu’il faut enseigner c’est vraiment la science informatique. J’ai participé il y a quelques années à la définition d’un programme d’enseignement de l’informatique au lycée dans mon pays, Israël. Jusque là on enseignait seulement une peu de code, c’est-à-dire très peu de raisonnement, très peu d’esprit du calcul. Nous avons proposé le principe de la « fermeture éclair », un principe d’alternance : un peu de théorie, un peu de pratique, un peu de théorie, etc. Le programme israélien actuel comporte deux niveaux, un pour les élèves ordinaires, bases de la notion de calcul et un peu de programmation (je crois qu’elle se fait en Java) et un niveau plus avancé comportant des notions plus approfondies d’algorithmique, y compris les automates finis.

David Harel et Maurice Nivat
David Harel et Maurice Nivat

C’est important d’enseigner la pensée informatique, (ce que Jeannette Wing appelle « computational thinking ») car cela devient indispensable dans la vie moderne, et pas seulement pour se servir d’un ordinateur ou d’une autre machine plus ou moins électronique. C’est indispensable pour organiser sa vie, par exemple, son emploi du temps, et planifier ses actions.

Un simple exemple est quand vous déménagez avec l’aide de copains qui arrivent tous avec des véhicules de tailles diverses, une berline, une jeep, une camionnette. Il faut placer toutes vos affaires, meubles, cartons dans ces véhicules sans les surcharger. Pour bien comprendre ce problème, il faut savoir qu’il est ce que l’on appelle « NP-difficile », et évidemment comprendre ce que NP-difficile veut dire. Mettre des petites boites dans des grandes est un problème algorithmique, c’est de l’informatique.

En fait, il ne suffit pas d’enseigner l’algorithmique « classique » ; les élèves doivent aussi apprendre ce qu’est un système réactif (cette expression a été proposée par Amir Pnueli et moi-même en 1980) dans lesquels des composants réagissent entre eux et aussi à des sollicitations extérieures venues d’opérateurs humains ou de capteurs. C’est une autre facette de l’informatique qui doit aussi être enseignée.

Elephant, Wikipedia
Elephant, Wikipedia

Le test de l’éléphant

B : nous t’avons entendu poser la question suivante sur le net : quand peut-on dire que l’on a construit un modèle de la nature ?
DH : l’idée est d’étendre le test de Turing à la simulation de systèmes naturels, comme le temps qu’il fait, ou un organisme vivant. Supposons par exemple que nous voulions modéliser un éléphant ? Quand saurons-nous que nous comprenons tout de l’éléphant ? Quand nous aurons fabriqué un modèle exécutable dont le comportement ne se distingue pas de celui d’un éléphant naturel, un éléphant de laboratoire dont personne, quand même les personnes qui connaissent le mieux les éléphants ne peuvent faire de différence au niveau du comportement et des réactions aux sollicitations extérieures entre l’éléphant artificiel et un véritable éléphant. C’est seulement dans ce cas que nous pouvons dire que notre modèle est une théorie de l’éléphant.

Maintenant comparons cela au test de Turing. Si l’ordinateur de Serge, par exemple, passe avec succès le test de Turing, nous pouvons dire qu’il est intelligent et le restera pour toujours. Si mon éléphant de laboratoire passe avec succès le test de l’éléphant que je viens de décrire, cela signifie seulement qu’aujourd’hui les meilleurs connaisseurs des éléphants considèrent mon éléphant comme un modèle valide. Mais si quelqu’un demain découvre quelque nouvelle propriété de l’éléphant que mon modèle d’éléphant ne possède pas, alors mon modèle cesse d’être valide. Ce qui n’est pas une nouvelle catastrophique, bien au contraire ; c’est ça qui est fantastique car c’est comme ça que la science progresse, des modèles nouveaux plus riches viennent se substituer aux anciens. Einstein va plus loin que Newton ; et la mécanique quantique va plus loin qu’Einstein.

A un échelle beaucoup plus modeste, j’ai rencontré ce genre de situation. Nous avions construit un modèle de cellules biologiques. Des biologistes n’aimaient pas un aspect particulier de notre model. Cela les a amenés à poursuivre leurs recherches et en quelques mois ils ont découvert le véritable mécanisme déterminant le comportement de ces cellules ! Un nouveau défi et la science avance !

Quand on essaye de modéliser le vivant, des objets biologiques, ou bien des systèmes extrêmement complexes comme la météo, je pense qu’on ne peut pas espérer la complétude.

Le « Wise computing »

B : peux-tu nous dire sur quoi tu travailles ou réfléchis en ce moment ?
DH : j’appelle cela « wise computing » (calcul sage). Il ne s’agit pas seulement d’écrire que l’ordinateur écrive des programmes intelligents à notre place, il s’agit de développer du logiciel avec la machine, en collaboration avec la machine. Nous sommes déjà habitués à dire à la machine, sous une forme ou une autre, ce que nous voulons qu’elle fasse. Je voudrais que la machine participe aussi activement au processus de développement, comme un partenaire, sur un pied d’égalité ! La machine pourrait vérifier ce que je propose, le clarifier et le préciser, en corriger les erreurs aussi. Mais je voudrais aussi qu’elle en comprenne les intentions, qu’elle pose des questions, qu’elle fasse des suggestions, tout ceci en utilisant les moyens les plus sophistiqués. Ce que moi et mes collaborateurs avons déjà réalisé est encore bien limité mais nous progressons.

Un nain sur les épaules d’un géant

Le géant Orion portant sur ses épaules son serviteur Cedalion (Wikipedia)
Le géant Orion portant sur ses épaules son serviteur Cedalion (Wikipedia)

B : qu’as-tu envie de dire, David, pour conclure cet entretien ?
DH : je voudrais revenir à Turing. C’est un géant. J’ai travaillé sur la calculabilité à la Turing, sur le test de Turing, sur des problèmes de biologie, liés au travail de Turing sur la morphogenèse. Et je me suis toujours senti comme un nain sur les épaules d’un géant. Cela prend des années de construire une science. Il y a encore des gens qui croient que l’informatique n’en est pas une ou que c’est une science sans profondeur, mais il y en a de moins en moins. Il va falloir encore des années pour qu’il n’y en ait plus du tout. Je n’ai aucun doute qu’un jour Turing parviendra au sommet du panthéon des grands penseurs, pour y rejoindre Newton, Einstein, Darwin et Freud.

David Harel, Institut Weizman

A la mémoire de Ashok Chandra

Ashok Chandra
Ashok Chandra

David Harel et Binaire dédient cet interview à la mémoire de Ashok Chandra, collègue et ami de David, décédé en 2014 Ashok était informaticien dans la compagnie Microsoft. Il dirigeait le Centre de recherche sur les services Internet à Mountain View. Précédemment il avait dirigé l’unité « Bases de Données et Systèmes Distribués » du Centre de recherche de la compagnie IBM à Almaden. Il a été le coauteur de plusieurs articles fondamentaux en Informatique théorique. Entre autres choses, il a introduit les machines de Turing alternées en théorie du calcul (avec Dexter Kozen et Larry Stockmayer), les requêtes conjonctives dans les bases de données (avec Philip Merlin), les requêtes calculables (avec David Harel) et la complexité de communication (avec Merrick Furst et Richard Lipton).

Prix Turing : les bases de données à l’honneur

Après avoir beaucoup parlé de Turing, nous ne pouvions pas faire l’impasse sur le prestigieux prix décerné en mars dernier mettant à l’honneur un chercheur pour ses travaux dans le domaine de l’informatique. C’est Michael Stonebraker qui a remporté cette distinction pour ses contributions dans le domaine des bases de données. Pour nous en parler, Patrick Valduriez, spécialiste mondial du domaine et primé en 2014 pour son expertise dans ce domaine (Prix de l’Innovation, Inria, Académie des sciences, Dassault Systèmes), nous présente le lauréat et nous éclaire sur les enjeux des fameux SGBD.

Stonebraker credit M. Scott Brauer 2
crédit photo M. Scott Brauer

Michael Stonebraker, chercheur au Massachusetts Institute of Technology (USA), vient de remporter le prestigieux Prix Turing de l’ACM, souvent considéré comme « le prix Nobel de l’informatique ». Dans son annonce du 25 mars 2015, l’ACM précise que Stonebraker « a inventé de nombreux concepts qui sont utilisés dans presque tous les systèmes de bases de données modernes… ». Cette reconnaissance au plus haut niveau international me donne l’occasion de donner un éclairage sur la place singulière du domaine de la gestion de données dans la recherche en informatique.

La gestion de données se préoccupe du stockage, de l’organisation, de la recherche et de la manipulation de données de toutes sortes, souvent très grandes et complexes. Le principe fondateur de la gestion de données est l’indépendance des données, qui permet de travailler avec les données à un niveau conceptuel, tout en ignorant les détails d’implémentation. Le modèle relationnel, en s’appuyant sur une théorie simple et solide (ensembles, logique du 1er ordre) a révolutionné la façon de concevoir les SGBD.

C’est un domaine où le transfert continu de résultats de labos de recherche vers l’industrie a été depuis les débuts remarquable, conduisant notamment au développement des systèmes de gestion de bases de données (SGBD), au cœur de la plupart des systèmes d’information modernes. C’est aujourd’hui un domaine majeur de l’informatique, avec à la fois une grande communauté de recherche et une industrie forte.

L’innovation majeure des SGBD relationnels a été de permettre la manipulation de données avec des langages de requêtes déclaratifs (on définit les données qui nous intéressent et on laisse le système décider comment les calculer) intégrant des concepts puissants comme les transactions qui garantissent que notre travail ne peut pas être compromis par une panne ou un autre utilisateur de la même base de données. Arrivés sur le marché dans les années 1980, les SGBD relationnels ont remarquablement réussi le test du temps, par l’ajout régulier de nouvelles fonctionnalités (par ex. sécurité), de nouveaux types de données (ex. objet, XML ou JSON) et en s’adaptant à toutes sortes de plateformes, depuis les appareils mobiles (par ex. smartphones) jusqu’aux très grands clusters dans des environnements distribués.

Aujourd’hui, avec les nouveaux défis du big data et du cloud, la gestion de données doit être réinventée, tant les besoins des utilisateurs et des applications sont divers et ne peuvent plus s’accommoder de l’aspect « taille unique » des SGBD relationnels. La recherche en gestion de données devient alors pluridisciplinaire, associant notamment chercheurs et grands producteurs de données pour mieux étudier leurs données (analyse de « big data »). En France, ces défis sont au cœur d’initiatives pluridisciplinaires récentes comme le défi CNRS Mastodons (grandes masses de données scientifiques) et le GdR MaDICS (Masses de Données, Informations et Connaissances en Sciences).

En 40 ans de carrière, Stonebraker a profondément marqué le domaine des SGBD, depuis le relationnel au big data. Sa récompense s’ajoute à celles de trois autres prix Turing du domaine : Charles Bachman (1973) pour ses contributions aux SGBD navigationnels, Edgard Frank Codd (1981) pour l’invention du modèle relationnel et James Gray (1998) pour ses contributions aux SGBD et au transactionnel.

Stonebraker a d’abord été un pionnier dans la conception de SGBD relationnels, en dirigeant des projets de recherche influents comme Ingres et Postgres. Il a aussi été un entrepreneur exceptionnel, en créant neuf startups autour de ses projets. Aujourd’hui, Stonebraker poursuit ses travaux au MIT autour des systèmes NoSQL.

Patrick Valduriez, Inria

 

La publication scientifique : Le temps des dérives

Pascal Guitton nous a expliqué les principes de la publication scientifique et son passage au numérique dans un premier article. Il aborde maintenant pour nous des dérives récentes du système. Il nous parle d’un futur souhaitable fait de publications ouvertes et d’épi-journaux. Serge Abiteboul et Thierry Viéville.

Le numérique a contribué à améliorer le travail des chercheurs en enrichissant le contenu des publications numériques, en favorisant la recherche d’un article dans la masse gigantesque de documents disponibles, et en optimisant les modalités et le temps d’accès à l’information. Malheureusement, dans le même temps, ces évolutions se sont accompagnées de dérives qui pourrissent la vie des scientifiques.

Dérive 1 : Le spam dans l’édition scientifique

©Hormel à l’origine le mot SPAM* désignait de la « fake meat »

Certains ont cru détecter la poule aux œufs d’or dans l’évolution numérique de l’édition scientifique. Sont apparues de nulle part des sociétés « expertes» de la création de revues (et de conférences) traitant de tous les sujets et ouvertes à tous. Concrètement, un chercheur reçoit très souvent (plusieurs fois par mois) des messages d’invitation à soumettre ses travaux dans des revues ou des conférences « SPAM (*) » ou alors à participer à leurs comités de lecture qui n’en possèdent que le nom. Certains se laissent abuser, le plus souvent par négligence en n’étant pas assez critique sur la qualité de la revue, parfois par malhonnêteté en espérant augmenter leur visibilité.

L’évaluation par les pairs, comme tout processus humain, peut faillir et conduire à des publications erronées, voire totalement loufoques. Il ne s’agit pourtant là que de dysfonctionnements non représentatifs de la qualité générale du travail de publication. Une évaluation un tant soit peu sérieuse détectera ce type de publication. Il convient toutefois pour les scientifiques de rester vigilants devant l’augmentation récente de ce nombre de situations qui est directement reliée à l’augmentation du nombre de revues et de conférences « parasites ».

Dérive 2 : L’évaluation mal réalisée

guitton2-2
©Binaire

Au delà de ces dérives mercantiles, le principal problème résulte de la culture de l’évaluation à outrance qui a progressivement envahi le monde de l’enseignement et la recherche que ce soit au niveau des individus (recrutement, promotions), des laboratoires (reconnaissance, financements) ou des universités/écoles/organismes (visibilité, attractivité).

Entendons-nous bien, ce n’est pas la nécessité d’une évaluation qui est ici remise en cause mais les façons dont elle est trop souvent mise en œuvre. Illustration : dans un premier temps, le nombre de publications d’un chercheur est devenue la référence principale de jugement ; bien que simple et naturel, un comptage brutal ne tient pas compte de leur qualité et de leur ampleur, produisant des « spécialistes » de la production à la chaîne d’articles sans réel impact. (Il est quasiment impossible de s’accorder sur le nombre des articles jamais cités par d’autres scientifiques mais il est élevé). On observe aussi des équipes qui alignent leurs thématiques de recherche sur les sujets « chauds » des revues et/ou synchronisent leurs activités sur le calendrier des conférences importantes, délaissant leur libre arbitre et le propre pilotage de leur recherche.

Dans un deuxième temps, sont apparus des indicateurs numériques sensés remédier à ce problème, en calculant des scores basés sur le nombre de citations que recueille un article. L’idée a d’autant plus de sens que les explosions conjointes au niveau mondial des nombres de chercheurs et de revues ont conduit à une inflation jamais connue jusque là de la production d’articles scientifiques ; s’interroger sur l’impact réel d’une publication est légitime et a suscité de nombreuses méthodes dont les plus connues sont la famille des h-index apparue en 2005 pour les articles et les facteurs d’impact en 2006 pour les revues.

Malheureusement, cette bonne idée souffre de nombreux défauts : tout d’abord, le mélange incroyable entre citations positives (pour mettre en exergue un résultat) et négatives (pour critiquer tout ou partie du travail) ! Ensuite, la taille des communautés qui est le plus souvent oubliée dans l’exploitation de ces indicateurs ; comment raisonnablement comparer des index si le nombre de chercheurs d’un domaine est très différent d’un autre ; pensons par exemple à une thématique émergente qui ne concerne initialement qu’un petit cercle : faut-il l’ignorer parce qu’elle arrive loin dans les classements ? Ce n’est surement pas de cette façon que nous produirons les innovations tant attendues. Par ailleurs, les bases de données utilisées pour calculer ces taux de citation ne couvrent qu’une partie de la littérature scientifique ; en informatique par exemple, moins de la moitié de la production est référencée dans les plus célèbres d’entre elles. Et puis, des esprits malintentionnés ont dévoyé cette bonne idée en mettant en œuvre des pratiques frauduleuses : autocitations abusives, « découpage » artificiel d’un résultat en plusieurs articles pour augmenter le nombre de publications et de citations, cercles de citations réciproques entre auteurs complices, « recommandation appuyée » de certains éditeurs de citer des articles de leur propre revue, etc.

En résumé, ces indicateurs ne devraient fournir qu’un complément d’information à une évaluation plus qualitative et donc plus fine. Malheureusement, une telle analyse nécessite plus de temps et aussi de mobiliser de vrais experts. Il est infiniment plus « facile » de la remplacer par l’examen de quelques chiffres dans un tableur sensés représenter une activité scientifique dont il est bien entendu impossible de réduire ainsi la richesse et la diversité. On peut faire l’analogie avec la qualité d’un livre qui ne serait jugée qu’à travers son nombre de lecteurs ou celle d’une chaîne de télévision qu’à travers son Audimat.

Terminons en rappelant encore une fois qu’il ne s’agit pas d’ignorer ces indicateurs mais bien de les exploiter pour ce qu’ils sont et de les associer systématiquement à des analyses qualitatives réalisées par des experts.

Dérive 3 : le modèle économique

guitton2-3
©Binaire

Initialement gérée par les sociétés savantes, l’édition scientifique a progressivement été envahie par une grande diversité d’éditeurs privés. Comme beaucoup d’autres secteurs économiques, elle a connu une forte concentration autour de quelques grands acteurs : Elsevier, Springer, Wiley etc. Depuis sa création, ses ressources provenaient des abonnements que lui payaient les structures académiques pour recevoir les exemplaires des revues souhaitées. Ce système a fonctionné pendant longtemps mais connaît de très grandes difficultés depuis quelques années à cause des augmentations de prix constantes imposées sans réelle justification par ces acteurs dominants. La combinaison de ces hausses avec les baisses que connaissent les budgets de la recherche un peu partout dans le monde a produit un mélange détonnant qui est en train d’exploser. L’attitude intransigeante de ces grands acteurs qui refusent de prendre en compte ces réductions budgétaires et, au contraire, augmentent leurs tarifs et leurs profits est assez surprenante et le changement de modèle économique induit par la transition achat d’exemplaires papier-droit d’accès à des ressources en ligne ne suffit pas à l’expliquer.

Face à cet abus de position dominante, les chercheurs s’organisent pour tenter de résister. En France par exemple, le monde académique s’est mis d’accord pour, d’une part, échanger des informations sur les pratiques respectives vis à vis des éditeurs, et d’autre part, présenter un front uni lors de négociations collectives face à ces sociétés. Certaines communautés, notamment mathématiciennes, françaises et étrangères, se sont mobilisées pour lutter contre ces monopoles en appelant au boycott, non seulement des abonnements, mais également de l’ensemble des processus éditoriaux. En effet, il faut rappeler que sans l’implication primordiale des chercheurs – qui font la recherche, rédigent des articles et les expertisent – offerte gratuitement à ces sociétés privées, elles n’existeraient plus.

Début de solution : l’accès ouvert

Le logo Open Access

C’est notamment pour lutter contre ces dérives en offrant un modèle alternatif que des solutions de type libre accès (Open Access) aux ressources documentaires ont été développées. Initialement, il s’agissait d’offrir un accès gratuit aux publications stockées sur des sites de dépôts gérés par des organisations scientifiques. En France, c’est l’archive ouverte HAL qui joue depuis 2001 un rôle central dans cette démarche en liaison étroite avec les autres grandes archives internationales comme ArXiv créée en 1991. Outre la maîtrise des coûts, l’accès ouvert renforce la visibilité des articles déposés sur une archive ouverte comme le montre plusieurs études.

Ce mouvement en faveur des archives ouvertes est soutenu par de nombreux pays (Canada, Chine, Etats-unis, Grande Bretagne…). Récemment, l’Union européenne et en particulier la France ont pris des positions encore plus nettes en faveur du libre accès. Par exemple, depuis 2013, la direction d’Inria a rendu obligatoire le dépôt des publications sur HAL et seules ces publications sont communiquées aux experts lors des évaluations ou affichées sur le site web de l’Institut.

Les grands éditeurs ont très vite compris le danger pour leurs profits que représentaient ces initiatives ; ils ont donc commencé par adopter des politiques de dénigrement systématique en les moquant, puis, devant l’échec relatif de cette posture, ils ont transformé ce risque en opportunité en se présentant comme les chantres, voire même les inventeurs, de l’accès ouvert et l’expression Open Access fleurit aujourd’hui sur la plupart des sites de ces éditeurs.

Il convient de préciser qu’il existe deux approches principales d’accès ouvert :

  • la voie verte (green access) où le dépôt par l’auteur et l’accès par le lecteur sont gratuits ;
  • la voie dorée (gold access), dite aussi auteur-payeur, où l’auteur finance la publication (de quelques centaines à quelques milliers d’euros) qui est ensuite accessible en ligne gratuitement.

Le green est aujourd’hui la solution la plus vertueuse mais n’oublions pas que la gratuité n’est qu’apparente car ces infrastructures et ces services représentent un coût non négligeable supporté pour HAL principalement par le CNRS à travers le CCSD. Par ailleurs, certains éditeurs imposent un délai avant le dépôt d’une publication sur une archive ouverte publique (par exemple, 6 mois après sa parution). Outre la légalité parfois discutable de cet embargo, il faut rappeler qu’il est possible de déposer des versions dites preprint, sur des archives ouvertes comme HAL, pour remédier temporairement à ce problème.

Le gold quant à lui présente l’avantage de déplacer en amont et de rendre explicite le coût d’une publication. Cependant, il comporte des inconvénients majeurs, principalement le coût souvent élevé et donc le risque d’accroitre le fossé entre les établissements, voire pays, « riches » et « pauvres ».

Malheureusement, la qualité et la puissance économique du lobbying des grands éditeurs ont réussi à pénétrer beaucoup de cercles de décision nationaux comme européens et à faire confondre l’open access et le gold. Nous entendons et lisons donc des charges contre le libre accès qui n’évoquent que le modèle auteur-payeur et contre lesquelles il est indispensable de faire preuve de pédagogie pour démonter l’artifice.

Encore mieux : les epi-journaux

Le logo http://episciences.org

Au delà du dépôt des articles, il convient de s’interroger sur leur éditorialisation si l’on souhaite proposer une alternative de qualité, et par conséquent crédible, aux revues commerciales. La notion d’epi-journal a donc vu le jour ; il s’agit de construire « au dessus » d’une archive ouverte des structures éditoriales de type revues ou actes. La démarche est tout à fait similaire à celle de l’édition classique : diffusion des règles éditoriales, dépôt des propositions sur un site dédié, expertise par un comité de lecture dont la composition est publique, annonce des résultats aux auteurs, mise en ligne des articles retenus après réalisation des corrections demandées et en respectant une charte graphique, référencement par les moteurs de recherche après saisie des méta-données associées.

Basée sur le projet Episciences, développé et hébergé par le CCSD, il existe dans le domaine Informatique et Mathématiques appliquées une structure qui propose des services pour gérer des épi-journaux :

  • les articles sont déposés dans une archive ouverte (HAL, ArXiv, CWI, etc.),
  • après lecture et analyse par les éditeurs, les articles soumis reçoivent la validation du comité de lecture,
  • ils sont alors publiés en ligne et identifiés exactement comme dans une revue classique (ISSN, DOI, etc.),
  • ils sont référencés par les principales plateformes (DOAJ, DBLP, Google scholar…),
  • l’epi-journal respecte des règles éthiques,
  • il assure un travail de visibilité à travers les conférences et les réseaux sociaux.

Vous pouvez par exemple consulter la revue JDMDH qui vient de démarrer sur ce principe.

Et en conclusion

Ces epi-journaux sont la dernière évolution importante dans le domaine de la publication scientifique. S’ils offrent une réponse potentielle particulièrement adaptée aux problèmes causés par l’augmentation déraisonnable du coût des abonnements aux grands éditeurs, ils sont aujourd’hui encore balbutiants. La principale interrogation provient de leur jeunesse et de leur manque de reconnaissance par les communautés scientifiques. Concrètement, si un jury doit expertiser un dossier individuel ou collectif (équipe, laboratoire), il attachera plus de poids à des publications parues dans des revues installées depuis longtemps et donc plus reconnues.

La seule motivation « militante » pour publier de cette façon ne suffit pas, notamment si l’on pense aux jeunes chercheurs qui sont à la recherche d’un emploi : il est aujourd’hui très difficile de leur faire prendre ce risque sans concertation et réflexion préalables de la part de leurs encadrants qui sont souvent des scientifiques établis qui n’ont plus de souci majeur de carrière. C’est pourquoi il est absolument indispensable que les chercheurs les plus seniors s’impliquent clairement en faveur de ces initiatives : en participant aux comités de lecture de ces épi-journaux afin de les faire bénéficier de leur visibilité individuelle, en contribuant à en créer de nouveaux et surtout en expliquant dans toutes les instances d’évaluation et de recrutement (jurys, comités de sélection, CNU…), la qualité de ces premiers epi-journaux et du crédit que l’on peut leur accorder.

Là encore, ne tombons pas dans l’angélisme, un épi-journal n’est pas un gage de qualité en lui même, mais au moins laissons lui la chance de prouver sa valeur de la même façon qu’une revue papier et évaluons le avec les mêmes critères.

Il s’agit vraiment de bâtir une nouveau paradigme de publication et nous, scientifiques, en sommes tous les premiers responsables avant d’en devenir les bénéficiaires dans un futur proche.

Pascal Guitton, Professeur Université de Bordeaux et Inria

(*) Le spam, courriel indésirable ou pourriel (terme recommandé au Québec) est une communication électronique non sollicitée, en premier lieu via le courrier électronique. Il s’agit en général d’envois en grande quantité effectués à des fins publicitaires. [Wikipedia]. À l’origine le mot SPAM désignait de la « fake meat« .

J’ai deux passions, la musique et l’informatique

Un nouvel « entretien autour de l’informatique ». binaire interviewe Arshia Cont, chercheur en informatique musicale. Arshia a placé sa recherche à la frontière entre ses deux passions, l’informatique et la musique. Il nous les fait partager. Claire Mathieu  et Serge Abiteboul.  

Arshia Cont © Arshia
Arshia Cont © Arshia

La musique mixte : musiciens et ordinateurs

B : Arshia, en quoi consiste ta recherche ?
AC : Nous travaillons dans le domaine de l’informatique musicale. Les gens ont commencé à faire de la musique avec des ordinateurs depuis les débuts de l’informatique. Déjà Ada Lovelace parlait explicitement de la musique dans ses textes. Nous nous intéressons à ce qu’on ne sait pas encore bien faire. Quand plusieurs musiciens jouent ensemble, chaque musicien a des tâches précises à réaliser en temps réel, mais doit coordonner ses actions avec les autres musiciens. Ils arrivent à s’écouter et à se synchroniser, pour jouer un quatuor de Mozart par exemple. L’œuvre est écrite sur une partition, et c’est toujours la même œuvre qu’on écoute, mais à chaque exécution, c’est toujours différent et pourtant c’est sans faute. Et même s’il y a des fautes, le concert ne va pas s’arrêter pour autant. Cette capacité à s’écouter les uns les autres, se coordonner et se synchroniser, avec une tolérance incroyable aux variantes, aux erreurs mêmes, c’est une capacité humaine extraordinaire qu’on aimerait donner à la machine.
Prenons trois musiciens qui ont l’habitude de jouer ensemble. On leur ajoute un quatrième musicien, à savoir, un ordinateur qui va jouer avec eux, et qui, pour cela, doit écouter les autres et s’adapter à eux. L’ordinateur doit être capable d’interagir, de communiquer avec les humains. Cette association de musiciens humains et de musiciens ordinateurs est une pratique musicale qu’on appelle la musique mixte, et qui est répandue aujourd’hui dans le monde entier.
Le dialogue se passe pendant l’exécution, mais il faut aussi un langage pour décrire la richesse de tels scénarios qui sont à la fois attendus (puisqu’on connaît la partition) et en même temps à chaque fois différents.

Arshia Cont devant un violon « bricolé » Un capteur et un excitateur sont placés directement à l’intérieur de la caisse du violon pour amplifier les sons existants mais aussi créer de sons nouveaux. ©Serge Abiteboul
Arshia Cont devant un  violon intelligent de l’Ircam. Un capteur et un excitateur sont placés directement à l’intérieur de la caisse du violon pour amplifier les sons existants mais aussi créer de sons nouveaux. ©Serge Abiteboul

Le langage de la musique

B : Vous travaillez sur des langages pour la musique mixte ?
AC : Oui. Prenez des œuvres écrites pour de grands orchestres, avec vingt ou trente voix différentes en parallèle. Le compositeur qui a écrit cela n’avait pas accès à un orchestre dans sa salle à manger pendant qu’il l’écrivait. Pendant des siècles, les musiciens ont été obligés d’inventer un langage, un mode de communication, qui soit compréhensible par les musiciens, qui puisse être partagé, et qui soit suffisamment riche pour ne pas rendre le résultat rigide. Mozart, Beethoven ou Mahler ont été obligés d’écrire sur de grandes feuilles de papier, des partitions d’orchestre, en un langage compris par les musiciens qui allaient jouer ces morceaux. Ce langage, avec des éléments fixes et des éléments libres, permet un passage direct de l’écriture à la production de l’œuvre. On rejoint ici un but essentiel en informatique de langages de programmation qui permettent de réaliser des opérations complexes, avec des actions à exécuter, parfois plusieurs en même temps, avec des contraintes temporelles imposées par l’environnement.
Prenez l’exemple d’un avion. On voudrait que l’avion suive son itinéraire à peu près sans faute mais là encore ça ne se passe pas toujours pareil. Il faut un langage qui permette d’exprimer ce qu’on voudrait qu’il se passe quelle que soit la situation.
Pour la musique, le langage doit permettre un passage immédiat à l’imaginaire. Pour cela, nous travaillons avec des musiciens, et ce qui est particulièrement intéressant, c’est quand ils ont en tête des idées très claires mais qu’ils ont du mal à les exprimer. Nous développons pour eux des langages qui leur permettent d’exprimer la musique qu’ils rêvent et des environnements pour la composer.

B : Ça semble avoir beaucoup de liens avec les langages de programmation en informatique. Tu peux nous expliquer ça ?
AC : La musique, c’est une organisation de sons dans le temps. Une partition avec trente voix, c’est un agencement d’actions humaines qui ont des natures temporelles très variées mais qui co-existent. Ce souci de faire “dialoguer” différentes natures temporelles, on le retrouve beaucoup dans des systèmes informatiques, notamment dans des systèmes temps réel. Il y a donc beaucoup de liens entre ce que nous faisons et les langages utilisés pour les systèmes temps-réel critiques, les langages utilisés par exemple dans les avions d’Airbus ou dans des centrales nucléaires. C’est d’ailleurs un domaine où la France est plutôt leader.

Démonstration d’Antescofo, @Youtube

B : Tu parles de temps-réel. Dans une partition il y a un temps quasi-absolu, celui de la partition, mais quand l’orchestre joue, il y a le temps de chaque musicien, plus complexe et variable ?
AC : Plutôt que d’un temps absolu, je préfère parler d’une horloge. Par exemple le métronome utilisé en musique occidentale peut battre au rythme d’un battement par second, et c’est le tempo “noire = 60” qui est écrit sur la partition, mais il s’agit juste d’une indication. En fait, dans l’exécution aucune musique ne respecte cette horloge, même pas à 90%. Le temps est toujours une notion relative (contrairement à la hauteur des notes, qui dans certaines traditions musicales est absolue). Dans un quatuor a cordes, il n’y a pas un temps unique idéal, pas une manière unique idéale de se synchroniser. En musique, il y a la notion de phrase musicale, et quand vous avez des actions qui ont une étendue temporelle, on peut avoir des relations temporelles variées. Par exemple on veut généralement finir les phrases ensemble. Dans certaines pratiques de musique indienne, il y a des grilles rythmiques que les musiciens utilisent quand ils jouent ensemble : ils les ont en tête, et un musicien sait quand démarrer pour que dix minutes plus tard il finisse ensemble avec les autres ! Ce type de condition doit être dans le langage. C’est cela qui est très difficile. Les musiciens qui arrivent à finir ensemble ont une capacité d’anticipation presque magique. Ils savent comment jouer au temps t pour pouvoir finir ensemble au temps t+n. C’est le « Ante » de Antescofo, notre logiciel. Comme les musiciens qui savent anticiper d’une façon incroyable, Antescofo essaie d’anticiper.


Antescofo par Ircam-CGP

B : Et le chef d’orchestre, là-dedans. Son rôle est de synchroniser tout le monde ?
AC : Les musiciens travaillent avec l’hypothèse que la vitesse du son est infinie, qu’ils entendent un son d’un autre musicien à l’instant où ce son est émis. Mais dans un grand orchestre cette hypothèse ne marche pas. Le son de l’autre bout de l’orchestre arrive après un délai et, si on s’y fie, on ralentit les autres. Pour remédier à ça, on met un chef d’orchestre que chacun peut voir et la synchronisation se fait à la vue, avec l’hypothèse que la vitesse de la lumière est infinie. Nous avons d’ailleurs un projet en cours sur le suivi de geste, afin que le musicien-ordinateur puisse aussi suivre le geste du chef d’orchestre. Mais c’est compliqué. Il faut s’adapter aux chefs d’orchestre qui utilisent des gestuelles complexes.

La machine doit apprendre à écouter

B : Tu utilises beaucoup de techniques d’apprentissage automatique . Tu peux nous en parler ?
AC : Nous utilisons des méthodes d’apprentissage statistique. Nous apprenons à la machine à écouter la musique. La musique est définie par des hauteurs, des rythmes, plusieurs dimensions que nous pouvons capter et fournir à nos programmes informatiques. Mais même la définition de ces dimensions n’est pas simple, par exemple, la définition d’une « hauteur » de son qui marche quel que soit l’instrument. Surtout, nous sommes en temps-réel, dans une situation d’incertitude totale. Les sons sont complexes et « bruités ». Nous humains, quand nous écoutons, nous n’avons pas une seule machine d’écoute mais plusieurs que nous utilisons. Nous sommes comme une machine multi-agents, une par exemple focalisée sur la hauteur des sons, une autre sur les intervalles, une autre sur les rythmes pulsés. Toutes ces machines ont des pondérations différentes selon les gens et selon la musique. Si nous humains pouvons avoir une écoute quasi-parfaite, ce n’est pas le résultat d’une machine parfaite mais parce que notre cerveau sait analyser les résultat de plusieurs machines faillibles. C’est techniquement passionnant. Vous avez plusieurs machines probabilistes en compétition permanente, en train d’essayer d’anticiper l’avenir, participant à un système hautement dynamique d’apprentissage en ligne adaptatif. C’est grâce à cela qu’Antescofo marche si bien. Antescofo sait écouter et grâce à cela, réagir correctement. Réagir, c’est presque le coté facile.

Des sentiments des machines

B : Il y a des musiques tristes ou sentimentales. Un musicien sait exprimer des sentiments. Peut-on espérer faire rentrer des sentiments dans la façon de jouer de l’ordinateur ?
AC : C’est un vieux rêve. Mais comment quantifier, qualifier, et contrôler cet effet magique qu’on appelle sentiment ? Il y a un concours international, une sorte de test de Turing des sentiments musicaux, pour qu’à terme les machines gagnent le concours Chopin. Beaucoup de gens travaillent sur l’émotion en musique. Là encore, on peut essayer de s’appuyer sur l’apprentissage automatique. Un peu comme un humain apprend pendant des répétitions, on essaie de faire que l’ordinateur puisse apprendre en écoutant jouer. En termes techniques, c’est de l’apprentissage supervisé et offline. Antescofo apprend sur scène, et à chaque instant il est en train de s’ajuster et de réapprendre.

La composition de musique mixte ©Arshia Cont
La composition de musique mixte ©Arshia Cont

B : Y a-t-il d’autres questions que tu aurais aimé que nous te posions ?
AC : Il y a une dimension collective chez l’homme qui me passionne. Cent cinquante musiciens qui jouent ensemble et produisent un résultat harmonieux, c’est magique ! C’est une jouissance incroyable. Peut-on arriver à de telles orchestrations, de tels niveaux de collaboration, avec l’informatique ? C’est un vrai challenge.
Autre question, la musique est porteuse de beaucoup d’éléments humains et touche aussi à notre vie privée. Aujourd’hui tout le monde consomme de la musique – comment peut-on rendre cela plus disponible à tous via l’informatique ? Récemment on a commencé à travailler sur des mini ordinateurs à 50 euros. Comment rendre le karaoké disponible pour tout le monde ? Comment faire pour que tous puissent faire de la musique même sans formation musicale ? Peut-être que cela donnerait aux gens un désir de développement personnel – quand un gamin peut jouer avec l’orchestre de Paris, c’est une perspective grisante, et l’informatique peut rendre ces trésors accessibles.

La passion de la musique et de l’informatique

B : Pour conclure, tu peux nous dire pourquoi tu as choisi ce métier ?
AC : Je suis passionné de création musicale depuis l’adolescence, mais j’étais aussi bon en science, alors je me posais la question : musique ou science ? Avec ce métier, je n’ai pas eu à choisir : je fais les deux. Je ne pourrais pas être plus heureux. C’est un premier message aux jeunes : si vous avez une passion, ne la laissez pas tomber. Pour ce qui est de l’informatique, je l’ai découverte par hasard. Pendant mes études j’ai fait des mathématiques, du traitement du signal. Après ma thèse, en explorant la notion de langage, je me suis rendu compte qu’il me manquait des connaissances fondamentales en informatique. L’informatique, c’est tout un monde, c’est une science fantastique. C’est aujourd’hui au cœur de ma recherche. Mon second message serait, quelle que soit votre passion, à tout hasard, étudiez aussi l’informatique…

Arshia Cont, Ircam
Directeur de recherche dans une équipe Inria/CNRS/Ircam
Directeur du département Recherche/Créativité des Interfaces

En découvrir plus avec deux articles d’Interstices sur ce sujet :

https://interstices.info/interaction-musicale
https://interstices.info/antescofo

Séances de travail Antescofo ©inria
Séances de travail d’Antescofo ©inria

Le renseignement numérique pour les nuls

Le projet de loi relatif au renseignement, ou Loi Renseignement, est un projet de loi français dont une première version a été publiée officiellement le 19 mars 2015. Visant à renforcer le renseignement en France, il prévoit la mise en place de plusieurs mesures controversées, telles que la présence de boîtes noires chez les opérateurs de télécommunications, visant à détecter les comportements suspects à partir des métadonnées, sur la base d’un algorithme propriétaire ; mais aussi des dispositions sur l’utilisation de mécanismes d’écoute, logiciels espions ou encore IMSI-catchers(*).

On ne parle pas assez de ce projet de loi. Ses enjeux sont finalement moins techniques que véritablement politiques :

  • Que deviennent les libertés quand l’état peut surveiller massivement ses citoyens ?
  • Que deviendraient-elles si un parti totalitaire gagnait les élections dans cinq ans, dans dix, dans vingt ?
  •  Comment évoluerait le comportement du citoyen s’il se savait observé en permanence ?

D’autres en ont expliqué les dérives comme Tristan Nitot ou La quadrature du Net. Tout ce que nous pouvons faire c’est expliquer quelques aspects techniques pour que tout le monde puisse comprendre un peu mieux de quoi on parle, enfin ce que nous en comprenons car les textes sont très flous.

Rappelons ce qui se passait avant. Un juge ordonnait à un fournisseur de service Internet de lui donner des données d’une personne précise – une personne suspectée d’un délit précis. Donc il s’agissait de vérifier des faits.

Maintenant, il s’agit de surveiller massivement toute la population pour découvrir des suspects, qui seront ensuite surveillés individuellement de manière plus spécifique. L’idée est que comme tout le monde, y compris les gens louches, utilise des Fournisseurs de Services Internet (FSI), les serveurs de ces derniers contiennent sans doute des informations qui intéressent la justice.
Osons une analogie : les gens louches écrivaient des lettres au 20e siècle ; on aurait dû demander à la poste d’envoyer aux services de renseignement des copies de toutes les lettres. Mais, on n’aurait jamais pu alors « traiter » toute la masse de ces lettres. Aujourd’hui grâce aux ordinateurs et au « Big data » on peut le faire ! Est-ce qu’on veut le faire ?

L’article 851-4 du Code de la sécurité intérieure dans le projet de loi : … le Premier ministre peut ordonner aux opérateurs de communications électroniques et aux fournisseurs de services de détecter, par un traitement automatique, une succession suspecte de données de connexion, dont l’anonymat ne sera levé qu’en cas de révélation d’une menace terroriste…

L’exemple donné est de pouvoir repérer les internautes qui se connectent pour voir une vidéo de décapitation, et de pouvoir surveiller ces terroristes potentiels (qu’il faudra séparer du curieux en quête de sensations fortes). Vous avez la liberté de consulter les sites que vous voulez et ils ont le droit de surveiller ce que vous regardez ?

FullSizeRenderLe principe est donc celui de la surveillance de masse. A priori, tout le monde est suspect. On cherche à extraire de la population des personnes ayant des comportements louches, par exemple un terroriste qui serait assez naïf pour commander ses kalachnikovs à un vendeur patenté, ou un individu qui consulterait depuis son ordinateur personnel des agences de voyage pédophiles sans passer par un proxy anonymiseur (un service permettant de naviguer sur le web anonymement). Vous allez me dire que ceux-là, on les aurait déjà captés par la surveillance classique d’individus suspects. Certes.

Mais la beauté de l’analyse de données, c’est qu’on découvrira aussi de nouveaux suspects, juste avec des techniques d’apprentissage automatique (machine learning) super pointues. Les résultats des maitres américains en la matière sont (suivant la rumeur) pour le moins décevants. Tant pis, on y croit !

boite-noire-rayclidComment cela se fera en pratique ? Une personne « habilitée » (l’exécutif sous vague contrôle d’un juge et d’une commission), pour répondre à des besoins de renseignements comme la lutte contre le terrorisme ou suivant d’autres critères assez vagues, pourra demander l’installation

d’une boite noire qui filtre les flux
d’informations du FSI
.

D’un point de vue technique, tout est dans la petite boite noire représentée dans la figure.

Numerique et renseignement

Expliquons ces termes :

Une « boite noire qui filtre les données » c’est un logiciel à priori secret qui examine ce qui passe sur la connexion Internet et en sélectionne une partie qu’il envoie au serveur des renseignements.

Le flux d’information : on regarde les données qui passent plutôt que les données des serveurs du FSI.

Le serveur peut même être situé en Papouasie, si vous êtes en France, votre message va passer par un serveur en France et traverser une boite noire.

Le filtre dans la boite noire doit sélectionner un maximum de données sinon il y a toutes les chances qu’il rate des données intéressantes – puisque rappelons-le on ne peut savoir ce qui est intéressant ou pas. À priori, on ne peut savoir si vous avez un comportement suspect, donc on vous surveillera aussi.

Le serveur du service de renseignement fera des analyses statistiques sur les données (on dit Big data pour faire branché). Là on vous parle d’algorithmes. Vous ne savez pas ce que feront ces algorithmes. Normal, personne ne sait. Ils feront des tas de calculs sur des montagnes de données pour extraire des connaissances intéressant les services de renseignement. Votre nom, l’emplacement de votre domicile, les personnes avec qui vous correspondez, les films que vous regardez, la musique que vous écoutez… Vous serez qualifié par des tonnes de variables, qui feront dire aux algorithmes si vous êtes suspects ou pas. Nous ne pouvons vous garantir que vous ne vous retrouverez pas suspect juste par le mauvais hasard des statistiques. Mais supposons même que les algorithmes décident que vous êtes un bon citoyen. Des tas de vos informations les plus personnelles se retrouveront sur les serveurs des services de renseignement. Vous me promettez qu’elles ne seront jamais utilisées ?

Petites consolations ?

  • On ne récupère que les métadonnées. Prenons un exemple : un courriel. Les méta-données indiquent l’expéditeur, le destinataire, la date, le sujet du courriel. Les contenus ne font techniquement pas partie des méta-données. Cela sera bien sûr compliqué de vérifier systématiquement que la boite noire ne les examine pas. Et puis à partir de ça, on peut déjà apprendre tant de choses sur vous…
  • Les données de masses récoltées sont anonymes ? Au secours, l’adresse IP de votre téléphone ou votre adresse mail vous identifient. On pourrait les cacher. Ce n’est pas dit. Mais même si les trucs les plus évidents sont cachés, c’est techniquement très compliqué d’anonymiser vraiment des données. Des algorithmes assez simples peuvent permettre de retrouver les identités. Donc les données n’ont rien de vraiment anonyme !

Sans être parano, nous sommes hyper inquiets. Nous pensons qu’une telle surveillance de masse serait liberticide. Nous ne pouvons nous empêcher de penser qu’elle serait une victoire pour ces malades qui attaquent notre démocratie.

Maintenant vous ne pourrez plus dire que vous ne compreniez pas.

Serge Abiteboul, Directeur de recherche INRIA, Professeur ENS Cachan, avec le soutien de tous les éditeurs de Binaire, Colin de la Higuera, Marie-Agnès Enard, Pierre Paradinas, Sylvie Boldo, Thierry Viéville.

 

(*) IMSI-catchers : c’est un matériel qui permet d’espionner les communications des téléphones mobiles en se faisant passer pour un relai de téléphone mobile.

 

Une complète incomplétude

Kurt Gödel. Il démontre que n’importe quel système logique suffisamment puissant (par exemple pour décrire l’arithmétique) a forcément des propositions qui ne peuvent être ni infirmées, ni confirmées: elles sont indécidables. Ce résultat fut une surprise pour les mathématiciens de l’époque et reste un choc pour qui croit à l’absence de limite en science.

J’ai expliqué l’informatique à ma famille, mon médecin, à mes voisins de train ou d’avion, à des collégiens, des lycéens… J’ai raconté des algorithmes, des histoires, des mots. Pourtant, il y a des concepts que je n’ai jamais osé tenter d’expliquer à des non-informaticiens. Parce que je pensais avoir besoin de trop de pré-requis, parce que c’est trop technique, parce que je ne pensais pas que c’était raisonnablement faisable en un billet de blog.

Eh bien parfois j’ai tort et ça me fait plaisir. Chapeau donc à mon estimé collègue David Monniaux qui tient le blog La vie est mal configurée. Il a écrit un billet

Le théorème de Gödel pour les nuls

où il explique rien moins que les théorèmes d’incomplétude de Gödel, et ce qu’ils ne veulent pas dire (Bogdanov inside). Un peu long, mais logiquement instructif.

Sylvie Boldo

Comment les chercheurs en informatique partagent leur culture scientifique

Fête de la Science 2014 Inria Grenoble - Rhône-AlpesLes annonces de « grands plans éducatifs au numérique » où les enfants apprendront le « code » (c’est à dire le codage numérique de l’information, comment construire un algorithme et le programmer) se multiplient. Et l’on ne peut que se réjouir que tous nos enfants aient enfin la chance de s’approprier les éléments essentiels pour comprendre et surtout façonner la société dans laquelle ils sont appelés à vivre.  Si notre système éducatif a mis du temps à prendre conscience du besoin de transmettre une réelle connaissance de la science informatique et non seulement de ses usages, d’autres n’ont pas tant attendu. Une des nombreuse facettes des métiers de la recherche est de partager l’information scientifique avec chacune et chacun, pour faire de nous et de nos enfants des citoyen-ne-s  éclairé-e-s sur ces sujets. Depuis des années déjà, les chercheurs en informatique se sont emparés de ces questions et sont à l’origine de nombreuses initiatives qui visent à mettre à portée de tous, de manière souvent originale et ludique, des éléments de science informatique. Il ne s’agit pas ici d’enseigner mais bien de susciter la réflexion, de semer des grains de science qui pourront ensuite germer, par exemple à l’occasion de formations ou d’échanges plus approfondis.

photo-binpacking-installation
Activités débranchées: pour comprendre ce qui se passe dans un ordinateur, on joue avec des objets du quotidien qui en reproduisent certains mécanismes.

Pour témoigner de ce travail, ou plutôt de cette passion au quotidien, la Société Informatique de France, sort un numéro spécial de son bulletin 1024 sur la médiation scientifique en science informatique.  Pourquoi et comment partager une culture scientifique en science informatique ? Comment parler d’informatique à chacune et chacun ? Concrètement comment aller de l’avant au niveau de cette médiation scientifique ?

inirobot2
Activités InriRobot, des chercheurs en informatique et didactique proposent des activités d’initiation dès le primaire.

Témoignages d’actions concrètes pour découvrir quelques unes de ces activités, mettre en valeur des partenariats forts avec le monde associatif, et tenter d’évaluer l’impact de ce service public.
Parole donnée aux institutions pour réaffirmer l’importance de la mission de médiation dans les métiers de la recherche. Mise en perspective de ces actions pour que la communauté scientifique regarde vers l’avenir sur ces sujets. Voici ce que ce numéro spécial de la revue 1024 nous offre en partage.

Cliquer sur ce lien pour accéder à la revue en ligne.

Il est urgent de ne plus attendre, en ce qui concerne l’enseignement de l’informatique en France. Les actions de médiation scientifiques, si elles peuvent être un tremplin, ne doivent pas être perçues comme une rustine pour pallier  l’absence d’enseignement,  seule voie pour assurer un accès réellement démocratique à la culture informatique.  Pour autant, relever ce défi de l’éducation est aujourd’hui à portée de main. De la formation des enseignants et des animateurs péris-scolaires à la production de ressources, la communauté scientifique est déjà en marche pour contribuer à cette grande cause nationale.

Sylvie Alayrangues, Enseignante- Chercheure, Vice-présidente médiation de la Société Informatique de France.
Thierry Viéville, Chercheur Inria en membre de la SIF, Chargé de mission médiation scientifique Inria.

Hacking en noir ou blanc

À binaire, nous aimons proposer des critiques des films qui parlent d’informatique. Pour Hacker,  nous avons demandé à François Bancilhon (i) parce que c’est un super informaticien, (ii) parce que c’est un critique de film dont nous sommes nombreux à suivre les avis sur twitter (et surtout ceux plus sûrs de son épouse Chantal), (iii) parce que nous apprécions son sens critique en informatique aussi, (iv) parce qu’il a une belle plume, et (v) parce que c’est un copain. OK, ça va faire overkill… D’ailleurs, François est loin d’être parfait. Je lui demande depuis des mois un article sur les données ouvertes – c’est le grand spécialiste français – et nous attendons encore. Serge Abiteboul

Blackhat poster, Wikipedia
Blackhat poster, Wikipedia

Je vais assez souvent au cinéma, en moyenne 2 à 4 fois par semaine. Après chaque séance, je tweete une critique en 140 caractères. L’exercice de concision est intéressant (sachant que j’essaie en général de modérer ma critique par l’opinion de ma femme et que “ma femme a dormi” prend 16 précieux caractères et “ma femme a aimé” en prend autant). Donc je suppose que c’est ce flot de tweets qui m’a valu la demande de Serge Abiteboul de faire ce post de blog. Je suis donc allé voir le film. J’ai mis un peu de temps car il est peu distribué par le réseau Pathé Gaumont auquel je suis abonné. Je n’y serai pas allé normalement, après lecture des critiques (je triangule à partir de 3 sources classiques).

Le titre américain de “Blackhat” a été traduit par “Hacker”. Les traductions de titres de film restent un sujet de fascination pour moi. Le meilleur de l’année étant le film norvégien dont le titre original était “Force majeure” (en norvégien) et qui a été traduit en Français par “Snow therapy”. Mais revenons à nos moutons (noirs) : blackhat fait référence au méchant black hat hacker qui pénètre dans un système informatique avec des intentions malveillantes, par opposition au white hat hacker qui le fait pour des raisons respectables (par exemple pour tester un système). Cette séparation entre les blancs et les noirs, les gentils et les méchants, sied bien sûr parfaitement à Hollywood qui a une vision binaire du monde (allusion limpide au blog pour lequel j’écris). J’analyse la traduction de blackhat par hacker par le fait que le distributeur pense que le public français ne peut pas comprendre les termes techniques et sophistiqués et doit se contenter de hacker.

Michael Mann a réalisé plusieurs films de grande qualité : Heat, The last of the Mohicans, Collateral, the insider, tous intelligents et bien mis en scène. Globalement, le film est plutôt mauvais, ce qui est donc une déception, mais mais il n’est pas inintéressant à commenter.

Le scénario est sans grand intérêt : en Chine, un hacker (méchant) pénètre dans le logiciel d’une centrale nucléaire et fait exploser le réacteur. Le responsable chinois chargé de l’enquête reconnait le logiciel qu’il a co-écrit avec un hacker (gentil) quand il était au MIT avec lui. Lequel gentil hacker est en prison pour diverses bêtises. Les Chinois convainquent alors les Américains de faire libérer le gentil hacker et le responsable Chinois et son ancien copain partent en chasse pour trouver et mettre hors d’état de nuire le hacker méchant avant qu’il ne commette son prochain méfait.

Le film est directement positionné dans la mondialisation. Deux puissances dominent le monde : les États Unis d’Amérique et la Chine, les autres pays ne comptent pas, ni Europe, ni Russie n’apparaissent. Quelques autres pays apparaissent (Jakarta), mais plutôt au titre d’attraction touristique servant de décor exotique au tribulations de nos héros. USA et Chine sont concurrents et ennemis, mais quand une menace supérieure comme un black hat hacker se manifeste, ils sont assez intelligents pour collaborer, même si de chaque côté les gens raisonnables doivent batailler contre des sectaires (donc contre la NSA du côté américain).

Un des avantages de la mondialisation est qu’elle permet d’offrir un casting politiquement correct sur le plan ethnique : blanc, black et asiatique (il y a même un Chrétien Libanais, qui est vraiment très méchant). Sur le plan des acteurs, rien à signaler : Chris Hemsworth livre une prestation d’acteur qui confirme qu’il devrait continuer à focaliser sa carrière sur les personnages de super héros et éviter les autres.

Sur le plan de la parité des sexes, le résultat est plus mitigé. Le test de Bechdel a été conçu pour noter le traitement des deux sexes dans les films. Il pose 3 questions :

  1. Y a-t-il deux femmes au moins dans le film, identifiées par leur nom ?
  2. Y a-t-il une scène où elles parlent entre elles ?
  3. Dans cette scène, parlent elles d’autre chose que d’un homme ?

Le film est noté 1/3 : il y a deux femmes identifiées (et seulement deux), mais ça s’arrête là.

La partie la plus intéressante est bien sûr le traitement du hacking donc des pénétrations (blanches et noires) dans les système informatique. Ce traitement cinématographique m’a rappelé les difficultés qu’avaient les chercheurs en système d’exploitation à faire des démos un tant soit peu intéressantes et spectaculaires. C’est dur de visualiser le parcours des octets dans un système et ce n’est pas très folichon. Les ordinateurs sont devenus de plus en plus immobiles, donc durs à filmer. Jusqu’aux années 80 on pouvait encore vaguement faire s’agiter des bandes magnétiques, mais maintenant, plus rien, à peine une lumière qui clignote. Dans l’introduction du film on assiste au parcours d’un réseau informatique, la représentation graphique en 3D est plutôt esthétiquement réussie (bien que j’avoue ne pas savoir exactement comment est fait l’intérieur d’un routeur). Ensuite dans le film un peu de discours technique (mais très modéré) émaille les dialogues : on parle de “memory dump”, de “remote call”, mais le tout de façon assez peu convaincante. On en arrive enfin à “black widow” un programme de la NSA qui peut reconstituer une image mémoire à moitié effacée grâce à un “super computer” : une histoire réaliste d’après certain…

Cinématographiquement, le film a une écriture très typée : gros plans floutés ou pas sur des détails, caméra saccadée à l’épaule, cadrage avec des angles particuliers (par dessous ou par dessus), plans courts. Le tout soutenu par une bande son très intense soulignant à chaque instant l’action : attention il se passe quelque chose d’important ici. L’effet global est plutôt réussi.

On appréciera enfin l’absence de course poursuite ou d’explosion spectaculaire (hors le nécessaire traitement de la centrale nucléaire).

Je termine par la version twitter de cette chronique :

Vu “Blackhat” (hacker en Français), film d’action relativement efficace et sans grand intérêt. Michael Mann a fait mieux. (Ma femme n’était pas avec moi)

François Bancilhon, PDG de Data Publica
twitter.com/fbancilhon