Dominik, collégien et citoyen

Journée Concertation Nationale à Nantes. J’anime un atelier sur l’éducation au numérique – vaste chantier. Dans les participants, Dominik Abbas, en 4ème au collège Saint Stanislas de Nantes.
Des hobbies ? Astronautique, Sciences, Littérature, Citoyenneté.
Un jeune très sympa qui m’impressionne par sa compréhension du sujet traité. J’ai rencontré des décideurs avec plein de diplômes qui devraient l’écouter. Alors je lui ai proposé de prendre la parole dans Binaire. L’informatique à l’école par un des élèves qui la vit. Serge Abiteboul.
PS : je précise que le texte est intégralement de lui.

BLS Maisoncelles du Maine du 20 au 26 juillet 2014, 25 juillet (11)Dominik Abbas, © Dominik Abbas

Ce matin là, comme tous les lundis,  il est un peu plus de 8 heures lorsque je franchis le portail du collège. Ce matin là,  débat sur les programmes scolaires.  En général, les élèves aiment bien se disputer, mais il y a une question qui a toujours la même réponse : « Dans quel domaine l’école a-t-elle le plus de retard ? ». La réponse est donnée en chœur : « L’informatique!  »

Pour s’en rendre compte,  il ne faut pas aller bien loin, il suffit d’ouvrir les yeux durant un cours de Géographie réalisé dans LA salle informatique,  celle où l’imprimante ne marche pas,  celle où il y a Internet tant qu’il n’y a pas plus de deux ordis allumés. Quand ceux-ci veulent bien s’allumer. Très vite les questions fusent :

  • Où c’est qu’on allume Google ?
  • Pourquoi ma session ne marche plus ?
  • Etc…

Alors, comment en est-on arrivé là ? En effet, on ne prend pas dix ans de retard du jour au lendemain.

Voici comment je l’ai vécu. En CE1, on possédait au fond de la classe un seul ordinateur, une véritable antiquité,  et ce fut comme ça jusqu’en CM2. Et c’est encore comme ça dans bien des écoles.  Les rares professeurs qui n’étaient pas découragés par le matériel devaient se débrouiller tant bien que mal afin d’élaborer des activités dignes de ce nom.
Aujourd’hui encore,  dans mon collège, le matériel manque,  la couverture wifi est inexistante, etc…

Le problème vient de tout un tas de choses. À commencer par les fournitures en matériel informatique, qui relèvent trop souvent du gadget. Pourquoi investir dans des tableaux blanc interactifs dernier cri alors que la plupart des salles de cours n’ont même pas de vidéo-projecteur ? Comme bien souvent, pas de réponse.

Vient ensuite la formation de nos chers professeurs. Comment se fait-il qu’une grande partie d’entre eux ne sait même pas utiliser correctement un traitement de texte ? Encore une fois, pas de réponse.

La liste, on pourrait la continuer encore longtemps, mais je vais l’écourter ici. Mais la vraie origine de tout cela, vient tout simplement du fait qu’il y a quelques années,  le ministère de l’éducation nationale n’a pas su prendre le tournant du numérique et de l’informatique.

Il n’est cependant, à mon avis,  pas encore trop tard. Ce retard, on peut le rattraper, et on le rattrapera grâce à l’action du gouvernement, mais aussi des citoyens. Un exemple simple est la concertation citoyenne qui s’est close à Nantes il y a quelques semaines. À l’initiative du conseil national du numérique, des citoyens se sont rencontrés et ont débattus sur les changements qu’il est temps de faire. Il en résultera une synthèse qui sera remise très bientôt au gouvernement. Mais je pourrais  également citer le rapport Jules Ferry 3.0, qui a dressé un tour d’horizon du numérique à l’école et qui a proposé des solutions aux problèmes.

Oui, j’en suis persuadé,  le retard sera comblé, même si ce ne sera pas tout de suite, …

Dominik Abbas, @DominikAbbas collégien

Neutralité du réseau : Et si on faisait comme les ricains ?

Merci Obama ! 
On s’attend à ce que La Federal Communications Commission aux États-Unis d’Amérique reconnaisse jeudi les services Internet comme un bien public. C’est un changement majeur pour qu’Internet reste un espace de liberté et pas une jungle trustée par quelques uns. Yes!

Pour en savoir plus :

Et, en complément, grâce à l’Isoloir nous apprenons que :

« La Neutralité de l’Internet est tout simplement le principe de non-discrimination des utilisateurs : un utilisateur, quel qu’il soit – grand média ou petit blog, célébrité ou anonyme -, doit pouvoir accéder et diffuser de la même manière les informations. C’est cette extrême égalité qui a permis que se développent les services ultra-innovants sur Internet.  Cela signifie concrètement plusieurs choses :

  • D’abord, acheminer les données sans en examiner le contenu, sans en altérer le contenu, et sans tenir compte de la source, de la cible et de la façon dont on communique (on parle du protocole de communication). C’est la neutralité au niveau des « tuyaux » de l’information.
  • Mais il faut aussi garantir la visibilité de l’information (c’est-à-dire garantir qu’elle ne sera pas « noyée » dans une masse d’informations davantage mises en valeur.

C’est pourquoi, au sujet de la neutralité d’Internet, le CNNum (Conseil National du Numérique) recommande que : « la neutralité des réseaux de communication, des infrastructures et des services d’accès et de communication ouverts au public par voie électronique garantisse l’accès à l’information et aux moyens d’expression à des conditions non-discriminatoires, équitables et transparentes ».

Serge Abiteboul, Thierry Vieville

 

Dans la série The Code !

Après la série américaine Alt and Catch Fire dont nous avions parlé en juin 2014, c’est au tour de l’Australie de nous proposer une mini-série appelée The Code, diffusée sur Arte depuis le 19 février (depuis octobre 2014 en Australie). Un nom évocateur pour la bande d’informaticiens (mais pas que) du comité éditorial de binaire. Il n’en fallait pas plus pour attiser à nouveau la curiosité de Maé sur le sujet !

Source Wikipedia
Source Wikipedia

Un samedi froid et pluvieux, l’idéal pour découvrir une mini-série tournée en Australie qui risque fort d’intéresser mes amis de binaire si j’en crois le pitch :  « Deux frères, l’un journaliste web et l’autre hacker, tentent de déjouer un vaste complot lié aux biotechnologies. »

Épisode 1, je ne suis pas sûre de bien comprendre où l’on veut m’emmener ! Le code en question se résume à une séance rapide de piratage de site. La mise en place de l’intrigue et des personnages me surprennent. Mais, après tout, j’adore être surprise donc je poursuis avec l’épisode 2. L’essentiel est enfin posé, on va parler corruption, cybercriminalité, journalisme d’investigation, le tout dans un décor assez fabuleux entre désert australien et bureaux feutrés. Même si les raccourcis pour installer les thèmes sont un peu trop visibles, le rythme est soutenu et l’on accroche assez vite à ce thriller politique et numérique. Mis à part le cliché de la directrice de la com blonde, sexy et manipulatrice avec la presse (si, si !), le casting est excellent (je retrouve avec plaisir Aden Young, tout simplement fabuleux dans Rectify).

Cette série a quand même reçu le Prix du Meilleur scénario au Festival International des Programmes Audiovisuels 2015 (FIPA) !

Source Arte
Source Arte

Si l’on se place côté binaire, la représentation du hacker est encore une fois assortie des clichés habituels. J’en énumère quelques uns, mais si vous en voyez d’autres, n’hésitez pas à les dénoncer dans les commentaires :

  • Non, le vrai hacker ne passe pas son temps à pirater des sites.
  • Non, on ne s’introduit pas en moins d’une minute sur n’importe quel site et cela en tapant deux lignes de code à deux doigts ! (Ou à 10 d’ailleurs, enfin je crois).
  • Mais pourquoi faut-il absolument que les touches du clavier fassent un bruit terrible ? Le code ça doit s’entendre ?
  • Non, le hacker n’est pas forcément « mauvais ». (Ses compétences peuvent même être  précieuses pour notre société. Ici c’est plutôt en la faveur de la série de montrer que les secrets d’états ne sont finalement pas si bien gardés… L’actualité ne nous contredira pas.)
  • Le hacker n’est pas forcément malheureux, voire désespéré… (Même s’il peut l’être – une pensée pour Aaron Swartz.)

Il ne me reste plus qu’à attendre la suite des épisodes parce que j’ai vraiment accroché. Et puis j’aime quand même bien sourire au bruit des touches du clavier.

Les images sur les as du code, l’informatique, le numérique envahissent nos écrans. On ne peut que s’en féliciter car cela peut avoir un réel impact pour démontrer (et cela est encore nécessaire) combien l’apprentissage de l’informatique pour les générations à venir est importante. Mais essayez quand même de discerner la fiction de la réalité !

Marie-Agnès Enard

PS : Pour rentrer plus en détail sur les rouages de cette série, je vous invite à lire l’article très complet de Pierre Langrais  « La série The Code montre deux visages opposés de l’Australie » sur Télérama.

Une « arithmétique » des données ouvertes

Binaire demande depuis ses débuts à des amis des articles sur un sujet qui nous tient à cœur, les données ouvertes. Notre patience a été récompensée. Arnaud Sahuguet, directeur de la technologie au GovLab à New York, l’a coécrit avec David Sangokoya.  La version intégrale de cet article est disponible en français et en anglais (v.o.). La majorité des exemples qu’ils prennent, proviennent des États-Unis. Nous vous invitons à en suggérer d’autres, français ou pas,  en utilisant les commentaires. Serge Abiteboul.

1*6mvYdLl8MmyOn8x_Vj5RxwPhoto by Andrés Monroy-Hernández/Flickr

Les données ouvertes

La valeur ajoutée, l’impact et les promesses de la mise en ligne des données ont conduit les citoyens, les services publics et les entreprises à adopter le principe de données ouvertes comme une façon d’améliorer l’efficacité, de promouvoir la transparence et de maximiser l’utilité.

Une donnée ouverte est une donnée numérique d’origine publique ou privée. Elle peut être notamment produite par une collectivité, un service public (éventuellement délégué) ou une entreprise. Elle est diffusée de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. [source Wikipedia]

Le cabinet de conseil McKinsey estime à 3 milliards de Dollars (2.6 milliards d’Euros) la valeur ajoutée due aux données ouvertes. Des études comme OD 500 par le GovLab suggèrent que cet impact touche des secteurs comme l’énergie, les produits de consommation, le médical, etc. Plus de 40 pays ont déjà partagé plus d’un million d’ensembles de données.

Même si l’engouement pour les données ouvertes a donné lieu à de nombreux engagements et un enthousiasme grandissant, les fournisseurs de données manquent toujours d’un langage en commun pour peser le pour et le contre au moment d’ouvrir leurs données.

L’administration publique ou les villes ouvrent souvent leurs données du fait de pressions hiérarchiques dans le but de se faire les champions de l’efficacité, de répondre à la demande des citoyens ou d’augmenter la transparence. Mais ceci se fait la plupart du temps en mesurant la quantité de données ouvertes plus que l’impact réel de ces dernières. Bien souvent, les coûts associés à cette ouverture sont ignorés, et les opportunités de valoriser les connaissances locales ou les expertises extérieures sont manquées.

Les entreprises pour le moment ont une attitude attentiste. Même si certaines ont commencé à partager leurs propres données à des fins de R&D ou d’élaboration de politiques publiques, la plupart construisent leur modèle d’affaire en s’appuyant sur des données ouvertes exclusivement publiques. Étant donné que les données sont perçues comme un actif clé, les entreprises se demandent avec prudence pourquoi prendre un tel risque économique et se lancer dans un processus sans encadrement juridique ni réglementaire bien établi.

Les citoyens sont désireux de partager leurs données. Cependant, trop souvent ils ne sont plus les véritables propriétaires de leurs propres données, celles-ci étant gérées en leur nom par des entreprises technologiques et de média. Et quand bien même ils le seraient, la crainte d’une surveillance étatique et les pratiques marketing du secteur privé les dissuadent de rendre leurs données publiquement disponibles.

Réussites et débâcles

Il y a de nombreuses réussites et de nombreux exemples pour les données ouvertes. Les informations de transit (par exemples mises en ligne via le standard GTFS créé par Google) permettent à des millions de gens de gagner du temps tous les jours. Les données GPS sont au cœur des applications mobiles. Les informations météo sont utilisées par des entreprises de prévisions ou des compagnies assurances. La nature ouverte des données sur le génome (Human Genome Project) a favorisé le passage à l’échelle de la collaboration pour le décodage du génome et la création d’un écosystème d’innovation entre le monde académique et celui de la recherche privée.

Quelques débâcles sont à noter, en particulier la publication en 2006 des logs du moteur de recherche d’AOL à des fins de recherche académique. Les données mises en ligne contenaient des informations personnellement identifiables sur les utilisateurs du service. Ces données permettaient d’identifier les utilisateurs et révéler la nature de leurs recherches. Plus récemment, des données imparfaitement anonymisées du service des taxis de la ville de New York ont permis de révéler (a) l’identité des chauffeurs, (b) les itinéraires de vedettes du show-business et même (c) l’orientation religieuse de certains chauffeurs.

Dans tous ces exemples, voici plusieurs questions pour lesquelles il est difficile de fournir une réponse satisfaisante :

  • pourquoi les parties prenantes ont-elles choisi d’ouvrir (ou de ne pas ouvrir) leurs données ?
  • quelles incitations auraient pu être mises en place afin d’encourager (ou décourager) l’ouverture des données ?
  • parmi les différents leviers à disposition, lequel est le plus pertinent pour le fournisseur de données ?

Une arithmétique des données ouvertes

En nous inspirant de “A theory of the calculus of voting”, nous présentons une modeste tentative de formalisation d’un calcul (ou une arithmétique) pour les données ouvertes qui puisse aider les fournisseurs de données dans leur prise de décision. Notre arithmétique se base sur une simple équation :

P × B + D > C

  • P est la probabilité que l’ouverture des données ait un effet positif,
  • B est le bénéfice individuel de l’ouverture des données,
  • D est l’impact global dans l’écosystème, et
  • C est le coût.

Une augmentation de P, B ou D et une diminution de C rendront l’ouverture des données plus bénéfique. Nous allons maintenant revisiter les variables une par une et identifier les facteurs qui peuvent les influencer.

P pour probabilité

La probabilité P représente la probabilité que l’ouverture des données génère une valeur ajoutée pour le propriétaire des données. Les facteurs qui peuvent faire augmenter P incluent :

  • la présence de standards pour publier les données.
  • une culture axée sur les données dans les secteurs publics et privés, soutenue par une filière universitaire riche.
  • un écosystème de consommation des données comprenant des hackers/développeurs pour construire des applications, des intermédiaires de données, des boutiques de data science.
  • des incitations pour les consommateurs pour utiliser ces données, par exemple récompenses et compétitions ou des financements de recherche.

Les facteurs qui peuvent faire diminuer P incluent :

  • l’absence ou le manque de flexibilité des cadres juridiques, par exemple cadres rigides ou non-existants autour des données.
  • le manque de confiance entre les différents acteurs.

B pour bénéfices

Les bénéfices potentiels B pour les acteurs qui ouvrent leurs données englobent les améliorations liées aux données une fois qu’elles ont été mises en ligne :

  • plus de précision et moins d’erreur dans les données du fait que le public peut scruter celles-ci.
  • moins de lacune dans les données en terme de couverture et de granularité du fait de possibles contributions externes.
  • une plus grande inter-opérabilité une fois que les données sont sorties de leur silos.
  • une durabilité dans les données une fois mises en ligne.
  • une meilleure définition des priorités en terme de mise en ligne des données et l’identification des jeux de données prioritaires
  • une meilleure collecte des données par d’autres partenaires publics, ce qui diminue la duplication des efforts et le gaspillage.

Des découvertes dans ces données pourront créer de la valeur dans les domaines politiques, sociaux et économiques tels que :

  • le développement de nouveaux produits et services,
  • la génération de nouvelles idées dans le secteur public,
  • la création de nouveaux secteurs à forte valeur ajoutée,
  • la créations de nouveaux jeux de données en re-combinant des données existantes,
  • une plus grande visibilité et publicité pour le fournisseur de données, et
  • l’amélioration de services publics

Cette catégorie d’avantages varie en fonction du type de secteur. En outre, l’ouverture des données peut créer des opportunités de monétisation. Une ville peut par exemple choisir de vendre aujourd’hui un flux de données temps-réel (à un hedge fund ou un courtier d’assurance) et en même temps mettre ces mêmes données en ligne accessibles gratuitement pour le public avec un délai à la fin de la semaine.

D pour devoir

Le devoir D représente le devoir civique dans l’article dont nous nous inspirons. Mais pour nous ici il se traduit plus en terme d’impact global ou d’impact au sein de l’écosystème, c’est-à-dire l’impact positif de l’ouverture des données pour les autres acteurs. Pour le secteur public, il s’agit de la valeur ajoutée des données en terme de gouvernance (transparence, responsabilité, collaboration, participation), d’amélioration de la qualité de vie des citoyens, de meilleure interaction entre les agences, d’accès équitable aux données et de développement économique. Pour le secteur privé, il s’agit sans doute plus de responsabilité sociale d’entreprise. Pour les individus, il s’agit de responsabilité sociale et de comportement prosocial.

C pour coût

Le coût C est influencé par les facteurs suivants :

  • le coût d’ouverture des données elles-mêmes. Ces coûts comprennent le coût d’extraire les données des silos dont elles sont prisonnières et le coût de les convertir vers un format ouvert.
  • le coût d’exploitation, c’est-à-dire publier les données et les rafraîchir. Même avec les offres commerciales et les solutions libres, il reste un coût fixe d’exploitation pour un portail de données ouvertes par exemple.
  • le coût lié aux exigences de qualité des données, comme le besoin de les mettre à jour.
  • les coûts légaux pour mettre les données en conformité avec les législations. Trouver la bonne expertise juridique dans un domaine aussi jeune et volatile est difficile et donc potentiellement coûteux. Ce problème est accentué par l’existence de multiples juridictions et l’absence d’harmonisation, par exemple entre les États Unis et l’Union Européenne.
  • les coûts et risques légaux, liés par exemple à la violation de la confidentialité, aux erreurs dans les données, à des données périmées. Encore une fois, le manque de cadre juridique rend la quantification de tels risques plus difficile.
  • le coût concurrentiel (pour le secteur privé), i.e. le coût de partager les informations avec la compétition.
  • le coût de confidentialité (pour les individus), i.e. le fait de partager ses informations peut nuire à la qualité de vie (spam, contrat d’assurances, couverture médicale).
  • le coût en terme de relations publiques, i.e. un mauvais article de presse suite à une fuite dans les données, un mauvais résultat sur le tableau de bord d’une ville, un mauvais chiffre de pollution ou de diversité de la main-d’œuvre pour le secteur privé.
  • le coût d’opportunité, car ces mêmes ressources (capital, infrastructure technologique, capital humain) pourraient être allouées à d’autres buts.

Là encore, la plupart de ces coûts sont spécifiques à chaque industrie.

Activer les leviers

Notre équation décrit une quantité qui doit être positive pour que l’ouverture des données soit bénéfique. Parfois, certaines variables ne sont pas du ressort du fournisseur de données. Notre équation permet alors de choisir quels leviers actionner et de poser les bonnes questions.

Une simple équation ne va évidemment pas fournir toutes les réponses sur les données ouvertes. Mais, malgré ses limitations, notre « arithmétique » peut former une solide base de discussion. En s’appuyant sur notre équation, les décideurs peuvent comprendre comment un facteur donné influence le résultat final. En interne, une telle formulation peut servir de base à une réflexion sur une mesure de performance et un outil de décision. En externe, elle peut être utile à l’État quand il essaie de convaincre le secteur privé de partager ses données – incitations fiscales par exemple – ou encore pour la communauté tech, afin d’identifier les technologies qui pourraient réduire les coûts et amplifier les effets.

Juste en regardant les leviers, et sans être Nostradamus, on peut raisonnablement anticiper que (a) l’établissement de bourses d’échange pour les données, (b) l’existence de tiers de confiance offrant agrégation et anonymisation des données des utilisateurs et (c) la création de modèles juridiques et des schémas de données incorporés dans des solutions informatiques de mises en ligne de données, rendraient la décision d’ouvrir les données plus facile et plus rationnelle.

Notre souhait est que cette « arithmétique » des données ouverte permette de mieux cerner la question, d’identifier les leviers à actionner et facilite conversations et recherche sur le sujet à tous les niveaux et dans tous les secteurs.

Arnaud Sahuguet, The GovLab

Voir le profil complet d’Arnaud Sahuguet à https://www.linkedin.com/in/sahuguet. Suivez le sur Twitter à https://twitter.com/sahuguet.

La publication scientifique : du papier au numérique

La publication scientifique est un modèle économique improbable ! Le produit de base est créé par des chercheurs qui réalisent un travail de recherche et écrivent un article pour transmettre ce qu’ils ont appris à d’autres chercheurs. La valeur ajoutée provient également des chercheurs qui évaluent l’article et suggèrent des améliorations. Les clients sont principalement des chercheurs qui à travers leurs laboratoires paient de plus en plus cher pour pouvoir lire leurs articles. Quelque chose vous choque ? ils paient pour accéder à leur propre travail ? Nous avons demandé à Pascal Guitton de nous expliquer pourquoi et comment nous en sommes arrivé à une telle arnaque. Dans un premier article, il nous explique ce qu’est une publication scientifique et son passage au numérique. Serge Abiteboul et Thierry Viéville.

IMG_9454La notion de publication scientifique n’est pas vraiment comprise du grand public qui la rencontre principalement dans les médias quand ces derniers citent, souvent de façon maladroite et partielle, des résultats qu’ils jugent « spectaculaires » ou bien lors de controverses portées sur la place publique comme pour la mémoire de l’eau ou les méfaits d’un maïs transgénique sur des rats. Outil de base du quotidien de tous les scientifiques, nous allons essayer d’expliquer ce qu’est une publication scientifique pour que chacun puisse mieux discerner son impact pour la société. Nous évoquerons dans un second article les dérives induites par des changements récents et leurs conséquences sur le travail des chercheurs.

C’est quoi une publi ?

Pour commencer, il faut préciser qu’il n’existe pas une définition unique mais que cohabitent plusieurs formes de publications scientifiques avec de grandes différences entre les domaines de recherche. Synthétique (moins d’une dizaine de pages), de grande ampleur (plusieurs centaines), fréquente (plusieurs par an), espacée (de plusieurs années), principalement basée sur des résultats chiffrés ou bien rédaction plus littéraires, publiée dans des revues ou dans des actes de conférence, la forme de la publication n’est pas unique mais bien diverse à l’image des communautés de chercheurs.

Il est cependant possible de distinguer des caractéristiques communes à toutes les cultures scientifiques qui relèvent de la nature du travail de recherche «générique».

Avant toute autre chose et quelques soient les sciences, un chercheur doit en permanence connaître les résultats obtenus par ses collègues, d’abord pour ne pas réinventer la roue et ensuite pour essayer de les améliorer en s’en inspirant ou mieux encore en créant une approche originale. Ce travail d’écoute et de compréhension se réalise en lisant les publications rédigées par d’autres chercheurs. Le chercheur doit ensuite faire appel à son imagination et faire preuve de créativité pour développer de nouvelles idées qui sont le plus souvent présentées puis discutées et débattues avec ses collègues les plus proches dans un premier temps.

FullSizeRenderPhoto  @Maev59

L’étape suivante consiste à prouver l’intérêt de son idée à l’ensemble de la communauté. Selon les domaines, il s’appuie sur une démonstration mathématique, une argumentation littéraire, des mesures réalisées pendant une expérience physique ou chimique, les résultats d’une étude sociologique, des mesures biologiques… Toutes ces formes n’ont qu’un objectif : étayer l’idée originale avancée par l’auteur afin d’emporter la conviction de ses interlocuteurs. Le chercheur place donc cette preuve au cœur d’un texte qui décrit ses travaux depuis l’hypothèse initiale jusqu’à la conclusion en passant par les résultats préexistants (qu’il est indispensable de citer pour situer les progrès) et les éventuelles expérimentations réalisées. Ce texte scientifique est donc publié et diffusé le plus largement possible afin de permettre aux autres chercheurs de prendre connaissance de ses travaux, bouclant ainsi le cycle.

Le but : la diffusion des résultats de recherche

La raison d’être d’une publication est de diffuser les résultats des recherches au sein de la communauté scientifique. Mais l’on peut se demander en quoi est-ce différent d’une publication en général ? Contrairement à un article publié dans un journal « standard » qui est relu par un rédacteur en chef ou bien à un billet ou un commentaire sur un blog, elle s’appuie sur un principe dit d’évaluation par les pairs qui consiste à faire vérifier par d’autres scientifiques experts du domaine les qualités d’un article avant de le publier. Cette étape est fondamentale. De la qualité de ce processus, déroule directement la confiance que l’on accorde à une publication scientifique.

La démarche : une évaluation par les pairs

Dans l’immense majorité des cas, une publication est rédigée par des chercheurs pour ses pairs. La rédaction d’un tel document obéit donc à des règles et à des styles bien particuliers que les jeunes chercheurs apprennent principalement lors de la préparation de leur thèse. En d’autres termes et contrairement à ce que peuvent laisser penser certains, les articles sont des textes spécialisés le plus souvent incompréhensibles pour qui n’est pas du domaine.

Les modèles de diffusion

Les revues ou journaux représentent la voie la plus classique de publication : l’auteur  ou un groupe d’auteurs (le travail scientifique étant souvent collectif) soumet une première version de son document à l’éditeur en chef qui sollicite des membres du comité de lecture pour examiner la soumission. À l’issue de cette analyse, les relecteurs émettent un avis négatif (la soumission est rejetée) ou positif (elle est acceptée), le plus souvent avec des demandes de révision tant sur la forme que sur le fond. Une fois le texte amendé par l’auteur en fonction de ces remarques (parfois en plusieurs aller-retour), la version définitive est alors publiée dans un numéro de la revue.

Dans certaines sciences comme l’informatique, il existe une autre voie de publication toute aussi importante : les conférences qui regroupent pendant plusieurs jours des chercheurs qui exposent leurs travaux. Pour certaines conférences, les auteurs rédigent en amont de la manifestation un texte qui suit une procédure de validation semblable à celle des revues. Pour d’autres, le texte est produit après la conférence. D’autres enfin se contentent d’un résumé succinct. Évidemment, suivant la procédure suivie,  l’ouvrage (appelé « actes de conférence ») qui peut accompagner la conférence est reconnu comme de qualité équivalente à celle des revue, ou pas.

Pour juger de la qualité d’une expertise et, plus globalement, d’une revue ou d’une conférence, les scientifiques utilisent plusieurs critères :

  • L’expertise des relecteurs : la première chose que fait un chercheur qui découvre une nouvelle revue/conférence est de parcourir la liste des membres de son comité de lecture/programme afin d’en estimer la qualité.
  • L’anonymat : un auteur ne sait pas qui expertise son article et ce pour garantir l’indépendance de l’analyse ; parfois le relecteur ne sait pas qui sont les auteurs (on parle alors de « double-aveugle »). Les relecteurs sont aussi tenus de respecter des règles éthiques les excluant en cas de conflit d’intérêt qu’il soit positif ou négatif. Le but est évidemment de garantir autant que possible «l’honnêteté» du processus de sélection.
  • Le nombre de relecteurs : en cas d’expertises non unanimes, un éditeur en chef doit pouvoir s’appuyer sur un nombre « suffisant » d’avis.  Trois semblent un minimum ; dans certaines conférences a été mise en place une organisation arborescente avec des relecteurs, des méta-relecteurs et l’éditeur au sommet de façon à structurer un éventuel débat contradictoire.
  •  Le déroulement de la procédure : les délais de réponse sont-ils raisonnables ? Le contenu des expertises communiqué aux auteurs est-il suffisant pour réellement améliorer la qualité du document…

Il existe aussi des critères numériques pour estimer la qualité d’une revue/conférence :

  • compter le nombre de soumissions pour juger de l’intérêt porté par les chercheurs,
  • calculer le ratio obtenu en divisant le nombre de publications acceptées par le nombre de soumissions  pour juger de sa sélectivité (des ratios de 1/7 sont standards pour certaines conférences en informatique),
  • comptabiliser le nombre de fois où un des articles qu’elle a publié est cité comme référence dans d’autres articles.

Des évolutions

Originellement basé sur la transmission orale, le travail d’écoute et de compréhension des travaux des autres chercheurs s’est enrichi de façon très importante avec les arrivées successives de l’écriture et de l’imprimerie qui ont autorisé une diffusion beaucoup plus importante des idées et des résultats. Ces formes nouvelles ont entraîné des bouleversements dans les pratiques scientifiques elles-mêmes.

Une autre modification profonde a porté sur la langue de communication : d’abord maternelle, donc tour de Babel, puis internationale : chinois, arabe, latin, grec, français, allemand, russe, anglais. Depuis la 2ème guerre mondiale, l’anglais s’est imposé dans de nombreux domaines comme langue d’échange, permettant d’élargir le cercle des lecteurs et par conséquent la portée d’une publication.

Plus récemment, la révolution numérique a provoqué des mutations profondes : encore tapée à la machine à écrire au début des années 80, la publication scientifique est progressivement devenue numérique grâce à l’apparition des systèmes de traitement de texte et d’édition comme Word  ou LaTeX par exemple. Cette technologie a également facilité l’inclusion d’éléments comme des images, des figures et aujourd’hui des sons ou des vidéos. Sont alors apparus des documents réellement multimédias enrichissant la description des travaux des chercheurs. Un point important de ces évolutions, le scientifique est devenu également l’éditeur de l’article, au sens de la réalisation du document numérique qui constitue l’article.

Le deuxième impact de la révolution numérique s’est fait sentir avec l’invention des hypertextes incluant des liens vers des documents extérieurs, base du développement d’Internet et de ses contenus (pages, puis services). Il devient possible par exemple de donner accès à la description détaillée d’expériences (jusqu’à permettre de les reproduire) et aux données brutes qu’elles ont générées.

La troisième mutation numérique résulte de la mise en ligne des publications scientifiques qui remplace progressivement l’accès uniquement sous forme papier qu’ont connu les générations précédentes de chercheurs. Les bibliothèques étaient auparavant le principal moyen d’accéder à la connaissance alors qu’aujourd’hui, les chercheurs utilisent principalement des moteurs de recherche et autres portails spécialisés pour chercher, accéder et lire les articles qui leurs sont nécessaires. Par exemple, quand j’ai préparé ma thèse à l’Université de Bordeaux, le seul moyen de découvrir la littérature scientifique dans mon domaine était de se rendre dans une bibliothèque : soit elle détenait les exemplaires des revues concernées, soit dans le cas contraire (le plus fréquent), je remplissais un formulaire papier avec les références qui m’intéressaient. Ce document était expédié au centre de documentation Inria de Rocquencourt qui renvoyait une photocopie de l’article à la bibliothèque. L’accumulation des délais postaux et des temps de traitement conduisait à une durée d’attente pouvant atteindre plusieurs semaines. Bien entendu ce service possédait un coût et je n’avais le droit qu’à un nombre limité de demandes. Aujourd’hui je peux accéder à l’ensemble des articles en quelques clics au bureau comme à la maison ou en déplacement. Une fois de temps en temps, très rarement, le plus souvent parce qu’il s’agit d’un vieil article, je n’y ai pas accès ; je demande alors à des copains s’ils peuvent m’aider.

Précisons que cette démarche a nécessité de s’appuyer sur des informations essentielles de la publication scientifique : les métadonnées. Elles sont stockées dans les champs d’une base de données (le nom et l’affiliation des auteurs, des mots-clés, les dates de parution, etc.) afin que les moteurs de recherche puissent retrouver la bonne publication.

L’innovation dans la publication

Parchemin, livre, disque dur, le support a beaucoup évolué ; mais au delà des textes hypermédia qui sont devenus la norme, apparaissent des formes encore plus innovantes. Elsevier a proposé d’ajouter à un article un bref texte lu par l’auteur pour commenter sa publication. Le même éditeur permet d’inclure des logiciels exécutables directement dans le corps de la publication. Il est alors possible de modifier dynamiquement des paramètres du logiciel ou même les instructions du code. Encore plus avancée, la revue IPOL spécialisée dans l’analyse d’images diffuse des articles composés de textes, de sources logicielles et des données.

Le principe d’évaluation anonyme par les pairs au sein des comités de lecture et de programme est lui aussi soumis à évolution. L’arrivée des réseaux sociaux a entraîné de nouvelles expérimentations basées sur la mise en ligne d’une version préliminaire d’un article, les commentaires des membres du réseau,  la prise en compte par l’auteur des précisions/modifications qu’il juge pertinentes et au delà la validation par les membres du réseau de la qualité de la publication. Précisons qu’il ne s’agit pas d’un réseau social ouvert mais bien d’un réseau professionnel dont l’accès est restreint à des scientifiques experts identifiés. Ce principe n’est encore pas complètement abouti mais il est intéressant d’y réfléchir.

Peut-être que dans quelque temps, les billets sur le blog binaire seront eux aussi validés de façon collective et répartie ! Oui mais évidemment nous sortons là de la publication scientifique…

Pascal Guitton, Professeur Université de Bordeaux et Inria.

Façonner l’imaginaire

Marie-Paule Cani, Professeure à Grenoble INP et responsable d’une équipe commune au Laboratoire Jean Kuntzmann et à Inria, est la toute nouvelle titulaire de la Chaire «Informatique et sciences numériques» du Collège de France où elle présente un cours intitulé « Façonner l’imaginaire : de la création numérique 3D aux mondes virtuels animés » (leçon inaugurale le 12 février 2015). Nous nous sommes émerveillés devant les images de synthèse en 3D, dans des films, des jeux vidéo ou des œuvres d’art. Marie-Paule nous explique comment l’informatique graphique va continuer à nous faire rêver. Serge Abiteboul.

Marie-Paule Cani @ Collège de FranceMarie-Paule Cani – Photo Collège de France 

De la création numérique 3D aux mondes virtuels animés

Le monde numérique est un espace artificiel où l’être humain règne en maitre, créant les contenus ou orchestrant leur génération à partir de données ou d’algorithmes. Mais il est parfois frustrant de ne créer que de l’immatériel – que l’on peut difficilement voir et encore moins toucher. C’est sans doute pour cela que la création numérique 3D fait tant rêver. Elle permet d’ébaucher des formes en quelques gestes, puis de les observer sous tous les angles et de les manipuler virtuellement. Elle ouvre la voie vers la fabrication automatique de prototypes physiques à partir de ces formes – par exemple via l’impression 3D, nous offrant ainsi la faculté unique de matérialiser l’immatériel. Enfin, elle permet de donner vie à d’autres mondes – des mondes virtuels peuplés et animés – puis de les explorer en s’y immergeant de tous nos sens grâce à la réalité virtuelle.

Tout en étant capables, dans une certaine mesure, de reconstruire ou d’imiter le monde réel, les contenus 3D constituent un moyen privilégié pour exprimer notre imaginaire. Au-delà d’une dimension ludique et artistique qui s’exprime largement au travers des jeux vidéo, du cinéma et de l’art numérique, la création graphique 3D offre un outil formidable aux chercheurs et ingénieurs de tous domaines. Elle permet à l’ingénieur de créer virtuellement son objet d’étude puis de le tester pour l’améliorer avant même qu’il ne soit fabriqué dans le monde physique. Le scientifique (du biologiste à l’archéologue) pourra pour sa part exprimer ses hypothèses sous forme visuelle, puis explorer les contenus ainsi créés pour affiner sa compréhension de son objet d’étude. L’interaction avec un support visuel permet en effet au créateur de raffiner progressivement sa vision, bien mieux que ne le ferait une simple image mentale. Léonard de Vinci en avait eu l’intuition. Des recherches récentes en psychologie cognitive ont démontré que l’interaction visuelle avec une ébauche permet d’éveiller des parties de la mémoire ignorées par une description analytique, d’imaginer et d’explorer mentalement un espace de solutions possibles, permettant ainsi de compléter progressivement sa création.

Marie-Paule Cani illustration-1Créations numériques © Grenoble-INP, Inria, Lyon 1

À quand remonte ce goût pour la création 3D ? De tout temps, l’être humain a cherché à maîtriser la création de formes et même de mouvements, qu’ils soient inspirés par le réel ou simplement imaginés. Contrairement au son que nous pouvons produire directement sans l’aide d’instruments, l’être humain ne dispose pas de moyens physiques pour exprimer et communiquer des formes tridimensionnelles : il a besoin d’un support et d’outils pour les représenter. Ce support a pu être le sable, le rocher, l’argile … et les premiers outils ont probablement été les doigts ou un silex. Se sont développés le dessin et la peinture, qui ne peuvent représenter que des projections planes des formes, mais qui s’avèrent parfois précieux pour évoquer l’incertitude ou pour exprimer une action (pensons à la bande dessinée) ; et la sculpture, qui permet de représenter précisément des formes statiques en 3D mais ne sait évoquer le mouvement qu’à travers des situations de déséquilibre.

Aujourd’hui, de plus en plus d’êtres humains disposent du média numérique et le manipulent plus quotidiennement qu’une boule de pâte à modeler, ou même, pour certains, qu’un papier et un crayon. L’outil numérique pourrait-il devenir à terme le média ultime, offrant à chacun cette capacité que nous recherchons depuis toujours, à savoir celle d’ébaucher en temps-réel puis raffiner progressivement les formes et des mouvements que nous imaginons, grâce à cette interaction visuelle si propice à la création ? De manière immédiate, des qualités du support numérique le rendant supérieur à tout support physique viennent à l’esprit : il peut permettre de dessiner dans le plan mais aussi en volume (en « 3D »); d’ébaucher non seulement des formes statiques, mais aussi des formes en mouvement ; de stocker et de visualiser ces créations à différents niveaux de détails ; de revenir en arrière au besoin, de copier, dupliquer et coller des détails. Plus encore, le numérique pourra apporter de l’aide à ceux qui n’arrivent pas à exprimer leurs imaginaire dans le monde réel, pensant qu’ils « ne savent pas dessiner ». Cependant, un long chemin reste à parcourir pour mettre ce média numérique à la portée de tous. Une série de recherches récentes ouvrent la voie.

La création numérique 3D

Les travaux que nous allons présenter ici correspondent au champ disciplinaire de l’Informatique Graphique, dont la communauté scientifique s’est structurée en France dès la fin des années 80. A l’opposé des technologies qui prennent des images en entrée, comme le traitement d’images, la vision par ordinateur ou l’imagerie médicale, l’informatique graphique s’intéresse aux méthodes pour produire des images en sortie. Ces images artificielles sont appelées images de synthèse.

Si elles sont visuelles et parlent à tous, les images de synthèse cachent des modèles mathématiques et des algorithmes de simulation de phénomènes physiques, dont l’efficacité est essentielle. Les chercheurs en informatique graphique développent des représentations mathématiques dédiées aux formes 3D ainsi que des méthodes pour les façonner virtuellement : il s’agit de la « modélisation géométrique. Ils proposent des méthodes pour décrire ou générer les mouvements et les déformations de ces formes au cours du temps : il s’agit de « l’animation ». Enfin, ils explorent les chaînes de traitement permettant de passer du monde numériques 3D qui en résulte à une image ou à un film, semblables à ceux qu’auraient pu saisir une caméra : il s’agit du « rendu ».

Au cours des dix dernières années, l’accroissement des capacités mémoire et de la puissance de calcul des ordinateurs ont permis de stocker, de traiter et d’afficher des données 3D massives (plusieurs millions de polygones), produisant des images de synthèse parfois difficiles à différencier du réel : on parle de « réalisme visuel ». En parallèle, les utilisateurs attendent des mondes virtuels un contenu toujours plus impressionnant, riche et détaillé. Mais comment créer ces contenus ?

Deux approches ont été développées jusqu’ici pour accélérer la création de contenus 3D : la capture de données réelles et la génération automatique. Cependant, même s’il était possible de capturer un à un chaque élément de notre monde, l’utilisation massive d’objets capturés briderait la créativité. Et pour sa part, la génération automatique n’offre qu’un contrôle indirect et assez limité du résultat. De ce fait, la création graphique passe encore principalement par la modélisation interactive, via des logiciels dédiés. Des centaines d’artistes infographistes, ayant reçu plusieurs années de formation dans des écoles spécialisées, s’attellent à la création des éléments de chaque nouvel univers virtuel. Par exemple, la création du film « La reine des neiges » de Disney, sorti en novembre 2013, a demandé le travail de 650 personnes pendant deux ans. Pour accélérer le processus de création, des supports physiques (papier, argile) sont utilisés aux premiers stades de la conception. Recréer et améliorer chaque forme et chaque mouvement sous forme numérique demande des mois d’un travail minutieux et souvent fastidieux (pensons à un décor naturel dont la végétation est agitée par le vent, ou aux nombreux éléments animés d’une scène urbaine). De plus, la complexité des logiciels demande aux utilisateurs de rester concentrés sur la maitrise de l’outil pour naviguer dans un dédale de menus et sous-menus, au lieu de penser uniquement à la forme créée. Ainsi, Rob Cook, directeur scientifique de Pixar, a affirmé en 2009 que le grand défi en informatique graphique est de “rendre les outils aussi invisibles aux artistes que les effets spéciaux ont été rendus invisibles au grand public!” En effet, un spectateur ne se demande plus ce qui est réel ou virtuel lorsqu’il est plongé dans un film comme « Avatar » : il est emporté par l’histoire… De même, les créateurs de contenus 3D devraient pouvoir créer sans se soucier de l’outil, comme s’il s’agissait d’un simple prolongement de leurs doigts.

Comment mettre la création 3D à la portée de tous, permettant à tout un chacun de « façonner l’imaginaire », au fur et à mesure qu’il lui vient en tête, et plus facilement qu’avec un papier et un crayon ? C’est l’objet d’un nouveau courant de recherche en informatique graphique, que j’appellerai la « modélisation expressive »1.

Vers une modélisation expressive

Des recherches récentes en informatique graphique s’attachent à développer des méthodes de création 3D mariant simplicité et rapidité d’utilisation avec la qualité visuelle et le contrôle des résultats. L’objectif est que l’utilisateur puisse littéralement « façonner » les formes et les mouvements qu’il imagine tout en s’appuyant sur l’outil numérique pour compléter automatiquement les détails et pour maintenir les contraintes qu’il souhaite en matière de réalisme. Pour cela, nous assistons à l’émergence de trois principes méthodologiques :

  • Tout d’abord, une création par gestes est proposée. Ces derniers peuvent être des gestes de dessin pour ébaucher une nouvelle forme, des gestes de sculpture ou de modelage pour l’améliorer ou lui ajouter des détails, ou encore des gestes de mime pour indiquer un mouvement. A ces métaphores d’interaction inspirées du monde réel sont ajoutées certaines actions simples qui ont déjà révolutionné les environnements numériques comme le fait de copier-coller pour reproduire et transférer certains éléments.
  • Deuxièmement, les modèles graphiques sont revisités de manière à ce qu’ils réagissent comme l’attendrait un utilisateur humain, sous ces gestes d’interaction. Pour cela, il s’agit d‘intégrer des connaissances adéquates dans les modèles, leur permettant de répondre à la sémantique qu’un utilisateur humain associe, presque involontairement, à ses actions.
  • Enfin, différentes méthodologies de passage à l’échelle sont développées, pour permettre à l’utilisateur d’orchestrer la création d’un monde virtuel complexes, constitué de hiérarchies d’éléments éventuellement animés, sans avoir à les manipuler un à un.

Pour mieux décrire ces principes, prenons un exemple : la création d’un arbre virtuel.

Un arbre inclue une multitude d’éléments de différentes dimensions, structurés en distributions aux propriétés statistiques spécifiques du fait des lois biologiques qui le régissent. Il s’agit d’offrir à l’utilisateur la capacité de créer rapidement un arbre 3D particulier dans sa forme, mais plausible, alors même que modéliser les milliers de branches qui le composent demanderait des connaissances spécifiques et serait extrêmement fastidieux.

Plutôt que d’aborder une telle tâche directement en 3D, l’utilisation d’une métaphore de dessin 2D, inspirée de la manière dont un artiste ébauche rapidement un arbre puis précise progressivement son dessin, peut permettre d’accélérer considérablement cette tâche : l’utilisateur dessine en un seul geste le contour de l’arbre ; le système s’appuie sur des lois géométriques et biologiques pour en déduire la structure interne de premier niveau, c’est-à-dire la position des plus grosses branches, que l’utilisateur peut corriger manuellement s’il le souhaite. Cette idée de passer par un seul trait – une silhouette – est un exemple de méthode de passage à l’échelle : tandis que l’utilisateur garde un contrôle global sur la forme, la machine gère les détails, et ce de manière probablement plus réaliste qu’il ne l’aurait fait. A l’aide d’un gros plan sur l’une des sous-structures associées, l’utilisateur peut alors raffiner localement son dessin, et ainsi de suite sur plusieurs niveaux, jusqu’à aboutir au dessin d’une ou plusieurs feuilles. Tandis qu’il revient vers une vue d’ensemble, les structures dessinées sont automatiquement complétées par la génération de distributions aléatoires de sous-branches sur les branches voisines de même niveau, tout en vérifiant les mêmes propriétés statistiques que les parties dessinées. Chaque élément est également plongé en 3D de manière plausible, grâce encore une fois au respect de certaines lois biologiques. Enfin, des branches venant vers l’avant et partant vers l’arrière sont ajoutées. Ainsi, un arbre complet peut-être créé en quelques gestes.

Marie-Paule Cani illustration-2Création d’un arbre 3D par dessin multi-résolution.
À chaque niveau d’échelle, la structure est déduite
d’un trait de silhouette (en vert) dessiné par l’utilisateur.
Les détails sont générés, dupliqués et passés en 3D
en utilisant des lois biologiques © Grenoble-INP, Inria, Cirad 

Supposons maintenant que l’utilisateur veuille étirer son modèle, pour rendre cet arbre, disons, moitié plus haut : ici, le geste intuitif associé consiste probablement en un geste d’écartement de deux doigts posés sur l’arbre, dans la direction verticale, comme pour zoomer sur un texte. Un tel geste peut facilement être reconnu et associé à un étirement. Cependant, si des représentations graphiques classiques sont utilisées, chaque branche de l’arbre va alors s’épaissir verticalement, et les feuilles qu’elles portent vont s’étirer dans la même direction, rendant l’ensemble totalement irréaliste… Est-ce que l’utilisateur ne s’attendrait pas plutôt à ce que le tronc s’étire, mais à ce que les branches qui en partent se dupliquent et que de nouvelles sous-branches et feuilles similaires aux précédentes y soient placées ? Comme le montre cet exemple, l’incorporation de connaissances a priori (comme le fait que certains éléments répétitifs doivent être dupliqués et non étirés) est indispensable à la conception de modèles graphiques répondant de manière intuitive aux gestes de création.

Conclusion

La modélisation expressive est un nouveau courant de recherche en informatique graphique, visant à faire du média numérique un support de création 3D accessible à tous, et permettant aussi bien de façonner des formes isolées pouvant être imprimées, que de concevoir et animer en quelques gestes des mondes virtuels complexes. De nombreux défis restent à relever pour atteindre ces objectifs. Parmi eux, l’extension des méthodes proposées à des assemblages de formes animées, combinant contrôle des mouvements par l’utilisateur et réalisme visuel, n’est pas la moindre des difficultés.

Le support idéal, permettant d’observer des objets à peine entrevus mentalement, d’ébaucher leur mouvement avant même que les formes ne soient vraiment précises, puis de raffiner progressivement ces contenus jusqu’à une œuvre aboutie, n’existe pas encore. Mais les avancées actuelles permettent d’énoncer un certain nombre de principes qui permettront d’atteindre ce but, comme l’alchimie créée par l’injection de connaissances dans les modèles, mariée à des gestes de création intuitifs. Comme dans le monde réel, tout l’art consiste à cacher à l’utilisateur la complexité de ce qu’il manipule : déchargé des tâches répétitives et de la gestion de contraintes difficiles à maintenir, l’être humain augmenté par l’outil numérique pourra lâcher plus largement la bride à son imagination. Les progrès sont rapides, et tout laisse présager que cette révolution de la création numérique changera durablement l’activité humaine.

Marie-Paule Cani, Professeure à Grenoble INP

1Du nom du symposium international EXPRESSIVE créé depuis quatre ans pour rassembler les recherches sur les nouveaux média de création, dont l’art numérique, la modélisation 3D par esquisses, l’animation et le rendu non photo-réalistes.

L’estimation de Good-Turing

Toujours autour de la sortie d’« Imitation Game »,  Colin de la Higuera aborde pour Binaire des résultats obtenus par Alan Turing avec un collègue, Jack Good. Les travaux en statistiques de Good ont permis de dégager les principes de l’analyse Bayésienne, dont les succès dans l’analyse de l’incertain sont aujourd’hui essentiels. Plus surprenant est le rôle de Good comme conseiller  scientifique du film « 2001 ou l’Odyssée de l’Espace » de Kubrick.  Serge Abiteboul.

Après avoir observé pendant un an des oiseaux, listé et compté ceux-ci, puis-je calculer la probabilité que le premier oiseau que je vois, demain matin, soit un étourneau ? Si par le passé, sur mes 1000 observations, 10 ont correspondu à des étourneaux, l’estimation la plus raisonnable est que j’ai une chance sur 100 de voir un étourneau. Mais quelle doit être mon estimation si je n’ai jamais vu d’étourneau ?

C’est à ce genre de question qu’étaient confrontés Alan Turing et Jack Good en 1941, quand ils cherchaient à casser les codes produits par les machines Enigma. Si les machines utilisées par la Wehrmacht et la Luftwaffe étaient déjà victimes  – sans le savoir – des attaques des équipes d’Alan Turing à Bletchley Park, la marine Allemande, elle, avait modifié la machine suffisamment pour que le problème de cryptanalyse soit bien plus complexe. En particulier, chaque matin, 3 caractères étaient choisis (le trigramme) et servaient de configuration de base de 3 rotors de la machine pour la journée. Le choix du trigramme du jour s’effectuait dans un livre que les Anglais n’avaient pas. Il arrivait que le livre s’ouvre sur une page déjà vue, que l’opérateur allemand prenne le premier trigramme de la page et cela donnait donc une répétition. Mais il arrivait aussi que le trigramme du jour soit entièrement nouveau. Pour répartir l’effort de cryptanalyse, il était important d’estimer correctement ces deux cas. Ce qui revient  à calculer la probabilité que le trigramme soit nouveau.

À première vue, cela peut sembler impossible : comment prévoir quelque chose qui n’est jamais arrivé ?

640px-EnigmaMachineLabeledLa machine Enigma

Revenons un instant à nos oiseaux et commençons par admettre que la probabilité de voir un oiseau jamais vu auparavant soit différente dans les deux cas extrêmes suivants :

(A) Les 1000 observations correspondent à un seul et même oiseau, le moineau,
(B) Les 1000 observations correspondent à des oiseaux tous différents.

Good et Turing ont obtenu une formule qui explique pourquoi la probabilité de voir un nouvel oiseau est bien plus grande dans le cas (B) que dans le cas (A). Pour estimer la masse totale de probabilité à répartir entre les événements non observés, il est possible d’utiliser le nombre d’observations uniques. Ainsi, plus on aura observé d’événements une seule fois, plus la probabilité que le prochain événement soit nouveau augmente.

Good et Turing eux, s’intéressaient aux configurations de départ de la machine Enigma. Leur formule s’est avérée trop compliquée pour être utilisée directement (car il faudrait également tenir compte des événements observés 2 fois, 3 fois,…). Il fallait un algorithme astucieux pour réaliser ce calcul.

Des travaux ultérieurs basés sur cet algorithme vont apporter des outils précieux dans de nombreuses applications informatiques. Un exemple est  la reconnaissance de la parole, où il s’agit de décider si une suite de syllabes correspond (approximativement) à un mot du dictionnaire ou s’il s’agit d’un mot inconnu, peut-être le nom d’une personne ou d’un lieu.

Colin de la Higuera

Pour aller plus loin :

Pour une présentation en Anglais, on peut se référer à l’article de David McAllester et Robert E. Schapire.

On peut trouver sur le web d’excellentes nécrologies (toutes en Anglais) de Jack Good ou l’article de Wikipedia.

Gay pride des informaticiens

Binaire accompagne la sortie d’Imitation game. Après  Jean Lassègue et son analyse du Jeu de l’imitation, Isabelle Collet nous parle de Turing avec cette fois un éclairage du point de vue du genre.

800px-Sackville_Park_Turing_plaquePlaque à la mémoire d’Alan Turing à Sackville Park, Manchester

Turing, l’homosexualité et les biopics hollywoodiens

Ces jours-ci est sorti sur les écrans français un film d’espionnage se déroulant pendant la seconde guerre mondiale. De bons acteurs sont à l’affiche, tels que Benedict Cumberbatch ou Keira Knightley. Ils y jouent vraiment très bien et le film est sympathique. Malheureusement, le scénario est supposé raconter la vie d’Alan Turing. Si la trame générale est juste, à peu près aucun détail scénaristique n’est vrai.

Benedict_Cumberbatch_2013_TIFF_(headshot) Benedict Cumberatch portrayed Turing
in the film The Imitation Game (2014), Wikipedia

À côté de la vie incroyable de Turing, nous avons un film bien léché répondant aux attentes hollywodiennes, avec des anecdotes qui tombent bien, un climax où il faut, des militaires bornés, un héros maudit, un mathématicien génial donc limite Syndrome d’Asperger, du sur-mesure pour les oscars mais historiquement erroné… Avec 11 nominations, le pari est réussi. Je ne vais pas me mettre à jouer au jeu des 1024 erreurs, les Turingophiles s’étant déjà déchainés, je vous propose plutôt une analyse sur la manière dont l’homosexualité de Turing a été traitée.

Turing était gay, à une époque où il n’était pas conseillé d’en faire état, d’autant plus que l’homosexualité masculine était illégale au Royaume-Uni.

En note : Le lecteur attentif pourrait se demander pourquoi  seule l’homosexualité masculine était illégale. Tout d’abord, seul l’acte homosexuel était réprimé et non le sentiment amoureux. Or à cette époque, on considérait qu’il n’y avait rapport sexuel qu’à condition qu’un pénis soit impliqué. Dans les rapports lesbiens, de fait, il n’y a pas de pénis (en tout cas, pas en vrai).

Toutefois, Turing n’a jamais vraiment caché son homosexualité. Au lycée, il tomba amoureux d’un camarade de classe, Christopher qui mourra peu de temps plus tard. Selon Turing, Christopher savait très bien quels sentiments Alan avait pour lui, même s’ils n’étaient visiblement pas payés en retour. Le film montre un jeune Alan très désireux de tenir secrète sa relation avec Christopher, également amoureux. Or, les amitiés très fortes entre jeunes garçons étaient tout-à-fait banales et encouragées dans ces écoles privées non-mixtes. L’homo-socialité était de mise et n’était pas suspectée d’être en réalité de homosexualité : les angoisses d’Alan présentée dans le film sont en réalité anachroniques. Or, tel est le fil rouge du récit : Turing aurait vécu toute sa vie dans le drame d’être découvert.

Le film prétend que lorsque Turing était à Bletchley, où était situé le Governement code & cypher school britannique, il aurait découvert qu’un de ses collègues, John Cairncross, était en réalité un espion russe. Cairncross fait alors chanter Turing : « Tu révèles mon secret, je révèle le tiens et tu seras viré de Bletchley, tu ne pourras plus jamais travailler, etc. ».

Or, une interview très intéressante d’anciens de Bletchley, Donald Michie et Jack Good rendent cette histoire tout-à-fait invraisemblable. Certes, pendant la guerre, Turing ne vivait pas ouvertement son homosexualité. Néanmoins, Michie signale que : « Bletchley avait des homosexuels flamboyants » tel qu’Angus Wilson qui se baladait ouvertement avec son petit ami Beverley. Il ajoute que c’était un non-sens de dire que si le Royaume-Uni avait su que Turing était gay, les Alliés auraient perdu la guerre. En les lisant, on a plutôt le sentiment qu’à Bletchley, les mathématiciens pouvaient tout se permettre, pour peu qu’ils travaillent à ce pourquoi ils étaient là. Ce n’était pas pour rien que Turing disait que Bletchley était un camp de vacances pour mathématiciens : ils jouissaient là-bas d’une grande liberté, Turing en particulier, de part sa notoriété.
turing-snowwhite-rayclid-binaire
Si Michie et Good ne se sont jamais doutés de l’homosexualité de Turing, c’est à cause de la relation sincère qu’il entretenait avec Joan Clarke. Pour le coup, le personnage est assez fidèle à la réalité. Simplement, Turing ne lui cacha jamais son homosexualité. La nature de leur relation n’est pas particulièrement exceptionnelle pour l’époque. Ce qui l’est, c’est l’honnêteté avec laquelle ils la conduisirent. N’oublions pas que le mariage n’était pas le lieu de la satisfaction sexuelle. Les honnêtes femmes n’étaient d’ailleurs pas supposées prendre du plaisir dans l’acte sexuel. Une telle dépravation était réservée aux prostituées. C’était un « gentlemen agreement » tout-à-fait acceptable, puisqu’ils avaient de nombreuses passions communes, tels que les échecs et la botanique, et qu’ils avaient le même sens de l’humour.

A la fin du film, Turing est victime d’un cambriolage. Quand la police arrive sur les lieux, appelés par un voisin, Turing refuse de porter plainte. Alors qu’il soupçonne Turing d’être un espion russe, le détective qui le poursuit découvre incidemment son homosexualité. En réalité, dès 1947, Turing parlait ouvertement de sa préférence pour les garçons avec les anciens de Bletchley, puis avec ses collègues du Kings College. Turing était convaincu que l’homosexualité allait très bientôt être dépénalisée (il faudra pourtant attendre 1985). Il appelle lui-même la police après s’être aperçu qu’un de ses amants lui avait volé des documents top-secrets. Il est alors accusé d’indécence. Le problème, pour la justice, ce n’était pas tant son homosexualité, mais plutôt le fait qu’il n’avait pas la décence d’en avoir honte.

Hollywood aime des gays honteux, malheureux, vivant cachés. On s’indigne ensuite vertueusement du mal qui leur est fait quand, malgré eux, ils sont découverts. Tel est le stéréotype de l’homosexuel susceptible d’être plaint. Alors qu’il est plus difficile de susciter de la compassion pour le gay qu’on persécute parce qu’il s’expose… Le spectateur ne risque-t-il pas de penser que la victime l’a tout de même un peu cherché ?

Isabelle Collet, Université de Genève