juillet 2017 – binaire

24 juillet 201718 juillet 2017

Déconnectez !

La joyeuse équipe de binaire vous souhaite une belle pause estivale ensoleillée, reposante et solidaire.

Pour garder l’esprit binaire, nous vous conseillons trois ouvrages sélectionnés pour le prix Roberval 2017, catégorie Grand Public :

Le temps des algorithmes, de Serge Abiteboul et Gilles Dowek, Le Pommier et
Terra Data, qu’allons-nous faire des données numériques ? de Serge Abiteboul et Valérie Peugeot, Le Pommier, qui accompagne une exposition éponyme à la Cité des sciences, Paris.
Des robots et des hommes. Mythes, fantasmes et réalité, Laurence Devillers, Plon

Et évidemment, précipitez-vous aussi sur les articles de binaire que vous n’avez pas eu le temps de lire pendant l’année. Nous vous les avons gardés au chaud.

Retrouvez-nous fin août pour parler informatique et culture numérique !

L’équipe binaire

23 juillet 201720 juillet 2017

Concours SIF : L’informatique en stream

La Société informatique de France (SIF) vous invite à participer à la première édition de son concours de vidéos : L’informatique en stream #ScienceInfoStream

Vous êtes passionné.e.s de science informatique ? Vous aimez les défis ? Vous vous sentez l’âme d’un.e vidéaste ? N’attendez plus ! Prenez votre smartphone, webcam, ou caméra : vous avez moins de 2⁸ secondes pour partager ces pépites de science qui vous fascinent.

Plus précisément, votre vidéo, tournée en français, aura une durée comprise entre 2⁷ (128) et 2⁸ (256) secondes. Elle sera au format de votre choix (les formats libres, comme ogv, sont encouragés) et mise à disposition sur le web (via votre page personnelle ou via un site de streaming ou…). La soumission se fera par courrier électronique envoyé à l’adresse scienceinfostream@societe-informatique-de-france.fr, avant le 1er décembre 2017. Le message contiendra, outre le lien, le titre de la vidéo et les noms et prénoms de son ou de ses auteur.e.s avec une présentation succincte (âge, rôles respectifs dans le projet…).

Un jury composé notamment d’informaticien.ne.s et de spécialistes de la médiation scientifique réalisera une première sélection de vidéos dont la diffusion et la promotion seront assurées par la SIF et ses partenaires. Trois d’entre elles seront ensuite choisies et recevront des récompenses allant de 500 à 1500 euros. Les vidéos seront également mises en ligne par la SIF, de manière ouverte avec une licence Creative Commons choisie par l’auteur.e. La remise des prix se déroulera au Palais de la découverte le 31 janvier 2018 lors du congrès de la SIF en présence de nombreux intervenants prestigieux.

Le jury appréciera particulièrement les vidéos qui satisfont un ou plusieurs des critères suivants :

originalité du sujet ou du point de vue utilisé pour le traiter,
aptitude à susciter une vocation pour la science informatique,
sensibilisation aux enjeux sociétaux de la science informatique,
capacité à expliquer en langage simple un point de science informatique.

Qui peut participer ?

Enfants, lycéen.ne.s, étudiant.e.s, doctorant.e.s, chercheurs juniors ou seniors, enseignant.e.s, ingénieurs, programmeurs, ou découvreurs de l’informatique, etc. bref, toute personne qui le souhaite, en individuel ou en équipe, sans limite d’âge.

Note : Les photos sont libres de droit et proviennent de la chaîne de vidéo de pixees.fr.

20 juillet 201720 juillet 2017

La guerre des blogs

Deux chercheurs belges Charles Cuvelliez et Jean Jacques Quisquater, spécialistes de sécurité nous proposent une analyse technique et géopolitique d’une dispute autour de la cybersécurité, un domaine où on se passerait bien de conflits commerciaux. L’éditeur d’anti-virus russe, Kapersky, accuse Microsoft d’expurger Windows 10 de tout anti-virus autre que celui fait « maison ». Pierre Paradinas.

Un conflit high tech USA-Russie arbitré par l’Europe

C’est par blogs interposés que Kasperky et Microsoft s’affrontent verbalement mais c’est bien une plainte pour abus qu’Eugène Kasperky a déposée à la Commission Européenne. Cette dernière se serait bien passée d’arbitrer un conflit USA-Russie avec Donald Trump, qui ne rate jamais le mélange des genres, en embuscade.

L’anti-virus Microsoft est, depuis Windows 10, pré-installé et opérationnel. C’est nécessaire pour les néophytes : il est indispensable d’avoir un antivirus sur un PC. Le problème est que l’anti-virus de Microsoft prend le dessus sur les anti-virus tiers ; il continue à scanner le PC de son propriétaire comme s’il était seul au monde, d’après E. Kasperky dans son blog. Faux dit Microsoft : son anti-virus ne prendrait la relève que si l’anti-virus tiers a expiré.

Plus gênant est le message d’alerte qu’émet Windows 10 si l’utilisateur s’obstine à vouloir faire fonctionner l’anti-virus Kaspersky. Windows indique qu’il faut se méfier pour cause d’éditeur inconnu, un comble pour l’anti-virus de Kaspersky, un des pionniers du domaine, Kaspersky, utilisé par 400 millions de personnes dans le monde. (Une moitié d’entre elles ne le sait même pas car il tourne aussi sur des équipements télécoms, des pare-feux par le jeu des licences et des partenariats avec les fabricants.).

Autre vexation pour Kasperky : il ne peut utiliser son propre système de notification à l’expiration de la licence, sous forme d’une petite fenêtre d’alerte. Il faut passer par le système de notification très « Windows », de quoi rendre le message confus sur le logiciel vraiment installé et utilisé. Et seuls les anti-virus tiers doivent passer par ces fourches caudines. Les autres logiciels qui arrivent à expiration n’y sont pas contraints.

Dans sa réponse, Microsoft ne semble pas nier ce dernier problème puisqu’il évoque un système de notifications sur lequel lui et l’ensemble des éditeurs de solutions anti-virus payants se sont mis d’accord. On comprend qu’il faut faire partie du programme MVI (Microsoft Virus Initiative) pour avoir voix au chapitre.

Ce qui ajoute au malaise, si l’on en croit Kaspersky, c’est que les versions de test de Windows 10 ne prévoyaient pas cette obligation. La surprise est donc totale.

Kasperky, meilleur ? Là n’est pas la question

Pour Kasperky, l’explication est simple : après des années de vaine compétition, Microsoft reconnait son retard sur les anti-virus et opte pour une solution radicale : empêcher ses concurrents de venir chez lui et occuper la place le premier, une fois Windows 10 installé. C’est un peu l’histoire d’Internet Explorer qui se répète : lui aussi était préinstallé dans les PC jusqu’au moment où la Commission a mis le holà… pour laisser le champ libre à Google en fait. Bien sûr, dans son blog, Microsoft dément et affirme que son anti-virus détecte 99 % des menaces (voir cependant le tableau comparatif des tests indépendants d’antivirus au lien suivant : https://chart.av-comparatives.org/chart1.php ce qui permettrait d’affirmer qu’ici Kapersky est légèrement meilleur que Microsoft aussi bien pour les virus bloqués que pour les faux positifs).

Pourquoi, lors d’une mise à jour vers Windows 10, tout autre anti-virus présent avant est désinstallé ? Car le cheval de bataille de Microsoft pour persuader de passer à Windows 10, c’est précisément l’option qui permet de retrouver son PC en ordre de marche après comme avant, sans de fastidieuses réinstallations et restaurations. C’est vrai, Microsoft prévient qu’il a dû désinstaller Kaspersky pour incompatibilité avec Windows 10 mais c’est sans laisser le choix à l’utilisateur qui ne doit surtout pas rater ce message… Car le logiciel reste présent sous forme de fichiers inactifs, ce qui donne à croire qu’on est encore protégé !

Microsoft répond qu’en effet, dans 5 % des cas, l’anti-virus tiers installé sur la machine qui se met à jour vers Windows 10 n’est pas compatible. C’est la raison pour laquelle Windows le désactive en partie (d’où les fichiers inactifs qui subsistent) mais, prétend Microsoft avec bonne foi, il explique comment faire pour récupérer son anti-virus, soit via une mise à jour Windows 10, soit parfois simplement le réinstaller suffit.

Moins de temps pour tester les programmes

Microsoft laisse de moins en moins de temps aux développeurs pour tester et prouver la compatibilité de leur logiciel sur une nouvelle version de Windows 10 avant déploiement. Quelques semaines à peine pour ne pas se laisser distancer par Apple et Android, aurait justifié Microsoft à Kasperksy. Sauf, prétend Eugène Kaspersky, qu’Apple et Android lui laissent bien du temps pour ajuster ses programmes. Et c’est bénéfique pour les deux parties puisque Kaspersky, comme d’autres, en profitent pour donner à Microsoft comme à Apple ou à Android les vulnérabilités découvertes au cours des tests. Le rush n’est jamais bon dans le développement des programmes et encore moins dans les antivirus.

Enfin le marketing de Microsoft pose question puisque la gratuité de l’anti-virus maison de Microsoft est mis en avant en conseillant à ses clients de laisser tomber les autres anti-virus… Sauf qu’on peut vouloir payer pour un produit de meilleure qualité…. Et le nouveau Windows 10 allégé, Windows 10S ne permettra même plus d’installer des programmes tiers. Seuls les logiciels qui seront passés par le Microsoft Store seront autorisés.

Kasperksy lié au FSB ?

C’est précisément au même moment qu’une contre-attaque vient des autorités US : Kasperky aurait des liens étroits avec le FSB, le successeur du KGB. Il aurait développé des outils pour le FSB. C’est l’interdiction des directeurs des six agences de renseignement US à leur personnel d’installer Kasperksy qui a permis de jeter le doute. Kasperky n’a jamais nié avoir vendu et fourni des produits et services à des gouvernements. Et puis, c’est un peu fort de café de voir les Américains porter des accusations de proximité entre Kasperky et le gouvernement russe alors que les restes de l’incendie Snowden fument toujours. Et ceux qui ont eu à subir l’espionnage US auront été bien contents de faire appel à des experts qui n’en ont vraiment pas la couleur. Bien sûr, les anti-virus ont un statut à part. Ce sont les seuls logiciels qui ont accès à tous les fichiers du PC où il est installé. Il communique en permanence avec sa société mère pour recevoir les mises à jour. C’est un cocktail explosif qui ouvre la porte à des accusations faciles. Kasperky fournit au FSB comme à ses autres clients des contre-mesures offensives comme rerouter le trafic de l’attaquant vers le serveur qui les lance. De là à dire qu’il équipe le FSB en armes offensives, il y a de la marge. Oui, Kasperky fournit aussi un support pour localiser les hackers aux autorités russes et dépêche des experts en cas de descente de police.

Curieusement, ces accusations arrivent au moment où Kaspersky est sur le point de lancer son propre système d’exploitation, Kasperky OS.

Il vise à équiper et à faire tourner les infrastructures critiques (pipelines, réseaux électriques). Il pourrait à peu de frais s’adapter à l’Internet des Objets. La réputation de Kaspersky a de quoi enchanter le monde de la cybersécurité qui pleure devant la faible protection (et attention) dont bénéficie l’IoT sur ce plan.

Les autorités US ont laissé entendre que choisir Kasperky OS, c’est laisser les Russes contrôler son usine ou son réseau. Aucune preuve ni même indice n’a été avancé : Eugène Kaspersky a proposé de mettre à disposition de tous le code de son système d’exploitation.

Rapport du Sénat américain à propos des entreprises Huawei et ZTE.

Cet épisode protectionniste rappelle les mêmes accusations vagues formulées contre Huawei en 2012 par le Sénat américain. Ce dernier a tenté en vain de mettre en évidence des velléités d’espionnage des chinois à travers leur champion télécom alors qu’ils ont tout ce qu’il faut dans leur armée pour ce faire. Le Sénat américain s’est alors contenté d’accuser Huawei de pratiques commerciales déloyales et de gouvernance douteuse pour arriver au même résultat : lui interdire le territoire américain, ce qui a amené Huawei à inonder l’Europe et le reste du monde de ses produits !

En attendant, la GSA, l’agence responsable des achats informatiques pour les organismes gouvernementaux US, a retiré les logiciels de sécurité de l’éditeur russe de deux listes de fournisseurs approuvés.

Charles Cuvelliez, École Polytechnique de Bruxelles (ULB), Jean-Jacques Quisquater, École Polytechnique de Louvain, UCL

Pour en savoir plus:

Blog de Kaspersky: Antitrust: Pursue It in Europe We Must, 6 juin 2017
Blog de Microsoft: Partnering with the AV ecosystem to protect our Windows 10 customers, 20 juin 2017
Le rapport du Sénat américain sur Huawei et ZTE
Ce texte complète un premier article de Charles Cuvelliez paru dans les Echos du 27 juin, « L’Europe en arbitre d’un conflit high-tech USA (Microsoft) – Russie ».

19 juillet 201701 septembre 2017

Podcast : géomatique

Qu’apprend-on de la géomatique ?

Le traitement des données géographiques est un exemple particulièrement significatif de la transformation d’une discipline par le « Big Data ». La géomatique est devenue incontournable dans l’étude et la compréhension des écosystèmes et apporte une aide à la décision précieuse pourvu qu’on sache bien en dresser les limites…

Cette vidéo est un des grains de culture scientifique et technique du MOOC sur l’Informatique et la Création Numérique. La vidéo a été réalisée par Manhattan Studio Production.

Pascal Barbier est géomaticien, ancien enseignant en SIG et chef de département à l’ENSG, École Nationale des Sciences Géographiques en charge des questions de formation à distance. Il a été chargé de mission pour le développement des applicatifs SIG pour accompagner le schéma directeur de la région Ile de France (SDREIF).

Pour aller plus loin

Google Maps versus OpenStreetMap: charting new territory on the Web?, Jean-Christophe PLANTIN, Ina Global, publié le 20 septembre 2013

Comment Google dessine sa carte du monde et De l’Antiquité à Google Maps, la cartographie miroir du pouvoir, France Culture, 28 décembre 2016
Comment le numérique transforme la pratique de l’Histoire ? dossier Thot Cursus mis à jour 16 octobre 2013

Ressources pédagogiques

Des outils numériques pour l’histoire géographie : Logiciels, applications, tutoriels de prise en main et usages pédagogiques, Thot Cursus, 2014
Tout sur Google Earth
Trucs & machins autour de l’histoire-Géo : site Scoop-it de curation par H.G Sempai
Histoire-Géographie au collège et au lycée : jeu de données pour enseigner avec un système d’information géographique – Ségrégations dans l’aire urbaine de New York Académie de Rouen, Éducation Nationale
Géomatique des transports. Une approche transversale entre « géographie » et « informatique et création numérique (ICN) » Samuel Coulon et David Roche, lycée général, académies de Paris et Grenoble

17 juillet 201713 juillet 2017

On nous cache tout, mais on sait tout

Binaire a demandé à Sonia Belaid de nous expliquer comment on peut percer les codes secrets de votre carte bancaire ou de votre téléphone qui devraient être bien gardés en observant finement comment se réalisent les calculs sur ces objets. Après une thèse à l’ENS Paris, Sonia Belaid est aujourd’hui ingénieure en cryptographie chez Thales. Pierre Paradinas.

Sonia Belaid, Crédit photo : Pascal Guittet.

Les attaques par canaux auxiliaires

Pour assurer la sécurité des communications devenue indispensable, la cryptographie garantit la confidentialité et l’intégrité des contenus échangés.

Il existe deux principales catégories d’algorithmes cryptographiques : les algorithmes symétriques et les algorithmes asymétriques. En pratique, pour protéger le contenu d’un message envoyé m en utilisant la cryptographie symétrique, l’émetteur utilise un algorithme de chiffrement (ENC) ainsi que sa copie de la clef secrète k pour obtenir un message chiffré c qui ne peut pas être déchiffré par un attaquant. Le récepteur utilise ensuite le pendant de l’algorithme de chiffrement (DEC) et sa copie de la clef k pour déchiffrer le chiffré c et retrouver le message m. Une illustration est proposée dans la figure ci-dessous.

Principe d’un système de chiffrement symétrique. Illustrations Sonia Belaid.

Dans ce contexte du chiffrement symétrique, la sécurité repose sur la clef k qui ne doit pas être connue d’un adversaire que l’on appelle usuellement attaquant. En effet, avec la connaissance de la clef partagée, cet attaquant serait en mesure de déchiffrer tous les messages échangés entre Alice et Bob, ce qui briserait la confidentialité. La plupart des algorithmes qui sont utilisés aujourd’hui dans le monde civil comme dans le monde de la défense sont prouvés résistants ou supposés résistants aux attaques classiques : même si un attaquant acquiert la connaissance de certains messages m et/ou certains messages c, il ne parvient pas à retrouver la clef secrète k. En réalité, la sécurité est calculatoire ; la clef k étant un grand nombre (par exemple, sur 128 bits), l’attaquant pourrait la retrouver en énumérant les valeurs possibles avec un message et un chiffré connus. Si chaque test se réalise en 1 milliseconde par exemple, l’attaquant aurait besoin de plus de milliards d’années pour réaliser tous les tests.

Néanmoins, dans les années 90, une nouvelle catégorie d’attaques a été découverte : les attaques par canaux auxiliaires. En plus de pouvoir utiliser certaines entrées et sorties connues (certains messages et chiffrés dans le cas du chiffrement), l’attaquant peut également se servir des émanations physiques de l’appareil exécutant l’algorithme cryptographique pour en retrouver les secrets.

Concrètement, en collectant des informations telles que le temps d’exécution de l’algorithme, l’évolution de la consommation de courant ou de la température de l’appareil, l’attaquant peut obtenir des informations sur les secrets.

Attaque par canaux auxiliaires sur le chiffrement symétrique. Illustrations Sonia Belaid.

Prenons un exemple simple pour illustrer l’intérêt du temps d’exécution. Lorsqu’on choisit un code PIN de 4 chiffres pour son téléphone, sans indice supplémentaire, un attaquant doit énumérer les 10 000 combinaisons possibles pour le retrouver. Si l’algorithme de vérification du code PIN fonctionne de manière basique, il peut regarder les chiffres proposés par l’utilisateur les uns après les autres et les comparer au fur et à mesure avec les chiffres enregistrés. A la première erreur, il renvoie un message pour indiquer que le code PIN est erroné, sinon il débloque le téléphone. Par exemple si le code sauvegardé est 1.2.3.4, tout code différent comme 1.8.3.4 déclenchera une erreur. Avec cette procédure, la réponse du téléphone en cas de code erroné est plus rapide si l’erreur vient du premier chiffre (par exemple, 7.2.3.4) que si elle vient du dernier à être comparé (par exemple, 1.2.3.9), car dans ce cas, le téléphone aura déjà fait une vérification des trois premiers chiffres. Un attaquant peut donc évaluer si le premier chiffre qu’il propose est juste ou faux en mesurant le temps de réponse du téléphone. Ainsi, il peut tester les 10 possibilités pour le premier chiffre et retrouver la valeur correcte sans se préoccuper du code restant. Il répète ensuite l’opération sur les trois chiffres suivants pour retrouver l’intégralité du code PIN. Avec l’information supplémentaire donnée par le temps de réponse, l’attaquant n’a besoin de tester que 40 possibilités (10 pour chaque chiffre) au lieu des 10 000 initiales, ce qui réduit significativement la sécurité du système. Pour contrer ces attaques par analyse de temps, les implémentations doivent être réalisées en temps constant. Dans cet exemple, il faudrait garantir que la réponse du téléphone arrive après un laps de temps constant quelques soient les erreurs relevées dans le code PIN proposé.

En plus des attaques par analyse de temps, les attaques par analyse de courant sont probablement parmi les plus déployées car particulièrement efficaces. En effet, les traces de consommation (valeurs de consommation en fonction du temps) d’un appareil (par exemple une carte bancaire) pendant l’exécution d’un algorithme cryptographique (par exemple le chiffrement d’un message) dépendent souvent des variables manipulées et donc des secrets. Si par exemple, les opérations réalisées dépendent de la valeur de la clef, alors celle-ci peut être identifiée sur la trace de consommation à cause de l’empreinte laissée par ces opérations.

La figure suivante représente la trace de consommation de courant relevée sur un appareil lors de l’exécution du chiffrement symétrique d’un message. L’algorithme de chiffrement utilisé s’appelle l’AES et réalise 10 tours d’opérations sur le message et la clef. Ces 10 tours peuvent être facilement identifiés sur la figure avec les 10 motifs similaires, dont le premier est désigné par un cercle rouge. Pour retrouver la clef manipulée, l’idée est ensuite de cibler une variable qui dépend de la clef et de quelques données connues (messages ou chiffrés) et de réaliser une analyse statistique avec les traces de consommation correspondant à ces mêmes données. Par exemple, si l’attaquant essaie de retrouver un petit morceau de clef sur 8 bits manipulés pendant le premier tour, il peut calculer toutes les valeurs possibles d’une variable utilisant ce morceau de clef et des données connues (pour une clef de 8 bits, il y a 256 valeurs possibles). Puis, il peut corréler ses résultats avec les valeurs de consommation des traces correspondant aux mêmes données connues. La meilleure valeur de corrélation lui donnera la clef de 8 bits la plus probable. Il suffit ensuite à l’attaquant de réitérer son attaque sur les morceaux de clef restants.

Trace de consommation lors d’un chiffrement symétrique. Illustrations Sonia Belaid.

Ces exemples nous montrent la puissance des attaques par canaux auxiliaires. Concrètement, sur un système non protégé, il suffit parfois de quelques heures, voire quelques minutes à un attaquant pour retrouver la clef secrète manipulée. Nous sommes donc très loin des milliards d’années sur lesquels la sécurité reposait avant. C’est pourquoi la recherche en cryptographie est très active pour identifier des contre-mesures (protections) adéquates à ces attaques. Parmi les plus déployées, les idées sont soit de renouveler les secrets suffisamment régulièrement pour empêcher l’attaquant de collecter assez d’information sur eux, soit d’ajouter des bits aléatoires pour fausser les observations. Dans les deux cas, le compromis entre sécurité et efficacité reste très important pour les systèmes embarqués, et l’un des grands enjeux aujourd’hui est d’exhiber de nouvelles contre-mesures de plus en plus efficaces, sans ralentir significativement les performances.

Sonia Belaid. ENS Paris, Thales

Pour aller plus loin :

le livre Power Analysis Attacks – Revealing the Secrets of Smart Cards fait le tour de la question (en anglais) ;
le site de l’IACR (International Association for Cryptologic Research) regroupe de nombreuses publications scientifiques en cryptographie dont une partie est consacrée aux canaux auxiliaires.

12 juillet 201701 septembre 2017

Podcast: numérique et écriture

Comment interagir avec une narration ?

Pour ce qui est de lire et écrire à l’âge numérique, tout est bouleversé. Le fait de dupliquer et transmettre l’information à coût quasiment nul, mais avec le risque d’une faible pérennité, le fait que chaque personne puisse devenir auteur sur le Web, mais au risque de voir sa production noyée dans l’océan informationnel, voilà un grand nombre de problématiques qui se téléscopent. Reprenons méthodiquement…

Cette vidéo est un des grains de culture scientifique et technique du MOOC sur l’Informatique et la Création Numérique. La vidéo a été réalisée par Manhattan Studio Production.

Olivier Banus a une formation de professeur d’histoire-géographie avant de devenir référent et animateur numérique et ingénieur pédagogique au CRDP devenu Canopé. Il est aujourd’hui coordonnateur territorial formation (PACA) chez Réseau Canopé.
Il est aussi investi dans des actions culturelles bénévoles et porte pour Canopé le projet Class’Code.

Pour aller plus loin

Version enrichie de Candide de Voltaire proposée par la BNF et Orange (2012) (téléchargement gratuit sur iTunes)
Présentation du congrès EcriTech 2016.
Un tutoriel pour créer des histoires interactives.
Présentation du concept de fiction interactive et de quelques outils pour en créer.
À propos d’analyse automatique de textes : Real Humans : des machines qui parlent comme des Hommes, ou presque… par Maxime Amblard, Interstices, 10 décembre 2013
La publication scientifique : du papier au numérique, Binaire, 17/02/2015

10 juillet 201707 juillet 2017

Numérique : ne perdons pas la mémoire

Binaire est très sensible au patrimoine numérique et son devenir. Dans un long article paru chez nos amis d’)i(nterstices, « Le patrimoine numérique, entre enjeux matériels et immatériels » Valérie Schafer fait le point sur la question du patrimoine et référence de très nombreuses initiatives pour le Web et les réseaux sociaux, qui montrent parfois le retard que nous avons pris sur certains aspects en France. Pierre Paradinas (Cnam).

Le patrimoine numérique, entre enjeux matériels et immatériels

Nous passons tous les jours du temps sur Internet, mais nous avons déjà oublié les sites que nous visitions assidûment il y a dix ans. À quoi ressemblaient-ils ? Pour s’en souvenir, nous pouvons nous plonger dans les archives du Web. La question de l’archivage du patrimoine numérique a d’ailleurs pris de l’ampleur ces dernières années…

Photo Jason Scott [CC BY 2.0], via Wikimedia Commons.

« Internet Archive redonne vie au Macintosh de 1984 », « Internet Archive : testez le Macintosh de 1984 dans votre navigateur », pouvait-on lire en ligne à la mi-avril 2017, sur des sites spécialisés dans les contenus informatiques et numériques. La fondation Internet Archive annonçait en effet la sortie d’un émulateur permettant de retrouver l’environnement des premiers ordinateurs personnels et avec lui des logiciels comme MacWrite, MacPaint ou des jeux tels que Dark Castle et Space Invaders.

Cette annonce médiatisée, le succès d’expositions consacrées aux jeux vidéo ces dernières années ou celle consacrée aux gifs par le Museum of the Moving Image de New York en 2014, le dynamisme d’institutions comme le Computer History Museum aux États-Unis, ou encore l’organisation en juin 2017 à Londres d’une semaine consacrée aux archives du Web (Web Archiving Week), sont autant de signes d’un intérêt pour le patrimoine numérique sous toutes ses formes. C’est ce patrimoine varié et hétérogène, conjuguant aspects matériels et immatériels et réunissant de nombreuses parties prenantes que nous vous invitons à découvrir, mais aussi les enjeux sous-jacents de cette patrimonialisation. En effet, la volonté de conserver les documents et traces numériques, d’archiver le Web, de transmettre aux générations futures un patrimoine informatique, si elle s’inscrit dans la continuité d’initiatives de patrimonialisation à la fois technique, scientifique et industrielle, devient aussi une patrimonialisation de la communication et par son ampleur acquiert un statut particulier, reconnu en 2003 par l’Unesco : celui de patrimoine numérique.

Les différentes facettes du patrimoine numérique

En octobre 2003, le patrimoine numérique est reconnu — et ainsi son existence et sa valeur pleinement légitimées — par une Charte de l’Unesco qui met sous un même chapeau, tout en les distinguant, patrimoine numérisé et patrimoine nativement numérique (ce que les Anglo-Saxons appellent Born-Digital Heritage) :

« Le patrimoine numérique se compose de ressources uniques dans les domaines de la connaissance et de l’expression humaine, qu’elles soient d’ordre culturel, éducatif, scientifique et administratif ou qu’elles contiennent des informations techniques, juridiques, médicales ou d’autres sortes, créées numériquement ou converties sous forme numérique à partir de ressources analogiques existantes. Lorsque des ressources sont « d’origine numérique », c’est qu’elles existent uniquement sous leur forme numérique initiale », note ainsi la Charte. Celle-ci énumère quelques-uns de ces documents nativement numériques qui peuvent être des textes, des bases de données, des images fixes et animées, des documents sonores et graphiques, des logiciels et des pages Web.

Si ce patrimoine partage bien des points communs avec le patrimoine culturel immatériel défini par l’Unesco la même année, une troisième forme de patrimoine, que nous qualifierons de patrimoine du numérique pour le distinguer des précédents, apparaît aussi en filigrane. Ainsi, la Déclaration de Vancouver sur le numérique de 2012 — La Mémoire du monde à l’ère du numérique : numérisation et conservation — souligne à quel point les enjeux matériels sont prégnants pour la sauvegarde d’un patrimoine numérique risquant d’être perdu en cas d’obsolescence rapide du matériel et des logiciels qui servent à le créer.

La conservation du matériel a certainement été l’enjeu le mieux identifié et le plus rapidement dans le cadre de la poursuite des projets de conservation d’un patrimoine technique, industriel et scientifique. Elle n’a pas attendu le numérique pour être prise en charge par de multiples acteurs de la patrimonialisation.

Depuis la fermeture en 2010 du musée de l’informatique installé à la Défense, il n’existe plus de lieu fédérateur unique pour les collections françaises, alors dispersées entre différentes associations et musées dont celui des Arts et Métiers. Mais un mouvement est actuellement entrepris pour la réalisation d’un projet global s’appuyant sur des matériels, logiciels, documentations techniques et histoires orales, déjà préservés par plusieurs partenaires et acteurs de la gestion du patrimoine du numérique sur l’ensemble du territoire français (l’ACONIT, AMISA, le Cnam et son musée, la FEB, Homo Calculus, ou encore l’Espace Turing).

Outre la préservation indispensable des matériels, le patrimoine numérique doit absolument être associé à une réflexion sur les éléments de documentation divers (guides et modes d’emploi, Cd-Roms, kits de connexion, etc.), qui permettent de le recontextualiser, mais aussi de retrouver un patrimoine interactif. En effet, l’émulation, la préservation de consoles, d’ordinateurs, d’interfaces de programmation applicative (API), contribuent à les maintenir vivants au sein de leur écosystème. Brewster Kahle l’avait relevé dès 1997 dans Archiving the Internet, notant que « alors qu’il est possible de lire un livre ancien de 400 ans imprimé par Gutenberg, il est souvent difficile de lire une disquette informatique qui a 15 ans ». Celui qui dès 1996 bouleverse le patrimoine numérique en se lançant par la création d’Internet Archive dans l’entreprise titanesque d’archiver le Web mondial soulignait déjà des enjeux que relèvent aujourd’hui en partie sa fondation et une pluralité d’autres acteurs, institutionnels et scientifiques, parmi lesquels le récent projet Software Heritage soutenu par Inria.

Le patrimoine nativement numérique : d’Internet Archive à Software Heritage

La Charte de l’Unesco en 2003, en insistant sur le patrimoine dit « d’origine numérique » (mentionné dans les articles 1 et 7) au même titre que le patrimoine numérisé, reconnaît la valeur de documents qui n’existent qu’en format numérique, mais aussi les efforts de préservation et de patrimonialisation engagés en amont de cette Charte.

Parmi les pionniers dans ce domaine, la fondation Internet Archive est lancée en 1996 par Brewster Kahle en s’appuyant sur son entreprise Alexa (créée en 1996 et vendue à Amazon en 1999), spécialisée dans l’analyse de flux et la recommandation de sites. Dès 2001, la Wayback Machine permet aux internautes de parcourir la Toile du passé (aujourd’hui 286 milliards de pages archivées).

Figurines en céramique de Ted Nelson, Mary Austin et Brewster Kahle présentes dans la grande salle d’Internet Archive à San Francisco. Photo Jason Scott [CC BY-SA 2.0], via Wikimedia Commons.

En parallèle, d’autres initiatives se manifestent, par exemple au sein des bibliothèques nationales canadiennes et australiennes. Des projets précoces dans les pays scandinaves visent aussi dans la seconde moitié de la décennie 1990 à étendre le périmètre du dépôt légal au Web, tandis qu’est lancé le projet AOLA (Austrian On-Line Archive) au début des années 2000 pour développer un archivage du Web autrichien.

Toutes ces démarches font écho aux évolutions qu’ a connues le patrimoine au cours des dernières décennies, à une patrimonialisation de plus en plus sensible à de nouveaux objets, mais aussi à l’ascension du numérique, qui prend place dans des aspects de plus en plus étendus et variés de nos vies professionnelles, économiques, sociales et personnelles.

Le mouvement est suivi dans la décennie 2000 par de nombreux pays européens, la France inscrivant l’archivage du Web dans le dépôt légal en 2006. Déjà dotée d’une expérience de conservation des vidéogrammes et documents multimédia composites depuis 1975 puis des multimédias, logiciels et bases de données depuis 1992, la Bibliothèque nationale de France (BnF) prend alors en charge cette mission avec l’Institut national de l’audiovisuel (Ina) qui se voit confier les sites Web relevant du périmètre audiovisuel. Au-delà de ces initiatives nationales, des initiatives transnationales peuvent être évoquées, par exemple le lancement en 2008 du projet LiWA (Living Web Archives).

En 2009, le projet Memento du Los Alamos National Laboratory Research Library a par ailleurs permis de réaliser un outil libre, offrant aux internautes un accès aux versions précédentes d’une page web grâce à un plug-in à ajouter au navigateur. Dans le même esprit, le projet « 404-no-more » porté par Firefox et Internet Archive vise à éliminer les « erreurs 404 » en redirigeant automatiquement vers une version archivée de la page demandée.

Outre les archives du Web, les archives des Newsgroups, espaces de discussion de la communauté Usenet (réseau né à l’extrême fin des années 1970), méritent aussi notre attention : gérées depuis 2001 au sein du service de forum Google Groups, elles « ont accompagné les efforts de légitimation de l’entreprise auprès des publics d’utilisateurs, à une époque où Google était en phase de développement et de diversification de ses activités », rappelle Camille Paloque-Berges dans son article. « Google, alors en train de gagner la guerre de moteurs de recherche, s’est érigé par ce geste en protecteur du passé du réseau, ainsi qu’en candidat à sa propre reconnaissance au sein de cette histoire. »

Les communications et usages numériques les plus récents n’échappent pas non plus à cette patrimonialisation, à l’instar de l’archivage de Twitter, pris en charge par la Bibliothèque du Congrès américaine en vertu d’un accord avec Twitter depuis 2009 ou encore, avec un périmètre beaucoup plus restreint, le suivi par l’Ina et la BnF de quelques centaines de comptes Twitter et mots-dièses précis.

Enfin, parmi les derniers venus, avec des ambitions complémentaires des autres et spécifique à un champ jusque-là peu préservé, le projet Software Heritage lancé en 2016 complète ce paysage en plein essor. Comme le note Roberto di Cosmo, un des principaux instigateurs et porteurs de cette initiative : « […] Archiver du code source pose des problèmes spécifiques qu’on ne rencontre pas dans d’autres domaines. […] La préservation du code source avec ses spécificités n’était vraiment au cœur de la mission de personne : on préservait des logiciels exécutables, jouables, des jeux vidéo, c’était notamment fait par Internet Archive qui a une grosse sélection de jeux vidéo. On préservait des pages web qui parlaient de logiciels et de codes sources. Mais les codes sources, comme objet noble, non. »

L’articulation entre patrimoines et publics

Public scientifique, experts, amateurs et grand public, monde des médias, industriels, étudiants et enseignants, les publics potentiels du patrimoine numérique sont nombreux et les usages de celui-ci encore largement à explorer, favoriser, stimuler, inventer. Ainsi Roberto Di Cosmo espère que le projet Software Heritage intéressera les acteurs du patrimoine scientifique et technique ainsi que ses publics, mais aussi le monde de la recherche scientifique, qui pourra y trouver une archive de référence, ou encore le monde industriel.

Cependant, pour réunir et accueillir pleinement les publics, plusieurs défis sont encore à relever, car la vocation d’ouverture et de participation n’a pas toujours été pensée au préalable : bien sûr, il y a des questions d’accessibilité des données, notamment dans le cadre du dépôt légal, qui limite la consultation des archives du Web in situ en France à la BnF et quelques bibliothèques en région. Mais les enjeux concernent aussi l’interopérabilité, qui se pose par exemple à l’échelle européenne, car les fonds d’archives du Web sont imperméables entre les différents pays. L’accessibilité doit aussi être cognitive et pose le problème de l’accompagnement dans la découverte de ces sources, de la maîtrise des outils de traitement, de la littératie numérique, du substrat de culture informatique et numérique nécessaire (sujet d’actualité autour de l’apprentissage du code dans le secondaire). Enfin, des enjeux éthiques ne peuvent manquer de se manifester. Reste également à penser davantage la place de ces publics en amont même des réalisations. Comme le notaient en 2011 Hafizur Rahaman et Beng-Kiang Tan dans leur article :

« Les projets actuels de patrimonialisation numérique se concentrent surtout sur le « processus » ou sur le « produit », mais ne considèrent que rarement les « utilisateurs » […]. Pour une meilleure interprétation et expérience d’un site relevant du patrimoine numérique, il nous faut une méthode d’interprétation inclusive, qui devrait tenir compte de la variété de compétences des utilisateurs, dépasser la linéarité de la narration et la subjectivité dans la création des contenus. » (traduction : Francesca Musiani)

Si en quelques années la situation a déjà beaucoup évolué, notamment sous l’effet d’échanges de plus en plus féconds et nombreux entre le monde des archives, des bibliothèques et des chercheurs, elle peut aller encore plus loin pour pleinement inscrire dans cette dynamique les producteurs et publics, notamment les « publics ordinaires ». Ceux-ci restent souvent simples spectateurs de choix qui ne sont au demeurant pas le seul fait des institutions patrimoniales, mais aussi de plus en plus souvent des grandes entreprises de communication.

Des objets de recherche, des objets au service de la recherche

Alors qu’à ses débuts, le patrimoine nativement numérique concernait essentiellement le monde des bibliothèques et des archives, les chercheurs commencent à s’y intéresser sérieusement depuis quelques années, l’envisageant à la fois comme objet de recherche propre et objets-sources au service de leurs recherches.

La réflexion a d’abord porté sur le patrimoine numérisé, que ce soit dans le champ de l’histoire ou des sciences de l’information et de la communication, mais des initiatives comme les ateliers du Dépôt Légal du Web à l’Ina, sont un jalon important en France dans l’implication des communautés de recherche autour des archives du Web.

Comme le relevait Louise Merzeau, coorganisatrice des ateliers, dans son article : « Bien sûr, ce déploiement d’une vue stratifiée du réseau ne nous est pas familier, et il nous faudra apprendre à la manipuler. Comme outil de représentation, de navigation et de compilation, c’est l’archive elle-même qui produira ces nouveaux usages. De la même manière que l’archivage des sources audiovisuelles a rendu possibles quantité de recherches sur la radio et la télévision qu’on ne pouvait auparavant formaliser, le dépôt légal du Web est une condition de sa conversion en fait de culture. »

Les historiens du monde contemporain se convertissent aujourd’hui pour certains avec enthousiasme à ces nouvelles sources. Au sein de ces approches, l’importance des réflexions épistémologiques et méthodologiques est notable : sans rompre avec les méthodes historiennes antérieures, les chercheurs sont conscients de l’importance de bien comprendre ces sources avant de les exploiter. Nous avons notamment pu souligner avec Francesca Musiani et Marguerite Borelli dans notre article « Negotiating the Web of the Past » l’importance d’ouvrir les boîtes noires des archives du Web pour en saisir les biais et les multiples médiations subies au cours de l’archivage. Nous n’en rappellerons ici que quelques rapides éléments afin d’insister sur le fait que, comme l’avait noté l’historien danois Niels Brügger en 2012 dans la revue Le Temps des Médias, l’archive du Web est rarement une copie parfaite du site Web dans son aspect originel sur le Web vivant. Enchâssée dans des interfaces de consultation contemporaines, transformée sous l’effet de la perte de documents (des publicités, des images dans les années 1990, etc.), une page subit de nombreux changements. Ceux-ci sont encore amplifiés à l’échelle d’un site, par la remise en hypertextualité, quand certains hyperliens introduisent des sauts temporels entre plusieurs pages archivées à des dates différentes, mènent parfois à des impasses (les pages ne sont pas toutes archivées, et un site est rarement archivé à plus de deux ou trois clics de profondeur), etc. Comprendre les techniques, périmètres, choix de conservation opérés par les institutions est un préalable à une création raisonnée de corpus, quand bien même le chercheur semble avoir à disposition suffisamment, voire trop, de données à étudier.

L’archivage de Twitter au moment des attentats parisiens de 2015, opéré par la BnF et l’Ina, en témoigne. Ainsi, si l’Ina a pu collecter au moment de ces attentats environ 11 millions de tweets, reste que cette collection pléthorique comporte nécessairement certains biais et lacunes, notamment par le choix des mots-dièses archivés (dont la sélection a été faite en temps réel, au cours des événements) ou encore par des pertes de tweets au moment de la collecte via l’API publique de Twitter (celle-ci limite en effet la collecte gratuite à 1% du flux mondial à un instant donné. Or les flux Twitter consacrés aux attentats ont parfois représenté plus de 1% du total de tweets émis au niveau mondial, faisant perdre partie d’entre eux).

De cette masse de données découle aussi une autre piste de réflexion, sur la nature des outils permettant d’exploiter ces vastes gisements. Comme le souligne Thomas Drugeon, responsable du dépôt légal du Web à l’Ina, lors de notre entretien — et la question se pose à l’identique côté BnF —, le chercheur ne peut emporter avec lui les données, pour leur offrir le traitement appareillé par les outils informatiques de son choix. Les règles du dépôt légal le contraignent à traiter ces documents dans les enceintes des institutions. Aussi le monde des archives du Web développe-t-il de plus en plus des outils destinés à accompagner les chercheurs, permettant notamment dans le cas de l’Ina la réalisation de timelines ou de nuages de mots, le suivi de la circulation et de la popularité d’images, ou encore le croisement de nombreuses métadonnées, dont témoignent quelques-unes des figures suivantes.

Possibilité de croiser les données et métadonnées au cours de l’exploration des tweets et mots-dièse dans l’interface Ina. © Ina

Timeline et statistiques d’une recherche sur #prayforparis dans l’interface Ina. © Ina

Possibilité de générer un nuage de mots à partir d’une recherche, ici sur #jesuisahmed, dans l’interface Ina. © Ina

La BnF, en implémentant également dans ses archives des attentats de 2015 une recherche plein texte qui permet de croiser de multiples facettes, offre une entrée facilitée dans les données, non sans questionner également le chercheur sur les biais que ces outils peuvent induire dans la recherche qu’il va mener et la manière dont il va aborder ces masses de données.

Recherche plein texte et possibilité d’affiner les résultats à l’aide de facettes dans les archives du Web des attentats de 2015. © BnF

Conclusion

« Toute personne qui travaille avec des archives du Web s’est rapidement habituée au fait que la plupart des gens n’en ont même jamais entendu parler — et encore moins comprennent ce qu’elles sont et comment y accéder. En 2016 cependant, il semble que les archives du Web ont commencé à pénétrer la conscience du public, à passer des pages Technologies de la presse aux sections politiques et même culturelles », notait Jane Winters dans son article en début d’année. L’année 2016 aura-t-elle été celle des archives du Web, comme le suggère l’historienne britannique, familière de ces matériaux depuis plusieurs années ? Et ce succès de visibilité ne risque-t-il pas de se faire au détriment d’autres patrimoines numériques, moins valorisés actuellement, mais tout aussi importants (conservation des banques de données par exemple) ?

Dans tous les cas, en France comme dans le monde anglo-saxon, ce sujet, jusque-là plutôt confidentiel, aura fait l’objet d’une plus large couverture médiatique, notamment de la part du Monde, de Libération ou encore de L’Express, à la faveur des vingt ans de la fondation Internet Archive et des dix ans du dépôt légal du Web en France. Ainsi, les 22 et 23 novembre 2016, au cours du colloque « Il était une fois dans le Web. 20 ans d’archives de l’Internet en France », se réunissaient de multiples acteurs intéressés par ce patrimoine, professionnels de l’archivage et des bibliothèques, des médias, journalistes et chercheurs. Tous les intervenants témoignaient avec passion des défis techniques, mais aussi politiques et culturels passés et à venir de ce patrimoine nativement numérique. De plus en plus pléthorique, ce patrimoine mettra également au défi l’écriture de l’histoire, non seulement celle du numérique mais celle de nos sociétés contemporaines dans toutes ses facettes.

Valérie Schafer (Historienne, chargée de recherche CNRS à l’Institut des sciences de la communication).

Retrouver )i(nterstices

05 juillet 201701 septembre 2017

Podcast : Logiciel libre

Comprendre les logiciels libres

C’est quoi un logiciel libre ? Que peut-on faire et comment les utiliser ? La question du logiciel libre, une question éthique certes, mais aussi un apport dans les modèles économiques qui ne sont pas figés et qui restent à continuer à inventer…

Cette vidéo est un des grains de culture scientifique et technique du MOOC sur l’Informatique et la Création Numérique. La vidéo a été réalisée par Manhattan Studio Production.

Philippe Lhardy est président de Linux Azur, association qui a pour objectif la promotion de GNU/Linux et des Logiciels Libres sur la Côte d’Azur.

La présentation a été préparée par Véronique Fritière, Vice-Présidente de l’association Linux Azur et secrétaire de l’AFUL. L’association Linux Azur est aussi membre de l’AFUL.

Pour aller plus loin

Le logiciel libre et ouvert : révolution ou évolution ?, Interstices, 16/05/2006
Economie du logiciel libre, François Elie, Eyrolles, 2009.
Le format open document par Jean-Christophe Becquet, Apitux, Formats ouverts et interopérabilité #150
Le format ODF (OpenDocument) par Pascal Cabaud, Univ. Paris Diderot, 2009

03 juillet 201710 juillet 2017

À propos des données pédagogiques

Le Directeur du Numérique pour l’Éducation, Mathieu Jeandron, a récemment envoyé une lettre qui encourage l’utilisation par les établissements scolaires de logiciels et de services d’entreprises numériques, pour administrer les données pédagogiques, c’est-à-dire les données concernant les élèves de l’Éducation nationale. Comme les données médicales, elles sont personnelles aux élèves, très sensibles et représentent une valeur considérable par exemple pour des agences de recrutement.

La Société informatique de France tient à rappeler qu’il incombe à l’Éducation nationale de les protéger.

Ces données doivent rester sous le contrôle de l’Éducation nationale. Si elles devaient être hébergées sur un serveur administré par une entreprise autre que l’Éducation nationale, cela doit être fait en répondant à un cahier des charges précis et sous le contrôle étroit de l’Éducation nationale.
Ces données doivent être stockées en Europe, pour être protégées par les lois européennes.
Ces données ne peuvent en aucun cas être monétisées. Il serait, par exemple, totalement inacceptable d’abandonner une part de cette protection comme prix d’un sponsoring d’une entreprise privée.

Il s’agit bien de questions de souveraineté de l’Éducation nationale et, au-delà, de la République. Il s’agit aussi de questions liées au respect de la vie privée des élèves.

Les données pédagogiques ont une valeur énorme car, même si c’est encore peu le cas aujourd’hui, elles peuvent servir à améliorer l’enseignement, en évaluant les méthodes, les contenus, les outils. Elles permettent aussi de personnaliser l’enseignement dispensé aux élèves. Elles doivent pouvoir être utilisées pour des besoins pédagogiques de manière transparente et équitable, ce qui implique :

qu’elles soient systématiquement anonymisées lorsqu’elles ne sont pas utilisées à des fins de personnalisation d’un enseignement,
qu’elles soient partagées et non mises à disposition d’une entreprise particulière,
qu’elles soient exprimées dans un format libre et permettant leur interopérabilité,
que leur analyse soit effectuée par des programmes transparents et libres.

Un tel cadre permettrait aux talents de l’Éducation nationale, aux entreprises, aux associations éducatives, de tout l’écosyst��me éducatif, de participer au grand défi de mettre le numérique au service de l’éducation.

L’Éducation nationale enseigne aux élèves qu’ils doivent être responsables de leurs données. Elle doit être particulièrement exemplaire dans ce domaine, au risque sinon de perdre toute crédibilité.

La Société Informatique de France encourage donc le gouvernement à une grande vigilance dans ce domaine.

Conseil scientifique de la Société Informatique de France