octobre 2020 – binaire

30 octobre 202015 octobre 2020

Raconte-moi un algorithme : on n’apprend bien qu’en se trompant

En 2020, chaque mois, Charlotte Truchet et Serge Abiteboul nous racontent des histoires d’algorithmes. Des blockchains aux algorithmes de tri en passant par le web, retrouvez tous leurs textes, ainsi que des petits défis mathématiques, dans le Calendrier Mathématique 2020 et dans la série binaire associée… Antoine Rousseau

Novembre : « On n’apprend bien qu’en se trompant »*

*Proverbe turc

Un enfant apprend sa langue maternelle en écoutant les personnes qui parlent autour de lui, en les imitant sans rien comprendre, dans un premier temps, à la grammaire, aux conjugaisons et aux déclinaisons. Il est incapable d’expliquer pourquoi il ne faut pas dire « j’ai allé à l’école », mais « je suis allé à l’école » ; il finit par savoir que cela ne se dit pas. De la même façon qu’on est souvent incapable de caractériser une phrase correcte, il existe de nombreux problèmes que les humains savent résoudre sans vraiment pouvoir en décrire précisément une solution algorithmique. Les algorithmes d’apprentissage servent dans ces cas là. Intuitivement, on entraîne d’abord l’algorithme d’apprentissage sur des cas particuliers du problème en lui donnant les solutions. L’algorithme dégage ensuite un modèle mathématique à partir de ces exemples. Confronté à un nouveau problème de la même famille, il essaie de faire au mieux en appliquant le modèle qu’il a élaboré. C’est peut être surprenant, mais cette façon de procéder par imitation fonctionne plutôt bien dans de nombreuses situations.
Par exemple, pour la traduction automatique entre l’anglais et le français, on part de tas d’exemples de couples <<texte – traduction>>. On utilise des méthodes basées sur les statistiques de traduction de groupes de mots par d’autres groupes de mots. On arrive à améliorer la qualité de la traduction en utilisant des “réseaux de neurones artificiels”, dont le fonctionnement est inspiré (d’assez loin) par des processus biologiques. Ils consistent en un empilage de couches de neurones artificiels. Chaque neurone traite un petit bout d’information. Tant que le résultat n’est pas satisfaisant on applique entre chaque couche, localement, des traitements correctifs. Le système finit par s’adapter à la masse d’exemples qu’on lui fait avaler. Ainsi, ses traductions s’améliorent au cours de l’apprentissage, au fil du temps.
Les techniques d’apprentissage, qui combinent toute une gamme d’algorithmes, ont de nombreuses applications. Ils ont, par exemple, permis aux programmes qui jouent au go de beaucoup progresser, jusqu’à battre les meilleurs joueurs. Dans le cas du jeu de go, l’espace de recherche a une taille gigantesque et les algorithmes d’exploration de cet espace s’y perdent. Des techniques d’ <<apprentissage par renforcement>> leur permettent de favoriser les bons choix, c’est-à-dire ceux qui ont conduit à des victoires dans des parties déjà jouées.

Serge Abiteboul et Charlotte Truchet

27 octobre 202026 octobre 2020

L’apprentissage à distance : une adaptation continue

Nombre d’entre nous ont d�� avec les contraintes du confinement avoir recours pour la première fois de leur vie massivement au télétravail. Certains ont été émerveillés par un apport du numérique qu’ils n’attendaient pas. D’autres ont souligné des problèmes majeurs soulevés par le distanciel. Claude Terosier de Magic Maker propose son point de vue. Dans un cadre particulièrement exigeant, les ateliers avec des enfants dans le cadre d’une structure très distribuée, elle montre comment ils ont fait face et tiré le meilleur de la situation. Bon, les formateurs du numériques étaient mieux que d’autres préparés. Une morale peut-être : il est urgent de nous former tous et toutes au numérique. Serge Abiteboul et Pauline Bolignano.

Claude Terosier, crédit Géraldine Aresteanu

Cela fait 6 ans que nous faisons des ateliers de programmation créative chez Magic Makers[1], grâce auxquels des milliers d’enfants et de jeunes de 7 à 18 ans apprennent à créer avec le codage informatique. Le 14 mars 2020, suite à l’annonce par le président de la République de la fermeture de tous les établissements scolaires de France, nous avons dû mettre à l’arrêt nos 300 ateliers hebdomadaires. Le 21 mars, ces 300 ateliers reprenaient, à distance, grâce à la visioconférence. En une semaine, nous avons testé un outil de visioconférence, établi une base de bonnes pratiques d’animation, et dessiné les grandes lignes de la manière d’adapter au format visioconférence des contenus d’ateliers interactifs pour des enfants du CE1 à la terminale. Pour que cela fonctionne, nous avons accompagné nos 50 animateurs pour qu’ils puissent devenir à l’aise dans cette nouvelle manière d’animer des ateliers.

Cela a été une période de réinvention très forte, sous la contrainte. Ce qui me frappe, c’est que l’évolution de la manière de mettre en oeuvre nos ateliers a été le miroir de la manière dont nous avons transformé nos pratiques au sein des équipes pour nous adapter au mode distanciel. Car nous avons dû en même temps également adapter nos modes de fonctionnement au sein de Magic Makers. Et cette transformation, au lieu de nous fragiliser, nous a renforcé, apportant des solutions parfois plus efficaces que par le passé à des enjeux de fonctionnement auxquels nous étions déjà confrontés avant le confinement.

La chose la plus importante, en atelier avec les enfants comme au sein des équipes, a été de maintenir le lien humain. Cela a demandé un effort conscient pour transposer les pratiques non verbales et instinctives en pratiques explicites. Nous prenions déjà le temps en début de réunion de faire une “inclusion” ou chaque participant partage ce avec quoi il arrive, énergie ou préoccupations, personnelles ou professionnelles. Ce temps a encore plus d’importance dans une réunion en visioconférence, ou l’on ne peut pas saisir, par la simple présence et gestuelle, l’état d’esprit de chacun, et où l’on ne voit pas tout le monde si chacun ne fait pas l’effort de mettre sa caméra et de parler chacun à son tour.

De la même manière, en atelier, l’utilisation de la caméra pour tous les participants est indispensable. Sinon, il n’y a pas interaction. Car il ne s’agit pas de parler sans savoir si l’on est entendu, mais d’aider chaque enfant à prendre sa place. Là où l’interaction entre l’animateur et chaque enfant est implicite lorsque l’on est dans la même salle, il faut la rendre explicite dans un format distanciel, pour que le lien existe, et que la transmission puisse se faire.

Au-delà de remplacer les réunions en présentiel et les ateliers avec les enfants par des réunions en visioconférence, c’est toute notre façon d’interagir et de communiquer au sein de Magic Makers qui a évolué. La crise est arrivée à point pour nous amener à accélérer la mise en place de solutions face des problèmes que nous n’avions pas encore résolus. Un bon exemple est l’utilisation du tchat, que nous avons appris à utiliser aussi bien dans nos ateliers, qu’entre nos animateurs

Lorsque l’on est connecté en visio, l’utilisation du tchat dédié à la session permet d’échanger des informations entre participants sans perturber le flux de celui qui parle. Celui-ci jugera bon de reprendre à l’oral une question posée à l’écrit dans le tchat visible de tous, ou indiquera à ceux qui ne l’ont pas remarqué qu’un lien a été ajouté pour que tout le monde puisse consulter un document.

Il y a des règles à respecter pour que l’outil soit efficace, et en tant que collaborateurs adultes, ces règles se sont imposées rapidement et implicitement dans nos réunions. Dans le cadre des ateliers, il a fallu expliquer aux plus jeunes comment utiliser ce canal spécifique, qui remplace des signaux non verbaux en atelier : lever la main, bouger la tête et ouvrir la bouche pour signaler que l’on veut poser une question par exemple.

En dehors des réunions, c’est un serveur de discussion qui est devenu un outil de travail incontournable en interne, remplaçant la communication informelle qui ne pouvait plus se faire, et fluidifiant de fait la circulation de l’information au sein de l’organisation. Les animateurs l’utilisent notamment pour demander et donner de l’aide en permanence, puisqu’ils ne peuvent se retourner vers leur voisin qui animerait dans la salle d’à côté pour lui poser la question. Cela démultiplie de fait l’efficacité. Là où il ou elle aurait eu la réponse de celui qui est à côté face à une difficulté concrète, il ou elle a la réponse de toute l’entreprise. Les problèmes se résolvent plus vite, parce que les bonnes pratiques que l’on invente face à une situation nouvelle se diffusent quasiment immédiatement.

Il est intéressant de constater que nous n’avions jamais réussi à faire prendre ce genre d’outil en interne, et que la crise a forcé l’adhésion quasi systématique des collaborateurs, et nous a permis de résoudre une difficulté de communication qui existait déjà avant, nos animateurs étant répartis sur une cinquantaine de lieux.

C’est un exemple significatif de la contrainte qui nous pousse à utiliser un outil numérique pour pallier à un besoin concret et où, au final, l’outil structure et apporte plus d’efficacité à la pratique informelle qu’il remplace, ne serait-ce qu’en supprimant les frontières spatiales et temporelles de l’interaction.

La seconde leçon de cette crise, après l’innovation par la contrainte, c’est l’adaptation permanente. La crise sanitaire, et ses conséquences sociales et économiques, nous a projeté dans une époque où il devient difficile de faire des prévisions plus de quinze jours ou un mois à l’avance. Les solutions que l’on met en place à un instant particulier ne sont plus forcément pertinentes telles quelles un mois plus tard, et demandent une adaptation constante.

Avec le déconfinement, la configuration des réunions a de nouveau été bouleversée. Les réunions qui fonctionnaient de manière fluide lorsque tout le monde était à distance devant son ordinateur n’étaient plus aussi efficaces dans une configuration hybride, avec certaines personnes ensemble physiquement dans une même salle et les autres à distance.
Le choix que nous avons fait est de clarifier qu’il y avait 2 types de réunions, qui sont programmées et menées différemment. Lorsque le fait de se voir est important pour l’objectif recherché, la réunion est programmée en présentiel, en s’assurant que l’on respecte les contraintes sanitaires. C’est le cas pour l’accueil d’un nouveau collaborateur, une réunion de brainstorming, ou même des points de management lors desquels des sujets émotionnels devaient être traités. Concrètement, des situations qui vont contribuer à créer et à entretenir le lien humain. Sinon, la réunion se fait en distanciel. Dans ce cas, même si certains participants sont présents sur le même lieu, ils se connectent individuellement à la visioconférence et non pas depuis la même salle, car autrement la réunion ne fonctionne plus. Avoir dans une réunion distancielle plusieurs personnes en présentiel dans une même salle et les autres à distance est un élément qui empêche la réunion d’être efficace, et c’est souvent une raison pour laquelle des organisations ont arrêté le télétravail à la fin du confinement. Chez nous, dans une même journée, un collaborateur peut se rendre sur son lieu de travail, et alterner des réunions en présentiel dans la même salle, et en distanciel dans des salles distinctes, avec les mêmes personnes.

Réunion à distance avec des collaborateurs de Magic Maker

Cela nous a permis de garder les améliorations apportées par les réunions en distanciel, car malgré la perte d’information et d’échanges non verbaux, elles nous ont permis d’être plus efficaces. Sans temps de transport, et sans “small talk” avant et après, les réunions démarrent à l’heure, et nous sommes souvent plus focalisés sur l’ordre du jour . L’efficacité de l’utilisation de documents de travail collaboratifs, dans lesquels tous les participants peuvent écrire en même temps puisque tout le monde est déjà sur son ordinateur, est encore renforcée.

Les mots clé à mon sens sont bien ceux-là : adaptation permanente, et hybridation. Prendre le meilleur du présentiel et du distanciel, en adaptant le curseur à l’évolution de la situation.

Du côté de nos ateliers, la même logique a prévalu. Grâce à l’épisode du confinement, nous avons découvert que nous pouvions faire fonctionner à distance la dynamique interactive de nos ateliers, confortés par les retours extrêmement positifs des enfants et des parents. Face à l’incertitude de la rentrée, et à cette nouvelle opportunité, nous avons fait évoluer la conception de nos ateliers hebdomadaires pour ce mois de septembre. Nous les avons pensés pour qu’ils puissent être proposés aussi bien en présentiel comme avant, qu’en distanciel pour ceux qui choisiraient de suivre l’atelier en se connectant depuis chez eux chaque semaine.

La rentrée, et l’émergence d’une seconde vague nous conforte dans ce choix de la versatilité et de l’adaptation permanente, aussi bien de nos ateliers, que de nos manières de fonctionner.

Claude Terosier, Magic Maker

[1] Magic Makers organise des ateliers pour apprendre le code. L’esprit en est donné par le manifeste : Magic Makers s’engage à former une génération qui a les moyens de résoudre les problèmes auxquels elle est confrontée. Parce que chacun peut créer avec la technologie et avoir un impact sur le monde, enfant comme adulte.

23 octobre 202002 novembre 2020

Interprétabilité, biais, éthique et transparence : quelles relations ?

Comment comprendre et expliquer une décision automatisée prise par un algorithme de ce qu’on appelle l’Intelligence Artificielle, ou IA, (par exemple un réseau de neurones) ? Il est plus qu’important de pouvoir expliquer et interpréter ces résultats, parfois bluffants, qui orientent souvent nos décisions humaines. Éclairage grâce à Marine LHUILLIER et Ikram CHRAIBI KAADOUD. Pascal Guitton et Thierry Viéville.

Interprétabilité vs explicabilité : comprendre vs expliquer son réseau de neurone (3/3)

Troisième et dernier article de notre série ( (vous pouvez trouver le premier article ici et le deuxième article là) qui questionne sur les concepts d’interprétabilité et d’explicabilité des réseaux de neurones, nous finissons ici par une ouverture sur les relations particulières entre l’interprétabilité, les biais, l’éthique et la transparence de ces réseaux.

Ces articles sont publiés conjointement avec le blog scilog, qui nous offre ce texte en partage.

Le but d’une approche d’interprétabilité est de permettre d’accéder à la mémoire implicite d’un réseau de neurones afin d’en extraire les règles et représentations encodées (i.e. apprises ou extraites à partir des données) lors de son apprentissage ; l’extraction pouvant intervenir pendant ou après celui-ci. Autrement dit, on peut explorer et amener dans le domaine de l’explicite le« raisonnement » implicite qu’il s’est lui-même construit grâce aux nombreux exemples vus et à la pratique répétée (de façon assez similaire à celle d’un humain qui acquiert des connaissances par l’expérience et le vécu).

A l’image d’un humain qui possède une représentation du monde dans lequel il vit, construite en fonction de son vécu et de son expérience, un réseau de neurones, au fur et à mesure qu’il est alimenté de données, se construit sa propre représentation également. Celle-ci étant certes limitée par les données apprises, elle contient tout de même son savoir et par extension les raisons sur lesquelles se basent son comportement et ses prédictions.

Mais dans ce cas, que se passe-t-il lorsqu’un individu n’apprend qu’une seule vision du monde (exemple volontairement exagéré : le ciel est de couleur verte le jour et grise la nuit) ?

Alors peu importe le nombre d’images de levers et couchers de soleil, de nuits étoilées ou de ciels pluvieux, il considérera toujours que toutes ces images sont erronées et seul ce qu’il a appris est juste. En tant qu’humain, nous avons néanmoins une capacité de questionnement et de remise en cause qui peut, avec le temps, nous amener, à travers notre vécu, à relativiser notre apprentissage et à réaliser qu’il existe d’autres nuances de couleurs toutes aussi belles à observer dans le ciel.

Malheureusement les réseaux de neurones n’ont pas cette capacité car ils réalisent souvent une phase d’apprentissage unique (surtout dans le cas d’apprentissage supervisé), de plusieurs exemples certes, mais dans les cas les plus répandus en une seule fois. Autrement dit, une fois une règle apprise, elle devient immuable ! Dans le cas de la classification des couleurs du ciel, cela n’a pas grand impact mais imaginons que cet algorithme soit utilisé pour classer la valeur des individus en fonction de leurs résultats quels qu’ils soient. L’algorithme pourrait alors considérer selon le type de données qu’il a reçu et donc la ou les règles qu’il a implicitement encodée, que seuls les profils de femmes correspondent à un poste de secrétaire et au contraire que seuls les CV d’hommes doivent être retenus pour un poste technique dans l’automobile. Ces exemples stéréotypés, bien qu’assez simples et basiques, reflètent une bien triste réalité : les biais présents dans les IA peuvent s’avérer dangereux et discriminatoires.

En effet, les algorithmes d’IA et leurs prises de décisions sont influencés par les données qu’ils apprennent. Cela soulève donc une problématique autour des biais présents dans ces données mais aussi ceux issus directement des développeurs implémentant ces algorithmes. De mauvais jeux de données peuvent amener à des conséquences fâcheuses ainsi qu’à une implémentation biaisée. Si un algorithme d’IA apprend à partir des données, des règles erronées ou biaisées alors ses décisions le seront tout autant et reproduiront ce que l’on appelle des biais de sélection ou encore de jugement. Un exemple tristement célèbre est la description fournie par Google en 2015 sur une photo d’un couple de personnes afro-américaines classifiées comme étant des gorilles car le corpus de données n’était pas assez représentatif de la diversité de la population…

Nous le constatons, l’impact de ces biais peut s’avérer très grave surtout dans des domaines critiques tels que la santé, la défense ou encore la finance. De nos jours, de nombreux travaux existent sur ce sujet afin d’étudier ces biais. Néanmoins il est important de souligner qu’en prendre connaissance ne signifie pas obligatoirement que nous savons comment les éliminer [Crawford, 2019] ! De plus, la suppression de ces biais dans un algorithme peut s’avérer très coûteuse en termes de ressources car il faudrait relancer les apprentissages des réseaux de neurones après correction. Or selon leur profondeur, leur complexité et le volume de données à traiter, ce coût peut s’avérer très, voire trop, important. Ces biais sont ainsi parfois conservés par défaut car ils seraient trop coûteux et incertains à corriger. Par exemple, GPT-3, le modèle de langage développé par la société OpenAI en 2020 [Brown, 2020], nécessiterait une mémoire de plus de 350 Go, avec un coût lié à l’entraînement du modèle qui dépasserait les 12 millions de dollars.

Que retenir ?

Dans le cadre de la démystification des réseaux de neurones, algorithmes d’IA dit aussi “boîtes noires”, l’interprétabilité et l’explicabilité sont deux domaines de recherche distincts mais très liés. Si l’interprétabilité consiste à étudier et expliciter la logique interne des réseaux de neurones, autrement dit leur fonctionnement, l’explicabilité se focalise elle sur “comment” donner du sens à cette logique interne de manière la plus adaptée possible. Ainsi l’interprétabilité est souvent réalisée par des experts en Machine Learning pour d’autres experts alors que l’explicabilité peut être à destination de néophytes et d’experts.

L’intérêt que nous portons donc, tout comme de nombreux chercheurs, à ces deux domaines prend tout son sens dans les questions sociétales et éthiques abordées précédemment : l’impact des biais, la discrimination, le respect du RGPD, etc. En effet, réussir à mieux comprendre le fonctionnement de ces algorithmes nous permet d’aider à la démystification de l’IA et à rendre ces “boîtes noires” plus transparentes, intelligibles et compréhensibles. D’une manière plus générale, cela permet aussi d’améliorer la confiance de chacune et chacun d’entre nous en ces outils qui tendent à devenir omniprésents dans notre vie quotidienne ou, a contrario, de refuser ceux qui ne seraient pas suffisamment transparents.

Si nous avions accès au “comment” et au “pourquoi” les décisions des outils IA sont émises, peut-être pourrions-nous alors intervenir sur leur fonctionnement ainsi que sur les données leur servant de base d’apprentissage qui sont souvent nos propres données. Nous pourrions alors nous assurer que nous allons bien vers une société plus inclusive où chacune et chacun d’entre nous est respecté dans toute sa diversité…

Petit mot des autrices :

Cet article à vocation pédagogique présente une approche pour faire de l’interprétabilité. Il en existe d’autres et pour les plus curieux, la bibliographie de chaque billet est là pour vous ! Les billets n’ont pas non plus pour vocation de poser d’équivalence entre un humain et un réseau de neurones car un humain est beaucoup plus complexe ! Les exemples fournis sont justement présents à titre d’illustration pour permettre une meilleure assimilation des concepts. Nous serions toutefois heureuses d’en discuter plus amplement avec vous !

Marine LHUILLIER et Ikram CHRAIBI KAADOUD .

Ingénieure R&D en informatique diplômée de l’EPSI Bordeaux, Marine s’est spécialisée lors de sa dernière mission dans la recherche à la jonction de l’IA et des Sciences cognitives, notamment dans le domaine de l’interprétabilité.
Ikram quant à elle, chercheuse IA & Sciences cognitives, ainsi qu’ancienne Epsienne, se passionne pour la modélisation de la cognition ou autrement dit comment faire de l’IA inspirée de l’humain. Toutes deux ont collaboré dans le cadre d’un projet de recherche en Machine Learning sur l’interprétabilité des réseaux de neurones chez l’entreprise onepoint.

Références :

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Agarwal, S. (2020). Language models are few-shot learners. arXiv, arXiv:2005.14165.

Crawford Kate (2019) « Les biais sont devenus le matériel brut de l’IA ». URL : https://www.lemonde.fr/blog/internetactu/2019/10/03/kate-crawford-les-biais-sont-devenus-le-materiel-brut-de-lia/

20 octobre 202002 novembre 2020

L’interprétabilité selon différentes approches

Interprétabilité vs explicabilité : comprendre vs expliquer son réseau de neurone (2/3) Second article d’une série de trois articles (vous pouvez trouver le premier article ici et le troisième article là) qui questionnent sur les concepts d’interprétabilité et d’explicabilité des réseaux de neurones, cet article offre une vue globale sur les approches d’interprétabilité existantes selon les objectifs recherchés et tente d’apporter des éléments de réponses à la question “comment ouvrir les “boîtes noires” que sont les réseaux de neurones?”

Ces articles sont publiés conjointement avec le blog scilog, qui nous offre ce texte en partage.

Si les réseaux de neurones artificiels font partie des algorithmes de Machine Learning les plus précis, ils sont cependant aujourd’hui les plus obscurs pour l’humain (Figure 1).

En effet, dans l’approche que les chercheurs et développeurs ont eu pendant des années, ils ont souvent négligé ou oublié l’interprétabilité et la transparence de ces algorithmes au profit de la performance.

Figure 1 – Niveaux d’interprétabilité des algorithmes de Machine Learning. Image adaptée à partir de Dam et al. [2018]

Interprétabilité locale ou globale ?

Lorsque l’on évoque l’interprétabilité des réseaux de neurones artificiels il est primordial de savoir ce que nous cherchons à expliquer et l’usage que nous souhaitons en faire. En effet, les techniques qui en découlent se distinguent selon plusieurs critères.

Tout d’abord, il est nécessaire de savoir quel type de comportement nécessite d’être analysé. Cherchons-nous à fournir une explication au comportement de la totalité du modèle ou en revanche son comportement sur un résultat en particulier ?

La première approche, nommée interprétabilité globale tend donc à fournir une explication sur le comportement global du réseau et ce, sur l’ensemble des données qu’il a apprises. Elle permet de rendre le processus de prise de décision transparent pour toutes les données et s’avère être un moyen précieux pour évaluer la pertinence de ce que le modèle a appris [Clapaud, 2019]. D’autre part, l’interprétabilité locale tend à fournir une explication pour un résultat précis, c’est-à-dire pour une décision en particulier sur une échelle très réduite. Elle est particulièrement pertinente lorsqu’il est nécessaire d’analyser un cas en particulier pour les besoins d’une personne (patient, client…) par exemple [Guidotti, 2018].

Illustrons cela par un exemple : Imaginons avoir accès à un four à micro-ondes High-Tech dont nous aurions perdu le mode d’emploi, et donc, dont nous ignorions le fonctionnement. Nous pouvons alors toujours observer la réaction du micro-ondes lorsqu’on appuie sur les boutons au fur et à mesure. En faisant cela, on associe un résultat (plat chauffé) à l’arrivée d’une information (j’ai appuyé sur un bouton en particulier). C’est ce qui revient, en fait, à interpréter localement le comportement de la machine (ici le four à micro-ondes) en fonction d’informations entrantes puisque nous associons une action et un résultat par le biais d’une fonction. Nous sommes alors dans une dimension d’interprétabilité locale :

Dans le cas du micro-ondes :

Fonctions du micro-ondes (bouton de chauffage appuyé) = plat chauffé

Dans un cas plus générique :

Fonctions d’un réseau de neurones (donnée entrante à l’instant t) = résultat/prédiction à l’instant t

L’interprétabilité globale correspond à une description simple et globale du fonctionnement complet du micro-ondes. Autrement dit, il s’agit de donner dans les grandes lignes son mode de fonctionnement : on saura quel type de boutons permet de décongeler, quel autre type de boutons permet de chauffer, quel type de boutons permet d’ajuster le temps de chauffage, etc. Mais nous n’aurons pas accès directement aux comportements précis, tel que “pour décongeler un aliment il faut d’abord en sélectionner le type, puis le poids, puis vérifier le temps régulièrement afin d’atteindre le résultat souhaité.

En résumé, l’interprétabilité globale permet d’accéder aux chapitres et grandes sections du mode d’emploi, là où l’interprétabilité locale permet d’accéder à des fonctions bien spécifiques du micro-ondes.

Etudier un raisonnement “en cours” ou “construit” ?

Le deuxième usage qu’il est important de déterminer consiste à définir le moment où l’extraction des connaissances du réseau sera faite.

Si la phase d’interprétabilité est effectuée pendant l’apprentissage du réseau de neurones il s’agit d’une méthode pédagogique car il est possible d’observer le comportement de celui-ci à plusieurs moments de son apprentissage. En effet il est admis, que lors de cette étape, le réseau de neurones arrive à identifier et à extraire des caractéristiques des données qui lui permettent de s’auto ajuster, i.e. apprendre par la modification des poids.

En revanche, si l’extraction se fait à posteriori de l’apprentissage, i.e. pendant la phase de test, on parle de méthode de décomposition car on observe, dans ce cas, l’activité de chaque couche cachée du réseau séparément avant de les combiner.

Par exemple, considérons une tâche d’apprentissage supervisé où un réseau doit apprendre à classifier des images de tortues et de chatons. Au fur et à mesure de son apprentissage, donc au fur et à mesure qu’il reçoit des exemples, ce réseau va identifier les caractéristiques des images qui sont spécifiques à chaque classe : pixels, code couleur, positionnement d’un ensemble de pixels, etc. Ainsi, plus il va traiter d’exemples, plus il identifiera ces caractéristiques (features en anglais) et donc plus il pourra s’ajuster pour faire correspondre la bonne image à la bonne classe.

Dans ce cas précis, si on applique une méthode pédagogique sur ce réseau il est possible d’observer à différents moments de son apprentissage (par exemple tous les 100 exemples présentés) l’évolution de cette phase d’identification des caractéristiques. Autrement dit, on pourra observer ce qu’il apprend et la construction de son « raisonnement ».

A contrario, si on utilise la méthode de décomposition on va venir étudier le comportement du réseau de neurones (i.e. les activités des unités de la ou des couches cachées) à chaque fois qu’il reçoit une image à posteriori de son apprentissage.

A ce stade, donc durant la phase de test, le réseau a fini d’apprendre et il est possible d’extraire et d’analyser son activité au niveau de ses couches cachées (son comportement ou activité interne) face à chaque image selon l’apprentissage réalisé précédemment. Autrement dit, lors de ce processus, on extrait des comportements individuels des couches cachées avant de les combiner pour obtenir le comportement global du réseau et donc comprendre son « raisonnement ».

Analyser un réseau de neurones après apprentissage via une méthode de décomposition permet donc en quelque sorte d’évaluer son apprentissage implicite en l’explicitant.

Que retenir ?

S’il ne fallait retenir qu’une chose, c’est qu’en termes d’interprétabilité, comme en Machine Learning en général, il n’existe pas une approche possible mais plusieurs. Selon la question à laquelle on souhaite répondre (expliquer un comportement local ou global du réseau) et ce que l’on souhaite comprendre (comment apprend-t-il à partir des données ou comment fait-il ses prédictions ?) la ou les approches d’interprétabilité des réseaux de neurones adoptées seront différentes.

En effet, il est possible de vouloir expliquer ou comprendre le comportement du réseau dans sa totalité, i.e faire de l’interprétabilité globale : quelles sont l’ensemble des règles que le réseau a appris implicitement pour classer des tortues et des chatons ? Ou au contraire s’intéresser plus particulièrement à un exemple en faisant de l’interprétabilité locale : pourquoi cette image précise a été classée ainsi ?

Sur le même principe, cherchons-nous à comprendre comment le raisonnement du réseau se construit en “temps réel” ou une fois celui-ci terminé ?

Souhaiter répondre à ces questions nécessite de choisir, d’implémenter et/ou d’utiliser la technique d’interprétabilité adéquate parmi les nombreuses existantes. Pour en savoir plus à ce sujet, il est possible d’explorer des domaines de recherche du Machine Learning comme le Representation learning connu aussi sous le nom de feature learning [Bengio et al, 2013] et Rules Extraction [Jacobson, 2005].

De plus, se questionner sur l’interprétabilité et l’explicabilité des réseaux de neurones nous amène en tant que chercheurs et utilisateurs de ces algorithmes, à nous pencher sur leur impact dans notre vie quotidienne et par extension à des questions d’ordre éthique et d’acceptabilité : sommes-nous prêts à accepter plus d’IA si nous n’avons pas de garantie au niveau de l’éthique, de l’inclusion et de la justice ? Surtout, avons-nous les moyens de répondre à nos questionnements sur ce sujet ? Ces relations complexes entre interprétabilité, biais, éthique et transparence seront justement présentées dans le troisième et dernier article de cette série !

La suite est ici, avec le 3ème article.

Marine LHUILLIER et Ikram CHRAIBI KAADOUD .

Ingénieure R&D en informatique diplômée de l’EPSI Bordeaux, Marine s’est spécialisée lors de sa dernière mission dans la recherche à la jonction de l’IA et des Sciences cognitives, notamment dans le domaine de l’interprétabilité.
Ikram quant à elle, chercheuse IA & Sciences cognitives, ainsi qu’ancienne Epsienne, se passionne pour la modélisation de la cognition ou autrement dit comment faire de l’IA inspirée de l’humain. Toutes deux ont collaboré dans le cadre d’un projet de recherche en Machine Learning sur l’interprétabilité des réseaux de neurones chez l’entreprise onepoint.

Références :

Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, 35(8), 1798-1828.

Clapaud, Alain (2019). Explicabilité des IA : quelles solutions mettre en oeuvre ? Publié sur LeMagIT. URL : https://www.lemagit.fr/conseil/Explicabilite-des-IA-quelles-solutions-mettre-en-uvre

Dam, H. K., Tran, T., & Ghose, A. (2018). Explainable software analytics. In Proceedings of the 40th International Conference on Software Engineering: New Ideas and Emerging Results (pp. 53-56).

Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Giannotti, F., & Pedreschi, D. (2018). A survey of methods for explaining black box models. ACM computing surveys (CSUR), 51(5), 1-42.

Jacobsson, H. (2005). Rule extraction from recurrent neural networks: A taxonomy and review. Neural Computation, 17(6), 1223-1263

16 octobre 202015 octobre 2020

Une réforme Post-Quantique

Pourquoi dit-on que les ordinateurs quantiques vont bouleverser la cryptographie d’aujourd’hui ? Quelles nouvelles attaques pourraient-ils permettre et peut-on s’en prémunir ? Mélissa Rossi a effectué sa thèse en cryptographie post-quantique dans le laboratoire de cryptographie de l’ENS de Paris. Ce laboratoire fait aussi partie de Inria, CNRS et PSL. Son projet de thèse a aussi été financé par Thales et par l’agence nationale de la sécurité des systèmes d’information (ANSSI). Elle vient nous éclairer sur ces questions dans la rubrique « Il était une fois ma thèse ». Pauline Bolignano et Pierre Paradinas

©Fondation l’Oréal – Jean-Charles Caslot

Sans qu’on ne s’en rende compte, des calculs de mathématiques avancés sont utilisés sans cesse dans les puces de nos téléphones, nos cartes bancaires, ou encore nos passeports. Grâce à eux, nous n’avons pas à faire les calculs nous-mêmes pour protéger notre vie privée : nos informations personnelles entrent dans ce que l’on pourrait voir comme une “micro-usine”, et en ressortent chiffrées, c’est à dire protégées, emballées, prêtes à être envoyées sur le réseau. Ces usines sont en fait des algorithmes cryptographiques qui tournent silencieusement dans nos appareils. Ces dernières rendent nos données privées inintelligibles lorsqu’elles transitent dans le réseau. Si on est pas le destinataire, il est impossible de les déchiffrer, à moins d’être capable de résoudre des problèmes mathématiques difficiles comme la factorisation des grands nombres par exemple.

Après une cinquantaine d’années de bons et loyaux services, ces micro-usines sont menacées de fermeture !

Leur pire ennemi, l’ordinateur quantique de grande échelle, pourrait un jour débarquer et les rendre obsolètes. Cet ordinateur repose sur des principes physiques différents des ordinateurs actuels et pourrait détricoter rapidement tous les calculs soigneusement réalisés dans ces usines et ainsi révéler au grand jour toutes nos données personnelles. Plus précisément, cette technologie pourrait résoudre les problèmes mathématiques sur lesquels reposent tous nos systèmes (plus d’information sur l’informatique quantique).

Nous voilà avertis: si cela arrive, plus rien à faire. Plus aucune barrière cryptographique ne pourra nous protéger. Nos comptes bancaires, notre identité et nos communications seraient disponibles aux cyber-attaquants.

Néanmoins, l’avancée de la recherche dans le domaine de l’informatique quantique est encore loin d’atteindre la création d’ordinateurs quantiques capables de d’anéantir les micro-usines actuelles. A moins d’un progrès scientifique fulgurant, ces ordinateurs ne seront vraisemblablement pas créés avant plusieurs dizaines d’années, au moins. Mais, les syndicats ont fait remonter plusieurs questions relatives au futur de leurs usines :

– Que faire des micro-usines installées dans des processeurs à longue durée de vie (plus de 30 ans par exemple)? Ceux-ci ne sont pas à l’abri des potentielles attaques quantiques futures.

– Et si une entité malveillante enregistrait et stockait toutes les communications actuelles dans le but d’utiliser un ordinateur quantique dans le futur pour récupérer des informations secrètes passées ?

Une réforme pour éviter la fermeture

Une première piste envisageable pour éviter ces puissantes attaques serait d’utiliser la cryptographie quantique; mais elle ne pourra pas être déployée dans les prochaines décennies car elle nécessite un réseau et des infrastructures quantiques.

La communauté scientifique est donc actuellement en réflexion pour trouver une solution à moyen terme et changer les méthodes de protection des informations privées sans utiliser d’informatique quantique. L’idée serait de réformer complètement les calculs mathématiques utilisés actuellement dans nos micro-usines. Comme tout grand changement, nous ne pouvons cependant pas modifier tous nos systèmes en un claquement de doigts. Il faudrait d’abord tester ces nouvelles méthodes pour vérifier leur sécurité, et surtout, éviter une seconde mutinerie liées à de nouvelles failles non anticipées.

Ma thèse

Pendant 3 ans, j’ai analysé une possible nouvelle technique prometteuse utilisant une structure mathématique appelée “réseaux euclidiens”.

Les réseaux euclidiens sont des structures discrètes d’un espace multidimensionnel. Le caractère discret de ces réseaux assure l’existence d’un plus court vecteur. Cependant, trouver le plus court vecteur d’un réseau donné est considéré comme un problème difficile; ce qui permet la création de nouveaux systèmes. En effet, le temps nécessaire pour le trouver est tellement grand que l’on considère que c’est impossible en temps raisonnable. Même si cette difficulté est toujours conjecturée à l’heure actuelle, elle est supportée par plus de garanties en termes de complexité quantique et classiques que la factorisation.

J’ai essayé d’attaquer ces potentielles nouvelles micro-usines de manière à les mettre à l’épreuve. Celles-ci ont beaucoup d’avantages en terme d’efficacité et de sécurité, mais j’y ai tout de même trouvé des failles qui les rendent vulnérables à certaines cyber-attaques. J’ai ensuite mis en place des mesures de protection pour chaque attaque:

1) Les attaques par calcul de temps. Selon les opérations à faire et selon les valeurs des nombres manipulés, les calculs prennent plus ou moins de temps. En mesurant le temps qu’ils mettent, on peut parfois retrouver des données secrètes. Nous avons mis en place des protections qui, grossièrement, consistaient à mettre un temps fixe pour les calculs. Le défi était de ne pas trop affecter l’efficacité.

2) Les attaques physiques. Supposons qu’un attaquant peut mesurer plusieurs paramètres physiques (la température, les ondes électromagnétiques qui émanent de la puce contenant la micro-usine…). Ces mesures pouvaient laisser fuir des informations secrètes et il fallait que l’on mette en place de nouvelles protections qui consistaient à ajouter des “faux calculs” pour brouiller les signaux.

3) Les attaques par échecs. Les réseaux euclidiens sont une structure complexe à manipuler et parfois des erreurs sont commises, ce qui entraîne l’échec du calcul. Ces erreurs sont extrêmement rares, mais en les sur-sollicitant avec l’aide fictive d’un ordinateur quantique, ces “bugs” peuvent devenir plus fréquents. Contrairement à ce que l’on pourrait penser, les échecs peuvent donner de l’information sur les secrets utilisés, ce qui a été à l’origine d’attaques et de nouvelles protections.

Finalement, même s’il reste encore à pousser l’analyse plus loin pour renforcer la confiance de la communauté scientifique dans les méthodes fondées sur les réseaux euclidiens et à gagner en efficacité, les ouvriers sont rassurés et se préparent sereinement à la grande réforme de protection post-quantique.

Pour aller plus loin, une vidéo de 10 minutes permet d’aller plus en détails. Et pour aller encore plus loin, mon manuscrit est disponible en ligne.

Mélissa Rossi

16 octobre 202015 octobre 2020

Une réforme Post-Quantique: le podcast

Pourquoi dit-on que les ordinateurs quantiques vont bouleverser la cryptographie d’aujourd’hui ? Quelles nouvelles attaques pourraient-ils permettre et peut-on s’en prémunir ?

En lien avec l’article de fond sur le sujet, Mélissa Rossi nous propose ce postcast vidéo pour nous permettre d’aller dans les détails. Et pour aller encore plus loin, son manuscrit est disponible en ligne.

Mélissa Rossi a effectué sa thèse en cryptographie post-quantique dans le laboratoire de cryptographie de l’ENS de Paris. Ce laboratoire fait aussi partie de Inria, CNRS et PSL. Son projet de thèse a aussi été financé par Thales et par l’agence nationale de la sécurité des systèmes d’information (ANSSI).

12 octobre 202012 octobre 2020

Numérique est mon droit

Un nouvel « Entretien autour de l’informatique ». Célia Zolynski est Professeure de droit privé à l’Université Paris Panthéon-Sorbonne, co-directrice du Département de recherche en droit de l’immatériel de la Sorbonne, et membre du Comité national pilote d’éthique du numérique. Ses activités de recherche et d’enseignement portent sur le droit du numérique, le droit de la propriété intellectuelle, le droit du marché et les libertés fondamentales. Elle explique comment les utilisateurs du numérique doivent reprendre le contrôle de leurs données, et ce que la loi peut faire pour cela.
Cet article est publié en collaboration avec theconversation.fr.

*Célia Zolynski, photographie Didier Goupil*

B : Peux-tu nous expliquer ton parcours de recherche en droit du numérique ?

CZ : Ce qui m’a intéressée dès le début de ma carrière de chercheure a été de comprendre comment le droit pouvait se saisir de ce nouvel objet qu’était internet et comment cela conduisait à adapter un certain nombre de normes juridiques ainsi que la façon même de les concevoir. J’ai alors cherché à déterminer comment utiliser la logique de l’informatique pour poser un autre regard sur des questions juridiques. Cela m’a conduite à me rapprocher par curiosité, par intérêt et pour solidifier mes compétences, de chercheurs en informatique, et à participer à des recherches à cheval sur les deux domaines.

Mon premier poste en qualité de professeur Agrégée en droit était aux Antilles. J’ai alors beaucoup travaillé sur les notions de patrimoine immatériel chères à la culture caribéenne. Cela m’a ramené sur les questions de droit d’auteur et j’ai d’ailleurs été associée à un certain nombre de débats sur la loi Hadopi.

Rentrée en métropole, j’ai été en poste à Rennes où j’ai enseigné le droit des affaires, le droit commercial. C’est alors plutôt sous l’angle du commerce électronique que je me suis intéressée au déploiement des réseaux. J’ai également animé un groupe de chercheurs en droit dans le cadre du réseau Trans Europe Experts, qui répond aux consultations des institutions de l’Union Européenne notamment sur les révisions des directives relatives au droit d’auteur dans l’environnement numérique. C’est à ce titre-là que j’ai commencé à m’intéresser au droit des données à caractère personnel, à l’époque où l’Union européenne lançait la réforme qui a abouti à l’adoption du RGPD.

J’ai ensuite été nommée au Conseil National du Numérique (sa troisième vague) dont la doctrine me semblait fondatrice pour le développement de la stratégie numérique française et européenne. Les personnes que j’y ai côtoyées m’ont permis de mieux comprendre certains aspects du numérique, la logique sous-jacente. C’est alors que j’ai pris conscience de la place essentielle que devrait avoir l’utilisateur dans la régulation du numérique. C’est devenu un axe important de mes travaux. L’objectif est de transformer cet utilisateur en un agent actif. Cela passe par des solutions techniques mais cela demande aussi de penser différemment un cadre juridique qui lui donne les moyens d’agir sans pour autant déresponsabiliser les entreprises.

Depuis, j’ai passé 4 ans comme Professeure à l’Université de Versailles Saint-Quentin à Paris-Saclay. C’est à Saclay que j’ai pu initier des collaborations avec des informaticiens, notamment Nicolas Anciaux d’Inria. Aujourd’hui, je suis Professeure à Paris-Sorbonne 1, Université au sein de laquelle je prolonge mes travaux aux côtés de chercheurs issus des Humanités numériques philosophes, historiens et économistes.

B : Tu as insisté sur la place de l’utilisateur dans la régulation du numérique ? Tu peux nous en dire plus.

CZ : Quand on analyse, par exemple, les conséquences du RGPD ou de la loi pour une république numérique, on réalise assez vite la difficulté pour les utilisateurs de pleinement profiter des protections de leurs données personnelles et de leur vie privée. On leur propose une approche purement défensive. Au-delà, on aimerait les placer en capacité de préserver activement leur autonomie informationnelle de ne pas se contenter des murs de protection que les systèmes informatiques et la loi mettent autour de leurs données.

On peut faire une analogie avec la figure traditionnelle du consommateur. Dans le cadre d’un discours paternaliste, on cantonnait le consommateur au rôle d’un enfant à protéger. Dans une approche plus moderne, on dépasse cette vision pour en faire un véritable acteur du marché.

De la même façon, on voudrait juridiquement donner à l’utilisateur des services numériques les moyens de garantir sa pleine autonomie informationnelle. Cela peut commencer par exemple par le droit à la portabilité des données, c’est-à-dire le droit de récupérer toutes ses données personnelles d’une application numérique. Mais on voit bien déjà, à travers cet exemple, la difficulté de mettre véritablement l’utilisateur en position de maîtriser son monde numérique. Quelles données ? Sous quel format ? Pour en faire quoi ?

Très rapidement, on se rend compte que ces pouvoirs d’agir donnés aux consommateurs peuvent n’être que des faux-nez, des faux-semblants, instrumentalisant le consentement de l’utilisateur pour faciliter la récupération de ses données. Vous acceptez les cookies d’une application parce que sans, le service se détériore, parce qu’on vous redemande sans cesse de les accepter. Quelle est alors la valeur de votre consentement ?

Un autre exemple de faux-semblant va nous être proposé par une approche qui se réclame pourtant de la défense des utilisateurs. Gaspard Koening, notamment, propose de reconnaître un droit de propriété sur ses données qui s’accompagnerait du droit de vendre ses données personnelles pour en tirer bénéfice. D’abord, on peut s’interroger sur le champ d’une telle mesure car peu de données sont réellement personnelles, les données étant le plus souvent sociales. Ai-je le droit de vendre des données qui me mettent en scène avec un grand ami ? Peut-il également les vendre ? On peut également se demander si cette consécration du droit de propriété serait conforme au RGPD. Mais, surtout, on peut craindre que, à partir du moment où l’on a vendu des données personnelles, on en perde la maîtrise. En essayant de réaffirmer le droit de l’utilisateur sur ses données, on arriverait alors à lui faire perdre tout contrôle sur ce qui en serait fait ! La propriété des données personnelles serait alors une sorte de miroir aux alouettes…

A mon avis, il faut tout au contraire redonner à l’utilisateur le contrôle sur ce qui est fait de ses données personnelles. C’est sur ça que porte ma recherche, sur comment conférer un véritable pouvoir à l’utilisateur, comment lui donner vraiment les moyens d’exercer son contrôle sur ses données personnelles. Pour ce faire, on va le placer en capacité, en faire un véritable agent du système en évitant des faux-semblants de liberté que sont l’instrumentalisation du consentement de l’utilisateur ou la monétisation des données.

B : Comment peut-on réaliser cela ?

CZ : On ajoute une brique supplémentaire que nous appelons, avec Nicolas Anciaux, l’ « agentivité ». Au-delà de la possibilité de récupérer ses données avec la portabilité, l’agentivité implique de véritablement savoir ce qui est fait de ses données, et de pouvoir en décider les usages.

Nous allons un peu dans le même sens que Tim Berners-Lee dans son projet Solid (Social Linked Data, en anglais). Ses idées sont de dépasser la réalité actuelle du web et des risques qui résultent des monopoles de situation qui se sont installés en associant l’utilisateur à la régulation de ses données personnelles. Dans notre projet, nous sommes plus ambitieux encore en offrant à l’agent le contrôle de l’usage de ses données, voire la possibilité de générer lui-même de nouveaux usages, en lui permettant d’orchestrer sous son contrôle des traitements de données. Il déciderait des traitements réalisés et on lui garantirait la conformité de ces traitements aux décisions qu’il a prises. Ça c’est la partie technique. La partie juridique serait de faire une sorte de manifeste qui assure la conformité des traitements, et la possibilité de les contrôler tout du long.

B : Pourrais-tu illustrer avec un exemple comment cela peut marcher en pratique.

CZ : Prenons le cas du cloud personnel. L’utilisateur peut choisir d’auto-héberger ses données. Il en contrôle ainsi l’usage. Il choisit les algorithmes qui tournent sur ses données et protège lui-même la confidentialité de ses données. Il a une parfaite autonomie informationnelle.

Mais vous allez me dire que l’utilisateur n’a pas les compétences de faire tout cela, que même s’ils les avaient, il n’a pas forcément envie de passer son temps à gérer des données. Certes, mais il peut payer une entreprise pour le faire. Ça reste de l’auto-hébergement parce qu’il paie l’entreprise, il a un contrat avec elle qui indique que c’est à lui de décider. On est très loin du modèle classique des plateformes du web qui pour héberger vos données se rétribuent en monétisant ces données ou votre attention. Ici, vous payez pour choisir ce qui est fait de vos données.

B : Mais en devenant le gérant de ses données, un utilisateur ne risque-t-il pas de devenir également responsable, de perdre la protection de lois comme le RGPD ?

CZ : C’est un vrai sujet. Qui dit liberté et choix, dit responsabilité. Mais si la responsabilité de l’utilisateur est une chose, sa responsabilité juridique aux titres de ses actes en est une autre. Toute la difficulté est là. Reprenons le cas du cloud personnel. Si vous décidiez d’auto-héberger vos données, seriez-vous alors le responsable de ces traitements parce que vous les avez choisis ? Perdriez-vous alors la protection du RGPD ? Ce serait terrible que le prix de votre souveraineté numérique soit la perte des protections du droit des données à caractère personnel.

Nous travaillons pour essayer de dégager un équilibre. L’utilisateur doit être mis en capacité cognitive de comprendre comment le système fonctionne, de faire des choix éclairés. Mais la responsabilité juridique de la sécurité du système revient à l’opérateur du cloud. Nous réfléchissons à des régimes juridiques de répartition « raisonnable » de la responsabilité. L’utilisateur ne serait responsable que de la partie qu’il maîtrise et le fournisseur du cloud personnel du reste et en particulier de la sûreté.

Tout l’intérêt du sujet de ces systèmes d’auto-hébergement, sa difficulté, réside dans le besoin d’articulation entre les aspects techniques et juridiques. Nous étudions avec Nicolas Anciaux les promesses autour de l’empowerment de l’utilisateur dans les solutions proposées et identifions éventuellement les vraies perspectives et les fausses promesses, en particulier les risques de responsabilisation déraisonnable des utilisateurs.

De : A Manifest-Based Framework for Organizing the Management of Personal Data at the Edge of the Network », R. Ladjel, N. Anciaux, P. Pucheral, G. Scerri, proceedings of International Conference on Information Systems Development (ISD), 2019.

B : Tu fais partie du Comité national pilote d’éthique du numérique. Pourquoi est-ce important ?

CZ : Le CNPEN a été mis en place en décembre 2019 sous l’égide du Comité consultatif national d’éthique à la demande du Premier ministre. Il est constitué de 27 personnes issues du monde académique, des entreprises ou de la société civile. En abordant de manière globale les enjeux d’éthique du numérique, son rôle est à la fois d’élaborer des avis sur les saisines qui lui sont adressées et d’effectuer un travail de veille pour éclairer les prises de décision individuelles et collectives.

Je suis ravie d’en faire partie. Dans le cadre de ce comité, nous pouvons explorer différents thèmes autour d’enjeux éthiques et d’éducation. Nous avons ouvert plusieurs sujets au CNPEN sur les chatbots, les véhicules autonomes, les décisions médicales mais aussi la désinformation, la télémédecine et les algorithmes de traçage pendant la pandémie. Chacun de ces sujets interpelle, pose des questions critiques à la société. Au sein du CNPEN, nous pouvons en débattre sereinement ; nous avons souvent des spécialistes du domaine parmi les membres du comité.

Par exemple, les phénomènes de désinformation et de mésinformation ont été exacerbés à l’occasion de la crise engendrée par l’épidémie de COVID. Cela a conduit les plateformes numériques telles que les réseaux sociaux, moteurs de recherche, ou systèmes de partage de vidéos à développer encore plus leurs pratiques et leurs outils numériques pour lutter contre leurs effets délétères tant sur le plan individuel que collectif. Si la modération des contenus et le contrôle de la viralité jouent un rôle prépondérant dans le contrôle pragmatique de la désinformation et de la mésinformation, ces opérations soulèvent d’autres questionnements éthiques relatifs au rôle joué par différentes autorités dans ce processus.

Cela interroge tout d’abord l’autorité ainsi acquise par les plateformes et le contrôle qui devrait en résulter. Ensuite, il apparaît que ces opérations ne peuvent se passer d’instances qui identifient les informations acceptables et celles qui ne le sont pas. Différentes questions émergent alors s’agissant de la légitimité dont jouissent ces instances dès lors qu’elles sont considérées par les plateformes comme contribuant à établir la vérité, à définir notre société.

Il nous faut ensuite repenser, ici encore, le rôle joué par l’utilisateur. Sa liberté de s’exprimer doit être pleinement garantie comme vient de l’affirmer le Conseil constitutionnel dans sa décision du 18 juin dernier qui a jugé la Loi « Avia » en grande partie inconstitutionnelle. Mais, dans le même temps, l’utilisateur doit être mieux informé du rôle qu’il peut jouer en tant qu’ « agent de la viralité » des contenus illicites et pouvoir contribuer à la régulation des contenus circulant sur le réseau. C’est un point essentiel auquel il convient de réfléchir tant sur le plan technique que juridique.

B : Une conclusion peut-être ?

CZ : Dans les sujets que nous discutons au CNPEN, cela devient de plus en plus évident : l’heure est venue de nous interroger collectivement sur la société que nous voulons construire demain avec le numérique. Les questions sociétales que cette technologie pose sont de plus en plus essentielles. On ne peut pas les appréhender si on ne considère qu’une facette du problème, par exemple que l’aspect technique, ou que juridique, ou qu’économique, etc. Il faut mener véritablement des recherches pluridisciplinaires.

On a déjà beaucoup avancé sur la protection de données mais la question est devenue, au-delà de la protection, de contrôler les usages des données dans la société. La même donnée peut servir pour la recherche médicale, pour des intérêts commerciaux, pour la surveillance, etc. La question n’est pas uniquement de choisir qui y a accès, mais de contrôler à quoi elle va servir. Et puis, cette donnée, ma donnée, peut aussi m’être utile personnellement, je veux également pouvoir développer mes propres usages des données.

Pour arriver à cela, il va falloir imaginer de nouvelles solutions techniques, de nouveaux cadres juridiques. Pour que cela fonctionne, la confiance est fondamentale. Je dois avoir confiance dans la robustesse de la technologie mais aussi dans la solidité du cadre juridique qui protège mes données.

Serge Abiteboul, Inria et ENS, Paris, et Laurence Devillers, Professeure, Université Paris-Sorbonne

08 octobre 202008 octobre 2020

Lancement de Planet Tech’Care

Binaire, a demandé à Véronique Torner, co-fondatrice et présidente de alter way , membre du CA du Syntec Numérique, présidente du programme Numérique Responsable et membre du Conseil Scientifique de la SIF (Société informatique de France) de nous parler de l’initiative Planet Tech’Care. Marie Paule Cani et Pierre Paradinas.

Binaire: Véronique peux tu nous dire en quoi consiste le projet Planet Tech’Care?
Véronique Torner : Planet Tech’Care est une plateforme qui met en relation des entreprises et des acteurs de la formation qui souhaitent s’engager pour réduire l’empreinte environnementale du numérique avec un réseau de partenaires, experts du numérique et de l’environnement.

En s’engageant autour d’un manifeste, les signataires ont accès gratuitement à un programme d’accompagnement composé d’ateliers conçus par les partenaires de l’initiative.

La plateforme est animée par le programme Numérique Responsable de Syntec Numérique. Le projet a été initié sous l’impulsion du Conseil National du Numérique.

Binaire : Qui sont les membres de Planet Tech’Care ?

Véronique : Vous avez d’un côté les signataires du manifeste, des entreprises de tous secteurs et de toutes tailles (du CAC40 à la start-up) et des écoles, universités, instituts de formation et d’un autre côté les partenaires, organisations professionnelles, associations, think tanks, spécialistes du sujet Numérique & Environnement.

Binaire : Que contient le manifeste de Planet Tech’Care

Véronique : Les signataires du manifeste Planet Tech’Care reconnaissent que le numérique génère une empreinte environnementale et s’engagent à mesurer puis réduire les impacts environnementaux de leurs produits et services numériques. Ils s’engagent également à sensibiliser leurs parties prenantes afin que tous les acteurs de l’écosystème numérique soient en mesure de contribuer à réduire leurs impacts sur leurs périmètres de responsabilité. En parallèle, les acteurs de l’enseignement, ainsi que les acteurs du numérique proposant des formations à leurs collaborateurs, s’engagent à intégrer des formations au numérique responsable et écologiquement efficient dans leur curriculum de cours. Ainsi, la nouvelle génération de professionnels sera en capacité de développer des produits et services technologiques numériques bas carbone et durables.

Binaire : Qui peut rejoindre le projet ? Pourquoi et comment impliquer les jeunes ?

Véronique : Toute entreprise et tout acteur du domaine de l’éducation peuvent nous rejoindre. Rassembler suffisamment de signataires dans le domaine de l’éducation sera essentiel pour impliquer massivement les jeunes. On peut à terme imaginer d’intégrer des formations au numérique responsable adaptées à tous les programmes des universités et autres établissement d’enseignement supérieur, des formations spécialisées en informatique à tous les secteurs utilisant le numérique, mais aussi d’associer une sensibilisation au numérique responsable aux programmes d’initiation au numérique au collège et au lycée. Nous comptons ensuite sur l’énergie et l’enthousiasme des jeunes pour que ces nouveaux usages diffusent à l’ensemble de la société.

Binaire : Comment sera évalué l’intérêt du projet Planet Tech’Care ?

Véronique : Nous ferons un premier bilan dans un an qui sera constitué de plusieurs indicateurs : le nombre de signataires, la qualité des ateliers, un baromètre de maturité de notre communauté. Nous comptons pour le lancement plus de 90 signataires et plus de 10 partenaires qui démontrent déjà l’intérêt d’une telle initiative. Notre enjeux est de :

– créer une dynamique autour d’acteurs engagés pour le numérique éco-responsable,
– fédérer les expertises pour passer de l’engagement à l’action,
– et enfin créer des communs pour passer à l’échelle.

Binaire : Tu es dans le CA du Syntec Numérique et le CS de la SiF, pourquoi ces instances se mobilisent-elles sur la question de la responsabilité sociale et plus particulièrement sur les impacts environnementaux ?

Véronique : Syntec Numérique est en première ligne sur les enjeux du Numérique Responsable qui constitue un des cinq programmes stratégiques de notre organisation professionnelle. Nous œuvrons depuis plusieurs années sur l’inclusion sociale et sur l’éthique du numérique. En ce qui concerne les enjeux environnementaux, notre industrie a un double challenge à relever. Nous devons bâtir des solutions numériques au service de la transition écologique, car nous le savons Il n’y aura pas de transition écologique réussie sans numérique. Et nous devons aussi, comme toutes les industries, réduire notre empreinte environnementale. Nous avons un groupe de travail très actif sur le sujet et nous animons désormais la plateforme Planet Tech’Care.

Par ailleurs, la SiF, Société informatique de France, qui anime la communauté scientifique et technique en informatique, a déjà montré son engagement pour une double transition numérique et écologique lors de son congrès annuel 2020, qui a porté sur ce thème. Diffuser plus largement cette réflexion est indispensable pour agir plus largement non seulement sur les acteurs socio-éconimique mais aussi, et en particulier via l’éducation, sur l’ensemble de la société. En particulier, le conseil scientifique de la SIF a tout de suite montré un grand enthousiasme pour le projet Planet Tech’ Care, jugé essentiel pour que le numérique devienne un véritable levier pour les transitions sociétales et écologiques !

Pour aller plus loin :

Site web de Planet Tech’Care : www.planet-techcare.green
Retrouvez les vidéos des présentations des scientifiques lors du Congrès 2020 de la SiF à propos de : Transitions numériques et écologiques https://congres.societe-informatique-de-france.fr/programme/

04 octobre 202006 octobre 2020

Raconte-moi un algorithme : pour quelques octets de moins

Octobre : Pour quelques octets de moins

Un fichier contenant du texte, du son ou une image, fait facilement plusieurs méga (10⁶) octets. Pourtant, on arrive à le compresser en un fichier de quelques kilos (10³), gagnant ainsi espace mémoire, temps, énergie, quand on transfère le fichier par exemple. Après décompression, on peut lire, écouter, voir le fichier de départ. Les fichiers contiendraient-ils du vide ?

En fait, la longueur du fichier ne mesure pas forcément la quantité d’information contenue dedans. Comparons un fichier qui contient 50 000 000 fois <<ga bu zo meu>>, et un autre qui contient toutes les pièces de Molière. Le deuxième fait moins de signes que le premier, et pourtant, il contient plus d’information ! Pour compresser le premier, il suffit de stocker quelque part le motif <<ga bu zo meu>> et de prévenir qu’il faut le répéter 50 000 000 fois. Pour le deuxième, c’est une autre paire de manches… On peut remplacer chaque occurrence d’un mot fréquent, comme <<femme>>, par un code plus court, comme #34#, et se souvenir que #34#=femme. On gagne un peu… Peut-on faire mieux ?

Un des algorithmes les plus classiques de compression est celui de Lempel-Ziv-Welch, qui date de 1984. Comprimons l’extrait : <<Un sot savant est sot plus qu’un sot ignorant>>. D’abord, on stocke une table, appelée dictionnaire, contenant tout l’alphabet. Ensuite, il faut imaginer lire le texte, lettre par lettre. La première lettre, <<U>>, est déjà dans la table : on écrit dans le nouveau fichier sa place dans le dictionnaire. On procède ainsi tant qu’on lit de nouvelles lettres. Un jour ou l’autre, on lit une lettre qu’on avait déjà vue : cela arrive au <<s>> de savant. Alors, on regarde la lettre suivante, <<a>>, et on rajoute au dictionnaire la combinaison « sa ». On écrit dans le nouveau fichier la place de cette nouvelle combinaison. On continue ! A chaque fois qu’on découvre une nouvelle suite de caractères, on étend le dictionnaire. Si on applique cet algorithme à phrase considérée, on arrive ainsi à factoriser parfaitement le mot <<sot>>. Et plus le texte est long, plus on en factorise de gros morceaux.

Il est relativement simple, à partir du fichier compressé, de retrouver le fichier de départ. Les deux fichiers contiennent exactement la même information. Et pourtant, ils n’ont pas le même nombre de caractères !

L’algorithme de LZW que nous venons de décrire est encore de nos jours au coeur d’algorithmes de compression de textes (gzip) ou d’images (gif). Vous avez sans doute rencontré ces termes comme suffixe de fichiers. Et oui, ils viennent des algorithmes de compression utilisés.

Serge Abiteboul et Charlotte Truchet