mars 2021 – binaire

30 mars 202130 mars 2021

IA et démocratie participative : la confiance règne ?

Le développement de la démocratie participative a fait émerger de nouvelles formes de consultations avec un grand nombre de données à analyser. Les réponses sont complexes puisque chacun s’exprime sans contrainte de style ou de format. Des méthodes d’intelligence artificielle ont donc été utilisées pour analyser ces réponses mais le résultat est-il vraiment fiable ? Une équipe de scientifiques lillois s’est penchée sur l’analyse des réponses au grand débat national et nous explique le résultat de leur recherche . Pierre Paradinas, Pascal Guitton et Marie-Agnès Enard.

Cet article est publié en collaboration avec The Conversation.

Dans le cadre d’un développement de la démocratie participative, différentes initiatives ont vu le jour en France en 2019 et 2020 comme le grand débat national et la convention citoyenne sur le climat. Toute consultation peut comporter des biais : ceux concernant l’énoncé des questions ou la représentativité de la population répondante sont bien connus. Mais il peut également exister des biais dans l’analyse des réponses, notamment quand celle-ci est effectuée de manière automatique.

Nous prenons ici comme cas d’étude la consultation participative par Internet du grand débat national, qui a engendré un grand nombre de réponses textuelles en langage naturel dont l’analyse officielle commandée par le gouvernement a été réalisée par des méthodes d’intelligence artificielle. Par une rétro-analyse de cette synthèse, nous montrons que l’intelligence artificielle est une source supplémentaire de biais dans l’analyse d’une enquête. Nous mettons en évidence l’absence totale de transparence sur la méthode utilisée pour produire l’analyse officielle et soulevons plusieurs questionnements sur la synthèse, notamment quant au grand nombre de réponses exclues de celle-ci ainsi qu’au choix des catégories utilisées pour regrouper les réponses. Enfin, nous suggérons des améliorations pour que l’intelligence artificielle puisse être utilisée avec confiance dans le contexte sensible de la démocratie participative.

Le matériau à analyser

Nous considérons le traitement des 78 questions ouvertes du grand débat national dont voici deux exemples :

« Que faudrait-il faire pour mieux représenter les différentes sensibilités politiques ?” du thème “La démocratie et la citoyenneté”

“Et qui doit selon vous se charger de vous proposer ce type de solutions alternatives ?” dans le cadre des propositions de solutions de mobilité alternative du thème “La transition écologique”

Les réponses aux questions sont des textes rédigés par les participants qui vont de quelques mots à plusieurs centaines de mots avec une longueur moyenne de 17 mots. Pour chaque question, on dispose de quelques dizaines de milliers de réponses textuelles à analyser. Le traitement d’une telle quantité de données est difficile pour des humains, d’où la nécessité de l’automatiser au moins partiellement. Lorsque les questions sont fermées (avec un nombre prédéfini de réponses), il suffit de faire des analyses quantitatives sous forme de comptes, moyennes, histogrammes et graphiques. Pour des questions ouvertes, il faut se tourner vers des méthodes d’intelligence artificielle.

Que veut-dire analyser des réponses textuelles ?

Il n’est pas facile de répondre à cette interrogation car, les questions étant ouvertes, les répondants peuvent laisser libre cours à leurs émotions, idées et propositions. On peut ainsi imaginer détecter les émotions dans les réponses (par exemple la colère dans une réponse comme “C’est de la foutaise, toutes les questions sont orientées ! ! ! On est pas là pour répondre à un QCM !”), ou encore chercher des idées émergentes (comme l’utilisation de l’hydrogène comme énergie alternative). L’axe d’analyse retenu dans la synthèse officielle, plus proche de l’analyse des questions fermées, consiste à grouper les réponses dans des catégories et à compter les effectifs. Il peut être formulé comme suit : pour chaque question ouverte et les réponses textuelles associées :

1. Déterminer des catégories et sous-catégories sémantiquement pertinentes ;

2. Affecter les réponses à ces catégories et sous-catégories ;

3. Calculer les pourcentages de répartition.

L’étude officielle, réalisée par Opinion Way (l’analyse des questions ouvertes étant déléguée à l’entreprise QWAM) est disponible sur le site du grand débat. Pour chacune des questions ouvertes, elle fournit des catégories et sous-catégories définies par un intitulé textuel et des taux de répartition des réponses dans ces catégories.

Par exemple, pour la question “Et qui doit selon vous se charger de vous proposer ce type de solutions alternatives ?”, l’analyse a catégorisé les réponses de la façon suivante :

Les acteurs publics	43,4%
Les solutions envisagées	8,8%
Les acteurs privés	6,6%
Autres contributions trop peu citées ou inclassables	22,5%
Non réponses, (les réponses vides)	30,2%

On constate que les catégories se chevauchent, que la catégorie “Les solutions envisagées” ne correspond pas à une réponse à la question et que le nombre d’inclassables est élevé (22.5% soit environ 35 000 réponses non prises en compte).

L’analyse officielle : la méthode

Regrouper des données dans des catégories correspond à une tâche appelée classification non supervisée ou clustering. C’est une tâche difficile car on ne connaît pas les catégories a priori, ni leur nombre, les catégories peuvent se chevaucher. De surcroît, les textes en langage naturel sont des données complexes. De nombreuses méthodes d’intelligence artificielle peuvent être utilisées comme, par exemple, la LDA pour “Latent Dirichlet Analysis” et ses nombreux dérivés.

Quelle est la méthode utilisée par l’entreprise QWAM ? À notre connaissance, les seules informations disponibles se trouvent dans la présentation de la méthodologie. On y décrit l’utilisation de méthodes internes qui sont “des algorithmes puissants d’analyse automatique des données textuelles en masse (big data), faisant appel aux technologies du traitement automatique du langage naturel couplées à des techniques d’intelligence artificielle (apprentissage profond/deep learning)” et le post-traitement par des humains : “une intervention humaine systématique de la part des équipes qualifiées de QWAM et d’Opinion Way pour contrôler la cohérence des résultats et s’assurer de la pertinence des données produites”.

Regard critique sur l’analyse officielle

Il semble que l’utilisation d’expressions magiques telles que “intelligence artificielle” ou “big data”, ou bien encore “deep learning” vise ici à donner une crédibilité à la méthode aux résultats en laissant penser que l’intelligence artificielle est infaillible. Nous faisons cependant les constats suivants :

– Les codes des algorithmes ne sont pas fournis et ne sont pas ouverts ;
– La méthode de choix des catégories, des sous-catégories, de leur nombre et des intitulés textuels associés n’est pas spécifiée ;
– Les affectations des réponses aux catégories ne sont pas fournies ;
– Malgré l’intervention humaine avérée, aucune mesure d’évaluation des catégories par des humains n’est fournie.

Nous n’avons pas pu retrouver les résultats de l’analyse officielle malgré l’usage de plusieurs méthodes. Dans la suite, nous allons voir s’il est possible de les valider autrement.

Une rétro-analyse de la synthèse officielle

Notre rétro-analyse consiste à tenter de ré-affecter les contributions aux catégories et sous-catégories de l’analyse officielle à partir de leur contenu textuel. Notre approche consiste à affecter une contribution à une (sous-)catégorie si le texte de la réponse et l’intitulé de la catégorie sont suffisamment proches sémantiquement. Cette proximité sémantique est mesurée à partir de représentations du texte sous forme de vecteurs de nombre, qui constituent l’état de l’art en traitement du langage (voir encadré).

Nous avons testé plusieurs méthodes de représentation des textes et plusieurs manières de calculer la proximité sémantique entre les réponses et les catégories. Nous avons obtenu des taux de répartitions différents selon ces choix, sans jamais retrouver (même approximativement) les taux donnés dans l’analyse officielle. Par exemple, la figure ci-dessous donne les taux de répartitions des réponses dans les catégories obtenus avec différentes approches pour la question « Quelles sont toutes les choses qui pourraient être faites pour améliorer l’information des citoyens sur l’utilisation des impôts ? ».

Pour compléter notre rétro-analyse automatique, nous avons mis en œuvre une annotation manuelle sur la question “Et qui doit selon vous se charger de vous proposer ce type de solutions alternatives ?” du thème Transition Ecologique et la catégorie Les acteurs publics et avons trouvé un taux de 54.5% à comparer avec un taux de 43.4% pour l’analyse officielle, soit une différence de 15 000 réponses ! Les réponses à cette question sont globalement difficiles à analyser, car souvent longues et argumentées (25000 réponses contenant plus de 20 mots). Notre étude manuelle des réponses nous a fait remarquer certaines réponses comme “moi-même”, “les citoyens”, “c’est mon problème”, “les français sont assez intelligents pour les trouver seuls” ou encore “les citoyens sont les premiers maîtres de leur choix”. Pour ces réponses, nous avons considéré une catégorie Prise en charge par l’individu qui n’est pas présente dans la synthèse officielle bien qu’ayant une sémantique forte pour la question. Un classement manuel des réponses donne un taux de 4.5% des réponses pour cette catégorie, soit environ 7000 réponses, taux supérieur à certaines catégories existantes. Ceci met en évidence un certain arbitraire et des biais dans le choix des catégories de la synthèse officielle.

En résumé, notre rétro-analyse de la synthèse officielle montre :

- L’impossibilité de retrouver les résultats de la synthèse officielle ;
- La différence de résultats selon les approches ;
- Des biais dans le choix des catégories et sous-catégories.

La synthèse officielle n’est donc qu’une interprétation possible des contributions.

Recommandations pour utiliser l’IA dans la démocratie participative

L’avenir des consultations participatives ouvertes dépend en premier lieu de leur prise en compte politique, mais il repose également sur des analyses transparentes, dignes de confiance et compréhensibles par le citoyen. Nous proposons plusieurs pistes en ce sens :

Transparence des analyses : les méthodes utilisées doivent être clairement décrites, avec, si possible, une ouverture du code. La chaîne de traitement dans son ensemble (comprenant le traitement humain) doit également être précisément définie. Enfin, il est nécessaire de publier les résultats obtenus à une granularité suffisamment fine pour permettre une validation indépendante (par des citoyens, des associations ou encore des chercheurs).
Considérer différents axes d’analyse et confronter différentes méthodes : la recherche de catégories aurait pu être complétée par la recherche de propositions émergentes ou l’analyse de sentiments et d’émotions. Par ailleurs, pour un axe d’analyse donné, il existe différentes méthodes reposant sur des hypothèses et biais spécifiques et la confrontation de plusieurs analyses est utile pour nuancer certaines conclusions et ainsi mener à une synthèse finale plus fiable.
Concevoir des consultations plus collaboratives et interactives : publier les affectations des réponses aux catégories permettrait à tout participant de voir comment ses contributions ont été classées. Il serait alors possible de lui demander de valider ou non ce classement et d’ainsi obtenir une supervision humaine partielle utilisable pour améliorer l’analyse. D’autres manières de solliciter cette supervision humaine peuvent être considérées, par exemple faire annoter des textes par des volontaires (voir l’initiative de la Grande Annotation) ou encore permettre aux participants de commenter ou de voter sur les contributions des autres.

Si l’intelligence artificielle permet désormais de considérer des enquêtes à grande échelle avec des questions ouvertes, elle est susceptible de biais comme toute méthode automatique. Il est donc nécessaire d’être transparent et de confronter les méthodes. Dans un contexte de démocratie participative, il est également indispensable de donner une véritable place aux citoyens dans le processus d’analyse pour engendrer la confiance et favoriser la participation.

Aurélien Bellet, Pascal Denis, Rémi Gilleron, Mikaela Keller, Nathalie Vauquier, Université de Lille, Inria Lille & CRIStAL (UMR CNRS 9189)

Pour aller plus loin : les résultats détaillés de l’étude, ainsi que le code source utilisé pour réaliser cette rétro-analyse, sont consultables dans l’article.

Représenter des textes comme des vecteurs de nombre
Qui aurait prédit au début des années 2000 au vu de la complexité du langage naturel, que les meilleurs logiciels de traduction automatique représentent les mots, les suites de mots, les phrases et les textes par des vecteurs de nombres ? C’est pourtant le cas et voyons comment !Les représentations vectorielles des mots et des textes possèdent une longue histoire en traitement du langage et en recherche d’information. Les premières représentations d’un texte ont consisté à compter le nombre d’apparitions des mots dans les textes. Un exemple classique est la représentation tf-idf (pour « term frequency-inverse document frequency’’) où on pondère le nombre d’apparitions d’un mot par un facteur mesurant l’importance du mot dans l’ensemble des documents. Ceci permet de diminuer l’importance des mots fréquents dans tous les textes (comme le, et, donc, …) et d’augmenter l’importance de mots plus rares, ceci pour mieux discriminer les textes pertinents pour une requête dans un moteur de recherche. Les vecteurs sont très longs (plusieurs centaines de milliers de mots pour une langue) et très creux (la plupart des composantes sont nulles car un texte contient peu de mots). On ne capture pas de proximité sémantique (comme emploi et travail, taxe et impôt) puisque chaque mot correspond à une composante différente du vecteur.Ces limitations ont conduit les chercheurs à construire des représentations plus denses (quelques centaines de composantes) à même de mieux modéliser ces proximités. Après avoir utilisé des méthodes de réduction de dimension comme la factorisation de matrices, on utilise désormais des méthodes neuronales. Un réseau de neurones est une composition de fonctions qui se calcule avec des multiplications de matrices et l’application de fonctions simples, et qui peut être entraîné à prédire un résultat attendu. On va, par exemple, entraîner le réseau à prédire le mot central d’une fenêtre de 5 mots dans toutes les phrases extraites d’un corpus gigantesque comme Wikipedia. Après cet entraînement (coûteux en ressources), le réseau fournit une représentation de chaque mot (groupe de mots, phrase et texte) par un vecteur. Les représentations les plus récentes comme ELMo et BERT produisent des représentations de phrases et des représentations contextuelles de mots (la représentation d’un mot varie selon la phrase). Ces représentations vectorielles ont apporté des gains considérables en traitement du langage naturel, par exemple en traduction automatique.

26 mars 202126 mars 2021

EPI 50 ans : un bel âge pour une association

En cette période de pandémie de Covid-19, l’association Enseignement Public et Informatique fête son 50^e anniversaire.

Il y a dix ans, nous intitulions l’éditorial de notre numéro spécial « 40 ans : un bel âge pour une association ». Une décennie plus tard, nous n’avons pas pu résister à l’idée de reprendre ce titre, en l’actualisant bien sûr ! L’EPI a été fondée en 1971 (JO du 1^er février) par les premiers stagiaires « lourds » chez les constructeurs de l’époque (IBM, CII, Honeywell-Bull). Depuis cette date, l’EPI a été partie prenante de tous les épisodes du déploiement, parfois hésitant voire chaotique, parfois accéléré – on pense au Plan Informatique pour Tous de 1985 –, de l’informatique pédagogique au sein du système éducatif.

Des fils d’Ariane se sont imposés dès le départ. Ils demeurent : la pluralité des approches ; leur complémentarité, ainsi l’informatique est-elle à la fois instrument pédagogique et objet d’enseignement pour tous car élément de la culture générale à notre époque ; l’impérieuse nécessité d’une solide formation diversifiée de tous les enseignants ; une didactique appropriée ; une recherche pédagogique active. Et l’EPI, force de proposition inscrit son action dans le Service public à la promotion duquel elle est attachée.

Nous parlons de déploiement parfois chaotique de l’informatique pédagogique et il nous est arrivé d’avoir raison trop tôt, mais les faits sont têtus. Il faut se souvenir qu’à la fin du siècle dernier, il était encore de bon ton dans certains milieux de proclamer que l’informatique était une mode et que comme toute mode elle passerait. Le développement d’Internet a définitivement tordu le cou à ce genre de propos. Ces résistances à l’émergence du « nouveau informatique » ne sont pas une exception. Au contraire c’est la loi du genre qui ne date pas d’hier. Si le « nouveau » finit par s’imposer, c’est toujours dans une certaine douleur. Déjà, Confucius mettait en garde : « Lorsque tu fais quelque chose, sache que tu auras contre toi ceux qui voulaient faire la même chose, ceux qui voulaient faire le contraire et l’immense majorité de ceux qui ne voulaient rien faire. »

Pour se faire sa place, le « nouveau informatique » a dû aider à une clarification des problématiques car les résistances s’accompagnent d’une certaine confusion. Il a fallu dire que les enjeux et les statuts de l’informatique dans le système éducatif sont divers et qu’il faut les distinguer. L’informatique est un outil pédagogique, transversal et spécifique, qui a fait ses preuves et qu’il faut utiliser à bon escient d’une manière raisonnée. L’informatique contribue à l’évolution de l’« essence » des disciplines (leurs objets, leurs outils et leurs méthodes). Il suffit de penser aux sciences expérimentales avec l’EXAO et la simulation, à la géographie avec les SIG, aux disciplines des enseignements techniques et professionnels. L’informatique est outil de travail personnel et collectif des enseignants, des élèves, de l’ensemble de la communauté éducative. Et l’informatique est discipline scientifique et technique, composante de la culture générale scolaire au XXI^e siècle. Tous ces statuts sont complémentaires et se renforcent mutuellement. Ils doivent être tous présents. Et l’un ne saurait se substituer à l’autre.

Cette dernière décennie, l’EPI s’est inscrite dans la continuité des périodes précédentes. Des actions ont été menées en étroite relation avec des personnalités, des associations de spécialistes informatiques, en premier lieu la SIF, l’APRIL, association du logiciel libre, les parents d’élèves de la PEEP… Ce furent des rencontres au ministère de l’Éducation nationale, notamment auprès de l’Inspection générale, des conférences avec nos partenaires, des articles dans la presse nationale, la publication de notre revue mensuelle gratuite EpiNet.

En 2013, l’EPI a participé au groupe de travail qui a préparé le rapport de l’Académie des sciences L’enseignement de l’informatique en France – Il est urgent de ne plus attendre [1].

Parmi les nombreuses rencontres de la décennie passée, mentionnons qu’avec la Ligue des Droits de l’Homme, la Ligue de l’Enseignement, la PEEP, la SIF et Creis-Terminal, la FCPE étant excusée, l’EPI a rencontré le 27 novembre 2017 la Mission sur « Les données numériques à caractère personnel au sein de l’Éducation nationale ». La rencontre s’inscrivait dans la continuité de la demande d’audience que nous avions faite au ministre de l’Éducation nationale suite au courrier du directeur du numérique du 12 mai 2017, courrier qui avait suscité une grande et légitime émotion de la part des parents d’élèves, de syndicats d’enseignants, d’associations. Nous avons réaffirmé que l’on ne doit pas donner les clés de la maison Éducation nationale aux GAFAM et rappelé que si les GAFAM sont là, c’est aussi parce que l’institution éducative les invite depuis de longues années.

Tout en gardant le cap de « la complémentarité des approches », l’EPI a amplifié ses efforts, avec d’autres, pour obtenir des pouvoirs publics une intégration de l’informatique dans l’enseignement de culture générale pour tous les élèves. L’omniprésence de cette science qui sous-tend le numérique, les besoins d’informaticiens nécessitent des efforts considérables du système éducatif. On se souvient que, dans les années 90, il y avait eu les suppressions de l’option informatique puis la création du B2i : un désert explicatif. En 2007, notre rencontre à l’Élysée avait relancé et élargi l’action pour l’informatique. le groupe ITIC avait été créé, au sein de l’ASTI, à l’initiative de l’EPI. La décennie qui vient de s’écouler a vu la création d’ISN, SNT, NSI et la création d’un Capes NSI. Des avancées significatives mais il reste encore beaucoup à faire : nombre de postes mis au concours correspondant aux besoins, et on attend toujours la création d’une agrégation d’informatique. L’EPI n’est plus seule, les choses évoluent même si elles évoluent trop lentement. Ainsi la pratique du numérique dans les différentes disciplines et activités ne se développe-t-elle pas à la mesure de son intérêt didactique et pédagogique. Toujours et encore l’insuffisante formation des enseignant·e·s.

Pour terminer ce numéro spécial d’EpiNet, nous disons merci à tous les amis, compagnons de route dont vous pourrez lire les témoignages. Merci à toutes celles et ceux qui ont participé à la réalisation de ce numéro spécial. Merci à tous ceux qui se sont investis au fil des années pour que l’informatique et le numérique aient leur place pleine et entière dans le système éducatif. Merci à tous les fidèles lecteurs d’EpiNet. Et nous aurons une pensée pour notre ami Maurice Nivat qui nous a quittés le 21 septembre 2017. Maurice était membre d’honneur de l’EPI.

Jean-Pierre Archambault
Président de l’EPI

NOTE : cet article du site de l’EPI.

[1] https://www.academie-sciences.fr/pdf/rapport/rads_0513.pdf

26 mars 202126 mars 2021

EPI : 50 ans déjà !

L’Association Epi (enseignement public et informatique) fête cette année ses 50 ans.

A cette occasion la revue EpiNET sort un numéro spécial recueil de témoignages plus intéressants les uns que les autres racontant les campagnes « militantes », les déploiements chaotiques, les victoires, la persévérance, toujours, des membres de l’association … pour développer, intégrer et maintenir l’informatique comme instrument pédagogique et objet d’enseignement.

Si Pixees ne devait en retenir qu’un pour vous donner envie de lire les autres ? Peut-être serait-ce celui de Monique Grandbastien : une pionnière qui raconte comment sa carrière est intimement liée à l’enseignement de l’informatique.

=> Enseignement de l’informatique et informatique dans l’enseignement : 50 ans déjà

Rappel : l’EPI crée en 1971 veut faire de l’informatique, et des technologies de l’information et de la communication en général, un facteur de progrès et un instrument de démocratisation.

Ce billet est repris de Pixees.

23 mars 202123 mars 2021

L’artisanat de la science des données avec datacraft

Courteousy of Hiba Kalache, therefore the most profound though is a beating heart (bannière du site de datacraft)

Datacraft, c’est quoi ce « machin » ? On est à Sorbonne Université [1], dans le Sorbonne Center for Artificial Intelligence, sur le campus de Jussieu, un haut lieu des sciences. Pourtant, ce n’est pas un labo universitaire, même si cela y ressemble. Ça tient du club, un peu du fablab. C’est un espace de cotravail apprenant où on travaille vraiment en commun, plus que dans un espace de cotravail classique. Officiellement, c’est une startup. En fait, ce n’est pas facile à classifier, ce qui est pour moi assez positif dans le monde de la science des données qui se réinvente en permanence.

J’ai été tenté de dire que c’était un « temple des données » tant les données sont au centre des préoccupations de tous et toutes dans ce lieu. Mais non, les données ne sont pas adorées ici, elles sont questionnées, challengées. On vous parle ici de leur mise au service des entreprises et de la société, de « responsabilité sociale des données ».

En fait, la vraie valeur, il faut la chercher dans le nom de l’entreprise, datacraft, en français « l’artisanat de la science des données » (traduction personnelle). C’est tellement plus joli qu’en anglais, même si c’est certainement moins vendeur. Avec datacraft, nous sommes bien dans l’artisanat, dans un savoir-faire spécifique, hors contexte industriel de masse. Nous sommes pile poil dans le compagnonnage en sciences des données, dans l’idée de se former en faisant, en échangeant, en bénéficiant de conseils d’experts.

Je pense qu’un tel compagnonnage est particulièrement bien adapté à la science des données. En 2014, dans un rapport pour le gouvernement [2], nous parlions de la nécessité de booster les formations aux sciences des données, en insistant sur le caractère indispensable de projets « les yeux dans les yeux, de données en vraie grandeur ». Depuis, de telles formations ont vu le jour et les entreprises ont souvent maintenant leurs data scientists. Mais ceux-ci souffrent d’être isolés, de ne pas pouvoir partager leurs questionnements, leurs expériences. L’image du geek qui bosse seul dans son coin est à des kilomètres de la réalité de l’informatique – on travaille le plus souvent en équipe – et tout particulièrement dans la science des données. Un beau projet en science des données met typiquement en jeu des compétences variées que l’on trouve rarement chez une personne unique : gestion de données, big data, machine learning, compétence métier, etc.

©datacraft, atelier computer vision au service de l’imagerie médicale

Les data scientists des entreprises adhérentes à datacraft peuvent venir travailler dans un espace de cotravail où ils rencontreront des data scientists, leurs homologues d’autres entreprises et des experts résidence. Il ne s’agit pas juste de partager de beaux bureaux et du café. Ils peuvent par exemple dans des ateliers pratiques échanger des idées, apprendre, et partager. Et ce contexte permet aux idées d’infuser entre des domaines différents.

Par exemple, datacraft a organisé un atelier avec l’INSEP (l‘Institut national du sport, de l’expertise et de la performance) autour de l’utilisation de données dans le sport de haut niveau. Il s’agissait d’arriver à construire la meilleure équipe selon le contexte, les adversaires, la météo, etc. Il était difficile de prévoir l’intérêt des ingés de Vinci Autoroutes sur ce sujet, pourtant, ils ont apporté une expertise précieuse.

Image: https://pixabay.com/users/clker-free-vector-images-3736/

Pas de bol, datacraft s’est lancée en février 2020, pas le meilleur moment pour un concept basé sur un lieu de rencontre physique. Les membres ont initié des projets autour de la santé et de l’éducation, pour aider la société dans un temps de crise sanitaire grave. Je me serais aussi attendu à ce qu’ils découvrent les avantages considérables du travail à distance, d’une certaine inutilité de la rencontre physique. Pas du tout, Isabelle Hilali, fondatrice et pédégère de datacraft, explique : « Pour moi, la dimension physique est essentielle, et j’aimerais revenir dès que possible au présentiel car il est important de garder du lien. » Et quand j’insiste sur les avantages du distanciel, elle précise : « Il faut aussi le plaisir du travail. Il y a moins de plaisir à collaborer à distance. »

Quand on met des gens brillants ensemble, les initiatives fleurissent. Des membres se regroupent pour former des consortiums et répondre à des appels à projets ambitieux auxquels ils n’auraient pas les moyens de répondre individuellement. Ils mettent en place des formations, des espaces d’échanges dans des domaines spécifiques comme les ressources humaines ou les aspects légaux des applications de la science des données.

J’ai parlé de datacraft à des collègues chiliens. Leur réaction : un tel club serait encore plus indispensable au Chili où les data scientists des entreprises sont encore plus isolés qu’en France. Je pense que c’est vrai pour de nombreux pays, datacraft devrait donc s’exporter ? J’ai posé la question : ils ouvrent une base au Maroc en 2022. À quand le Chili ?

Postscriptum : Quand je m’enthousiasme pour une startup dans binaire, il se trouve parfois un de nos très chers lecteurs pour questionner mon objectivité, m’accuser d’avoir des amis dans la startup, d’y avoir investi, voire de me faire payer pour la pub. Et bien non rien de tout cela. J’ai trouvé que c’était une idée géniale et j’ai voulu la raconter.

Serge Abiteboul, Inria et ENS, Paris

[1] Sorbonne Université est une université française située à Paris. Elle a été créée le 1er janvier 2018 par regroupement des universités Paris-Sorbonne (Paris-IV) et Pierre-et-Marie-Curie (Paris-VI), elles-mêmes créées en 1970 et héritières de l’université de Paris fondée en 1896.

[2] Serge Abiteboul, François Bancilhon, François Bourdoncle, Stephan Clemencon, Colin De La Higuera, et al. L’émergence d’une nouvelle filière de formation : data scientists », 2014 https://hal.inria.fr/hal-01092062

19 mars 202119 mars 2021

L’agrégation confidentielle de données : le chiffrement fonctionnel, 2ème partie

Nous poursuivons notre balade avec David Pointcheval, Directeur du Laboratoire d’informatique de l’École Normale Supérieure, Paris, dans « l’agrégation confidentielle ». Il nous conduit aux frontières de ce domaine de recherche. Serge Abiteboul

Nous avons vu dans un premier article que le FHE (chiffrement complètement homomorphe) permettait d’effectuer des calculs sur les chiffrés. Mais il ne permet pas le partage des résultats : toute personne capable de déchiffrer le résultat final est en mesure de déchiffrer les entrées du calcul, puisque le tout est chiffré sous la même clef. Le chiffrement fonctionnel [1] fournit un outil complémentaire : il permet la diffusion de résultats, restreints par les capacités de la clef que possède l’utilisateur et les contraintes choisies par l’émetteur des chiffrés. Par exemple, la clef peut ne permettre le déchiffrement que sous certaines conditions d’accès (chiffrement basé sur l’identité, ou sur des attributs), mais peut aussi restreindre le déchiffrement à certaines agrégations sur les clairs, et à rien d’autre. Usuellement, à partir d’un chiffré E(x) de x, la clef de déchiffrement permet de retrouver le clair x. Avec le chiffrement fonctionnel, plusieurs clefs de déchiffrement peuvent être générées, selon différentes fonctions f. A partir d’un chiffré E(x) de x, la clé de déchiffrement kf associée à la fonction f permet d’obtenir f(x) et aucune autre information sur x. Ainsi, la fonction f peut tester l’identité du destinataire (intégrée dans le clair x au moment du chiffrement), avant de retourner ou non le clair, ce qui conduit à un simple contrôle d’accès. Mais la fonction f peut également faire des calculs plus complexes, et notamment ne donner accès qu’à certains types d’agrégations.

Agrégations de données

Le grand intérêt du chiffrement fonctionnel est en effet la contrainte by design des informations partielles obtenues sur la donnée en clair, par exemple une moyenne, des agrégations et toutes sortes de statistiques, sans jamais révéler d’information supplémentaire. On peut notamment effectuer des chiffrements de vecteurs et n’autoriser que certains calculs statistiques. Mais contrairement au FHE qui retourne le calcul sous forme chiffrée et nécessite donc de posséder la clef de déchiffrement qui permet non seulement de retrouver le résultat en clair mais également les données initiales en clair, la clef de déchiffrement fonctionnel effectue le calcul et fournit le résultat en clair. Cette dernière ne permet en revanche pas de déchiffrer les données initiales. Il a été montré possible de générer des clefs pour évaluer n’importe quel circuit sur des données chiffrées [2]. Néanmoins, ce résultat générique est très théorique, sous des hypothèses très fortes, et notamment la possibilité d’obfusquer (*) du code, ce pour quoi nous n’avons pas encore de solution. Ainsi, la première construction effective a été donnée pour la famille des produits scalaires, ou moyennes pondérées [3] : les messages clairs sont des vecteurs et les clefs de déchiffrement fonctionnel sont associées à des vecteurs. L’opération de déchiffrement retourne le produit scalaire entre le vecteur chiffré et le vecteur associé à la clef.

Moyennes sur des données temporelles

Il s’agit certainement du cas d’usage le plus classique. Bien que très simple, il semble adapté à de nombreuses situations concrètes : des séries de données temporelles sont générées, et le propriétaire de ces données souhaite ne diffuser que des agrégations sous formes de moyennes pondérées, à chaque période de temps. Ces pondérations peuvent dépendre des destinataires, voire s’affiner au cours du temps. Pour cela, pour chaque vecteur de pondérations, une clef de déchiffrement fonctionnel est générée par le propriétaire des données, une bonne fois pour toutes, et transmise au destinataire autorisé. A chaque période de temps, la série de données est publiée chiffrée, et chaque propriétaire de clef peut obtenir le calcul agrégé autorisé, et rien de plus. Tous les destinataires ont accès aux mêmes données chiffrées, mais selon la clef en leur possession, des agrégations différentes seront accessibles.

Plus récemment, des versions multi-clients [4] ont été définies, permettant à des fournisseurs de données distincts de contribuer à la série temporelle, et de garder le contrôle des clefs fonctionnelles générées. Les exemples d’applications sont multiples, dans la finance, en sécurité, ou dans le domaine médical. Considérons les compagnies d’assurance, qui sont en forte concurrence, et qui n’imaginent pas un instant partager les volumes dans chaque catégorie de sinistres rencontrés par leurs clients. Par contre, ces clients seraient intéressés par le volume global, au niveau national, toutes compagnies d’assurance confondues. Cela rentre exactement dans le contexte d’une somme pondérée générée régulièrement sur des données chiffrées. Et bien sûr, les compagnies d’assurance doivent contribuer à la génération des clefs fonctionnelles, afin de s’assurer qu’elles permettront un calcul qu’elles autorisent. Un autre cas d’usage similaire en sécurité est la remontée des attaques subies par les entreprises. Ces données sont sensibles au niveau de chaque entreprise, mais sont très utiles à un niveau global pour connaître les menaces, et réagir de façon adaptée. Le chiffrement fonctionnel, y compris multi-client, est quant à lui parfaitement opérationnel sur des données réelles, pour obtenir de telles moyennes pondérées. En effet, les calculs à effectuer demeurent relativement simples et peu coûteux.

Chiffrement fonctionnel et apprentissage

Est-ce la fin de l’histoire ? Non, car de fortes limitations subsistent. La technique permet de réaliser un grand nombre de statistiques basées sur des additions avec des coefficients. Elle permet notamment des techniques de classification de données, mais de médiocre qualité. On aimerait aller au-delà de tels calculs linaires. C’est indispensable pour réaliser des calculs statistiques plus riches, par exemple des calculs de variance. Ça l’est aussi pour pouvoir utiliser des méthodes d’apprentissage automatique plus sophistiquées [6]. Il n’y a pas d’impossibilité, juste de belles opportunités pour les scientifiques.

Conclusion

Avec le RGPD (ou Règlement Général sur la Protection des Données), la protection de la vie privée et des données personnelles est désormais une exigence pour toute entité qui stocke et traite des informations à caractère personnel. La cryptographie propose des outils opérationnels pour des traitements simples, tels que la recherche par mots-clefs parmi des données chiffrées, la classification de données chiffrées, et les calculs statistiques sur des données chiffrées. Même l’apprentissage fédéré peut être efficacement traité. Mais selon les contextes d’applications, des choix doivent être faits qui auront un impact important sur l’efficacité, voire la faisabilité.

David Pointcheval, CNRS, ENS/PSL et Inria

(*) obfusquer(du vieux français offusquer) : Obscurcir, assombrir. En Informatique, rendre un programme ou des données illisibles pour éviter qu’ils soient exploités de façon non autorisée.

[1] Dan Boneh, Amit Sahai et Brent Waters. Functional encryption: Definitions and challenges. TCC 2011
[2] Sanjam Garg, Craig Gentry, Shai Halevi, Mariana Raykova, Amit Sahai et Brent Waters. Candidate indistinguishability obfuscation and functional encryption for all circuits. FOCS 2013
[3] Michel Abdalla, Florian Bourse, Angelo De Caro et David Pointcheval. Simple functional encryption schemes for inner products. PKC 2015
[4] Jérémy Chotard, Edouard Dufour-Sans, Romain Gay, Duong Hieu Phan, et David Pointcheval. Decentralized multi-client functional encryption for inner product. ASIACRYPT 2018
[5] Théo Ryffel, Edouard Dufour-Sans, Romain Gay, Francis Bach et David Pointcheval. Partially encrypted machine learning using functional encryption. NeurIPS 2019
[6] Théo Ryffel, Edouard Dufour-Sans, Romain Gay, Francis Bach et David Pointcheval. Partially encrypted machine learning using functional encryption. NeurIPS 2019

16 mars 202116 mars 2021

L’agrégation confidentielle de données : le chiffrement fonctionnel, 1ère partie

Dans de nombreuses situations, on a envie de garder chaque information confidentielle, mais réaliser, sur leur ensemble, une agrégation, leur somme, leur moyenne, leur évolution dans le temps, etc. Par exemple, en tant que cycliste, vous n’avez pas peut-être pas envie que le reste du monde sache où vous êtes, mais vous aimeriez bien savoir qu’il faut éviter le Boulevard Sébastopol à Paris à cause de sa surcharge. Ça semble impossible ? Et pourtant des avancées scientifiques basées sur la cryptographie permettent de le faire. Ce n’est pas de la magie mais de l’algorithmique super astucieuse avec plein de maths derrière. Alors, en voiture avec David Pointcheval, Directeur du Laboratoire d’informatique de l’École Normale Supérieure, Paris, pour une balade incroyable dans « l’agrégation confidentielle ». Serge Abiteboul

L’externalisation des données est devenue pratique courante et la volont�� de mettre des informations en commun, pour détecter des anomalies, prédire des événements ou juste effectuer des calculs s’intensifie. Nombre de ces données restent néanmoins sensibles, et leur confidentialité doit être garantie.

Un exemple d’actualité est l’analyse massive de données médicales pour suivre une épidémie, son mode d’expansion et son évolution chez les malades. Les hôpitaux ont de telles informations en grande quantité, mais elles sont d’une extrême sensibilité.

La cryptographie a développé plusieurs outils pour concilier ces besoins contradictoires que sont le partage des données et leur confidentialité, à savoir le « calcul multi-parties sécurisé », MPC pour Multi-Party Computation, le chiffrement complètement homomorphe, FHE, pour Fully Homomorphic Encryption, et le chiffrement fonctionnel, FE, pour Functional Encryption. Nous allons rapidement rappeler les deux premières solutions. Dans un prochain article, nous nous attarderons plus longuement sur la dernière approche, développée plus récemment, qui répond efficacement à des besoins concrets de calculs sur des données mutualisées sensibles.

Le calcul multi-parties sécurisé (MPC)

Le MPC a été proposé il y a plus de 30 ans [1], pour permettre à des utilisateurs, possédant chacun des données secrètes, d’effectuer un calcul commun et d’obtenir le résultat tout en gardant les entrées confidentielles. Intuitivement, le MPC permet de remplacer la situation idéale, où chacun transmettrait sa donnée à un tiers de confiance et ce dernier effectuerait le calcul pour ne retourner que le résultat, par un protocole interactif entre les seuls participants. Contrairement à l’utilisation d’un tiers de confiance, dont la capacité à protéger les données et les échanges est essentiel, le MPC ne requiert aucune confiance en qui que ce soit.

Un exemple pour illustrer cela est le vote électronique, où tous les participants ont leur choix de candidat à l’esprit, et le résultat commun annoncé est le nombre total de voix pour chaque candidat. Néanmoins, même les opérations simples, telles que ces sommes dans le cas du vote, nécessitent un très grand nombre d’interactions entre tous les participants. Avec seulement deux utilisateurs, on dispose de solutions particulièrement efficaces, avec notamment les versions optimisées de Garbled Circuits [2]. Un exemple célèbre du calcul sécurisé entre deux individus est le « problème du millionnaire », où deux personnes fortunées veulent savoir laquelle est la plus riche, mais sans pour autant révéler les montants en question. Il s’agit donc d’effectuer une comparaison sur deux données secrètes.

De telles comparaisons sont également la base de techniques d’apprentissage automatique, au niveau de la fonction d’activation de neurones. Il est donc possible de tester un réseau de neurones, entre le propriétaire de la donnée à classifier et le possesseur du réseau, sans qu’aucune information autre que le résultat de classe ne soit disponible au deux.

Le chiffrement complètement homomorphe (FHE)

Pour éviter les interactions, les données doivent être stockées en un même lieu, de façon chiffrée pour garantir la confidentialité. Le chiffrement permet de stocker des données tout en les maintenant à l’abri des regards. Il permet aussi d’exclure toute forme de manipulation, pour en garantir l’intégrité. Cependant, certaines propriétés algébriques ont été utilisées, et notamment la multiplicativité, avec des schémas de chiffrement qui permettent de générer, à partir de deux chiffrés, le chiffré du produit des clairs. En d’autres termes, à partir des valeurs chiffrées E(a) et E(b), de deux données a et b, il est possible de calculer la valeur chiffrée E(a*b) de a*b sans avoir à connaitre a et b. D’autres schémas proposent l’additivité, ce qui permet d’obtenir le chiffré de la somme des clairs par une simple opération sur les chiffrés.

Mais à quoi cela peut-il servir ? La propriété d’additivité est par exemple largement exploitée au sein de systèmes de vote électronique. Les votants chiffrent leur choix (1 ou 0, selon que la case est cochée ou non), et une opération publique permet d’obtenir le chiffré de la somme de leurs votes. Le déchiffrement final, mené par le bureau de vote, permet de prendre connaissance du résultat, sans avoir besoin de déchiffrer chaque vote individuellement.

On connaissait des méthodes qui permettent l’additivité et d’autres la multiplicativité. Les deux ont semblé longtemps incompatibles jusqu’aux travaux de Craig Gentry [3]. En 2009, il a présenté la première construction permettant ces deux opérations en nombre illimité sur les clairs, par des opérations publiques sur les chiffrés. Il devient alors possible d’évaluer n’importe quel circuit booléen sur des entrées chiffrées, avec le résultat chiffré sous la même clef. Comment passe-t-on de ces deux propriétés aux circuits booléens ? Un circuit est composé de portes logiques qui peuvent se traduire en termes d’additions, de négations et de multiplications. Ce FHE permet alors à une personne d’externaliser des calculs sur ses données confidentielles, sans aucune interaction. Il lui suffit de les chiffrer sous sa propre clef ; le prestataire peut faire tous les calculs souhaités sur ces données, sans en prendre connaissance ; l’utilisateur peut enfin récupérer le résultat chiffré toujours sous sa propre clef. Un exemple peut être le stockage de photos, permettant de faire tourner des algorithmes d’atténuation des yeux rouges ou de regroupement selon la reconnaissance faciale, tout en garantissant la confidentialité. On peut même imaginer poser des requêtes chiffrées à un moteur de recherche et obtenir des réponses pertinentes, sans révéler ni les questions, ni les réponses.

Les applications de ces techniques sont extrêmement nombreuses. Mais elles ont une énorme limitation : la confidentialité est garantie au prix d’énormes quantités de calculs, de temps parfois prohibitifs même pour un supercalculateur.

David Pointcheval, CNRS, ENS/PSL et Inria

[1] Oded Goldreich, Silvio Micali et Avi Wigderson. How to play any mental game or A completeness theorem for protocols with honest majority. STOC 1987

[2] Andrew Chi-Chih Yao. How to generate and exchange secrets. FOCS 1986

[3] Craig Gentry. Fully homomorphic encryption using ideal lattices. STOC 2009

12 mars 202105 mars 2021

L’algorithme, nouvelle machine à tubes. Vraiment ?

Un algorithme peut-il composer de la musique, un texte, un tableau ? C’est le sujet que traite Philippe Rigaux, professeur d’informatique au CNAM et excellent gambiste. L’éditeur que je suis peut vous garantir que l’article, comme le plus souvent les articles de binaire, a bien été écrit pas un humain et pas par un algorithme. Serge Abiteboul.

Un algorithme peut-il composer de la musique ? La question n’est pas nouvelle, c’est peut-être même un des plus anciens fantasmes de l’informatique, exprimé dès la première moitié du XIXe siècle par Ada Lovelace (1815-1852) en ces termes : «la machine pourrait composer de manière scientifique et élaborée des morceaux de musique de n’importe quelle longueur ou degré de complexité ». À la base de cette hypothèse, certains aspects mathématiques des règles de la composition musicale. Bien.

De là à penser qu’un ordinateur peut faire l’affaire, il y a quand même une faille qu’un article du Monde [1] enjambe en nous expliquant que c’est (peut-être) en cours. L’anecdote initiale est la suivante. Au départ, une chanson, passée inaperçue à l’origine, qui devient populaire par la grâce de deux facteurs : (i) elle a subi quelques transformations (longueur, tempo) qui lui permettent de s’inscrire dans une forme de norme, et (ii) du coup, elle se trouve happée par un algorithme qui la considère comme totalement recommandable puisque plus rien ne dépasse en termes d’originalité ou de créativité. Ensuite c’est l’effet boule de neige : plus le morceau est écouté et plus il devient écoutable. Pas de surprise, nous sommes bien dans un système qui par ses suggestions encourage un flot de musique produit dans le même moule. Mais surprise quand même de voir un bide se transformer en hit.

Magique ? Non, il suffit de comprendre comment fonctionne l’algorithme. D’un côté ce qui caractérise un morceau, de l’autre un catalogage des émotions qu’il suscite (avec une petite dose de personnalisation, domaine routinier des industriels du captage de données personnelles). On fait tourner sur ces données un algorithme d’apprentissage automatique qui va mettre en évidence des similarités, entre utilisateurs (vous avez des goûts très semblables à ceux de plein d’inconnus) et entre morceaux. Ça va permettre d’envoyer « le bon contenu pour le bon auditeur au bon moment ». C’est énervant mais nous sommes finalement très prévisibles. Il ne reste plus qu’à garder un peu de place pour envoyer la pub !

Ce que cette histoire, qui n’a rien de renversant, raconte, c’est le passage de la recommandation à la prédiction, un petit pas. Demain, quand un artiste arrivera chez un producteur, ce dernier aura en main les estimations qui lui permettront de dire si le morceau proposé sera un succès ou non. D’ailleurs pourquoi avoir encore besoin d’un producteur ? Et puis, de la prédiction à la création, encore un petit pas. Pourquoi continuer à avoir des auteurs (humains) alors que la machine dispose de tous les paramètres pour produire un morceau « presque pareil » que ceux qui sont écoutés en masse, et réaliser la vision d’Ada Lovelace ?

Au secours ! Cela nous nous conduit à une vision d’un monde effrayant où on écoute, on lit, et on visionne toujours la même chose, une sorte de culture mollement consensuelle et farouchement opposée à toute originalité, qui vous infiltre silencieusement, insidieusement, vous proposant ses variants de temps en temps, histoire de vous empêcher de réaliser ce qui vous arrive. Non, à la culture-Covid !

“Je rêvais d’un autre monde” (vous la reconnaissez celle-là ? Était-elle recommandable à l’origine ?) où des artistes continueront à nous surprendre par leur créativité, à nous sortir délicieusement des sentiers battus par la société du contrôle et du marketing. Rêvons d’un monde où on préfèrera encore se laisser surprendre et affronter parfois le sentiment d’être largué, plutôt que de tourner en rond comme un hamster, entre deux pubs et trois chansons préformatées de trois minutes !

Philippe Rigaux, CNAM

[1] L’algorithme, nouvelle machine à tubes, Laurent Carpentier, Le Monde, 15 février 2021

08 mars 202103 mai 2021

Un cadeau pour le 8 mars !

Liliana Cucu-Grosjean est chercheuse à l’Inria. Elle est aussi , avec son

complice Steve Kremer, co-présidente du comité Parité et Égalité des Chances à l’Inria. Ce groupe de réflexion et de proposition travaille depuis 2015 sur des sujets aussi variés que la valorisation des profils internationaux, l’inclusion des personnes LGBTI+ au sein de l’Institut, ou encore la place des femmes qui représente aujourd’hui moins de 20% des effectifs scientifiques dans les sciences du numérique. En ce 8 mars, Liliana nous recommande une lecture… Antoine Rousseau

Chaque année à l’approche du 8 mars, je me pose la question de comment souligner l’importance de cette date, qui rappelle qu’on doit, encore et toujours, se battre pour les droits des femmes. D’ailleurs, toute personne mordue par cette bataille cherche un cadeau ou un moyen pour rappeler (ou crier) que nous sommes le 8 mars, tout en se disant qu’un jour cette date n’aurait plus lieu d’être fêtée tellement les choses auraient évolué.
Cette année les adeptes des droits des femmes sont gâtés par la sortie du livre d’Anne-Marie Kermarrec début mars. Coïncidence ou choix délibéré ? Anne-Marie reste un petit miracle dans ce monde binaire, en faisant partie de celles et ceux qui n’attendent pas qu’on leur demande pour nous offrir des belles surprises. L’autrice admet, aussi, passer de plus en plus du temps sur la cause des femmes. Je dirais, donc, un choix délibéré.

J’ai appris via le réseau linkedin l’apparition du livre et je me suis dépêchée pour l’avoir entre mes mains, bon, plutôt devant mes yeux car je suis passée par une version électronique. Pourquoi me dépêcher ? Car j’ai pu constater par le passé l’absence de langue de bois dans les interventions d’Anne-Marie sur le sujet de la parité et, surtout, la pertinence de ses propos. Et je n’ai pas été déçue. J’avais pris le livre comme une lecture de soir et je me suis retrouvée à la dévorer jusqu’à des heures pas possibles ; cela ne m’était plus arrivé depuis le dernier volume des Milléniums (désolée pour la sortie de piste sans aucun lien avec ce billet), mais le livre m’y oblige par sa grande honnêteté.
Comment Anne-Marie attaque des sujets chauds, contradictoires, voire tabous des discussions sur la parité, impressionne la lectrice que je suis. Prenons sa discussion sur les quotas. Sujet sensible en France, Anne-Marie ose le mettre sur la table et le disséquer. Quels sont ces préjugés sur les quotas et pourquoi en sommes-nous là ? Un frein ou l’arme ultime ? Pour convaincre le lecteur ou la lectrice, Anne-Marie gagne sa confiance par le fil rouge de son livre qui est, à la fois historique, en faisant rentrer dans ses pages Grace Murray Hopper ou Sheryl Sandberg (avec la même aisance), et thématique, en passant par le décodage des idées reçues ou encore la vague #metoo dans le numérique (toujours avec la même honnêteté).
Mon passage préféré reste la discussion sur la question “Les femmes sont-elles des pestes entre elles ?” et la référence au syndrome “Queen Bee” m’a fait du bien, un peu comme dans les contes pour les enfants quand seulement la (belle-)mère est méchante et veut nuire à ses enfants, jamais le père, comme me l’a fait remarquer une de mes filles.
Je parle d’une attaque en décrivant l’écriture d’Anne-Marie car son style est frais et direct, il fait penser à une pièce de stand-up. Anne-Marie se met à table et nous partage ses doutes, l’évolution de ses opinions et, surtout, propose d’une manière constructive comment faire évoluer nos préjugés. Dans le feu de la lecture, je n’étais pas d’accord avec une ou deux de ses opinions et, maintenant après avoir dormi dessus, je me demande si ses opinions ne rentrent pas en conflit avec mes préjugés.
Êtes-vous prêts ou prêtes à quitter vos préjugés ? Si la réponse est oui, alors faites-vous du bien et lisez ce livre. Si vous pensez ne pas en avoir, lisez-le pour vous en assurer.

08 mars 202108 mars 2021

Femmes et numérique au temps du coronavirus

À l’occasion de la Journée Internationale des Droits des Femmes, Anne-Marie Kermarrec retrouve binaire pour nous parler de difficultés rencontrées par les femmes au temps du Covid. La route est longue, on le savait, jusqu’à la vraie parité. On le vérifie. Serge Abiteboul et Pauline Bolignano
PS : binaire est fier de réaliser que nombre des chapitres du dernier livre d’Anne-Marie Kermarrec, ont été d’abord « testés » dans ses colonnes.

Le 8 mars dernier nous observions, encore d’un peu loin, avec une once, une once seulement, quels naïfs nous faisions, d’inquiétude les dégâts du coronavirus en Asie, lançant les paris sur l’éventualité d’un confinement que nous imaginions durer une ou deux semaines. Le couperet est tombé un peu plus d’une semaine après, nous coinçant là où nous étions ce soir du 16 mars 2020. Confinés, un mot un peu nouveau dans notre vocabulaire courant, dont il a fallu s’accommoder et que l’on ne finit de conjuguer depuis à tous les temps. Les écoles et les universités sont passées intégralement aux cours en ligne mettant au défi parents et enseignants, les commerces ont baissé leur rideau avec dépit, les soignants se sont mobilisés, les entreprises ont généralisé le télétravail, l’état s’est démené pour déclencher des aides, les familles se sont recroquevillées ou épanouies ensemble selon les cas, les parents se sont transformés en enseignants du jour au lendemain, les étudiants se sont retrouvés un peu �� l’étroit dans leurs 20m2 ou au contraire ont filé dare-dare chez leurs parents pour avoir plus d’espace et bénéficier de la logistique familiale, certains parisiens ont débarqué dans leur résidence secondaire en Bretagne ou Normandie sous l’œil, parfois, réprobateur et méfiant des autochtones, qui les imaginaient trimballer le virus dans leurs poches.

Le numérique à la rescousse

Finalement nous avons survécu, certains mêmes, les plus chanceux, ont pu apprécier cette parenthèse hors norme où le temps s’étirait. Le numérique s’est avéré extrêmement salutaire pour tous dans cette période. En un mot, il a évité que le monde ne s’écroule pendant cette pandémie. C’est grâce au numérique que nous avons pu continuer à travailler, redoublant de créativité pour travailler en équipe, à grand renfort de Zoom, Teams, que sais-je, comparant dans le processus les avantages et inconvénients de chaque plateforme. Les professeurs ont pu effectuer leurs cours en ligne. Familles et amis se sont retrouvés pour des apéritifs virtuel, les artistes ont redoublé d’imagination pour pallier la fermeture des lieux de culture, et ont organisé des concerts virtuels depuis leur salon, des ballets synchronisés sur Internet. Les animaux en tous genres on refait surface en ville. Les radios en un tour de main ont organisé leurs émissions à distance. Les conférences, hauts lieux de rencontres académiques, se sont organisées à distance. Les scientifiques, largement aidés par des algorithmes d’apprentissage se sont lancés dans la quête du vaccin. D ’autres encore se sont lancés dans les applications de traçage ou la modélisation de la propagation du virus.

Et tout ça aura peut-être même un effet salvateur pour notre planète. En effet les plus de 3 millions de trajets qui ont ainsi pu être évités en France chaque semaine grâce au télétravail [1] ont certainement eu un impact non négligeable sur la pollution. On n’a jamais vu le ciel des mégalopoles chinoises aussi clair que début 2020. Même si on peut déplorer que les grosses entreprises de transport aériens aient beaucoup souffert dans le processus, nous avons pris de nouvelles habitudes qui potentiellement pourraient contribuer à la quête d’une empreinte carbone atténuée, y compris sur le long terme. Nous n’en sommes pas encore sortis et il est encore difficile de dresser un bilan. Espérons que le naturel ne revienne pas au galop sur tous les fronts. En particulier maintenant qu’il est avéré qu’une réunion sur zoom face à la mer n’est pas moins efficace qu’une réunion en présentiel (tiens encore un nouveau mot à notre arc) qui aurait nécessité un aller-retour Paris-Oslo dans la journée.

Outre qu’il nous a sauvé, le numérique a été le grand bénéficiaire de cet épisode. À la faveur de cette pandémie qui a mis des millions de personnes sur la paille, Eric Yuanle fondateur de Zoom, au contraire, a vu sa fortune grandir exponentiellement et le placer parmi les 400 américains les plus riches. Amazon, dont la place était d’ores et déjà bien établie, a vu ses bénéfices monter en flèche au troisième trimestre 2020 et tripler grâce aux ventes pandémiques. Un quart de la population s’est abonné à une nouvelle plateforme de streaming vidéo pendant cette période. Le e-commerce a fait un bond, y compris pour les plus petits acteurs, de nouvelles applications sont nées, la télémédecine s’est enfin imposée, etc. Bon, ça ce sont les bonnes nouvelles. On sait bien évidemment que malheureusement de nombreux secteurs ont pâti de cette crise et que de bien nombreuses personnes ont souffert (et continuent) financièrement, psychologiquement voire même physiquement. Comme on ne peut évoquer tous les sujets, je me propose en ce 8 mars de nous interroger, sur l’impact, en particulier celui du télétravail généralisé pendant le confinement, sur les femmes ?

Le télétravail au féminin : la vraie fausse bonne idée ?

Le télétravail, oui…

Dans certains pays, le télétravail est un véritable atout pour attirer les femmes dans des domaines peu féminisés, comme celui de l’informatique par exemple [2]. Cela dit, c’est un argument à double tranchant puisque la raison principale est qu’il permet en effet d’apporter une certaine flexibilité quant à l’organisation de son temps, le rendant ainsi compatible avec le fait de rester à la maison pour les enfants. Cette flexibilité peut cependant s’avérer assez salutaire, ainsi si certaines mettent un frein à une carrière exigeante qui leur demande de voyager à l’autre bout du monde pour une réunion de quelques heures, le faire depuis son salon leur permet d’être plus présentes dans le milieu professionnel. Ou encore leur laisse l’opportunité d’accepter une réunion tardive qui n’entre pas en conflit avec les horaires scolaires. Bien sûr la raison est que les femmes ont une petite tendance à ne pas souhaiter déroger à leurs obligations familiales pour gagner des galons. Mais puisque nous en sommes encore là, le télétravail peut s’avérer salutaire et ouvrir des portes aux femmes en particulier dans le domaine du numérique qui s’y prête particulièrement. Le télétravail peut ainsi représenter une excellente opportunité sur le long terme pour permettre aux femmes de s’ouvrir à des carrières qu’elles n’auraient pas considérées autrement.

…mais pas en pandémie

D’ailleurs, il se trouve que le travail chez les cadres s’est généralisé à la faveur de cette crise sanitaire dont nous ne sommes pas encore sortis. Un quart de la population a eu recours au télétravail des mars 2020 [1]. Si les entreprises ont dû transformer leurs pratiques managériales dans le processus, elles ont accusé réception des avantages potentiels comme des besoins réduits de mètres carrés de locaux et ont même parfois observé des gains de productivité.

Mais le bât blesse encore et toujours. Et si ces habitudes de travailler depuis la maison, faisaient partir en fumée 25 ans de lutte pour l’égalité homme-femme [3] ? Si le télétravail creusait les inégalités contre lesquelles on lutte depuis tout ce temps ?

Tout d’abord, tous les métiers ne se prêtent pas au télétravail, et c’est en majorité les cadres qui s’y sont collés à 86% pendant le premier confinement. Et bien c’est justement dans cette catégorie que les inégalités sont les plus importantes quant au meilleur spot de la maison pour travailler. Ainsi chez les cadres, 29% des femmes disposait d’un bureau à la maison contre 47% des hommes [4]. Pourquoi donc ? Est-ce parce que le bureau va plutôt à la personne du foyer qui occupe le poste le plus important ? Comme on sait que les hommes, s’ils ne préfèrent pas les blondes nécessairement, sont rarement en couple avec des femmes plus diplômées [6]. Et même à diplôme égale, il n’est pas rare que la carrière féminine n’ait pas suivi la même trajectoire et à la même rapidité. Il n’est pas exclu que les femmes elles-mêmes se portent volontaires pour laisser le bureau à leur conjoint.

La conséquence directe est, qu’outre que la répartition naturelle des tâches domestiques dans un couple, qui si elle s’est vaguement améliorée reste largement inégalitaire [7], que ce sont les femmes qui ont assuré en majorité les tâches domestiques pendant les confinements. Tâches du reste d’autant plus importantes que la famille entière prend ses repas à la maison matin, midi et soir en confinement, ce qui augmente singulièrement le volume de courses, cuisine et ménage. Et devinez qui a en majorité jouer à l’institutrice puisque Maman travaillait dans le salon ?

home schooling — Crédit photo : https://nappy.co/alyssasieb

D’ailleurs, ce télétravail « pandémique » a eu un effet désastreux sur les femmes du milieu académique, celles- là même qui ont déjà bien du mal à gravir les échelons [2]. Ainsi les dernières études sur le sujet montrent que les femmes ont soumis proportionnellement beaucoup moins d’articles scientifiques que les hommes pendant cette pandémie [8].

Pour finir, selon les données de l’ONU, les violences conjugales ont augmenté de 30% en France pendant le confinement, à l’instar de ce qui s’est passé dans de très nombreux pays d’ailleurs. De là à dire que le télétravail augmente la probabilité de se faire taper dessus est exagéré. Mais il semblerait quand même que pour une proportion non négligeable de femmes, la maison n’est pas nécessairement l’endroit le plus sûr.

Pour conclure, le télétravail qui est désormais une option beaucoup plus répandue et probablement le restera, n’a pas été nécessairement un cadeau pendant cette pandémie. Mais espérons que dans le monde d’après, le télétravail permettra aux femmes de saisir de nouvelles opportunités que ce soit dans le numérique ou ailleurs.

Pour aller plus loin

[1] https://theconversation.com/le-teletravail-est-il-durable-les-enseignements-du-confinement-151886

[2] « Numérique, compter avec les femmes ». Anne-Marie Kermarrec. Éditions Odile Jacob, 2021.

[3] https://www.bbc.com/afrique/monde-55089131

[4] https://theconversation.com/emploi-teletravail-et-conditions-de-travail-les-femmes-ont-perdu-a-tous-les-niveaux-pendant-le-covid-19-141230?utm_term=Autofeed&utm_medium=Social&utm_source=Twitter#Echobox=1593981298

[5] https://www.insee.fr/fr/statistiques/4768237

[6] https://www.inegalites.fr/Couples-qui-se-ressemble-s-assemble

[7] https://www.inegalites.fr/Le-partage-des-taches-domestiques-et-familiales-ne-progresse-pas?id_theme=22

[8] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7302767/

05 mars 202114 juin 2021

L’informatique, quelques questions pour se fâcher entre amis

À l’heure des GAFAM, des fakenews, de prétendues addictions au numérique, etc., l’informatique ne manque pas de détracteurs. La définition même de cette science inédite du XXe qui a bouleversé nos sociétés divise. Serge Abiteboul et Gilles Dowek, les auteurs du best seller « Le temps des Algorithmes »[0] nous racontent ces sources de désaccords. Thierry Viéville.

À chaque fois qu’il y a un nouveau support technique,
il y a un Socrate qui engueule Platon.
Michel Serres, Télérama, 12 Avril 1996.

Cet article est repris de la revue de l’Association Enseignement Public & Informatique qui fête ces 50 ans cette année.

À l’heure des GAFAM, des fakenews, de prétendues addictions au numérique, etc., l’informatique ne manque pas de détracteurs. Sa définition même est source de désaccords. Le Conseil Scientifique de la Société Informatique de France a proposé une définition dans un article [1] publié en 2014 par le blog binaire du Monde. Il ne fut pas simple d’arriver à se mettre d’accord. Le souvenir de ce travail est l’occasion d’une pensée émue pour l’un des rédacteurs, Maurice Nivat, qui nous avait fait le plaisir et l’honneur de participer à cette rédaction, ce qui n’a pas été sans élever la barre des exigences.

Cet article soulève des questions sur l’informatique, susceptibles de vous fâcher avec des amis. Certaines étaient discutées dans l’article de la SIF, nous les reprenons rapidement ici. Nous en soulevons d’autres tout aussi délicates.

Nouvelle science, quel est ton nom ?

Le texte de la SIF adresse le sujet :

Comme les ados qui ne veulent pas utiliser le même mot que leurs parents pour parler de surprise-partie, les informaticiens changent (ou laissent les autres changer) le nom de leur discipline régulièrement. Par exemple, le CNRS invente régulièrement des néologismes pour désigner l’informatique : STIC pour « sciences et techniques de l’information et de la communication » a eu un temps le vent en poupe. Ce qui gêne sans doute, et conduit à changer de mot, ce sont les multiples facettes de l’informatique.

Un autre terme est très utilisé : « numérique ». Ce qu’en dit le texte de la SIF :

L’adjectif « numérique » qualifie toutes les activités qui s’appuient sur la numérisation de l’information comme le livre, l’image ou le son numérique, la commande numérique de voiture ou d’avion, le commerce numérique (e-commerce), l’administration numérique, l’édition numérique, l’art numérique, etc. On parle de « monde numérique ».

Cette énumération montre bien qu’avec le numérique, on a largement dépassé le cadre strict de l’informatique. On assiste pourtant à une certaine confusion entre le mot informatique et le mot numérique et de plus en plus avec digital (selon le dictionnaire « qui appartient, se rapporte aux doigts »), un anglicisme pour numérique. Le terme numérique est souvent convoqué quand on parle de logiciel ou de matériel informatique, celui de digital est plutôt convoqué quand on discute d’usages de l’informatique.

Un moyen assez sûr de démarrer une controverse est de demander à des amis quelle est la différence entre informatique et numérique, ou de leur faire préciser ce qui distingue numérique et digital.

L’informatique, science ou technique ?

Certains ont trouvé que le texte de la SIF laissait la part trop belle à la science, d’autres à la technique, d’autres enfin pensaient qu’il était faux d’autant mêler les deux. La question partage : est-ce que l’informatique est une science ou une technique plutôt l’une ou plutôt l’autre. Le texte de la SIF commence ainsi :

L’informatique est la science et la technique de la représentation de l’information d’origine artificielle ou naturelle, ainsi que des processus algorithmiques de collecte, stockage, analyse, transformation, communication et exploitation de cette information, exprimés dans des langages formels ou des langues naturelles et effectués par des machines ou des êtres humains, seuls ou collectivement.

C’est beaucoup pour une seule phrase, mais c’est clair. L’informatique est à la fois science et technique, ce que le texte explique clairement. Évidemment, cette prise de position ne clôt pas le débat et on peut parier que certains lecteurs voient dans l’informatique surtout une science, et d’autres essentiellement une technique. Un autre moyen assez sûr de démarrer une controverse. Mais plus que de distinguer entre science et technique, le sujet n’est-il pas plutôt leur interdépendance, l’enchevêtrement entre les deux que propose l’informatique, une source considérable de richesse ?

Être informaticien, ou pas

Les frontières de l’informatique ne sont pas très précises. C’est un autre sujet de discorde.

Timbre soviétique de 4 kopecks portrait fictif d’Al-Khwarîzmî © wikicommons

N’est pas informaticien qui veut. Les ordinateurs sont des machines à tout faire, et de plus en plus de personnes conçoivent des algorithmes, les programment. Pourtant, il ne suffit pas de concevoir un algorithme pour être informaticien : le sieur al-Khuwārizmī, s’il a donné son nom aux algorithmes, était mathématicien. On peut aussi être à l’origine de logiciels sans être informaticienne mais physicienne, biologiste, sociologue, etc. Un étudiant se définit souvent suivant la discipline principale qu’il étudie. On devient géographe, statisticien, économiste, etc., parce qu’on obtient un diplôme dans la discipline correspondante. Comme chercheur, nous étudions des problèmes et cherchons la ou les sciences qui nous aideront à les résoudre, dans quelque discipline qu’elles soient. Les problèmes eux ne participent pas de la même classification qui nous a placés dans une case. Donc on peut, par exemple, être physicienne et développer des algorithmes et des logiciels du matin au soir. On reste physicienne.

Informaticiens ou pas. Où placer Claude Shannon ? Est-il, aux côtés d’Alan Turing « fondateur » de l’informatique ? Ou ailleurs ? Dans le cadre du saucissonnage des sciences, nécessité pour les structurer un tant soit peu, la section 27 du CNU est « Informatique » (à la Turing), et la 61 « Génie informatique, automatique et traitement du signal » (peut-être plutôt à la Shannon). Mais n’oublions pas que pour Shannon, toute information peut se voir comme une suite de bits, ce qui est véritablement un fondement de l’informatique. Et puis, la distinction entre la 27 et 61 semble bien arbitraire aujourd’hui quand le traitement du signal et l’automatique sont massivement numériques. Dans certains domaines, la frontière de l’informatique est particulièrement floue. Par exemple, considérons la robotique qui s’appuie de manière essentielle sur des pans entiers de l’informatique comme la géométrie algorithmique, les algorithmes de planification ou l’apprentissage automatique. Bien sûr, la robotique utilise aussi la mécanique, fait parfois appel à la perception haptique, etc. Un roboticien est-il mécanicien ou informaticien ? Il peut évidemment se déclarer l’un ou l’autre, voire les deux s’il le souhaite.

Le grand voisin. Une des frontières les plus sensibles peut-être est celle avec les mathématiques. L’informatique est parfois née dans les départements de mathématiques où les informaticiens étaient les vilains petits canards. Les informaticiens ont acquis leur indépendance et habitent aujourd’hui des départements d’informatique. À l’heure de la recherche de contrats, certains mathématiciens regrettent-ils, peut-être, leur départ quand ils revendiquent l’analyse de données massives (le big data) ou l’apprentissage automatique (le machine learning) comme faisant partie des mathématiques. Pour nous, c’est de l’informatique. Mais après tout , on s’en moque ! C’est de la science avec de beaux résultats et c’est ça qui compte.

Par nature, l’informatique reste proche des mathématiques. Ce sont toutes deux des sciences de l’artificiel. Depuis des siècles, on considère que pour être un honnête chercheur (pour être un honnête homme), il faut une maîtrise raisonnable des mathématiques. Aujourd’hui, il faut aussi celle de l’informatique. Des chercheurs font de la recherche en « mathématiques pures », mais d’autres chercheurs partent de problèmes d’autres sciences pour faire des « mathématiques appliquées ». La situation est assez semblable entre informatique fondamentale et informatiques appliquées incluant la bio-informatique, les systèmes d’information géométrique, les humanités numériques, etc.

Pour conclure sur cette question, si l’informatique n’a pas de frontières bien délimitées, s’il n’est pas possible d’en trouver de périmètre précis, pas besoin de convoquer la pluridisciplinarité pour conclure que cela aussi en fait sa richesse.

L’informatique a transformé les sciences plus encore que l’imprimerie

L’informatique est engagée dans un riche dialogue avec les autres sciences. De quelles sciences parle-t-on ? Des sciences dans un sens très large incluant les sciences de la nature ou de la vie, les sciences humaines et sociales (sociologie, économie, histoire, etc.) mais aussi, les mathématiques.

La transformation des sciences par l’informatique est la raison d’être des « Entretiens autour de l’informatique », qui invitent des spécialistes de toutes disciplines à raconter leurs liens avec l’informatique. Leur lecture confirme que l’informatique transforme en profondeur presque toutes les autres sciences. Et nous utilisons ici « presque » surtout par précaution oratoire. De fait, nous avons du mal à trouver une science qui n’ait été profondément transformée par l’informatique.

Comment comprendre tout cela quand on est pas spécialiste ? https://classcode.fr/iai

Presque indépendamment de leurs disciplines, les scientifiques aujourd’hui consultent des systèmes d’information, utilisent des bases de données, tweetent, bloggent, tchatent à distance avec leurs collègues, leurs étudiants, etc. L’informatique a modifié leur façon de travailler, leur permet de le faire de manière de plus en plus distribuée, de partager des données, des logiciels. La littératie informatique est devenue leur quotidien, ou en tous cas, devrait l’être. Avec l’informatique, ils analysent des données massives qu’ils réunissent pour améliorer leurs connaissances, ils simulent des phénomènes complexes qu’ils essaient de comprendre.

On assiste à une mutation radicale du paysage scientifique, de l’essence de ses pratiques, une entreprise de transformation fondamentale des sciences. Plus que l’utilisation d’outils informatiques, nous verrons plus loin que l’informatique transforme les sciences en apportant d’autres manières de penser, de faire de la recherche, fondées sur la pensée algorithmique, s’appuyant sur des modèles algorithmiques, l’analyse de données numériques, et la simulation. Nous manquons sans doute encore de recul et ces transformations sont encore pour partie en devenir mais il semble de plus en plus clair que si chaque science est restée essentiellement la même, chacune s’est profondément enrichie par l’utilisation d’outils numériques et surtout par le dialogue avec la pensée algorithmique. Peut-on imaginer aujourd’hui la linguistique sans le traitement automatique des langues, l’astronomie sans ses pipelines de calculs informatiques, la génomique sans les algorithmes d’analyse de séquences ADN ? Etc.

Au risque de choquer, nous irons donc jusqu’à écrire que l’informatique a transformé en profondeur les sciences plus encore que l’imprimerie. Mais évidemment ce n’est pas à nous de le dire, mais aux historiens des sciences quand ils auront assez de recul pour réaliser sereinement une telle comparaison. En attendant, que la question ait du sens ou pas, c’est sûrement une occasion pour se fâcher entre amis.

Les informaticiens ne servent à rien

Les scientifiques confrontés à l’informatique se tournent vers nous, collègues informaticiens, pour trouver de l’aide. Mais, désolé, nous ne savons pas quels ordinateurs vous devez acheter, ni quels logiciels. Vos sujets de recherche sont passionnants mais comprenez que nous ayons aussi les nôtres et que nous ne voulons pas forcément les abandonner pour travailler sur les vôtres. Ayez pitié de nous !

Par exemple, les bases de données sont essentielles dans nombre de disciplines. Pendant des années, le sujet de recherche du premier auteur étaient les bases de données « semi-structurées » avec des modèles de données moins rigides que les relations à deux dimensions, ce qui conduit à des formats de données comme XML ou JSON. Sa recherche était motivée par des travaux dans d’autres disciplines et des questions soulevées notamment par des biologistes. Mais les systèmes dont il participait à la construction étaient des prototypes déconseillés pour des scientifiques non informaticiens. Ces derniers devaient attendre les systèmes disponibles aujourd’hui.

Certains informaticiens sautent le pas vers d’autres sciences pour participer à des domaines comme la bio-informatique ou les humanités numériques. Bravo ! Mais, même eux ne suffisent pas à répondre à toutes les demandes. Alors…

Collègues scientifiques non-informaticiens, apprenez à vous débrouiller !

Quand vous avez besoin d’informatique, embauchez des ingénieurs ou payez des sociétés de services. Surtout, apprenez suffisamment d’informatique pour réaliser vous-mêmes vos propres simulations, vos propres analyses de données. Vous ne perdrez pas de temps à expliquer ce que vous voulez à des informaticiens qui ne parlent probablement pas le même langage que vous. Les logiciels sont devenus beaucoup plus simples à utiliser. Vos étudiants, de plus en plus, savent programmer. Et si au hasard de la recherche, vous tombez sur un vrai challenge pour l’informatique, alors là seulement allez voir un informaticien :
(i) vous aurez déjà appris à parler son langage et aurez plus de chance d’être compris,
(ii) vous aurez plus de chance de l’intéresser.

Se former à l’informatique quand on est pas spécialiste ? https://classcode.fr/snt

Pour éviter toute ambiguïté : on ne vous demande pas à tous d’atteindre la sophistication en informatique d’un chercheur Inria ou d’un développeur Google, mais seulement à un grand nombre d’entre vous d’être capable d’écrire les programmes simples dont vous aurez besoin. C’est déjà la norme dans de nombreuses disciplines comme la physique ou la géographie, ça peut être le cas demain aussi dans votre discipline. Si ce n’est pas encore le cas, redéfinissez la formation dans vos disciplines pour que vos étudiants aient un solide bagage en informatique.

Est-ce que cela s’accompagnera pour ces étudiants de pertes de compétence ? Sans doute. Pour vous consoler, dites-vous que de tous temps il s’est trouvé des chantres du « les étudiants ne sont plus ce qu’ils étaient avant. » Leur niveau est supposé baisser depuis des centaines peut-être des milliers d’années, alors nous n’allons pas nous inquiéter s’il baisse aujourd’hui. Mais, il est vrai que le temps d’étude n’est pas extensible à l’infini. Les archéologues d’antan étaient d’excellents dessinateurs, les dessins de Pompéi par les archéologues juste après la découverte du site sont impressionnants de précision. Aujourd’hui, avec la photo, les archéologues ont perdu ce talent (en gagnant d’autres compétences). Nous pensons que c’est plus important pour eux de programmer que d’être de brillants dessinateurs, mais nous ne sommes pas archéologues. C’est aux archéologues de choisir ce que leurs étudiants doivent apprendre.

Et pour conclure, une question qui divise :

Assiste-t-on avec l’informatique à un affaiblissement des sciences ?

La clé de voûte de notre compréhension du monde est la construction de théories comme la mécanique newtonienne ou la théorie darwinienne de l’évolution. La science exige que les théories valident les observations, qu’elles permettent de faire des prédictions.

Certaines théories sont aujourd’hui formulées sous la forme d’algorithmes qui permettent de construire des modèles de phénomènes pour ensuite pouvoir les « simuler ». Elles résultent en des logiciels parfois de taille considérable. Nous développons des modèles algorithmiques de nombreux phénomènes : l’évolution de l’atmosphère et des océans, le fonctionnement du cerveau, le développement des villes, la variation des cours de la bourse, les mouvements de foule, etc.

Quand les théories classiques se basaient sur un petit nombre d’équations typiquement focalisées dans un petit nombre de domaines scientifiques, les modèles algorithmiques d’aujourd’hui peuvent prendre en compte des aspects très divers. Par exemple, les modèles du climat s’appuient sur des connaissances en électricité, mécanique des solides et des liquides, chimie, etc. Le modèle de développement d’une ville doit tenir compte de processus démographiques, économiques, politiques, géographiques, etc., qui interagissent. Dans un tel modèle algorithmique, certains aspects mal compris peuvent aussi être pris en charge par l’apprentissage automatique.

Rose Dieng-Kuntz, spécialiste en intelligence artificielle ©Inria

Les modèles algorithmiques complexes résultent de collaborations de nombreux spécialistes de disciplines diverses. Personne n’en maîtrise toutes les facettes. Surtout, on ne sait en général pas expliquer leurs résultats. Si les modèles météorologiques nous disent avec des probabilités qui ne cessent de s’améliorer quel temps il fera demain, ils n’expliquent pas pourquoi.

Quand une théorie classique se trompait, on essayait de proposer une autre théorie. Avec un modèle algorithmique, cela n’est pas nécessairement le cas. On va essayer de l’améliorer en précisant le modèle, en le complexifiant, en rajoutant des données, etc. Peut-être, seulement s’il s’avère vraiment décevant, essaiera-t-on de trouver un cadre véritablement nouveau. Mais le plus souvent on cherchera à faire évoluer le modèle algorithmique ne serait-ce que pour ne pas perdre tout le travail accumulé, les logiciels et les données amoncelées.

Est-ce satisfaisant ? Pas complètement. D’abord, on doit accepter de vivre avec des théories qui comportent des erreurs. Si ces théories s’améliorent sans cesse, même modestement, cela semble acceptable. Surtout, on doit accepter de ne pouvoir expliquer les résultats ; c’est indéniablement un aveu d’échec. Pourtant cela peut se justifier : les modèles algorithmiques nous permettent d’étudier des phénomènes beaucoup plus complexes que les théories classiques. Si nous ne pouvons présenter des explications c’est que les explications qu’on pourrait avancer seraient par nature pluridisciplinaires et extrêmement complexes, peut-être trop complexes pour qu’un humain les énonce ou les comprenne.

En ce sens, il faut plutôt voir l’utilisation de modèles algorithmiques comme une extension du domaine de la science à des champs qui nous étaient encore interdits.

En guise de conclusion

Il n’y a pas si longtemps encore, les autres sciences hésitaient entre s’enthousiasmer pour la nouvelle venue, l’informatique, et lui refuser de l’accueillir comme une science. Questionner si l’informatique est une science n’est plus à l’ordre du jour : L’informatique a ses départements dans les universités, une salle dédiée au Palais de la Découverte, ses académiciens des sciences ; elle est enseignée au Collège de France, et puis dans tous les collèges et lycées de France même si le nombre de professeurs informaticiens reste faible.

L’informatique a aligné les avancées fulgurantes : compilateurs de plus en plus efficaces, langages de programmation de plus en plus sophistiqués, internet, le web, moteurs de recherche du web, systèmes cryptographiques à clés publiques, l’apprentissage automatique, etc. Et puis, elle a transformé l’économie mondiale, la culture, la vie sociale. Surtout, elle nous a émerveillés dans des rencontres surprenantes avec les autres sciences. On peut parier que l’informatique nous réservera encore de nombreuses surprises, et de belles occasions de nous engueuler entre amis…

Serge Abiteboul, Inria Paris & École Normale Supérieure Paris,
Gilles Dowek, Inria Paris-Saclay & École Normale Supérieure Paris-Saclay

Cet article est sous licence Creative Commons (selon la juridiction française = Paternité – Pas de Modification). http://creativecommons.org/licenses/by-nd/2.0/fr/

NOTES

[0] Le temps des algorithmes, Serge Abiteboul, Gilles Dowek, Le Pommier 2017.

[1] L’informatique, la science au cœur du numérique, sur binaire, Serge Abiteboul et al., 2014,
https://www.lemonde.fr/blog/binaire/2014/01/19/linformatique-quesako/

Informatique – quèsaco ?
https://www.lemonde.fr/blog/binaire/2014/01/19/linformatique-la-science-au-coeur-du-numerique-1/
Le numérique
https://www.lemonde.fr/blog/binaire/2014/01/20/linformatique-la-science-au-coeur-du-numerique-2/
Sciences et informatique
https://www.lemonde.fr/blog/binaire/2014/01/22/linformatique-la-science-au-cur-du-numrique-3/
Science et technique
https://www.lemonde.fr/blog/binaire/2014/01/23/linformatique-la-science-au-cur-du-numrique-4/
Innovation et créativité
https://www.lemonde.fr/blog/binaire/2014/01/24/linformatique-la-science-au-cur-du-numrique-5/

02 mars 202102 mars 2021

Le décodage à grande distance

Thomas Debris-Alazard est lauréat du prix de thèse Gilles Kahn 2020, pour sa thèse effectuée à l’Inria Paris. Pendant sa thèse, Thomas s’est attaqué a un problème de cryptographie post-quantique ouvert depuis 40 ans ! Il vient nous l’expliquer dans binaire. Pauline Bolignano.

La sécurité de nos données personnelles, de nos communications ou encore de nos échanges bancaires, en bref notre sécurité numérique n’est possible qu’au prix d’une protection : la cryptographie. Les menaces contre lesquelles elle nous protège sont légion et ne cessent d’évoluer, que ce soit avec les nouvelles habitudes d’utilisateurs ou l’amélioration des moyens techniques. Il est donc nécessaire d’analyser et d’adapter en permanence la cryptographie.

La cryptographie se scinde en deux grands domaines (voir cet article binaire). Le premier est la cryptographie à clef secrète. Mes travaux se sont concentrés sur le second paradigme dit cryptographie asymétrique ou à clef publique. Cette dernière repose sur l’utilisation de problèmes “difficiles” de type question/réponse là où la question joue le rôle de donnée publique, tandis que la réponse est le secret.

Il doit donc être difficile de trouver la réponse d’une question (personne ne peut calculer votre secret à partir de vos données publiques) alors qu’il doit être facile de calculer une question pour une réponse donnée (calculer ses données publiques à partir de son secret). Ce genre de problème est particulièrement naturel et commun dans nos vies. Prenons par exemple un annuaire. Il est facile de trouver le numéro de M. Hallyday alors qu’il est “difficile” étant donné un numéro de retrouver son détenteur. Malheureusement ce problème ne peut être utilisé en cryptographie. En effet, tout détenteur d’un ordinateur peut parcourir très rapidement l’annuaire pour retrouver une personne à partir de son numéro de téléphone. C’est ici que les mathématiques interviennent en nous offrant des problèmes tels que, même avec toute la puissance de calcul disponible sur terre, aucun ordinateur ne sera en mesure d’offrir une résolution. Il s’avère cependant que la cryptographie à clef publique actuellement déployée (notre sécurité numérique) repose uniquement sur des problèmes faciles à résoudre avec un ordinateur quantique. Les protocoles de sécurité que nous utilisons chaque jour seront donc caducs une fois que les premiers ordinateurs quantiques auront été construits. Face à ce danger il ne peut être invoqué l’infaisabilité d’un tel ordinateur à la lumière des récents progrès techniques (voir publication de Google). Fort heureusement nous connaissons des solutions cryptographiques fonctionnant sur nos ordinateurs et qui ont des chances d’être “sûres quantiquement”. On parle usuellement de cryptographie post-quantique.

C’est dans ce contexte que le National Institute of Standard Technology (NIST) du gouvernement américain lança en 2017 un appel pour la standardisation de systèmes à clef publique sûrs contre un ordinateur quantique. Cet appel se focalise sur deux fonctionnalités cruciales pour le fonctionnement d’internet : les échanges de clefs et les signatures numériques. Les signatures permettent de “signer” des messages. De cette façon nous sommes sûrs, d’une part de l’émetteur du message, et d’autre part que ce message n’a pas été altéré par une partie tierce. Cette fonctionnalité est par exemple primordiale lors de nos mises à jour logiciel : nous voulons nous assurer que la mise à jour vient bien de notre fournisseur et que personne n’y a intégré de virus. Ce dernier nous fournit donc des mises à jour signées.

Ma thèse se déroula dans ce cadre d’étude de la cryptographie post-quantique à clef publique avec comme tâche de fond la standardisation du NIST. Je me suis tout particulièrement intéressé à la branche cryptographique née de la proposition de McEliece et qui utilise des objets mathématiques appelés codes correcteurs d’erreurs. Bien que cette solution soit la plus vieille proposition post-quantique, aucune signature utilisant des codes n’a été retenu au NIST. Il existe en effet d’importants problèmes techniques pour construire des signatures et tout particulièrement avec des codes (problème ouvert par McEliece lui-même dans son article fondateur). Mes travaux se sont entre autres consacrés à la résolution de ce problème ouvert depuis 40 ans.

Des télécommunications aux codes correcteurs

La cryptographie à clef publique est en quête de problèmes difficiles. Une source particulièrement prolifique pour cette dernière fut l’un des grands tournants de notre époque : la numérisation de l’information. Revenons un instant sur ce point. La numérisation ouvrit la possibilité de la conservation illimitée de l’information tout comme notre capacité à la transmettre quasi-instantanément. En revanche, ceci ne fut possible qu’au prix de la protection contre les erreurs. En effet, toute donnée enregistrée sur un support (pensons à nos vieux CD-ROM) ou téléchargée d’un serveur à l’autre bout du monde est susceptible d’être altérée. Le principe pour s’en prémunir est alors simple et naturel : adjoindre de la redondance à chaque symbole que l’on souhaite transmettre ou sauvegarder. Une illustration banale est lorsque nous cherchons à épeler notre nom au téléphone : T comme Thierry, I comme Inès, L comme Léo etc… Avec notre interlocuteur à l’autre bout du fil nous convenons en fait implicitement de la règle suivante : nous “encodons” les lettres de notre nom en prénom (ici T s’encode en Thierry). Ensuite une fois les prénoms transmis, même si la qualité de transmission est mauvaise l’interlocuteur sera en mesure de retrouver le prénom et donc la lettre encodé. Par exemple si votre interlocuteur entend “iéri”, il en déduira que vous lui avez transmis Thierry et donc T.

Dans un contexte numérique où nous souhaitons envoyer des bits l’idée est essentiellement la même. Prenons un petit exemple. Supposons que l’on souhaite sauvegarder ou transmettre une suite de deux bits (par exemple 01). Nous commençons par les encoder en une suite de trois bits de la façon suivante:

00 → 000, 01 → 101, 10 → 110 et 11 → 011

Ici 01 s’encode en 101. Nous pouvons alors constater que les encodages possibles ne recouvrent pas toutes les suites de trois bits : 111 n’est pas un encodage valide. Imaginons désormais que vous souhaitiez transmettre les bits 11. Vous commencez par les encoder en 011, vous transmettez ensuite ces trois bits. Si lors de la transmission aucune erreur ne se produit votre interlocuteur recevra 011 et il en déduira que vous lui avez envoyé 11. En revanche, que se passe t-il si une erreur se produit lors de la transmission (une rayure sur votre CD-ROM…)? Il se peut très bien qu’une fois 011 envoyé le premier bit, ici 0, soit modifié en 1. Dans ce cas votre interlocuteur recevra 111. Cet encodage n’étant pas valide il en déduira qu’une erreur a eu lieu pendant la transmission. On parle alors de détection d’erreur. De façon plus générale l’encodage décrit précédemment permet toujours de détecter une erreur. La figure qui suit est une illustration de l’encodage que nous venons de décrire.

Ce encodage ne permet malheureusement pas de décoder ne serait-ce qu’une erreur, c’est à dire corriger une erreur. En effet, en recevant 111 votre interlocuteur ne peut pas savoir si vous lui avez envoyé 011 ou 110… Votre encodage permet effectivement de détecter une erreur mais pas de la décoder… L’ambition de la théorie mathématiques des codes correcteurs a alors été de proposer des familles de codes (d’encodage) avec une “structure mathématique” sophistiquée permettant de décoder. La recherche des dernières décennies a offert des structures de plus en plus complexes permettant de corriger de plus en plus d’erreurs. L’introduction de la 5G fait par exemple suite à la découverte d’un nouveau type d’encodage extrêmement efficace. Si de nombreuses structures ont été introduites au fil du temps c’est que décoder des erreurs pour un encodage “naïf”, c’est à dire sans structure particulière, est particulièrement difficile, ce que confirment près de soixante années de recherche.

Des codes correcteurs à la cryptographie.

McEliece eut alors l’idée en 1978 d’utiliser ce problème difficile de décodage d’un code quelconque dans un contexte de cryptographie à clef publique.

Supposons que Bob souhaite communiquer à Alice un message formé de bits de façon confidentielle. L’idée est la suivante. Alice commence par choisir son code (encodage) préféré mais qu’elle sait décoder. En d’autres termes si Alice reçoit un encodage où des erreurs se sont produites (certains bits ont été modifié) elle peut retrouver l’encodage envoyé, donc le mot encodé. Notons qu’Alice ne peut pas non plus corriger trop d’erreurs (si votre CD-ROM est trop rayé il est illisible…). Alice rend alors public son encodage. Bob qui souhaite maintenant envoyer un message commence par l’encoder. Bob met ensuite lui-même des erreurs sur cet encodage (mais pas trop). Bob envoie alors son encodé avec des erreurs à Alice qui retrouve donc l’encodé et ainsi le message puisqu’elle sait décoder. Désormais si Eve (une personne malveillante…) intercepte les communications entre Alice et Bob elle se retrouve avec un encodage erroné. Eve doit donc savoir décoder pour retrouver le message. C’est ici qu’intervient l’une des idées de McEliece. Alice a certes choisi son code préféré qu’elle sait décoder mais elle doit le faire de façon précautionneuse. Alice doit être la seule à pouvoir décoder. Pour cela elle va choisir un code structuré mais elle va cacher cette structure mathématique de façon à ce qu’en rendant son encodage public, ce dernier semble quelconque. Ainsi même si Eve connaît l’encodage, elle ne connaît pas la structure permettant le décodage. Elle se retrouve à devoir résoudre le problème de décodage d’un code quelconque, problème difficile. Eve est donc incapable de retrouver le message envoyé par Bob. Ce-dernier est donc sûr d’avoir transmis à Alice de façon confidentielle son message.

Les travaux de ma thèse se sont alors inscrits dans ce contexte de cryptographie avec des codes correcteurs, que ce soit à travers des analyses de la difficulté algorithmique du problème de décodage d’un encodage quelconque (voir nos articles de 2017 et 2019), des attaques (retrouver des structures cachées) ou encore la proposition d’un schéma de signature avec des codes : Wave. La signature Wave s’est faite en rupture de l’approche classique en cryptographie avec des codes, qui utilise la difficulté du problème de décodage avec peu d’erreurs. On parle de décodage à petite distance. J’ai avec Wave introduit une nouvelle notion originale et nouvelle : le décodage avec beaucoup d’erreurs, c’est à dire à grande distance (i.e: rechercher l’encodage le plus éloigné).Cette idée n’a aucun sens dans un contexte de télécommunication. Si nous reprenons notre exemple téléphonique, le décodage le plus proche de “iéry” est effectivement Thierry et donc T alors qu’un décodage éloigné est pas exemple Zinédine et donc Z… En revanche, comme je l’ai montré, ce nouveau paradigme a d’ores et déjà un grand intérêt cryptographique car essentiel au bon fonctionnement de Wave. De plus, en guise d’ouverture le décodage en grande distance pose de nombreuses questions, laissant espérer de nouvelles opportunités cryptographiques.

Thomas Debris-Alazard, chargé de recherche à l’Inria dans l’équipe Grace