décembre 2019 – binaire

30 décembre 201918 décembre 2019

On termine en podcast !

Pour patienter jusqu’à l’année prochaine, binaire vous invite à réécouter trois interviews de Serge Abiteboul sur les sujets de la numérisation de l’État, l’impact du numérique sur la transition énergétique et les enjeux du numérique à l’ère des réseaux sociaux.

Toute l’équipe de binaire vous retrouve le 1er janvier !

La numérisation de l’État : interviewé par Gaëlle Gangoura pour Acteurs Publics dans le cadre de la semaine de l’innovation publique

Face au x innovations numériques, l’homme reste le maître du jeu : interviewé par Yolaine de la Bigne pour EDF – podcast Ça change tout

Disinformation and hate speech in social networks : interviewed by Julian Jaursch for is Stiftung Neue Verantwortung, an independent German think tank (to develop concrete ideas as to how German politics can shape technological change in society) – Interview in English (transcript)

27 décembre 201906 janvier 2020

Les défis scientifiques de la cybersécurité

Un nouvel « Entretien autour de l’informatique ». Guillaume Poupard a obtenu une thèse de doctorat en cryptographie sous la direction de Jacques Stern à l’École normale supérieure de Paris, dans une des meilleures équipes au monde dans le domaine. Après avoir été responsable du pôle « sécurité des systèmes d’information » à la direction technique de la Direction générale de l’armement (DGA), il est devenu Directeur général de l’Agence nationale de la sécurité des systèmes d’information (ANSSI) en 2014. Guillaume Poupard nous parle de la cybersécurité et des défis scientifiques qu’elle soulève.

Binaire : comment devient-on spécialiste de cybersécurité, et directeur de l’ANSSI ?

GP : je me suis intéressé très tôt à l’informatique théorique. Pendant mes études, j’ai fait un stage dans l’équipe de Jacques Stern de cryptographie autour de la programmation de carte à puce. Le sujet était à la fois très théorique et hyper pratique. J’ai réalisé que j’adorais ce mélange des genres. J’ai fait une thèse en cryptographie. Je suis ensuite passé naturellement de la cryptographie à la sécurité des logiciels, à la cybersécurité, à la confiance numérique, jusqu’à arriver à l’ANSSI. C’est comme cela que j’entends mon travail : participer à ce que les entreprises et les citoyens puissent avoir confiance dans le numérique qu’ils utilisent quotidiennement.

Binaire : il va te falloir un peu décrypter un certain nombre de termes employés comme cryptographie ou cybersécurité.

GP : le but de la cryptographie est de pouvoir échanger des messages sans avoir confiance dans les intermédiaires. On chiffre le message typiquement à l’aide d’une clé de chiffrement de telle façon que seul le destinataire soit en mesure d’avoir accès à son contenu. On imagine bien un gouvernement donnant des instructions à un ambassadeur ou deux conspirateurs s’échangeant des secrets. Le but est de garantir la confidentialité de la communication. C’est pareil sur Internet.

On peut aussi tenir à garantir l’intégrité du message, pour qu’il ne puisse pas être modifié par un intermédiaire. On trouve encore d’ailleurs d’autres utilisations de la cryptographie. Par exemple, dans les « rançongiciels », ransomware en anglais. Quelqu’un de mal intentionné arrive à chiffrer des données essentielles et à détruire les données originales. Il propose le code de déchiffrement contre une rançon. C’est ce qui s’est passé avec le virus WannaCry pour le service de santé NHS en Angleterre et en Écosse en 2016, bloquant des dizaines de milliers d’ordinateurs et d’équipements médicaux. Dans ce dernier cas, on perd la propriété essentielle de disponibilité de l’information.

Binaire : et la cybersécurité ?

GP : nous devons nous protéger contre des attaques informatiques, notamment via Internet. La sécurité n’est pas un sujet nouveau. Depuis toujours, les gouvernements, les entreprises cherchent à protéger la confidentialité de certaines informations. Le renseignement, un des plus vieux métiers du monde, inclut les deux facettes : chercher à obtenir des informations confidentielles, et se protéger contre les ennemis qui essaieraient de faire cela. Avant on se protégeait avec des moyens physiques comme des chiens et des fils de fer barbelés. S’il y a aujourd’hui de nouveaux risques, si on dispose de moyens numériques, le problème n’a pas changé. Il n’est d’ailleurs pas possible de séparer les mondes physiques et numériques. Par exemple, si un attaquant arrive à faire introduire une clé USB dans un ordinateur supposé être protégé ou à placer des équipements d’interception d’ondes à proximité physique d’un tel ordinateur, il peut être capable de récupérer des secrets.

Binaire : nous sommes bien dans une guerre ancienne et classique entre attaquants et défenseurs. Le numérique donne-t-il l’avantage à un des camps ?

GP : pour ce qui est de la cryptographie, dans le passé, l’avantage était à l’attaque. On finissait toujours par trouver des façons de décrypter les messages, à « casser » les codes. Très souvent, c’était un travail rémunérateur pour les mathématiciens. Aujourd’hui, nous disposons de « chiffrements asymétriques » qui permettent des échanges chiffrés avec le secret garanti entre deux interlocuteurs sans qu’ils aient eu besoin de se rencontrer au préalable pour convenir d’un « secret » commun. Le moteur de ces techniques est l’informatique. Le chiffrement demande un peu de calcul, mais c’est surtout le décryptage qui est très gourmand, demandant un temps de calcul dont l’attaquant ne dispose pas.

Bob chiffre le message avec la clef publique d’Alice et envoie le texte chiffré. Alice déchiffre le message grâce à sa clef privée. Wikipedia

De tels systèmes de chiffrement sont à la base de tous les échanges sécurisés sur Internet, par exemple des achats que nous faisons, et de plus en plus systématiquement des lectures de documents sur le web (avec HTTPS).

Binaire : comment se fait en pratique la vérification d’un circuit ou d’un logiciel ?

GP : on s’appuie sur la certification d’un produit par un tiers. En France, ce tiers doit être homologué par l’ANSSI. Évidemment, le niveau d’exigence dépend du service fourni et du contexte. On n’aura pas les mêmes exigences pour l’application qui compte vos pas et un logiciel d’une centrale nucléaire. Le plus souvent, on examine (avec différents niveaux d’attention) le code. Pour des exigences plus élevées, par exemple pour un véhicule de transport, on essaie d’établir des preuves formelles de sécurité. C’est-à-dire qu’on essaie de prouver mathématiquement à l’aide de logiciels de preuve que le logiciel ou le circuit fait bien ce qu’on attend de lui.

On réalise également de manière complémentaire des analyses de vulnérabilité. On demande à des attaquants d’essayer de trouver des failles dans le système. S’ils en trouvent, on colmate. Des chercheurs qui travaillent dans ce domaine s’amusent aussi à trouver de telles failles. La pratique responsable est de la signaler discrètement aux concepteurs, et de leur laisser le temps de la corriger avant de rendre ces failles publiques.

Il ne faut pas croire que c’est simple. Très souvent, on découvre des faiblesses. Par exemple, si les cartes bancaires ont une durée de vie assez courte, de l’ordre de trois ans, c’est essentiellement pour corriger des faiblesses de sécurité potentielles.

ANSSI/ Les différents métiers de l’ANSSI. Reportage sur les métiers de l’ANSSI. © Patrick Gaillardin.

Binaire : la question se pose donc particulièrement pour les nouveaux protocoles. On a parlé par exemple de trous de sécurité dans la 5G.

GP : la question se pose en particulier pour la deuxième génération de la 5G, la 5G standalone. Le protocole n’est pas encore stabilisé, l’encre n’est pas encore sèche. Le travail de R&D autour du développement de ce protocole est intense.

On est dans un cas relativement simple. Comme la 5G standalone n’est pas encore utilisée, on peut changer le protocole pour fixer ses bugs sans avoir à modifier des masses de matériels et de logiciels. Par contre, quand un circuit ou un service est déployé, la découverte d’un trou de sécurité peut être extrêmement coûteuse.

Binaire : on parle d’ordinateurs quantiques. Leur menace sur ces systèmes de chiffrement est-elle sérieuse ?

GP : l’arrivée de tels ordinateurs donnerait un avantage certain aux attaquants qui pourraient casser les codes de chiffrement utilisés aujourd’hui. Mais des chercheurs sont déjà en train de travailler sur des algorithmes de chiffrement post-quantiques… alors que les ordinateurs quantiques n’existent pas encore. Ça montre bien que la menace est prise au sérieux même si je suis incapable de vous dire quand de telles machines seront disponibles.

Binaire : quels sont les sujets de recherche actifs dans ce domaine ?

GP : je vous ai parlé de la recherche d’algorithmes qui résisteraient aux ordinateurs quantiques. Mais il y a d’autres sujets.

On voit pas mal de recherche autour des chiffrements qui permettraient de manipuler les données chiffrées, par exemple avec des chiffrements homomorphes. Prenons l’exemple de la recherche d’information pour trouver dans un corpus tous les documents qui contiennent un mot particulier. Si je chiffre les documents avant de les déposer dans le cloud, le service du cloud a besoin de la clé de chiffrement pour faire cette recherche pour moi. Mais pour livrer cette clé, je dois avoir toute confiance en ce service. Comment faire si je ne l’ai pas ?

Un autre sujet où la recherche pourrait aider énormément, c’est celui de l’accès à des données chiffrées dans des circonstances exceptionnelles. Toutes les méthodes dont on dispose fragilisent le secret, comme d’avoir un tiers-parti qui soit dépositaire des secrets. La question est comment faire pour utiliser des chiffrements qui protègent parfaitement la confidentialité des données personnelles mais qui permettent d’avoir accès à ces données dans des cas exceptionnels, par exemple sur décision judiciaire. On aimerait que les juges puissent avoir accès aux données mais sans compromettre la confidentialité des données pour la grande masse des citoyens qui ne sont pas sous le coup d’une demande judiciaire.

Binaire : la cryptographie est un maillon essentiel dans le paysage mais le plus souvent les attaques ne cassent pas la cryptographie mais le protocole de communication, une implémentation d’un algorithme.

GP : tout à fait. Cela conduit au sujet passionnant de la vérification de protocoles, par exemple du protocole que vous utilisez quand vous payez avec une carte de crédit sur Internet. Le code du protocole est typiquement très court mais vérifier qu’il ne laisse pas un trou de sécurité est super ardu. Très souvent on trouve des failles.

C’est peut-être le moment de faire une distinction entre sûreté et sécurité. Un logiciel ou un matériel peut tomber en panne. Il faut gérer les pannes ; on parle de sûreté informatique. Le cas de la sécurité est différent : là, un adversaire malicieux va essayer de trouver une faille. Pour s’en protéger, il faut prévoir tout ce qu’un tel adversaire, peut-être très intelligent et avec une grande puissance de calcul, pourrait imaginer. Une autre dimension consiste à se préparer à répondre à une attaque, par exemple, dans le cas des rançongiciels, être capable de relancer les systèmes très rapidement à partir de copies des données originales et saines.

Binaire : est-ce que la sécurité des systèmes est satisfaisante ?

GP : elle ne l’est pas. Dans le numérique, la compétition est mondiale et les premiers arrivés sur un service ont une prime énorme. Alors, les développements de logiciel se font trop vite, au détriment de la sécurité. Si nous ralentissons trop un produit français pour plus de sécurité, le marché est alors pris par des services bien moins sécurisés. Le sujet n’est pas simple. Mais la situation est inquiétante même pour des produits qui par définition devraient être bien sécurisés comme des pace makers.

Binaire : on ne peut couper au sujet de l’apprentissage automatique, tellement à la mode. Est-ce un sujet pour la cybersécurité ?

GP : absolument. Pour trois raisons. D’abord, du côté des attaquants. Les systèmes et leurs défenses étant de plus en plus complexes, les attaques sont de plus en plus automatisées, agiles. On commence à les voir utiliser des techniques d’intelligence artificielle.

Ensuite, bien sûr, l’analyse de données massives et l’apprentissage automatique sont utilisés pour la défense, notamment la détection d’intrusion. Il s’agit par exemple de détecter des comportements inhabituels. Bien sûr, le système va aussi retourner de fausses alertes. Des humains vérifient.

Enfin arrive la question des attaques pour biaiser l’apprentissage automatique de systèmes. Les techniques d’apprentissage automatique restent fragiles et relativement faciles à berner, manipulables par des attaquants qui introduisent, peut-être massivement, des données biaisées. De manière générale, le domaine de l’apprentissage automatique témoigne d’ailleurs d’une certaine naïveté, d’une croyance un peu aveugle dans la technique. En cybersécurité, nous avons appris à nous méfier de tout. Il est indispensable d’instiller un peu de notre méfiance dans le domaine de l’apprentissage automatique.

Binaire : attaque ou défense. Chapeau noir ou blanc. Est-ce que ce sont les mêmes personnes qui font les deux ?

GP Dans le modèle français, le gouvernement sépare clairement les services d’attaque et de défense. Dans des pays qui ont fait un autre choix, les services qui font les deux à la fois ont une tendance naturelle a délaissé une des deux facettes. Évidemment, cela ne veut pas dire qu’on ne parle pas à l’autre bord ; on a à apprendre d’eux comme ils apprennent de nous.

Binaire : binaire s’intéresse particulièrement aux questions d’éducation. Nous imaginons bien que ce sujet se pose en cybersécurité.

GP : d’abord, le pays a besoin d’experts dans ce domaine, bac+3, bac+5 et plus. Et, tous les experts en numérique doivent acquérir des compétences en cybersécurité. Cela passe par des cours spécialisés au niveau master mais le sujet doit aussi être un fil rouge tout au long de l’enseignement de l’informatique. Enfin, tous les élèves doivent obtenir des bases de cybersécurité, au collège, au lycée. La cybersécurité doit devenir la responsabilité de tous.

J’aimerais ajouter que cela ne devrait pas juste être un truc barbant à étudier. C’est un sujet absolument passionnant, un challenge intellectuel qui peut aussi être ludique. Par exemple, j’ai étudié le calcul modulaire et cela me passionnait peu. Mais quand j’ai appris comment c’était utilisé dans des systèmes cryptographiques asymétriques, cela a été une révélation !

Dans un pays comme Israël, les élèves parmi les plus brillants, détectés à partir de 14 ans, apprennent l’informatique et se spécialisent en cybersécurité. Ce sont un peu des stars dans la société. Évidemment, la situation politique de la France est différente, mais on aimerait aussi voir plus de nos meilleurs cerveaux suivre une telle filière. C’est d’ailleurs un excellent moyen d’inclusion sociale pour les milieux défavorisés.

Serge Abiteboul, Inria et ENS Paris, Pierre Paradinas, CNAM-Paris.

Chiffrement asymétrique.

La cryptographie asymétrique est un domaine de la cryptographie où il existe une distinction entre des données publiques et privées, en opposition à la cryptographie symétrique où la fonctionnalité est atteinte par la possession d’une donnée secrète commune entre les différents participants. La cryptographie asymétrique peut être illustrée avec l’exemple du chiffrement à clef publique et privée, qui est une technique de chiffrement, c’est-à-dire que le but est de garantir la confidentialité d’une donnée. Le terme asymétrique s’applique dans le fait qu’il y a deux clefs de chiffrement (que l’utilisateur qui souhaite recevoir des messages fabrique lui-même), telles que si l’utilisateur utilise une première clef dans un algorithme dit « de chiffrement », la donnée devient inintelligible à tous ceux qui ne possèdent pas la deuxième clef, qui peut retrouver le message initial lorsque cette deuxième clef est donnée en entrée d’un algorithme dit « de déchiffrement ». [Wikipédia]

Un peu de vocabulaire

Chiffrer un document consiste à le transformer pour le rendre incompréhensible à qui ne possède pas la clé de chiffrement.
Déchiffrer est l’opération inverse qui consiste à reconstruire le document à partir du document chiffré et de la clé.
Décrypter consiste à reconstruire le document sans avoir la clé. On dit alors qu’on a « cassé » le code de chiffrement.

Pour aller plus loin :

À propos de la cryptographie quantique : https://www.lemonde.fr/blog/binaire/2016/11/08/la-crypto-quantique-debarque/

À propos de l’évaluation de la sécurité d’un produit (Critères communs), voir encadré de l’article https://www.lemonde.fr/blog/binaire/2017/10/27/chiffre-securite-et-liberte/

23 décembre 201906 mars 2020

Le numérique, l’individu, et le défi du vivre-ensemble

Un nouvel « Entretien autour de l’informatique ». Ancien banquier entré chez les Dominicains en 2000, Éric Salobir, prêtre, est un expert officiel de l’Église catholique en nouvelles technologies. Ce passionné d’informatique a créé Optic, un think tank consacré à l’éthique des nouvelles technologies. Il cherche à favoriser le dialogue entre les tenants de l’intelligence artificielle et l’Église. Il est aussi consulteur au Vatican.

Le libre arbitre de l’individu

Le père Eric Salobir, collection personnelle

B : devant des applications qui peuvent prédire nos futures décisions et actions avec une précision croissante, que devient le libre arbitre ?

ES : on n’a pas attendu l’IA pour que l’humain soit prévisible ! Il suffit de lire « L’art de la guerre » de Sun Tzu. L’art de prédire le comportement de l’autre, de lire l’humain, fait partie des appétences de l’être humain. Mais on y arrive mal, et si par exemple, il y avait un psychopathe à l’arrêt de bus, on ne s’en apercevrait jamais. Avec la récolte de données très détaillées et leur analyse, on dispose de nouveaux moyens très efficaces pour assouvir ce désir très ancien. Pour moi, cela ne remet pas en cause le libre arbitre dans son principe, mais nous amène à questionner ce qui relève de la liberté et ce qui relève du conditionnement.

C’est une nouvelle étape d’un long cheminement. Freud ne remet pas en cause le fait qu’il y ait une part de liberté mais en redéfinit les contours, et ses travaux sur l’inconscient donnent des éléments qui restreignent le champ de la liberté en déterminant le comportement. Le mythe de la complète liberté a été démonté par Gide dans « Les Caves du Vatican » : Lafcadio décide de jeter quelqu’un par la porte du train pour prouver qu’il est libre, mais l’intentionnalité fait que ce n’est pas un geste complètement gratuit. La liberté totale n’existe pas, son absence totale non plus. Nous vivons entre les deux, et actuellement il est essentiel pour nous de mieux saisir les frontières.

B : avec les nudges (incitations en français), n’assistons-nous pas à un rétrécissement du libre arbitre ?

ES : de tels usages de l’IA permettent de court-circuiter le circuit décisionnel en s’appuyant presque sur la dimension reptilienne de notre mode de fonctionnement, et c’est inquiétant. Le nudge n’est pourtant pas non plus un phénomène nouveau. Par exemple, considérez la porte d’entrée de la basilique de la Nativité de Bethléem, qui fait 1 mètre 10 de haut. Vous êtes obligé de vous courber pour entrer, de vous incliner, puis après être entré, vous vous redressez, et vous prenez conscience que votre stature humaine naturelle est d’être debout. Ce nudge-là est ancien. Ce qui a changé, c’est qu’on est passé d’un nudge extérieur, qui s’appuie sur la corporalité et avec lequel on peut prendre de la distance, à des technologies numériques qui affranchissent partiellement de cette corporalité, avec le danger que l’on perde cette capacité à prendre de la distance par rapport à certain nudges.

Avec la publicité, lorsque quelque chose est présenté exactement au bon moment, quand on est vulnérable ou fatigué et que de plus, il suffit pour acheter d’appuyer sur un bouton, avec un geste physique qui est quasiment imperceptible, on est alors poussé à acheter. C’est pareil avec certains mouvements à caractère sectaire, qui savent saisir le moment où une personne est la plus fragile, dans un moment d’épuisement, et faire d’elle un peu ce qu’ils veulent. Cela explique aussi en partie la radicalisation en ligne, qui passe par la détection de personnes en situation de vulnérabilité, d’échec ou d’isolement. Cela ne veut pas dire que le libre arbitre n’existe plus, mais que certains empiètent sur le libre arbitre des autres. Cela a toujours existé, par exemple avec les fresques érotiques qui attiraient le passant à Pompéi. Mais on a clairement maintenant franchi un cap assez net en termes d’intrusion. Certaines manipulations peuvent aller jusqu’à menacer le vivre-ensemble et la démocratie. C’est inquiétant !

Les liens entre les personnes

B : les gens passent maintenant beaucoup de temps dans un monde virtuel, déconnecté de la vie physique. Cela a-t-il des conséquences sur leurs relations avec autrui ?

ES : ce qui est virtuel, c’est ce qui est potentiel, comme des gains virtuels par exemple. Le numérique n’est pas si « virtuel » que ça. Peu de choses y sont virtuelles, sauf peut-être les univers de certains jeux vidéo sans lien avec le monde réel. Et encore, même là, les jeux en ligne massivement multi-joueurs impliquent de vrais compétiteurs.

Le numérique permet un nouveau mode de communication, et les jeunes peuvent avoir une vie numérique au moins aussi riche que leur vie IRL (in real life), et qui complète leur vie IRL. La communication numérique est pour beaucoup, je pense, une communication interstitielle. Certes, les adolescents peuvent rencontrer des gens en ligne, mais ils ont surtout un fonctionnement relativement tribal. Ils hésitent à parler à qui ne fait pas partie de la bande. Les modes de communication numériques vont principalement servir à combler les lacunes des relations déjà existantes.

Évidemment, cela change les modes et les rythmes de présence. Autrefois quand le jeune rentrait chez lui, il était chez lui, injoignable sauf en passant par le téléphone de la maison familiale. Maintenant la communication avec ses pairs continue dans sa chambre et jusque dans son lit. Un enfant harcelé en classe par exemple ne pourra plus trouver de havre de paix à domicile. Un harcèlement bien réel peut devenir omniprésent.

La relation au temps et à l’espace rend plus proches de nous un certain nombre de gens, et cela change la cartographie. J’ai des amis un peu partout dans le monde, et les réseaux sociaux leur donnent une forme de visibilité et me permettent de garder des liens avec eux. C’est positif.

Et l’amour ?

B : peut-on, avec le numérique, mettre l’amour en équations ?

ES : l’amour est un sentiment complexe, et toute réponse à cette question appelle aussitôt la controverse. Pour certains spécialistes de neurosciences, il s’agit seulement d’une suite de réactions chimiques dans notre cerveau. Le psychologue rétorque que cette réponse explique comment ça se passe, le mécanisme, mais ne dit pas pour autant ce que c’est. Ces deux points de vue sont quand même assez opposés. Pour ma part, je dirais que, même si on a l’impression que, scientifiquement, on comprend un peu la façon dont cela se passe, ça ne nous dit pas grand-chose de la nature du phénomène, ou en tout cas pas assez pour que ce phénomène soit réductible à ce fonctionnement électrique et chimique.

Une vidéo d’un petit chat, ou même un Tamagotchi, suffit à susciter une réaction d’empathie. L’humain a cette belle capacité de s’attacher à à peu près tout et n’importe quoi, mais ça a plus de sens s’il s’attache à ses semblables, sa famille, ses amis. Ce sont des liens forts.

Surtout, il ne faut pas tout confondre. J’ai des liens très forts avec un petit nombre de gens et cela n’a rien à voir avec tous ces liens faibles qui se multiplient avec mes contacts sur les réseaux sociaux. L’appétence pour une forme de célébrité (même relative) prend de plus en plus de poids. Je suis étonné de voir à quel point cela se confond avec l’amour dans la tête d’un grand nombre de gens. C’est l’aspect négatif d’un média bidirectionnel : chacun peut devenir connu comme un speaker du journal de 20 h.

Je pense qu’on réduit l’amour à la partie équations quand on fait cette confusion. On floute les contours de l’amour, on le réduit tellement qu’on peut alors le mettre en équations.

Une autre inquiétude est qu’on peut effectivement avoir l’impression qu’on va susciter de l’empathie chez la machine. Les machines peuvent nous fournir les stimuli dont nous avons envie, et elles savent imiter l’empathie. Certains disent que cette simulation vaut le réel, mais ce n’est pas la même chose, c’est seulement une simulation. Le film Her illustre cette question. Le danger, quand on simule l’empathie, c’est qu’on met l’autre dans une situation de dépendance. L’humain risque de se laisser embarquer dans une relation avec des objets dits intelligents. Et cette relation est différente de celle que l’on pourrait établir, par exemple, avec un animal de compagnie. Certes, un chien veut être nourri, mais il n’a pas une relation purement utilitariste : ses capacités cognitives et relationnelles permettent d’établir avec lui une forme de lien, certes asymétrique mais bidirectionnel. Alors qu’avec la machine, on va se trouver dans une relation bizarre, totalement unidirectionnelle, dans laquelle nous sommes seuls à projeter un sentiment.

B : vous parlez de relation unidirectionnelle. Mais pourquoi est-ce moins bien qu’une personne ait en face d’elle un système qui simule l’empathie ? Si cela fait du bien à la personne ? On a par exemple utilisé de tels systèmes pour améliorer le quotidien d’enfants autistes.

ES : Vous faites bien de préciser « simule ». Ce ne sont pas des systèmes empathiques. Ce sont des systèmes qui simulent l’empathie, comme un sociopathe simulerait à la perfection le sentiment qu’il a pour une personne, sans pour autant rien ressentir. Le principe de l’empathie, c’est qu’elle change notre mode de fonctionnement : on est touché par quelqu’un et cela nous transforme. Notre réaction vient du fond du cœur.

Ce n’est certes pas une mauvaise chose que d’améliorer l’expérience de l’utilisateur, qu’il soit malade ou pas, mais cette dimension unidirectionnelle de la relation peut potentiellement être nocive pour une personne en situation de fragilité. Celui qui simule l’empathie est dans la meilleure situation possible pour manipuler l’autre. Jusqu’où faut-il manipuler les gens, surtout s’ils sont en situation de fragilité ?

Dans le cas de la machine, l’enjeu réside donc dans le but de la simulation. Si elle est élaborée par le corps médical pour faciliter la communication avec une personne malade ou dépendante, et pour faire évoluer cette personne vers un état meilleur, elle peut être tout à fait légitime. Mais quid d’une empathie simulée pour des raisons différentes, par exemple commerciales ? Cela demande une grande vigilance du point de vue éthique.

La post-vérité

B : on assiste à une poussée du « relativisme ». Il n’y a plus de vérité ; les fake news prolifèrent. Est-ce que cela a un impact sur la religion ?

ES : Effectivement je pense qu’il y a un impact sur les religions car cela remet aussi en cause tout ce qui est dogme. Prenons la Trinité : pourquoi est-ce qu’ils sont trois ? Certains pourraient dire que la Trinité pose une question de parité, et qu’on n’a qu’à rajouter la Vierge Marie, comme ça ils seront quatre !

On peut ainsi dire à peu près l’importe quoi, et c’est là le problème. Mais en fait, avant d’être religieux, l’impact de cette remise en cause de la notion de vérité est d’abord intellectuel. L’opinion finit par l’emporter sur le fait, même démontré. D’un point de vue philosophique, cela mènerait à dire que notre relation au réel est plus importante que le réel lui-même. Or, les sciences lèvent des inconnues, répondent à des questionnements, même si elles découvrent parfois leurs limites. Mais, sans les connaissances que nous accumulons, l’océan d’à-peu-près brouille notre compréhension du réel.

Cela risque de conduire à une remise en question de notre société parce que, pour vivre ensemble, nous avons besoin de partager des vérités, d’avoir des bases de connaissances communes. Par exemple, l’activité humaine est-elle le facteur majeur du réchauffement climatique ou pas ? Ce ne devrait pas être une question d’opinion mais de fait. À un moment donné, cela va conditionner nos choix de façon drastique.

La spiritualité

B : est-ce qu’il reste une place pour la spiritualité, pour la foi, dans un monde numérique ?

ES : il est intéressant de voir à quel point le monde numérique, dans ses dimensions marchandes, économiques, est matérialiste. Et pourtant, on constate que le besoin de spiritualité n’a vraiment pas disparu. Voyez le succès, dans la Silicon valley, des spiritualités orientales, qui arrivent parées d’une aura exotique et lointaine, malgré la dimension syncrétiste de la version californienne. Si des patrons font venir à grand frais des lamas du Tibet, c’est parce que cela répond à un besoin.

Je crains que la plupart de nos contemporains ne soient obligés d’assouvir ce besoin avec ce qu’ils ont sous la main, et le piège, c’est que ce soit la technologie elle-même qui vienne nous servir de béquille spirituelle ! Dans à peu près toutes les traditions religieuses, il existe la tentation de créer un objet, souvent le meilleur qu’on soit capable de concevoir, de le placer en face de soi, au centre du village, de le révérer, et d’attendre qu’il nous procure une forme d’aide, de protection, voire de salut. C’est le principe du totem et du veau d’or.

Le HomePod était l’objet le plus vendu aux USA à Noël dernier. Il est connecté à tout, il est l’accès de toute la famille au savoir, à une espèce d’omniscience et d’ubiquité sous le mode de la conversation, en court-circuitant l’étape de la recherche via un moteur qui proposerait plusieurs réponses. Il devient un peu l’oracle, une Pythie qui serait la voix du monde. Les gens utilisent aussi le HomePod pour connecter tout leur quotidien. Le HomePod met le chauffage en route, envoie un SMS pour avertir que les enfants sont bien rentrés de l’école et branche l’alarme, pour veiller sur la maison en notre absence. Ainsi, le HomePod est une entité qui s’occupe de la famille, une entité physique placée sur un piédestal dans le foyer, un peu comme un Lare, une petite divinité domestique qui prend soin de chacun. Cela exprime une relation à la technologie qui peut être une relation d’ordre spirituel.

Le problème, c’est que la technologie ne fait que ce pour quoi elle a été prévue. L’être empathique, lui, va faire des choses pour lesquelles il n’a pas été programmé, il va se surpasser, se surprendre quand il est poussé à faire des choses qui sortent du cadre, alors que cette technologie ne va faire que les choses pour lesquelles elle a été programmée. Dans la tradition juive, le psalmiste disait en se moquant des faux dieux : « Ils sont faits de mains d’homme, ils ont des oreilles mais n’entendent pas… » Sauf que le HomePod entend, et si on lui dit « Commande moi une pizza ! », et bien, il vous apporte le dîner. De ce fait, l’illusion est beaucoup plus réaliste.

B : vous parlez de « petit dieu ». Est-ce que le numérique peut aussi proposer Zeus, un « grand Dieu » ?

ES : pour le moment, l’humain n’a pas encore été capable d’en fabriquer. La pensée magique est liée à la spiritualité. Cette pensée magique n’a jamais complètement disparu, et certains sont persuadés qu’un jour on créera une IA suffisamment puissante pour qu’on puisse la prendre pour un dieu. Il est vrai qu’une intelligence artificielle vraiment forte commencerait à ressembler à une divinité. Ce serait alors peut-être confortable pour l’humain de déléguer toutes ses responsabilités à une telle entité. Mais si on peut se complaire dans un petit dieu, je ne pense pas que nous serions prêts à accepter qu’une machine devienne comme Zeus. Est-ce que nous serions prêts à entrer dans ce type de relation ? Un dieu qu’on révérerait ? Je ne pense pas.

La place du Créateur

B : nous créons des logiciels de plus en plus intelligents, des machines de plus en plus incroyables. Est-ce que toutes ces créations nous font prendre un peu la place du Créateur ?

ES : le scientifique dévoile une réalité qui lui préexiste, alors que l’inventeur, le spécialiste de technologie, fabrique quelque chose qui n’existait pas auparavant, comme un téléphone intelligent par exemple, et cela induit un rapport au réel assez différent. L’inventeur se met un peu dans la roue du Créateur : c’est quelque chose qui est de l’ordre du talent reçu. En ce sens, si on considère que Dieu est Créateur et que l’homme est à l’image de Dieu, il est naturel que l’être humain veuille également créer ; cela tient du génie humain.

Mais, créer, techniquement, c’est créer ex nihilo. Au commencement, dit la Bible, il y avait le chaos. Une part de substrat, mais informe. Quand un humain dit qu’il a créé quelque chose, en fait, à 99%, il reprend des brevets existants, même s’il peut amener une réelle rupture. L’iPhone qu’on utilise juste avec les doigts, sans stylet, nous a ouvert de nouvelles perspectives d’accès à l’information en situation de mobilité. Sans sous-estimer l’apport des humains qui ont inventé cela, cela tient de l’invention, de la fabrication, et je n’appellerais pas cela véritablement de la « création ».

En revanche, ces technologies nous permettent de bâtir, de construire ensemble quelque chose de nouveau. Ces technologies sont nos réalisations. Ce sont des productions de notre société, aux deux sens du génitif : elles sont produites par ladite société, et ainsi elles nous ressemblent, elles portent en elles une certaine intentionnalité issue de notre culture ; mais, en retour, leur utilisation façonne notre monde. D’ailleurs, quand un pays, consciemment ou inconsciemment, impose une technologie, il impose aussi sa culture, car en même temps, ces technologies transforment la société qui les reçoit. C’est le principe du soft power.

Dans ce cadre, on voit bien que l’intelligence artificielle permet une plus grande personnalisation. Comment faire en sorte que cette personnalisation ne se transforme pas en individualisme ? Il y a un effet de bulle : tous ceux avec qui je serai en contact vont me ressembler, et tout sera conçu, fabriqué exactement pour moi. De plus en plus, le monde numérique, c’est mon monde, un monde qui devient un peu comme une extension de moi-même. C’est extrêmement confortable, mais le danger, c’est que mon réel n’est pas votre réel, et alors comment se fait l’interaction entre les deux ?

La difficulté réside dans le fait que, si chacun configure de plus en plus précisément son réel autour de lui, la rencontre de ces écosystèmes risque d’être de plus en plus complexe. Les difficultés en société ne seront alors plus entre les communautés et le collectif, mais entre chaque individu et le collectif. Comment l’humain qui s’est créé sa bulle peut-il être en adéquation avec un référentiel, et comment faire évoluer ce référentiel ? Si chacun a ses lunettes pour voir le monde en rose, en bleu, en vert, et qu’on rajoute à cela l’ultralibéralisme libertaire, cela peut mettre en danger le projet de construction de la société.

Le vrai défi est bien de garder un référentiel commun. Plutôt que de nous laisser enfermer dans une personnalisation à outrance, le vrai défi est de bâtir collectivement un vivre-ensemble.

Serge Abiteboul, Inria & ENS Paris, Claire Mathieu, CNRS

@frEricOP @OpticTechno

19 décembre 201917 janvier 2020

Femmes et Sciences : et si c’était une affaire de mecs ?

Pour lutter contre la désaffection des jeunes pour les sciences, garçons et filles, les associations Parité Science et Femmes & Sciences et plusieurs partenaires ont pris le temps, le 9 novembre 2019, de faire le point sur l’égalité filles et garçons face à l’enseignement des sciences et à l’orientation scolaire dans notre pays, ainsi qu’aux sciences comme moteur d’intégration sociale, notamment grâce aux outils numériques. Pour partager quelques éléments clés, faisons l’interview imaginaire d’un petit garçon. Thierry Viéville.

Source et Copyright Parité Science et Femmes & Sciences

Binaire : Bonjour Léandre, peux-tu citer le nom d’une femme scientifique ?

Léandre : Oui oui : « Isabelle Martin ».

Binaire : Ça alors ! Tu sais que la plupart des personnes auraient répondu « Marie Curie », c’est souvent la seule qu’on connaît parmi toutes les femmes scientifiques.

Léandre : Certes, mais ma sœur m’a expliqué que ça pose problème parce que si le seul modèle pour les filles qui veulent faire de la science est une personne complètement extraordinaire, alors elles vont se dire, que bon, je suis pas aussi excellente que Marie Curie, donc je n’ai aucune chance.

Binaire : Ah oui tu as raison, mais tu sais : je ne connais pas Isabelle Martin moi.

Léandre : Ben moi non plus, hihihi, mais ma sœur a fait un calcul de probabilité. Et comme Isabelle et Martin sont les prénoms et patronymes les plus courants, y’a quasiment aucune chance qu’il n’y ait pas une femme scientifique qui se nomme ainsi. C’est sûrement une personne ordinaire, qui a juste envie d’être chercheuse parce que cela lui plaît.

Binaire : Ah oui ! Mais dis moi pourquoi les filles s’autocensurent vis à vis des sciences ? Tu as vu par exemple avec la création du nouvel enseignement Numérique et science informatique qui permet enfin de s’initier à cette science récente et omniprésente avec tant de débouchés, il y a vraiment très peu de filles qui ne se sont pas autocensu…

Léandre : Hein ?!?!! A.u.t.o.-C.e.n.s.u.r.e. Faut arrêter là, non mais tu réalises pas … c’est de la censure sociale omniprésente dont on parle ici. Regarde, par exemple ça :

Source : Isabelle Collet Inclusion des filles dans l’enseignement en informatique, quelles bonnes pratiques ? On y trouvera d’autres « perles » sexistes de 2019 et une analyse de ce matraquage social permanent.

Comme nous l’explique Isabelle Collet :

« On invite les filles à faire de la science au niveau européen ? C’est à travers un clip rempli d’un ramassis de clichés ! Barbie est (enfin !) informaticienne ? Elle s’occupe du graphique pendant que son mec fait la techno, comme vous l’aviez dénoncé sur binaire. Et mon horreur préférée est devant toi… regarde ces mappemondes. On en fait une rose pour les filles » . Seraient-elles trop c…s (avec 2 ‘n’) pour utiliser celles « réservées aux garçons » ? « Le fait de produire une mappemonde rose pour attirer les filles rend la bleue masculine, alors qu’elle était jusque là “normale”. De ce fait, les trucs normaux c’est pour les garçons, tandis que pour ces pauvres filles faut adapter… ».

Dès la naissance on commence à les traiter de manière biaisée. Donc NON : y a PAS d’autocensure des filles, y’a juste des filles qui finissent par baisser la tête devant la censure sociale, à force d’être exclues implicitement et très concrètement, comme le montre par exemple cette étude https://www.elephantinthevalley.com de 2015, actualisée en 2018.

Binaire : Tu exagères Léandre, les filles comme les garçons peuvent par exemple accéder aux revues scientifiques de vulgarisation.

Léandre : Ah ben parlons en, tiens, justement ! Regarde :

Source : Clémence Perronnet- L’accès aux sciences en question : le poids des inégalités sociales. On y trouvera une synthèse en matière d’analyse sociologique de ce mécanisme d’exclusion.

Regarde bien, comme l’a étudié Clémence Perronnet, « sur 110 couvertures, les 4 femmes sont : (i) un robot, (ii) une statue, (iii) une surfeuse et (iv) une pauvre femme effrayée par les extra-terrestres », avec ça… vazy d’être incitée à faire de la science.

Et tu sais, il a fallu attendre 1975 (la loi Haby) pour que l’enseignement soit le même pour les filles et les garçons. Oui oui, avant , tout l’enseignement était différencié et parfois sexiste comme l’illustre cet exemple donné par la même autrice :

Binaire : Heureusement les choses progressent…

Léandre : Oui et non. Indéniablement oui à plusieurs niveaux, et c’est le résultat d’un véritable combat citoyen plus que centenaire. Mais dans plusieurs domaines et dans nos esprits, le chemin à parcourir reste long, comme on le voit ici pour les maths https://tinyurl.com/wjkgcro et comme c’est le cas en informatique où il y a même une régression. Il faudrait que les mecs se bougent un peu sur le fond.

Binaire : Attends, tu soulèves un point dont je voudrais parler en toute franchise. Beaucoup d’hommes se sentent concernés voire sont acteurs de la parité, comme dans le projet Class´Code. Mais sont parfois « piégés », juste sur un mot, une parole maladroite et paf ! le ou les voilà catalogués « vilain sexiste » alors que la personne agit pour l’égalité avec les meilleures intentions. Tu crois qu’il serait plus pédagogique de nous aider sans nous condamner d’emblée ?

Léandre : Oui, tu as raison, pas facile pour un homme de trouver sa place dans la lutte pour l’égalité… D’abord, il faut comprendre que les inégalités sont le produit du système de genre qui hiérarchise les hommes et les femmes et crée entre eux un rapport de domination.
Ce n’est pas la même chose d’agir pour l’égalité depuis la position dominante et depuis la position dominée : les hommes – qui sont du bon côté du rapport de force – ne sont jamais légitimes quand ils demandent aux femmes d’être « gentilles » dans leur lutte : la colère des opprimées est justifiée. Se battre contre des siècles d’histoire et toute la force des institutions, ça demande beaucoup d’efforts !
Là où tu as raison, c’est qu’à l’échelle individuelle et dans nos relations personnelles, la bienveillance, la pédagogie et l’humour sont nécessaires pour faire mieux et progresser, hommes et femmes ensemble.

Binaire : Ah oui je comprends mieux maintenant, et cela porte ses fruits ?

Léandre : Oui au-delà d’« activités pour les filles » qui permettent de corriger un peu les conséquences, au niveau individuel la priorité est d’éduquer les garçons, à l’égalité des sexes, Isabelle Collet parle encore d’équité*.

Et au niveau structurel, il y a des mesures vraiment efficaces qui agissent sur les causes. Elles sont validées parce que des chercheurs et chercheuses en psychologie, sociologie et science de l’éducation étudient scientifiquement le sujet. Par exemple s’imposer plus d’enseignantes dans les études supérieures scientifiques. Introduire une vraie information et formation sur le système de genre. Ou encore imposer temporairement une « discrimination positive » à l’embauche qui ne fait que compenser la vraie discrimination négative de la société, jusqu’au rétablissement d’une équité.

Binaire : C’est donc la science qui peut aider à permettre que les deux moitiés de l’humanité profitent de la science alors ?

Léandre : Et oui, la boucle est bouclée.

Contenus et relecture de Clémence Perronnet et Isabelle Collet, avec la complicité de « Léandre ».

Pour en savoir plus:

Collet, I. (2019). Les oubliées du numérique, 2019, Eds le Passeur
Collet, I. (2018). Dépasser les éducations à : vers une pédagogie de l’égalité en formation initiale du personnel enseignant. Recherches féministes, 31(1), 179-197.
Perronnet, C. (2019). L’accès aux sciences en question : le poids des inégalités sociale https://hal.archives-ouvertes.fr/halshs-02320453
Perronnet, C. (2019). Filles et garçons face aux mathématiques à l’école primaire : le genre influence-t-il les apprentissages ?. Des enfants chercheurs.. à l’école des maths, Fédération Nationale des Associations de Maîtres E, Oct 2019, Niort, France
Perronnet, C. (2018) Scientifiques de pixels et scientifiques en herbe : Les images des sciences et leur rôle dans l’élaboration des représentations enfantines en milieux populaires. Revue GEF (Genre Éducation Formation).
Siméone C. (2019) Voici deux méthodes pour augmenter le nombre de femmes qui travaillent dans le numérique.

(*) Égalité/Équité des sexes/genres , quelques précisions:
– « sexes » ou « genres » : puisque l’objectif est l’égalité entre les êtres humains quelles que soient leurs caractéristiques biologiques (organes génitaux) nous parlons bien de sexe, de l’abolition du processus social de hiérarchisation des données biologiques dans la production d’une bi-catégorisation sociale (qui correspond au genre = féminin/masculin). Pour atteindre l’égalité des hommes et des femmes, il faut déconstruire le genre, c’est-à-dire les concepts de féminin et masculin qui sont historiquement inégalitaires. Le genre étant défini comme la bi-catégorisation hiérarchisée des sexes, une « égalité des genres » est un oxymore.
– « égalité » ou « équité » : le débat est complexe car tout le monde n’attribue pas le même sens à ces mots. Dans le vocabulaire des SHS la notion d’équité implique une correction des inégalités, alors que la notion d’égalité suppose la non-production d’inégalités (à ne pas confondre avec « égalité des chances »), on va donc choisir égalité ou équité selon que l’on parle de l’abolition des inégalités ou de la compensation de leur permanence.

16 décembre 201928 janvier 2020

Les cartes, c’est trop stylé !

Sidonie Christophe est chercheuse au sein du Laboratoire en sciences et technologies de l’information géographique (LaSTIG). Dans ce deuxième billet (d’une série de trois), elle nous explique comment elle traite la notion de style – assez simple à concevoir d’un point de vue artistique mais difficile à décrire du point de vue informatique. Un mélange de rigueur et d’inspirations artistiques qui a plu à binaire ! Antoine Rousseau

Ce texte fait suite au billet « La géovisualisation, kézako ? »

Afin d’aider les utilisateurs à concevoir des cartes personnalisées, j’ai exploré des couleurs et des styles possibles de représentation, dans l’objectif de développer un système qui accompagne l’utilisateur dans sa démarche créative.

Comment définir le style ?

Selon le dictionnaire, le style est un « ensemble de caractères formels esthétiques de quelque chose » ou « une manière de pratiquer, définie par un ensemble de caractères, […] pour un auteur, ou une période de temps ». On peut dire que le style est une manière de faire, reconnaissable par un ensemble de caractéristiques visuelles, mais qu’on n’en connaît pas toujours toutes les recettes pour y parvenir : ce sont souvent des règles graphiques implicites qu’il faut réussir à expliciter. Afin d’explorer des styles pour les cartes topographiques, décrivant « un lieu », son relief, ses éléments naturels et ses aménagements humains, et à une échelle réduite, nous avons travaillé principalement sur les couleurs et les textures.

Carte de Saint-Jean-de-Luz, dans un style Cassini et un style aquarelle, échelle : 1:100 000 (Christophe et al. 2016)

Conception cartographique : du processus créatif à l’assistance numérique

La conception cartographique est un processus créatif fait d’une série de choix d’abstractions conceptuelles, sémantiques, géométriques et graphiques sur l’espace géographique : de nombreuses recherches ont eu lieu à l’IGN et au LaSTIG pour automatiser les processus de généralisation et de symbolisation. Si des conventions, des règles d’usages et des pratiques existent en cartographie, il n’y a pas une recette unique pour faire une bonne carte. Les cartographes utilisent la sémiologie graphique de Jacques Bertin (1967) pour manipuler des variables visuelles – taille, valeur, grain, couleur, orientation, forme – étendues par d’autres cartographes – arrangement, transparence, flou, etc. – et leurs propriétés perceptives qui permettent à l’œil humain de séparer, associer et ordonner des informations.

L’aide à la conception cartographique (conception assistée par ordinateur), en particulier pour le choix des couleurs, reste un problème complexe : l’ensemble de tout ce qu’il faut faire pour faire une bonne carte n’est pas si facile à décrire, ni à traduire efficacement pour l’ordinateur. De plus, la résolution de ce problème dépend principalement de la satisfaction de l’utilisateur, qui est particulièrement difficile à analyser et à prévoir, parce qu’elle dépend de ses besoins, de son usage final, de son contexte d’usage, de ses goûts, de ses préférences, du temps à disposition, etc. Et même si l’utilisateur dit : « je préfère utiliser ce vert pour la végétation, ce bleu pour la mer, cet autre bleu pour les rivières, ce rouge pour les routes », cela ne résout pas tout. Après application de ces couleurs à la végétation, à la mer, aux rivières et aux routes dans la carte, que devient la combinaison visuelle des couleurs, par l’effet des contrastes colorés selon les tailles, les formes, les distributions et voisinages de ces objets colorés ? Est-ce que cela permet de percevoir correctement l’espace géographique représenté ? Est-ce que cette combinaison de couleurs rend lisible l’espace géographique représenté ; est-elle harmonieuse ? Et que va devenir ce choix de couleurs, en changeant d’échelle, vu que la distribution géométrique et visuelle des couleurs sera modifiée, et risque d’impacter la qualité du rendu final ?

D’une peinture de Derain à des cartes aux couleurs de Derain

S’inspirer de cartes existantes autant que de peintures célèbres…

Afin de faciliter cette étape du choix de combinaison des couleurs, on a utilisé des sources d’inspiration pour fonctionner par analogie ou par transfert de style. Des cartes topographiques européennes et des peintures célèbres ont été utilisées, afin d’en extraire des palettes de couleurs et des façons d’associer une couleur à des objets dans la carte, typiques : quand il s’agit d’une carte, à partir des légendes, et quand il s’agit d’une peinture, à partir de règles de composition. J’ai développé un outil qui gérait l’ensemble de ces contraintes (règles de cartographie, règles de composition du peintre, préférences de l’utilisateur), via un dialogue avec l’utilisateur, pour co-construire ses palettes adaptées à son jeu de données, en sélectionnant ses couleurs dans des cartes et/ou des peintures, selon ses préférences. Ces travaux sur la couleur, ses contrastes et ses harmonies, ont permis d’explorer des palettes de couleurs, différentes de ce qu’on a l’habitude de voir, à un endroit, à un moment donné, pouvant être utilisées pour passer un message particulier, parfois étonnantes, voire déroutantes, au regard de la cartographie topographique traditionnelle, jusqu’à la spécification d’un style Pop Art permettant de revisiter la sémiologie graphique.

Et les textures dans tout ça ?

En plus de la couleur, notre idée du style avait besoin d’être enrichie de textures, pour redonner plus de « relief » à la carte et « animer » ces aplats de couleurs et ces tracés linéaires, utilisés dans les chaînes de production institutionnelles et dans les outils SIG (Systèmes d’Information Géographique). Pour sortir de ces représentations cartographiques « standardisées » ou uniformisées, et surtout pour être capable de reproduire les motifs d’occupation du sol ou le dessin au trait, réalisés manuellement, nous (IGN/LaSTIG) avons collaboré avec des chercheurs en Informatique Graphique (Inria/Maverick, IRIT/STORM), où entre cartographie et rendu expressif, nous partageons des problématiques communes d’abstraction. Nous avons travaillé sur la stylisation en cartographie, et plus précisément sur l’expressivité des textures, plutôt que l’utilisation d’aplats de couleurs ou de tracés de lignes classiques. Des outils de génération automatique de textures ont été développés et des techniques de rendu expressif ont été adaptées pour pouvoir reproduire les styles suivants :

1. des zones rocheuses dans les cartes de montagne, des années 50 : les textures utilisées mettaient en évidence la structure du relief, les crêtes, les cols, les vallées, mais aussi la pente, la rugosité, la dangerosité, et les zones de passage.
2. des cartes des Cassini (18è siècle) : les cartes des Cassini visaient la précision géométrique en utilisant la triangulation géodésique et mettaient en avant la précision des voies de circulation et des points de passage. En revanche, le remplissage de l’occupation du sol, réalisé par différents corps de métier, via différentes étapes de dessin et d’aquarellisation, est venu enrichir visuellement ces cartes par l’utilisation de motifs divers et variés, aux délimitations souvent imprécises : végétation, reliefs, fleuves et mers.
3. l’aquarelle, la peinture ou l’estampe, reproduisant les effets de techniques de mélanges de couleurs, de transparence et de grain de papier, comme de coups de pinceaux.

En conclusion

Ce travail interdisciplinaire, collaboratif et collectif, a demandé l’extension de standards existants sur la symbologie en cartographie, pour spécifier un style expressif et intégrer les techniques de rendu expressif, dans les SIG. Cette collaboration nous a également amené·e·s à reboucler sur les questions de choix de couleurs, et de proposer des méthodes d’optimisation pour l’exploration automatique de l’espace des palettes de couleurs.

Sidonie Christophe (Laboratoire en sciences et technologies de l’information géographique)

*Plus d’infos sur « du bon usage de la couleur en cartographie…et de l’originalité ? ». Outil COLor LEGend : décrit dans un article du Comité Français de Cartographie (2012) et IGN Magazine N°52 (2009)

13 décembre 201913 décembre 2019

A la recherche des traces perdues

Il était une fois la thèse de… Tina Nikoukhah, doctorante au CMLA de l’ENS Paris-Saclay. Tina est une sorte d’historienne des images, mais en version numérique : ses travaux visent à détecter les modifications subies par des photos, en y traquant les traces, invisibles à l’œil nu, que celles-ci ont laissé dans l’image. Charlotte Truchet

Que trouve-t-on sur cette image ?

Image originale - un chien — Photo originale. Crédits : Tina Nikoukhah

Un chien allongé sur du gravier, évidemment, mais pas que !

Si je vous disais qu’on peut aussi y trouver son histoire, me croiriez-vous ? Je vais vous révéler les étapes par lesquelles cette image est passée. En effet, une photo subit une chaîne de traitement à partir du moment où le capteur de l’appareil photo reçoit la lumière, et jusqu’à ce que l’image apparaisse sur nos écrans. Ces traitements sont en réalité des opérations mathématiques : il y a entre autres les étapes de dématriçage, de balance des blancs, de débruitage, les corrections d’aberrations optiques et chromatiques, et une ou plusieurs compressions. Ces opérations permettent la formation et le stockage de l’image. Par la suite, il peut y avoir d’autres opérations, tel qu’un recadrage, un filtrage ou même des retouches.
Toutes ces opérations constituent ce que nous appelons l’historique de l’image.

Mais où trouve-t-on ces informations ?
Les métadonnées EXIF, qui peuvent contenir des données telles que la date, l’heure, les informations géographiques et les réglages de l’appareil, peuvent être examinées.. Cependant, nous choisissons de ne pas nous fier aux données qui accompagnent l’image car elles peuvent être facilement modifiables et sont souvent absentes. Twitter, Facebook ou Instagram les suppriment volontairement. Notre but est d’obtenir ces informations à partir de l’image elle-même.

Chaque opération laisse une trace sur l’image, imperceptible mais souvent détectable.

Effectuant ma thèse au sein d’une équipe de traitement d’images, j’ai la chance de pouvoir travailler avec des experts du modèle de constitution d’une image numérique, qui m’aident à déduire les spécificités des traces laissées par chaque opération.

Zoom sur l’image filtrée pour voir les blocs JPEG.
Crédits : Tina Nikoukhah

Par exemple, la compression JPEG a sa propre signature : des carrés de 8 pixels de côté. La plupart du temps ces traces ne se voient pas à l’œil nu mais il est possible de les faire ressortir en appliquant un filtre. Bien évidemment, cela ne suffit pas pour conclure : dans le cas de l’exemple, il n’est pas possible de savoir que l’image a subi au moins une compression JPEG et un recadrage, seulement à partir de ce filtre. Le but de ma thèse est de développer des algorithmes de détection automatique de ces traces et de donner un résultat clair associé à une probabilité de confiance.

Ces méthodes permettent-elles de détecter si une image a été truquée ? En appliquant les algorithmes de détection précédents à toutes les sous-parties de l’image, on marque comme suspectes les zones qui n’ont pas le même historique que le reste. Grâce à ces méthodes, une partie provenant d’une autre image serait suspecte (copier-coller externe) ainsi que toute retouche qui perturberait les traces présentes dans l’image (copier-coller interne, gommage, etc.).

L’enjeu pour moi est d’étudier et faire avancer la théorie, produire des algorithmes, et de publier mes résultats en ligne, sous forme ouverte, afin que toute personne puisse soumettre une photo et obtenir un rapport scientifique sur les éventuelles incohérences détectées.

En attendant, soyez prudents car il est très facile et rapide de truquer une photo !

Image retouchée par inpainting. Crédits : Tina Nikoukhah

Retrouvez la série d’articles publiée dans « Il était une fois ma thèse«

11 décembre 201911 décembre 2019

Et la connexion ?… Bordel !

C’est toujours un plaisir quand nous rencontrons des lecteurs ou quand ils nous écrivent. Cet article fait partie de ce « courrier des lecteurs ». Il touche en fait deux sujets : la numérisation des processus notamment administratifs et l’accès universel à une connexion Internet. Dans un monde de plus en plus numérique, il devient compliqué de ne pas avoir de connexion. Serge Abiteboul.

La route est longue. Jusqu’au bout du bout du monde ? Non juste un petit bourg bien français comme il en existe tant, charmant, endormi ; la mondialisation n’est passée par là que pour en faire fuir des emplois.

J’ai rendez-vous chez le notaire familial pour une succession.

Surprise. Au lieu du décor vieillot et cossu des notables de province, la jeune notaire nous reçoit dans un salon moderne où siège un grand tableau numérique, dernière génération. Tous les actes notariés sont en ligne en format électronique. Et c’est sur son grand écran qu’elle nous les fait parcourir. Nous paraphons sur une tablette. Bienvenue au 21^e siècle. Je ne sais pas ce que j’attendais. Les préjugés de la capitale ont la vie dure.

Nous avons fini en moins de temps qu’il n’en faut pour passer une porte du périphérique aux heures de pointes quand ça dérape.

Les documents administratifs sont imprimés sur papier en un nombre d’exemplaires que j’ai préféré oublier. Un million de pages à parapher à la mano. Au secours ! Ne me dites pas que c’est comme ça qu’ils font à la capitale ? Et dans la Silicon Valley ? ! Il ne suffirait pas de signer électroniquement l’ensemble ?

Il me manque un papier et je dois appeler ma compagne. La 4G ne passe pas. Il faut faire autrement. Sourire las de la jolie notaire. Elle vit cela quotidiennement.

Et ce n’est pas fini. La connexion internet est étique. Le document ne passe pas. La notaire s’y reprend à plusieurs reprises. Ça prend un temps fou. Elle doit passer des coups de fil pour vérifier que c’est bien arrivé. J’avais bien entendu la colère des territoires sur les difficultés de la connexion Internet. Je la vis. Le monde est devenu numérique, les formalités administratives aussi. Mais pas partout.

Qu’est-ce que j’ai bien voulu raconter ?

Que le numérique et la campagne ne font pas bon ménage ? Encore des préjugés. Les paysans, les gens des petits bourgs, adoptent souvent le numérique avec enthousiasme. Ils ont sans doute plus à y gagner que les citadins. Ma notaire était par exemple au taquet.

Qu’il faudrait changer les procédures administratives ? Pourrait-on, par exemple, nous épargner ces paraphes d’une autre époque ? Les lettres avec accusé de réception et la queue de la poste ? C’était certainement un peu le sujet.

J’ai surtout voulu apporter une petite illustration de l’indispensable nécessité des connexions Internet. Pour déclarer ses impôts numériquement, pour faire ses choix sur Parcoursup…, pour transférer des actes notariés, on a besoin de connexion. Les territoires attendent avec impatience la fibre et la 4G car ils en ont marre de rater les trains. On me dit que celles-ci se déploient rapidement sur le territoire.

Par pitié, dépêchez-vous !

Théo Elément

09 décembre 201909 décembre 2019

Raconte-moi un algorithme

Raconte-moi une histoire par jour… Vous souvenez-vous de cette petite lecture du soir, avant d’aller dormir ? Elle est pour beaucoup d’entre nous une petite madeleine, un souvenir d’enfant, de parent ou de grand-parent. Pour celles et ceux qui, comme nous chez binaire, sont encore de grands enfants, un collectif coordonné par Ana Rechtman Bulajich (Université de Strasbourg) a préparé le Calendrier Mathématique 2020.

Le Calendrier Mathématique existe depuis 2014. En plus d’être un bel objet, à l’édition soignée et rempli de chouettes illustrations, il fera travailler vos méninges :

- chaque jour grâce à de petits quizz mathématiques proposés du lundi au vendredi. Un livret accompagne le calendrier pour vous donner non seulement le résultat, mais surtout le raisonnement qui permet d’y parvenir,
- chaque mois grâce à de très beaux textes rédigés par des scientifiques qui prennent la plume pour l’occasion.

Cette année, les textes ont été confiés à nos camarades de jeu Charlotte Truchet et Serge Abiteboul. Ces histoires d’algorithmes vous transporteront des blockchains aux algorithmes de tri en passant par le web. Si vous aimez traîner sur le blog binaire, vous adorerez vous plonger dans ces belles histoires d’algorithmes. Au moment de vous endormir, vous ne compterez plus les moutons comme avant…

Antoine Rousseau


Charlotte Truchet	Serge Abiteboul

06 décembre 201911 décembre 2019

De la nécessité des problèmes que l’on ne sait pas résoudre

La cybersécurité, pour lutter contre des menaces auxquelles nous sommes tous confrontés, fait apparaître de nombreux défis scientifiques. Ce blog s’en est déjà fait l’écho à l’occasion de la publication du Livre Blanc qu’Inria a publié sur le sujet en janvier 2019. Pour illustrer certains de ces défis, nous avons demandé aux auteurs de ce document de nous proposer une suite d’articles sur ce thème qu’une cryptographe, Cécile Pierrot (Inria Nancy), inaugure. Elle nous explique pourquoi, à l’opposée des autres sciences, l’existence de problèmes difficiles contre lesquels la recherche se heurte depuis des décennies s’avère être un élément précieux de sa discipline. binaire

Qui aurait parié que le message si sensible protégé par le premier code secret de l’humanité était… une recette de poterie ? Apparue il y a 3600 ans, la cryptographie a traversé l’histoire en protégeant des yeux et des oreilles indésirables des informations de toute sorte, allant des correspondances militaires de Jules César à vos données bancaires, en passant par les lettres de Marie-Antoinette à son amant. Si les méthodes utilisées ont évolué avec les siècles, elles partageaient néanmoins un principe commun, dont voici une analogie simple :

Supposons que la reine Marie-Antoinette souhaite faire parvenir une lettre enflammée à son amant le comte de Fersen, un officier suédois, sans qu’aucun regard malintentionné puisse n’en deviner le contenu. Marie-Antoinette place sa missive dans un coffre, et ferme celui-ci à clef, puis fait porter le coffre à son destinataire. Qu’importe qu’elle ait confiance en son messager, c’est la robustesse de la serrure qui garantit la confidentialité du message durant toute la durée du transport. À réception du coffre, le comte, s’il dispose d’une copie de la clef de Marie-Antoinette, peut donc ouvrir l’écrin pour y lire ce qui lui est destiné. Le souci le voyez-vous ? C’est qu’il faut, pour envoyer un message de manière sécurisé à travers un monde rempli d’espions et d’ennemis, être capable d’envoyer une clef, dans ce même univers rempli d’adversaires. Bref, sans solution astucieuse pour se transmettre cette clef, le problème initial est loin d’être résolu, et des siècles durant les cryptographes de tous pays ont vu leurs tentatives de résolution se briser en vain sur cette énigme comme des vagues sur les rochers.

Cadenas cryptographiques : fermeture facile, ouverture difficile

En poursuivant notre analogie, on comprend qu’il suffirait que le compte de Fersen dispose d’un cadenas un peu particulier : un cadenas que tout le monde pourrait fermer — y compris Marie-Antoinette — mais que lui seul pourrait ouvrir, à l’aide, par exemple, d’une clef qu’il garderait bien précieusement chez lui. De ce fait le transport de la clef ne causerait plus d’ennui.

Si la solution dans cet exemple n’est pas très difficile à imaginer, la transposer dans le monde numérique d’aujourd’hui n’a rien d’évident. Ce n’est qu’à la fin des années 1970 qu’un tel « cadenas » cryptographique a été proposé pour la première fois. Il s’agit d’expliciter une action (fermer) qui doit être facile à réaliser, tandis que l’action inverse (ouvrir) ne doit pouvoir se faire qu’avec la clef. Si un ennemi parvient à ouvrir le cadenas autrement, au prix d’efforts intenses non homologués, on parle alors d’attaque, et on dit bien entendu que le cadenas (ou le protocole cryptographique) est cassé. On cherche donc à ce que l’action d’ouverture soit la plus difficile possible.

Comment savoir qu’un problème est difficile ?

La cryptographie a donc besoin de questions qui résistent aux chercheurs, puisque disposer de problèmes que l’on ne sait pas résoudre permet de construire des cadenas inviolables. Le souci ? En l’état actuel des connaissances on ne sait même pas dire s’il existe, ou non, des problèmes intrinsèquement difficiles ! Les cryptographes se tournent donc vers des questions mathématiques étudiées depuis suffisamment longtemps, et restées presque impénétrables jusqu’ici ; c’est la longévité d’un problème qui nous donne des indices de confiance sur sa difficulté. Plus une question a résisté aux tentatives de résolution depuis longtemps, plus on estime qu’elle est difficile.

Prenons pour exemple l’un des deux problèmes sur lequel repose la cryptographie contemporaine : le problème de la factorisation. Dans ce contexte, fermer un cadenas consiste à prendre deux nombres
premiers, comme p = 809 et q = 887, petits dans mon exemple mais
beaucoup plus grands dans la pratique. On sait sans difficulté tester si des tels grands nombres sont bien premiers. On les multiplie ensuite entre eux : ici, un simple calcul nous donne facilement 717583. Les nombres p et q
sont alors appelés les facteurs de 717583. Ce qui est essentiel est que,
effectuer le procédé inverse, c’est-à-dire partir de n = 717583 et
retrouver ses facteurs, est extrêmement compliqué, du moins lorsque ces
facteurs sont grands.

En réalité, même en disposant des meilleurs algorithmes et des ordinateurs les plus puissants de la planète, il s’agit d’un problème que l’on se sait pas résoudre aujourd’hui, dès lors que n devient très grand. Grand comment, vous demandez-vous ? Aujourd’hui, le record mondial consiste à retrouver les deux facteurs d’un nombre de 232 chiffres. Je vous le montre pour que vous puissiez juger par vous même de la taille de ce monstre :

Le plus grand nombre jamais factorisé est 1 230 186 684 530 117 755 130 494 958 384 962 720
772 853 569 595 334 792 197 322 452 151 726 400 507 263 657 518 745 202 199 786 469 389 956 474 942 774 063 845 925 192 557 326 303 453 731 548 268 507 917 026 122 142 913 461 670 429 214 311 602 221 240 479 274 737 794 080 665 351 419 597 459 856 902 143 413.

Alors, quelle taille de nombre faut-il prendre pour être à l’abri de toute attaque ? 233 chiffres ? 234 ? Beaucoup plus ? Pour répondre à cette question l’idée est d’extrapoler le comportement des meilleures attaques connues, et d’étalonner ainsi nos « cadenas » pour qu’on ne puisse les briser qu’au prix d’efforts surhumains. En l’occurrence — je vous épargne les calculs — en prenant un nombre de 617 chiffres on estime être hors de portée de toute menace pour les trente ans à venir, au moins. Voici un tel chiffre, pour l’exemple :

Saurez-vous factoriser n = 25 195 908 475 657 893 494 027 183 240 048 398 571 429 282 126 204
032 027 777 137 836 043 662 020 707 595 556 264 018 525 880 784 406 918 290 641 249 515 082 189 298 559 149 176 184 502 808 489 120 072 844 992 687 392 807 287 776 735 971 418 347 270 261 896 375 014 971 824 691 165 077 613 379 859 095 700 097 330 459 748 808 428 401 797 429 100 642 458 691 817 195 118 746 121 515 172 654 632 282 216 869 987 549 182 422 433 637 259 085 141 865 462 043 576 798 423 387 184 774 447 920 739 934 236 584 823 824 281 198 163 815 010 674 810 451 660 377 306 056 201 619 676 256 133 844 143 603 833 904 414 952 634 432 190 114 657 544 454 178 424 020 924 616 515 723 350 778 707 749 817 125 772 467 962 926 386 356 373 289 912 154 831 438 167 899 885 040 445 364 023 527 381 951 378 636 564 391 212 010 397 122 822 120 720 357 ?

Ce nombre fait l’unanimité car on estime qu’il faudrait au moins 2¹²⁸ opérations pour retrouver ses deux facteurs secrets. Dit autrement, si chaque être humain sur Terre disposait d’un ordinateur portable, et que tous ces ordinateurs avaient travaillé de front depuis le début de l’univers à l’unique tâche de trouver les deux facteurs cachés de ce nombre n … et bien le temps de calcul serait tel que l’humanité entière n’y serait toujours pas parvenu !

Oui mais…

La difficulté d’un problème n’est que relative à son environnement

Rappelez-vous : rien ne nous dit que le problème de la factorisation ne soit réellement, intrinsèquement, difficile. Pire, depuis les années 1990 nous savons que d’autres modèles d’ordinateurs — les ordinateurs quantiques — seraient capables de le résoudre rapidement. Certes les premières machines de ce type sont aujourd’hui à l’informatique de demain ce que les premiers aéronefs étaient à l’aviation : des engins très enthousiasmants sur le papier, capables de décoller, mais qui ne tiennent pas plus de quelques mètres en vol.

Néanmoins, l’inquiétude de l’émergence potentielle de ces nouveaux calculateurs suffit à justifier un réel changement de paradigme. En plus de continuer à étudier les problèmes classiques, comme la factorisation ou le logarithme discret, qui resteront déployés dans nos cartes bancaires, nos passeports et nos téléphones pendant encore un bon demi-siècle, la communauté des cryptographes travaille dès aujourd’hui à la conception des cadenas de demain. L’objectif est maintenant de s’appuyer sur des problèmes d’un nouveau genre pour lesquels l’utilisation d’un éventuel ordinateur quantique n’apporterait aucun avantage aux adversaires. De sérieux problèmes candidats ont vu le jour, mais ils sont tous un peu trop jeunes encore pour qu’aucun d’entre eux ne fasse l’unanimité, pour le moment.

Quoiqu’il en soit, quantique ou non, la cryptographie aura toujours besoin de problèmes que l’on ne sait pas résoudre !

Cécile Pierrot (Inria, Nancy)

02 décembre 201907 janvier 2020

Le testing algorithmique de la discrimination à l’embauche

De nombreuses plateformes numériques mettent en contact employeurs et employés sur internet. Elles sont de plus en plus utilisées pour proposer des emplois et par les chercheurs d’emploi. Sihem Amer-Yahia et Philippe Mulhem nous expliquent le concept du testing algorithmique. Dans un article à venir, ils nous expliqueront comment le testing algorithmique sert pour vérifier et détecter des discriminations possibles et comment il complémente un testing plus classique. Serge Abiteboul

De nombreuses plateformes numériques mettent en contact employeurs et employés sur internet. C’est le cas des plateformes dédiées comme Qapa et MisterTemp’ en France et TaskRabbit aux États-Unis, mais également des plateformes de recherche d’information telles que Google for jobs ou Facebook Jobs. De plus en plus d’individus utilisent ces plateformes pour trouver ou proposer du travail : 3 millions d’offres par mois sur Linkedin, 5 millions sur Google for jobs USA. Pour gérer les grands volumes de données qu’elles reçoivent, ces plateformes reposent sur l’utilisation d’algorithmes permettant l’appariement entre offres d’emploi et individus (voir copie d’écran de MisterTemp’).

La disponibilité des données sur ces plateformes permet d’étudier le comportement des algorithmes qu’elles emploient afin de mieux comprendre comment ils impactent nos vies. De telles études offrent la possibilité aux demandeurs et pourvoyeurs d’emploi de mieux comprendre comment ces plateformes les traitent, et également de développer des outils d’audit permettant de quantifier le comportement algorithmique et de le comparer au marché du travail classique.

L’étude de motifs discriminatoires inscrits dans la loi (code du travail (article L 1132-1) et code pénal (articles 225-1 à 225-4)) s’applique évidemment à ces plateformes. La discrimination est le fait, pour une personne, d’être traitée d’une manière différente (moins favorable) qu’une autre ne l’est d’après des critères sensibles également appelés « motifs discriminatoires » dans le code pénal. Chaque personne qui cherche un emploi est caractérisée par un « profil » décrit par ses attributs comme le genre, la tranche d’âge, le niveau d’éducation ou le lieu de résidence. Ce sont les variations de ces attributs qui permettent l’étude de la discrimination algorithmique à l’embauche. De manière générale, la discrimination concerne des groupes d’individus comparables, comme par exemple des hommes et des femmes, ou les habitants de zones géographiques différentes.

Les plateformes en ligne constituent une énorme opportunité pour l’étude de la discrimination à l’embauche. Leur intérêt réside principalement dans la possibilité de collecter de grands volumes de données sur les embauches, au moindre coût, i.e., sans avoir à déployer des opérations de testing gourmandes à la fois en temps et en moyens. Par exemple, sur la plateforme TaskRabbit il y a plus de 140 000 demandeurs d’emploi (avec une grande variété d’attributs), pour plus de 45 types de tâches (par exemple, plombier, designer de logos, jardinier), et dans une cinquantaine de villes aux États-Unis. Un autre exemple concerne la plateforme MisterTemp’ sur laquelle on trouve plus de 18 000 demandeurs d’emploi (avec une grande variété d’attributs), dans plus de 740 types de tâches dans 47 villes en France.

Un exemple récent de testing classique déployé pendant 4 mois en France a montré que l’origine ethnique des demandeurs d’emploi a une influence directe sur leur discrimination à l’embauche. Un exemple, cette fois de testing sollicité, a rassemblé une vingtaine de personnes qui ont posté 3 200 candidatures fictives sur une période d’un an entre 2007 et 2008 auprès de 700 établissements et services en charge du recrutement dans les différentes sociétés et filiales du groupe Casino. Les données collectées des plateformes numériques permettent de réaliser des opérations de testing à une bien plus grande échelle que le testing classique et d’examiner des questions de discrimination plus complexes. Plutôt que de recruter et de rémunérer une armée de testeurs pendant des mois, l’idée est de réaliser du « testing algorithmique », i.e., un algorithme qui analyse les données collectées afin de répondre à des questions aussi sophistiquées que : quels groupes d’individus sont plus discriminés en France ? Lesquels le sont pour un type de travail donné ? Lesquels le sont dans certaines régions géographiques ? Quels emplois sont les plus discriminatoires ? Quelles régions le sont ? À quelles époques ? Une fois les données collectées, ces différents angles d’analyse (groupes définis par des attributs, régions géographiques, type de travail, période de temps) peuvent être combinés à souhait par le testing algorithmique pour analyser la discrimination à l’embauche et ce en un temps record, quelques microsecondes, défiant ainsi tout testing classique qui nécessite un déploiement dans le monde physique.

Dans notre cadre, le traitement algorithmique sur les plateformes d’embauche s’exprime sous la forme d’opportunités, pour une personne qui cherche un emploi, d’être recrutée. Ces opportunités se déclinent de deux manières : l’opportunité pour le chercheur d’emploi d’être repéré par une personne/entreprise qui pourvoie un emploi (le cas de TaskRabbit et Qapa), et l’opportunité pour le chercheur d’emploi de trouver des annonces sur un domaine afin de postuler (le cas de Facebook Jobs comme dans la figure ci-jointe, et Qapa qui offre les deux possibilités).

L’exploration de la discrimination se traduit comme suit pour les deux cas ci-dessus :

L’accès par des pourvoyeurs d’emploi à des demandeurs d’emploi pour une offre dans une zone géographique donnée. Dans ce cas, on peut examiner si un groupe de demandeurs d’emploi est discriminé par rapport à d’autres groupes dans la mesure où ses membres n’ont pas accès aux mêmes opportunités d’embauche pour le même travail. La figure 1 montre une liste de personnes avec leurs compétences pour la plateforme TaskRabbit à gauche et Qapa à droite.
L’accès à des offres pour un demandeur d’emploi dans une zone géographique donnée. On veut déterminer si un groupe de demandeurs d’emploi est discriminé par rapport à d’autres groupes dans la mesure où les offres qu’il reçoit diffèrent de celles des autres groupes pour une même demande. La figure 2 présente les offres de travail de plomberie proposées dans la région de Grenoble, par Google for Jobs à gauche et par Qapa à droite.

Figure 1, Exemple de liste de chercheurs d’emploi sur TaskRabbit (plumber in New York) à gauche, sur Qapa (Web designer) à droite.

Dans ces deux cas, les intitulés d’emploi, les localisations et les groupes de demandeurs d’emploi sont les objets d’étude. Si on se limite à des comparaisons entre les angles d’analyse avec un degré de variation (par exemple dans le testing par ISM CORUM pour le groupe Casino), on peut comparer pour un même intitulé et une même localisation le comportement sur des groupes différents, pour un même groupe et un même intitulé le comportement sur des localisations différentes, et pour une même localisation et un même groupe le comportement sur des intitulés différents.

Figure 2. Exemple de liste d’emplois par Google for Jobs (plombiers à Grenoble) à gauche et par Qapa (plombier/plombière chauffagiste à Grenoble) à droite.

Le testing algorithmique opère sur un grand nombre de données collectées. Ces données sont constituées de requêtes de demande ou d’offre d’embauche auxquelles sont associées les résultats obtenus (liste de jobs à pourvoir dans un cas ou listes d’individus à embaucher dans l’autre). Sa réalisation nécessite la résolution d’un certain nombre de défis scientifiques : définition de critères pour calculer les discriminations, formule de calcul des discriminations, développement d’une logique algorithmique permettant de détecter les angles d’analyse (groupes, régions, type de travail, période de temps), présentation lisible des calculs de manière à être validés et comparés. L’idée principale de la logique algorithmique du testing est de chercher des groupes à la volée dans un espace de recherche constitué d’un très grand nombre de groupes. Cela nécessite une capacité calculatoire importante pour quantifier le comportement algorithmique des plateformes numériques.

TaskRabbit peut être utilisé par des pourvoyeurs d’emploi pour embaucher des individus pour différents travaux tels que l’aide au déménagement ou la conception d’un logo. Chaque demande d’embauche retourne une liste d’individus qualifiés. Nous avons appliqué le testing algorithmique à plus de 5 300 demandes d’embauche dans plus de 50 villes américaines et quelques villes anglaises. Cela nous a permis de mettre en évidence (ce qui n’est pas nouveau) que l’origine ethnique est une source de discrimination à l’embauche. Plus exactement, nous avons déterminé que les groupes ethniques les plus discriminés sont les personnes d’origine asiatique, et les moins discriminés les blancs. L’explication de ce résultat est délicate. Il pourrait être simplement dû à la proportion très petite d’asiatiques dans les données collectées (7,8 % de la population de 140 000 demandeurs d’emploi inscrits dans TaskRabbit). Parmi les 45 types d’emploi présentés au pourvoyeur, les plus discriminés sont les travaux de bricolage et l’emploi dans l’événementiel, et les moins discriminés sont l’aide à l’assemblage de meubles, et l’aide pour les courses. Nous pouvons également observer que la ville de Birmingham au Royaume-Uni et d’Oklahoma City aux États-Unis sont les plus discriminatoires tout travaux confondus, alors que San Francisco et Chicago sont les moins discriminatoires. Toutes ces observations pourraient servir de point de départ pour une analyse plus approfondie de ces discriminations.

Plus généralement, l’espoir avec le testing algorithmique est de développer des outils à l’intention de plusieurs acteurs : les demandeurs et pourvoyeurs d’emploi mais également les auditeurs et entités régulatrices des plateformes numériques. Ce genre de testing pourrait nous permettre également de comparer différentes plateformes entre elles, différents corps de métiers et aussi les mondes virtuel et physique. Cela pourrait nous permettre de comprendre un petit peu comment ces plateformes affectent nos vies.

Sihem Amer-Yahia et Philippe Mulhem (CNRS, Univ. Grenoble Alpes)

Pour aller plus loin :

A. Hannak, C. Wagner, D. Garcia, A. Mislove, M. Strohmaier,and C.
Wilson. 2017. Bias in Online Freelance Marketplaces: Evidence
fromTaskRabbit and Fiverr. In Proceedings of the 2017 ACM Conference on
Computer Supported Cooperative Work and Social Computing (CSCW), 2017,
1914–1933.
https://personalization.ccs.neu.edu/static/pdf/hannak-cscw17.pdf
A. Hannak, P. Sapiezynski, A. Molavi Kakhki, B. Krish-namurthy, D.
Lazer, A. Mislove, and C. Wilson. 2013. Measuring personalization of
web search. In Proceedings of the 22nd international conference on World
Wide Web (WWW), ACM, 2013, 527–538.
https://cbw.sh/static/pdf/fp039-hannak.pdf
(version revue et étendue du papier en 2017 :
https://arxiv.org/pdf/1706.05011.pdf)
S. Elbassuoni, S. Amer-Yahia, C. El Atie, A. Ghizzawi, B. Oualha:
Exploring Fairness of Ranking in Online Job Marketplaces. Proceedings of
the 22nd International Conference on Extending Database Technology
(EDBT), 2019, 646-649.
https://openproceedings.org/2019/conf/edbt/EDBT19_paper_230.pdf