Et nos données impersonnelles alors ?

Nous avons beaucoup entendu parler des données personnelles avec le Règlement Général sur la Protection des Données (RGPD), applicable depuis le 25 mai 2018. C’est oublier que d’autres données, « impersonnelles », sont massivement traitées pour façonner des pans entiers de nos vies quotidiennes. Ces traces numériques agrégées qu’on qualifie d’« alter ego » et dont Lêmy Godefroy, nous en explique le fonctionnement et les enjeux.

 

 

Que sont ces données impersonnelles ?

Ces données impersonnelles sont issues de l’agrégation de traces numériques constituées de données et de métadonnées de communications électroniques. Ces traces numériques sont des données strictement techniques comme les données de connexion (par exemple la date, l’heure et la durée de chaque connexion) ou les données de trafic (date des visites d’un site, durée de consultation, mots-clés entrés, etc.). Elles se distinguent des données d’identification des personnes (adresse IP, adresse MAC, identifiant de connexion, etc.). Agrégées et généralisées, elles participent à l’élaboration de modèles comportementaux (des alter ego numériques) par des algorithmes en vue du ciblage de catégories d’individualités (les ego).

Par nature, ces données impersonnelles échappent aux réglementations nationales et européennes de protection des données personnelles. La Proposition de règlement du 10 janvier 2017 concernant le respect de la vie privée dans les communications électroniques (règlement « vie privée et communications électroniques » ou e-privacy), en cours de discussion au niveau européen, les envisage à demi-mots.

Images rayons de lumière

Ces données échappent elles à tout contrôle alors ?

Ce texte s’attache à préserver la confidentialité des communications électroniques1. Cela implique que les données échangées entre les parties ainsi que les métadonnées ne doivent pas être divulguées sans le consentement des personnes concernées. Ces données et métadonnées peuvent en effet révéler des informations sensibles et intimes (problèmes de santé, préférences sexuelles ou encore opinions politiques).

Lorsque ces données de communications électroniques sont à caractère personnel, la proposition de règlement e-privacy vient compléter les dispositions plus générales du RGPD. Le cadre juridique est donc bien établi.

Elle indique par ailleurs que « les données de communications électroniques sont généralement des données à caractère personnel ». Ce qui suppose, a contrario, qu’elles peuvent parfois ne pas l’être. En effet, les données et métadonnées de communications électroniques qui proviennent d’un groupe indéterminé d’utilisateurs se distinguant par des caractéristiques comportementales communes ne se rapportent pas à une personne physique identifiée ou identifiable.

Or, la proposition de règlement e-privacy ne s’appesantit pas sur ces données impersonnelles et ne semble alors pas prendre la mesure de la portée de leur traitement sur la vie privée et les libertés des individus.

Quel est l’enjeu de ces données en fait ?

Pourtant, ces données, automatiquement et systématiquement collectées, sont agrégées, analysées et dotées de sens par des algorithmes pour en extraire des modèles typiques de comportements – des alter ego numériques – représentations parcellaires d’un type d’individualités qui participent au développement de pratiques de ciblage comportemental (OBA, online behavioral advertising).

Le traitement des traces numériques agrégées implémente ainsi un alter ego numérique ayant l’ego pour cible, avec le risque latent d’un formatage individuel et d’un enfermement dans une pseudo personnalisation2.

On parle d’alter-égo numérique : de quoi s’agit-il précisément ?

L’alter ego numérique est dépouillé de toute identité. Il est inféré d’une profusion de données provenant du regroupement d’une multitude d’individualités. « De fait, les personnes ont tendance à disparaître derrière leurs traces »3. Ces données sont absorbées, assimilées par des algorithmes et transmutées en modèles qui sont autant d’alter ego numériques nés sous X, sans identité, ni identification possible, auxquels sont statistiquement associés des comportements, des préférences, des dispositions d’esprit.

La formation d’alter ego numériques se distingue de l’établissement de profils.

Le profilage désigne une forme de traitement automatisé de données à caractère personnel destiné à évaluer certains aspects propres à une personne physique pour prévoir, notamment, son rendement professionnel, sa situation économique, sa localisation, son état de santé, ses préférences, sa fiabilité ou son comportement4. Autrement dit, le profilage convertit les données personnelles d’un individu en fidèle portrait numérique. Cette réplique numérique vise à adapter une offre de produits et de services. Par exemple, dans le domaine de l’énergie électrique, les compteurs intelligents calquent l’offre d’énergie sur la consommation réelle de l’utilisateur à partir des données personnelles qu’ils collectent.

En revanche, l’alter ego numérique recommande à une catégorie ciblée d’individus des produits et des services qui sont probablement susceptibles d’intéresser chacun d’eux. « Le futur de l’internaute [se voit alors] prédit par le passé de ceux qui lui ressemblent »5.

Si l’ambition du profilage est d’établir un clone numérique pour personnaliser une offre, celle de l’alter ego numérique est d’anticiper la demande de l’ego. En quelque sorte, le profilage s’adapte à l’individu tandis que l’alter ego numérique « adapte » l’individu à l’offre.

En cela, l’alter ego numérique est dépersonnalisant même si cet autre que soi doit s’apparenter davantage à un autre soi-même6 pour que l’ego, ressentant une proximité suffisante avec l’alter ego numérique, se laisse influencer, la plupart du temps inconsciemment, par cet autrui si proche de lui.

L’ego est subtilement invité par l’alter ego numérique à prendre un chemin qu’il n’aurait pas nécessairement emprunté de lui-même. Ce jeu d’influence se traduit par « une interaction sur le processus de décision qui aboutit à une modification des intentions »7. Plus encore, l’alter ego numérique peut, insidieusement, orienter les réflexions et les actions de l’ego.

Quels devraient être nos droits par rapport à ce ciblage ?

Pour prévenir les abus d’influence, chacun devrait être en mesure d’accepter ou non son rattachement à des alter ego numériques, par analogie au droit à l’autodétermination informationnelle8 qui restitue à l’individu la capacité de décider de la communication et de l’emploi de ses données à caractère personnel. Le ciblage serait alors juridiquement valable en cas de consentement exprimé clairement par une action de l’utilisateur sur le paramétrage des traceurs initialement programmés par défaut pour ne pas prélever ses traces numériques.

Image Checklist - Yes/No

Et dans l’hypothèse où l’individu accepte d’être ciblé, il disposerait du droit de demander des comptes au responsable du traitement sur les alter ego numériques auxquels il est affilié, sur la pertinence des ciblages dont il est l’objet, sur la correction éventuelle des erreurs de corrélation commises par les algorithmes d’agrégation des traces numériques. Ce droit de regard sur le résultat du traitement des traces numériques substituerait un ciblage consenti à un ciblage subi.

Ce qui n’affranchirait pas pour autant les stratèges de l’influence (concepteurs initiaux des algorithmes de traitement qui délivrent leurs instructions, programmeurs dans l’opération de codage informatique, éditeurs de logiciels fabriquant des produits les intégrant ou vendeurs qui les commercialisent9) de leur responsabilité en cas de dommages consécutifs à un ciblage. En effet, « il est possible de prononcer de nombreuses prédictions à partir des données du web, mais, comme toute prédiction, elles sont des estimations statistiques imparfaites. (…) En réalité, elles ne font que dire, avec plus ou moins d’approximations, le probable »10.

Néanmoins, si une chaîne de responsabilités devrait être établie pour tenir compte des comportements de chacun, le responsable du traitement doit demeurer au centre du dispositif afin d’éviter une dilution des responsabilités11.

De plus, la fonction de ciblage peut également être détournée à des fins illicites, par exemple, lorsque la programmation des algorithmes de traitement des données est discriminatoire. Ainsi, dans le domaine de la culture, sont évoquées « la tentation de manipulations destinées à favoriser les œuvres produites par un éditeur et […] la menace d’une standardisation de la création »12. Dans le secteur des assurances, le traitement algorithmique pourrait également conduire à établir des typologies d’assurés à risque en fonction de critères discriminants.

Quelle est la proposition de solution alors ?

En définitive, la protection de la vie privée en cas de traitement massif des données impersonnelles pourrait reposer sur trois mesures : un paramétrage par défaut des traceurs programmés pour ne pas « aspirer » ces données, une normalisation éthique de la méthodologie suivie par les algorithmes de traitement qui préserverait le secret des règles de l’algorithme et dont la conformité serait attestée par l’attribution d’une certification et un contrôle en continu de cette conformité par un organisme tiers pour accroître la confiance des usagers et contrecarrer la prise de pouvoir des alter ego numériques.

Lêmy Godefroy, Maître de conférences spécialisée en droit du numérique, au GREDEG de l’Université de Nice Côte d’Azur.

Notes :

1 Conformément à l’article 7 de la Charte des droits fondamentaux de l’Union européenne.
2 D. Cardon, A quoi rêvent les algorithmes, Seuil, octobre 2015.
3 D. Cardon, ibid..
4 Considérant 71 du Règlement général sur la protection des données (RGPD) du 27 avril 2016.
5 D. Cardon, ibid..
6 P. Ricoeur, Soi-même comme un autre, Seuil, 1996.
7 J.G. March, « Introduction to the Theory and Measurement of Influence », American Political Science Review, juin 1955, pp.431-451.
8 BVG (Cour constitutionnelle fédérale allemande), 15 décembre 1983 cité par Y. Poullet et A. Rouvroy, « Le droit à l’autodétermination informationnelle et la valeur du développement personnel », http://www.crid.be/pdf/public/6050.pdf
9 J.-B. Duclercq, « Les effets de la multiplication des algorithmes informatiques sur l’ordonnancement juridique », Communication Commerce électronique, novembre 2015, étude 20.
10 D. Cardon, ibid..
11 Ici, les remèdes classiques du droit des obligations apporteraient des réponses : en cas de mauvaise corrélation des données par les algorithmes et de ciblage non pertinent, le responsable du traitement engagerait sa responsabilité pour faute présumée. Il lui incomberait de rapporter la preuve de son absence de faute, de l’existence de la faute d’un tiers et/ou de la victime (qui aurait communiqué de fausses données générant une indication erronée en sortie du processus) ou d’un cas de force majeure (aléas inhérents au processus algorithmique) pour s’exonérer partiellement ou totalement.
12 O. Schrameck, Allocution au Forum de Tokyo, décembre 2014, http://www.csa.fr

Les selfies de binaire : Antoine

Nous poursuivons notre série de selfies de l’équipe de binaire pour que vous puissiez découvrir la diversité des parcours qui sont les nôtres et avoir ainsi une meilleure connaissance de celles et ceux qui s’adressent à vous. Après Thierry, Pascal, c’est au tour d’Antoine Rousseau de se présenter.

AntoineAntoine Rousseau
Chercheur en mathématiques appliquées

 

Ton parcours

J’ai grandi du côté de Cherbourg avant de partir à Nantes pour mes classes préparatoires (j’avais la trouille d’aller à Paris), puis à Orsay pour la suite (et la fin !) de mes études. J’ai fait deux belles rencontres au cours de ces années : mon prof de maths spé, Hubert Caparros, et mon directeur de thèse Roger Temam. Je leur dois beaucoup ! Issu d’une famille de musiciens et de médecins, je suis arrivé un peu par hasard aux mathématiques. Comme j’étais plutôt bon élève, on peut donc dire que j’ai fini 1er dans un concours de circonstances. Je suis du genre à me laisser porter : c’est comme ça qu’on m’a proposé un post-doc à l’INRIA en 2005 ; et j’y suis resté (jusqu’à aujourd’hui en tout cas !)

Ton domaine de recherche

Quelques processus en sciences de l’environnement. Source : P. Rekacewicz, Le Monde Diplomatique

Je suis mathématicien. En France, les mathématiques sont « rangées » en 10 catégories : les maths pures et les maths appliquées. Même si je n’aime pas trop cette distinction, je me place clairement dans la seconde catégorie. Et moi les maths, je les applique en sciences de l’environnement. En fait, c’est un domaine à l’interface de beaucoup de disciplines : on traduit en équations des phénomènes naturels (ou pas) en discutant avec des physiciens, on étudie les propriétés de ces équations avec les matheux et puis on transforme ces équations en logiciels de simulation avec les informaticiens. Du coup je suis un mathématicien très proche du numérique, c’est pourquoi j’ai beaucoup de points communs avec les co-éditeurs de ce blog. Mes contributions sont essentiellement autour du couplage entre les modèles, qui ont lieu à différentes échelles spatiales et temporelles.

Quelle est l’évolution de ton domaine ?

C’est toujours difficile d’estimer l’évolution actuelle du domaine. Ce que je peux dire, c’est qu’il y a 20 ans, nous avons vécu une première révolution autour des données. Grâce à des méthodes d’optimisation développées notamment en France par François-Xavier Le Dimet, on a permis aux prédictions des modèles de s’améliorer sensiblement en intégrant des corrections effectuées grâce aux données : ça s’appelle l’assimilation de données. En gros, avant, on ne faisait confiance qu’aux modèles, maintenant c’est un mélange modèles + données. Bien sûr avec les outils récents de machine learning on peut se demander si les données ne vont pas bientôt permettre de tout faire : ça serait une seconde révolution, mais je n’y crois qu’à moitié. On pourra peut-être prédire beaucoup de choses mais pour comprendre les phénomènes, on aura toujours besoin de modèles…

Le plus et le moins dans ton activité de recherche

Le plus : sans aucun doute l’interdisciplinarité. C’est génial de pouvoir dialoguer et collaborer avec des femmes et des hommes de disciplines aussi variées, avec les maths au milieu.
Le moins : sans aucun doute l’interdisciplinarité 😉 Quand on est à l’interface de deux domaines (ou plus !) on ne peut pas être « à moitié bon » dans chacun des domaines. Il faut, comme le disait Jacques-Louis Lions, être bon dans les deux. Lui l’était sans aucun doute !

 

En avant la musique… numérique

La musique, traditionnellement très influencée par les mathématiques, ne pouvait qu’être profondément transformée par l’informatique. Depuis l’amatrice de Yukulélé qu’une application accompagne dans son apprentissage, jusqu’au grand compositeur qui invente de nouveaux sons, l’informatique s’est installée dans la musique. Binaire a demandé à un informaticien-musicien, Philippe Rigaux, Professeur d’informatique au CNAM, de nous expliquer ce qu’il en est. Serge Abiteboul et Marie-Agnès Enard. Cet article est publié en collaboration avec The Conversation.

Philippe Rigaux (site web perso)

L’informatique musicale

L’informatique est maintenant omniprésente dans notre existence. Elle nous fournit des outils, traitement de texte, tableur, pour faciliter des tâches autrefois totalement manuelles, d’innombrables sources d’information accessibles en quelques clics, et, de plus en plus, des algorithmes capables d’effectuer à notre place certaines actions dites « intelligentes », celles qui demanderaient a priori un effort de réflexion de notre part. Cette puissance peut-elle s’étendre au domaine de la création artistique ? À l’écriture d’une fiction, à la production d’une œuvre ou à la composition d’une pièce musicale ? Inversement, une création artistique est-elle analysable par une machine? Peut-on comprendre comment elle est conçue, et tirer parti de cette compréhension pour effectuer des comparaisons, identifier le style, fournir des mécanismes de recherche basés sur le contenu, ou des interfaces intelligentes?

La musique, domaine qui nous intéresse ici, a depuis très longtemps une affinité particulière avec les sciences en général, et la science des nombres en particulier.  Pour des raisons que nous allons tenter d’expliquer, aussi bien la représentation de la musique que certains aspects de son processus de création semblent relever d’une approche dont l’intuition était formulée ainsi, dès 1842, par Ada Lovelace, une pionnière de l’informatique :

Supposant, par exemple, que les relations fondamentales entre la hauteur du son dans la science de l’harmonie et la composition musicale sont liées aux expressions et adaptations logiques, la machine pourrait composer de manière scientifique et élaborée des morceaux de musique de n’importe quelle longueur ou degré de complexité. Ada Lovelace. Sketch of the Analytical Engine Invented by Charles Babbage.  in Scientific Memoirs, Vol 3 (1842)

Dès l’apparition des premiers calculateurs, la perspective de représenter le matériau sonore sous une forme numérique, et de le manipuler par des procédés calculatoires, a donc suscité un intérêt qui ne s’est jamais démenti.

Musique, numérique et calcul

Un son est une onde vibrant à une certaine fréquence. Il est très facile avec un logiciel spécialisé de créer des sons et d’analyser automatiquement leur propriété. Notre premier exemple utilise le logiciel libre Audacity pour créer un son pur correspondant au la du diapason, et afficher un diagramme montrant sur l’axe horizontal la densité des oscillations par unité de temps.

Le la 440Hz engendré avec le logiciel libre Audacity.

Bien sûr, un son est rarement constitué d’une fréquence pure, il comprend des fréquences secondaires ou harmoniques dont la répartition est l’un des éléments qui participent au timbre perçu par l’auditeur.  Le même logiciel nous permet de décomposer le spectre des harmoniques du timbre d’un instrument (ici, le même la joué au piano).

Ces diagrammes nous montrent un autre paramètre important, l’intensité, représentée sur l’axe vertical par l’amplitude de la courbe. L’intensité d’un son (et de ses harmoniques) peut varier.

Un la 440Hz joué au piano.

Enfin la durée des sons est un autre paramètre qui intervient dans une organisation sonore. Ces quatre propriétés, fréquence, durée, timbre et intensité, constituent l’espace créatif dans lequel on produit (et on décrit) une œuvre musicale. Toutes correspondent à des valeurs quantitatives, et sont donc naturellement propres à une représentation numérique. Ces valeurs sont, de plus, à la fois simples et en nombre limité, car aussi bien l’espace des fréquences que celui des durées sont discrétisés. Les durées, par exemple, sont des fractions de la pulsation musicale: 1/2, 1/3, 1/4, 1/6, 1/8, pour l’essentiel.

La décomposition spectrale en harmoniques du son précédent,

La combinaison des sons obéit elle aussi à des principes mathématiques de proportionnalité. Deux sons dont les fréquences sont dans un rapport de 2 à 1 forment ainsi une octave, l’intervalle le plus simple, le plus “consonant”.   Les intervalles les plus « naturels » ou « purs » sont obtenus par généralisation de ce principe.  On obtient la quinte (3/2), la quarte (4/3) par complément de la quinte, la tierce dite majeure (5/4), la tierce dite mineure (6/5), etc. Au prix de quelques ajustements (dont l’étude nous mènerait très loin), le système occidental identifie ainsi 12 sons différents dans une octave.

Le matériau de base est donc assez restreint, et les informations utilisées, toutes quantifiables, sont liées par des rapports arithmétiques forts. C’est sur ce matériau que s’est développée l’écriture musicale, dont la richesse repose donc sur les combinaisons des hauteurs et des durées disponibles, et sur des principes de composition (variables selon les styles) basés en partie sur des règles formelles régissant ces combinaisons.

Ce qui nous intéresse ici, c’est que, dans une certaine mesure, ces principes et règles peuvent s’exprimer en termes de valeurs numériques et de rapports arithmétiques. Cela explique l’attractivité de la science du traitement de l’information et du calcul qu’est l’informatique pour la représentation, la production ou l’analyse de contenus musicaux.

Informatique musicale et création

Tout d’abord, le développement conjoint de l’électronique et de l’informatique a permis l’élaboration de nouveaux sons et leur intégration à la création musicale. Il est maintenant possible, avec des logiciels libres et intuitifs, de créer de nouveaux sons ou d’en enregistrer, de les transformer, d’effectuer des montages, sans trop de frais ou d’effort. Les professionnels disposent de systèmes très sophistiqués dont l’un des effets est de déplacer l’attention des créateurs vers des paramètres relativement négligés dans la notation traditionnelle.

Le timbre, par exemple, et de manière plus générale la production du son, étaient, jusqu’au développement des dispositifs électroniques, indiqués assez sommairement par la mention de l’instrument/voix, et donc délégués au musicien. Un timbre est caractérisé par les fréquences secondaires associées à chaque son fondamental, par leurs intensités respectives, par leur variation sur la durée d’une même note. Les systèmes électroniques de production sonore développés depuis les années 1960 autorisent un contrôle complet des paramètres du timbre, et permettent la recherche, la production, la transmission de nouveaux timbres constitués d’assemblages complexes de sons et de bruits divers, parfois eux-mêmes capturés dans le monde réel.  L’informatique tient dans ce cadre un rôle modeste d’outil de contrôle des dispositifs et de leurs paramètres. Elle est à ce titre omniprésente dans les studios d’enregistrement et de production musicale, quel que soit le style.

Plus intéressantes (pour notre domaine) sont les applications aux procédés d’écriture des méthodes de traitement de l’information et de calcul. Pour les compositeurs de musique dite savante, l’informatique a ouvert la perspective d’étendre et d’enrichir les méthodes usuelles de représentation et de création. Il faut introduire ici la notation occidentale, illustrée par le très simple exemple de la figure suivante.

Une partition très simple.

C’est un système de symboles qui encode graphiquement les quatre paramètres évoqués en introduction. Les durées sont représentées sur un axe horizontal (avec une symbolisation, blanches, noires, correspondant aux valeurs discrètes déjà évoquées), les fréquences sur un axe vertical (avec un système de grille correspondant à l’échelle des degrés). L’intensité et le timbre, traités secondairement, ne sont présents que sous la forme  d’annotations plus ou moins précises : « très doux » pour la première, ou indication de l’instrument (ici, la voix « Basse ») pour le second.

Disposer d’un système élaboré de représentation de la musique est l’une des conditions de la conception et de la transmission d’œuvres complexes telles que celles, par exemple, impliquant plusieurs musiciens jouant de manière synchronisée des parties indépendantes, ou encore celles basées sur des formes sophistiquées comprenant des reprises, des changements de rythme, d’effectifs, etc. Il n’en  reste pas moins que la notation n’est pas la musique. Une large part de l’interprétation reste indéterminée (le tempo par exemple, mais aussi d’autres aspects comme le phrasé) et implique la mobilisation de connaissances culturelles et stylistiques souvent complexes. Non seulement une partie des intentions du compositeur n’est pas reportée dans la notation et relève de ces connaissances implicites, mais on peut de plus considérer que les limites du codage constituent un frein aux ambitions créatrices.

Un premier apport de l’informatique est donc de permettre un élargissement considérable de la complexité de description d’une œuvre, bien au-delà des éléments de la sémiologie graphique usuelle, de préserver et de transmettre cette description.

Voici un motif très simple, le carillon de Big Ben.

Le carillon de Big Ben

Numériquement il correspond à la séquence (1, 1, 1, 1) pour le rythme, et (494, 392, 440, 294) pour les fréquences. Voici quelques transformations de ce motif.

Mutations d’un motif

Toutes ces transformations peuvent s’exprimer, informatiquement, sous la forme d’opérations appliquées à l’une des structures de données les plus courantes : la liste. L’augmentation, par exemple, double simplement toutes les valeurs de la liste des  durées ; l’imitation rétrograde inverse la liste ; l’inversion effectue une symétrie, chaque intervalle descendant devenant ascendant et réciproquement. Enfin la transposition est équivalente, pour les fréquences, à l’augmentation pour les rythmes : on applique un facteur qui déplace toutes les valeurs de la liste sur les degrés de l’échelle. La séquence des fréquences pour le motif transposé est (659, 523, 587, 392). On peut vérifier qu’un rapport de 4/3, correspondant à un intervalle de quarte, a été appliqué à chaque valeur du motif pour obtenir la transposition.

La composition (mathématique) de ces opérations est à la base de techniques de composition (musicale) d’une grande complexité formelle. Il ne s’agit bien entendu que d’un cadre au sein duquel peut s’épanouir la créativité des artistes compositeurs, lesquels ont d’ailleurs progressivement cherché à s’en affranchir le plus possible.

Les calculateurs donnent à ce type de procédé une ampleur et une facilité de mise en œuvre sans précédent. La figure suivante montre un exemple de multiplication d’une formule rythmique selon des rapports très complexes, les résultats pouvant ensuite être synchronisés pour créer des œuvres polyphoniques  dotées d’une forte cohérence interne.

Un exemple de transformation algébrique d’une structure rythmique avec le logiciel OpenMusic. La cellule rythmique (en haut) est répliquée et transformée par homothéties. Remerciements également à K. Haddad pour cette figure.

Cette approche reste encore proche du modèle traditionnel, avec une notation plus complexe mais basée sur les principes anciens de discrétisation. En étendant l’idée de création musicale fondée sur des structures  mathématiques, et en la combinant avec un système de production sonore électronique, on s’affranchit de ces dernières limites. L’œuvre de Iannis Xenakis est représentative de cette tendance. Le lecteur est invité à consulter le site  qui présente un bel échantillon de créations faisant appel à des procédures mathématiques. L’exemple, entre autres, montre que la notation devient alors une forme d’illustration graphique du monde sonore, et partie intégrante de l’œuvre.

Enfin, l’informatique permet d’aller au-delà des paramètres habituels de la notation. L’espace est par exemple une nouvelle dimension prise en compte par des compositeurs de la seconde moitié du XXe siècle comme Xenakis, Ligeti, Nono et Boulez. La distribution des sources sonores dans l’espace selon des règles précises aboutit à une nouvelle perception pour l’auditeur.

Systèmes interactifs et temps réel

Outre les nouveaux horizons ouverts par les extensions de la représentation musicale et sa génération par calcul, déjà évoquée ci-dessus, une autre piste a consisté à introduire l’ordinateur comme acteur interagissant dans la création au même titre que les « vrais » musiciens. On peut, dès la conception d’une œuvre, définir le rôle du programme informatique et son mode d’intervention au moment de l’exécution. Cela peut consister par exemple à ponctuer le discours musical par des interventions plus ou moins aléatoires, dans le but d’amener une réaction des autres interprètes.

Dans des approches moins expérimentales, l’interaction consiste à analyser et à réagir en temps réel à l’interprétation de l’œuvre par les autres musiciens. Certaines applications sont tout à fait pragmatiques, comme par exemple la possibilité pour un violoniste d’être accompagné automatiquement par son ordinateur portable pendant qu’il répète son concerto préféré (Voir à ce propos l’entretien sur Binaire d’Arshia Cont). D’autres sont de nature plus créative, comme des systèmes d’improvisation en temps réel qui dialoguent avec un musicien en reprenant ses phrases et en élaborant de nouvelles variations, à la manière d’un partenaire. Ce dernier exemple débouche sur une palette de défis scientifiques et technologiques communs à de nombreuses problématiques de l’informatique musicale : comment analyser et « comprendre » un flux de signal audio ? Comment identifier les caractéristiques d’un discours musical issu d’un musicien improvisateur ? Comment apprendre à produire, à partir de ces caractéristiques, un véritable dialogue avec l’instrumentiste, autrement dit un discours complémentaire, similaire, mais différent ? Comment enfin effectuer tout cela en temps réel, pour obtenir un système véritablement interactif ?

Gestion et analyse de contenus musicaux

Inversons maintenant la perspective en considérant cette fois non pas la création mais  l’analyse d’œuvres existantes. Le problème peut être résumé de la manière suivante : étant donnée une source musicale, disons un enregistrement audio, quelles sont les méthodes informatiques qui permettent d’en extraire des informations, et de construire sur ces informations des applications pertinentes ?

Certaines de ces applications sont extrêmement généralistes et sans doute connues de la lectrice ou du lecteur. Shazam, par exemple, vous permet de retrouver le titre d’une piste enregistrée en soumettant simplement à l’application un extrait audio de ce même enregistrement. C’est un bon exemple de l’apport des capacités de traitement de l’information à très grande échelle. Une approche très naïve, ou celle d’un être humain livré à ses seuls moyens, consisterait à passer en revue les millions d’enregistrements existants, et à les écouter un à un. Cela prendrait un temps… certain. Voyons comment obtenir le même résultat à peu près instantanément. Tout d’abord, chaque signal audio est traité de manière à en extraire une “empreinte digitale” (fingerprint) compacte, ce qui réduit considérablement la taille des données à examiner.  Ces empreintes sont ensuite placées dans une structure de données – un index – associée à un algorithme de recherche qui va très rapidement identifier les quelques candidats susceptibles d’être appariés à l’extrait audio. On a réduit drastiquement l’espace et le temps de recherche, grâce à des méthodes générales d’optimisation de ces ressources (structures, algorithmes) qui sont au cœur de la science informatique depuis ses débuts. En les associant à une ingénierie adaptée au problème traité, on obtient des résultats spectaculaires: quelques secondes au plus pour identifier un morceau de musique à partir d’un extrait d’une dizaine de secondes.

C’est spectaculaire, certes, mais malgré tout assez limité : Shazam permet de retrouver un enregistrement particulier d’une chanson, mais pas la même chanson si l’orchestration, le chanteur, le tempo change. Et il est encore moins envisageable d’utiliser la même approche pour trouver des chansons “semblables” ou “du même genre”. Il faut donc utiliser des méthodes différentes si on veut satisfaire une autre application très courante, celle consistant à vous recommander, sur votre plate-forme de diffusion (streaming) préférée, des contenus similaires à ceux que vous avez déjà écoutés.

Cela suppose d’être capable d’extraire des éléments caractéristiques de ces derniers : la durée, le tempo, le rythme, les accords, l’instrumentation, voire des notions plus complexes comme le style. Ces éléments correspondent à autant de dimensions descriptives d’un contenu audio, ce dernier pouvant alors être représenté par une sorte de vecteur. Il reste à évaluer la distance entre vecteurs pour déterminer le degré de similarité et être en mesure d’effectuer des classifications, des regroupements, et donc des recommandations (Voir l’article de Binaire sur les techniques de recommandation).

La méthodologie est classique et utilisée dans bien d’autres domaines. La grande différence tient aux contenus considérés, textuels dans les cas usuels, constitués de signaux audio numérisés pour le domaine qui nous concerne. La niveau de difficulté est bien plus élevé.

Regardons plus précisément comment on pourrait identifier un “style”, information sans doute très utile pour un système de recommandation. Le style est une notion assez difficile à définir précisément, ce qui constitue un encouragement à recourir, comme pour beaucoup d’autres problèmes de traitement de données, à des solutions basées sur l’apprentissage automatique. On donne à la machine un ensemble d’exemples d’un style donné, et la machine « apprend » de ces exemples en construisant progressivement une représentation de ce qui caractérise ce style, sans que personne n’ait eu, à un moment donné, à formaliser ces caractéristiques, construites donc uniquement par induction.

Recommandation, classification, apprentissage : on retrouve pour cette partie de l’informatique musicale des techniques qui relèvent globalement de ce qui est maintenant dénommé la science des données. L’idée générale est d’extraire des informations de nature statistique à partir d’un grand nombre d’exemples et d’en inférer des “modèles” des données traitées. Ce qui fait la particularité, encore une fois, du domaine musical, c’est la structure particulière de son contenu, constitué d’une numérisation d’ondes sonores produites de manière organisée. Ce qui nous ramène aux considérations initiales sur ce qu’est la musique, et sur l’ambition qu’on peut se fixer d’utiliser l’informatique pour retrouver l’organisation d’un discours musical dissimulé dans un document audio numérique.

Idéalement, un tel processus serait capable d’identifier chaque instrument et de reconstituer son discours musical : lignes mélodiques, accords, structures rythmiques. En d’autres termes, il produirait la notation musicale décrivant l’enregistrement.

Une telle méthode de transcription automatique n’existe pas encore de manière vraiment fiable, mais fait l’objet d’actives recherches. Elle permettra par exemple l’assistance à l’écriture, la numérisation de l’immense corpus des partitions existantes et leur mise à disposition sous forme de données ouvertes, ou d’aider à l’analyse de musiques non notées (improvisations,  musiques traditionnelles).

Philippe Rigaux, CNAM Paris

Note : l’auteur remercie chaleureusement, C. Davy-Rigaux, R. Fournier-S’niehotta et F. Jacquemard pour leur relecture et leurs suggestions.

 

Petit binaire : apprendre avec un gros Q

Oui binaire s’adresse aussi aux jeunes de tous âges que le numérique laisse parfois perplexes. Avec cette nouvelle rubrique « petit binaire », osons ici expliquer de manière simple et accessible un grand principe de l’informatique : l’apprentissage par la machine (machine learning). Thomas Deneux endosse le rôle de petit binaire et nous explique comment faire apprendre quelque chose à une machine en lui mettant des baffes… ou en lui donnant des fromages !

Marie-Agnès Enard, Pascal Guitton et Thierry Viéville.

.

– On m’a dit que les machines apprennent toutes seules maintenant, plus besoin de les programmer ?

– Hola, je t’arrête tout de suite, on a du les programmer à apprendre toutes seules !
– Certes, et … mmm : attends le mieux est de voir comment ça marche.
– Oui oui, comme cela on saura au moins de quoi on parle, quand on discute de ces trucs là.

Apprendre des actions au fil des récompenses (ou des baffes).

Pour permettre à un algorithme d’apprendre automatiquement on va spécifier :
– une liste de sensations, ce sont les entrées du mécanisme ;
– une liste d’actions possibles, ce sont les sorties du mécanisme ;
et chaque fois que le mécanisme fera une action, il aura un retour positif ou négatif : une récompense ou une baffe.

Ce que va faire le mécanisme c’est calculer la valeur Q associée à une certaine action a quand il reçoit une certaine sensation s

Q(s, a)

et quand il reçoit une certaine sensation s, il choisira d’effectuer l’action a qui donne la plus grande valeur Q(s,a).

– Attends … c’est tout ?!?

Presque, regarde un exemple, avec cette petite souris dans cette arène : elle cherche à manger les fromages, mais malheureusement elle est aveugle et sans odorat, aussi elle peut seulement sentir quand elle touche un fromage ou un mur de l’arène (ce sera plus simple pour nous).  Pour réussir à manger les fromages, elle avance tout droit tant qu’elle n’est pas bloquée par un mur (quand s = « libre », l’action qui donne la meilleure valeur Q est « Avancer »), et se retourne à gauche lorsqu’elle est bloquée par un mur (quand s = « bloqué », l’action qui donne la meilleur valeur Q est « À gauche »). C’est une stratégie très simple… et efficace !


https://scratch.mit.edu/projects/227229889/#fullscreen

– Je vois comment ça marche, mais comment ça « apprend » !?!

C’est facile : je t’ai expliqué comment la souris choisit ses actions grâce aux valeurs Q, voici maintenant comment elle a appris ces valeurs grâce à son programme de Q-learning !

Quand on l’a lâchée pour la première fois dans l’arène, cette souris était totalement néophyte, elle ne savait pas quelle action choisir : toute la table Q valait zéro. Elle a alors choisi ses actions au hasard, jusqu’à choisir une fois « Avancer » et tomber sur un fromage ! A ce moment là, elle a mémorisé que « Avancer » peut donner une récompense (le fromage !) en mémorisant dans la table Q libre », « Avancer »)=20. Dorénavant elle choisira d’avancer quand elle sera libre !… sauf de temps en temps où elle continuera d’assouvir sa curiosité en choisissant une autre action au hasard.

 

– Je comprends : la valeur Q indique la récompense qu’on peut recevoir ! Mais alors, comment la souris a-t-elle appris à se retourner quand elle est bloquée ?! On lui donne un fromage à chaque fois qu’elle se débloque ?

Hé, très bonne question, mais pas besoin de la récompenser pour cela ! En effet, lorsque la souris était bloquée par un mur puis a réussi par hasard à se débloquer une première fois en tournant, elle a apprécié de se sentir « libre » à nouveau ! (puisqu’elle a déjà appris que quand elle est libre, elle peut rencontrer des fromages). Aussi a-t-elle mémorisé cela en augmentant la valeur Q bloqué », « À gauche »). Finalement, la valeur Q indique non seulement la récompense qu’on peut recevoir immédiatement, mais aussi celles qu’on pourra recevoir plus tard.

 

– Génial ! Alors la souris a vraiment appris toute seule comment attraper des fromages ! Et ceci grâce à un programme très simple ! C’est avec le même programme que l’ordinateur AlphaGo de Google a battu le champion du monde du jeu de Go Lee Sedol ?

 

A peu près ! A la différence que le nombre de sensations et d’actions possibles au jeu de Go est largement plus grand, aussi AlphaGo a dû être entraîné sur des millions de parties. Il a aussi fallu quelques astuces pour faire progresser sa fonction Q : par exemple, utiliser du Deep Learning pour la calculer (je te parlerai de cela une prochaine fois).

Mais oui, le principe reste le même :
* agir en choisissant l’action qui va donner la valeur maximale et
* ajuster la valeur des actions exécutées grâce aux récompenses et nouvelles sensations observées !

– Mais attends, tu ne lui as même pas donné de baffes à la souris finalement !

Et oui, c’est vrai, j’ai décidé d’être sympa. C’est vrai que si j’avais entouré l’arène d’une clôture électrique elle aurait pu apprendre encore plus vite à se débloquer. Récompenses ou punitions, peu importe, l’essentiel c’est que le programme comprenne que certaines actions sont meilleures que d’autres.

– Attends, t’es en train de me dire que le bâton ou la carotte c’est la même chose ?! Franchement moi je préfère apprendre avec des fromages plutôt qu’avec des baffes !

Bien sûr ! Je n’ai jamais dit qu’un programme d’ordinateur et un être humain (ou même une vraie souris) c’est la même chose ! Il est bien connu que, contrairement au Q-learning, le cerveau ne mémorise pas de la même manière les récompenses et les punitions.

– Ben oui, on est quand même pas des machines… Alors, cette « intelligence artificielle », ce n’est qu’un simple calcul ?

Tu as raison. Déjà c’est un débat de savoir si on est vraiment des machines de Turing ou pas (un jour, il faudra aussi que je te parle de ce Monsieur Turing ; il a imaginé un modèle relativement simple d’un ordinateur universel qu’on appelle machine de Turing), et la complexité de l’apprentissage biologique est sans comparaison avec nos ordinateurs actuels les plus puissants. Mais en plus, nous les humains, comme les animaux, on vit, on meurt, et on choisit ce qu’on veut faire tant qu’on vit ! C’est une différence fondamentale avec les machines, qui elles, exécutent leurs programmes sans réfléchir.

Et puis concernant les robots : Certes, je t’ai parlé d’apprentissage machine, mais cela reste un mécanisme, comme lorsqu’on programme explicitement un robot à faire une tâche comme sortir d’un labyrinthe. La différence, c’est que le mécanisme consiste à utiliser un algorithme un peu universel qui va s’adapter à une tâche en fonction des données qu’il reçoit. Rien de magique.

Cela ne nous empêche pas d’être fier de tous les algorithmes que les femmes et les hommes ont inventés ! Et de continuer à chercher à en inventer de plus performants. Et quand ce sont de vrais robots qui apprennent, se déplacent, interagissent avec nous, cela devient vraiment impressionnant c’est sûr.

Tu sais, c’est précisément un projet qui me tient à coeur : j’ai mis au point un petit robot roulant qui s’appelle AlphaI, pour l’instant il apprend à se déplacer dans une arène, exactement comme la souris, mais plus tard il saura faire plein d’autres choses. Je l’utilise pour faire comprendre aux petits et aux grands comment marche l’intelligence artificielle.

http://naivia.fr

– Trop classe ! Merci !

Thomas Deneux, responsable du service informatique de l’UNIC

Au programme du prochain épisode :

Comment expliquer le fonctionnement d’Internet avec des Post-it ?

Les selfies de binaire : Pascal

Si vous lisez ces lignes, c’est que vous connaissez le blog binaire et que l’informatique ou les sciences du numérique vous intéressent ou du moins attisent votre curiosité. Comme vous le savez, nous avons le souhait de proposer des sujets variés dans des domaines où l’informatique est omniprésente.  Aujourd’hui, nous avions envie de vous parler de nous, pour que vous puissiez découvrir la diversité des parcours qui sont les nôtres et avoir ainsi une meilleure connaissance de celles et ceux qui s’adressent à vous.  Après Thierry Viéville, c’est Pascal Guitton qui poursuit notre mini-série.

Pascal Guitton
Enseignant-chercheur en informatique
Université de Bordeaux & Inria

 

Ton parcours

Juste après mon Bac, je suis parti en vacances avec des copains et ensuite j’ai bossé pour récolter un peu d’argent. En septembre, j’ai commencé à me demander ce que j’allais faire (on était très loin de ParcoursSup…) ; il se trouve que seule l’université de Bordeaux – on disait la Fac de Sciences – acceptait encore les inscriptions. J’y ai donc commencé un DEUG Scientifique où je me suis prodigieusement ennuyé jusqu’à ce que je découvre l’informatique qui m’a intéressée, puis passionnée quand je suis tombé sur la programmation. A tel point que j’ai failli ne jamais passé en seconde année car j’avais délaissé toutes les autres matières. Je me suis donc naturellement dirigé vers les études qui me permettaient d’approfondir cette discipline et j’ai obtenu une maîtrise, puis un DEA d’informatique. Dans cette 5ème année, j’ai effectué un stage où j’ai travaillé sur la description et la validation des protocoles de communication. Internet, le web n’existaient pas, il s’agissait alors de mettre en place les outils et les standards des réseaux que nous utilisons désormais tous les jours. C’est pendant la préparation de ma thèse sur ce même sujet que je me suis rendu compte que je voulais devenir enseignant-chercheur.

Ton domaine d’activité

J’ai successivement travaillé dans 4 domaines : les protocoles de communication donc, la synthèse d’images, la réalité virtuelle et depuis 3 ans l’accessibilité numérique. Il s’agit d’abord de réfléchir aux raisons pour lesquelles un grand nombre de personnes en situation de handicap ne peuvent accéder au monde numérique (logiciels, web…) et ensuite de proposer des solutions pour lutter contre cette discrimination. Je me suis plus particulièrement intéressé à ouvrir les systèmes d’enseignement en ligne comme les MOOC pour des personnes en situation de handicap cognitif (troubles de la mémoire, de l’attention, des émotions…) en développant de nouvelles formes d’interaction adaptées au plus grand nombre.

Quelle est l’évolution de ton domaine ?

Même si on constate des progrès, l’accessibilité numérique est encore trop souvent ignorée, alors qu’il existe des solutions techniques et des recommandations qui permettent de proposer une accessibilité numérique « basique ». Il convient en parallèle de cette prise de conscience de mener des activités de recherche pour aller plus loin que ces premières solutions et ainsi contribuer à rendre le monde numérique réellement accessible.

Le plus et le moins dans ton activité

Le plus : Mon métier d’enseignant-chercheur est passionnant : il m’a permis de rencontrer, d’essayer de comprendre et d’assister des personnes issues de domaines très différents : archéologues, fabricants de voitures, architectes, médecins, concepteurs de lanceurs spatiaux, etc. Cerise sur le gâteau : toutes ces activités se sont réalisées de façon collective au sein d’équipes où j’ai eu la chance de travailler avec des super collègues. Et puis, j’ai toujours aimé enseigner et être au contact des étudiant.e.s pour essayer de leur transmettre ce que j’avais appris avec toutes ces personnes.

Le moins : je cherche depuis près de 35 ans et je pense que je partirai en retraite sans avoir trouvé. Ce métier, quel pied [1]!

Equipe IPARLA (2007)

[1] Traduction : Ce job, quel kif !

 

Mettre l’éthique dans l’algorithme ?

Quand les algorithmes prennent une place de plus en plus importante dans nos vies, guident nos choix, décident parfois pour nous, ils se doivent d’avoir un comportement éthique pour que la cité ne devienne pas une jungle. Récemment, la CERNA s’est penchée sur le sujet lors d’une journée sur « Les valeurs dans les algorithmes et les données ». Catherine Tessier a présenté ses travaux avec Vincent Bonnemains et Claire Saurel dans ce domaine. Nous les avons invités à en parler aux lecteurs de Binaire. Serge Abiteboul

Imaginons l’expérience de pensée suivante : une voiture autonome vide, en chemin pour aller chercher des passagers, est arrêtée à un croisement au feu rouge. Sur l’axe venant de sa gauche, une voiture passe à vitesse réglementaire au feu vert, lorsqu’une personne s’engage sur le passage piéton en face d’elle.

Grâce au traitement des données issues de ses capteurs, la voiture autonome calcule que la voiture engagée va percuter le piéton. La voiture autonome a deux actions possibles :

  1. S’interposer entre la voiture engagée et le piéton
  2. Ne pas intervenir

Comment concevoir un algorithme qui déterminerait l’action à effectuer par la voiture autonome et quelles seraient ses limites ?

On se trouve ici dans le cadre (simplifié) de la conception d’un agent artificiel (l’algorithme de la voiture autonome) doté d’une autonomie décisionnelle, c’est-à-dire capable de calculer des actions à effectuer pour satisfaire des buts (par exemple : aller chercher des passagers à tel endroit) tout en satisfaisant des critères (par exemple : minimiser le temps de parcours) à partir de connaissances (par exemple : le plan de la ville) et d’interprétations de données perçues (par exemple : un piéton est en train de traverser la voie de droite). En outre, dans cette situation particulière, le calcul de l’action à effectuer met en jeu des considérations relevant de l’éthique ou de l’axiologie qui vont constituer des éléments de jugement des actions possibles. On peut remarquer en effet qu’aucune des deux actions possibles n’est totalement satisfaisante, dans la mesure où il y aura toujours au moins un effet négatif : c’est ce qu’on appelle une situation de dilemme. Plusieurs points de vue peuvent être envisagés pour qu’un algorithme simule des capacités de jugement des actions.

L’approche conséquentialiste

L’algorithme évaluerait dans ce cas les décisions possibles selon un cadre conséquentialiste, qui suppose de comparer entre elles les conséquences des actions possibles : l’action jugée acceptable est celle dont les conséquences sont préférées aux conséquences de l’autre action.

Pour ce faire l’algorithme a besoin de connaitre (i) les conséquences des actions possibles, (ii) le côté positif ou pas des conséquences, et (iii) les préférences entre ces conséquences.

(i)  Les conséquences de chaque action

Immédiatement se pose la question de la détermination de ces conséquences : considère-t-on les conséquences « immédiates », les conséquences de ces conséquences, ou plus loin encore ? De plus, les conséquences pour qui, et pour quoi, considère-t-on ? D’autre part, comment prendre en compte les incertitudes sur les conséquences ?

Le concepteur de l’algorithme doit donc faire des choix. Par exemple, il peut poser que les conséquences de l’action S’interposer sont : {Piéton indemne, Passagers blessés, Voiture autonome dégradée} et les conséquences de l’action Ne pas intervenir sont : {Piéton blessé, Passagers indemnes, Voiture autonome indemne}.

(ii) Le caractère positif ou négatif d’une conséquence

Si le concepteur choisit par exemple d’établir le jugement selon un utilitarisme positif (le plus grand bien pour le plus grand nombre), les conséquences des actions possibles doivent être qualifiées de « bonnes » (positives) ou « mauvaises » (négatives). Il s’agit là d’un jugement de valeur ou bien d’un jugement de bon sens, qui peut dépendre des valeurs que promeut la société, la culture, ou bien du contexte particulier dans lequel l’action doit être déterminée.

Le bon sens du concepteur peut lui dicter la qualification suivante des conséquences : {Piéton indemne, Passagers blessés, Voiture autonome dégradée} et {Piéton blessé, Passagers indemnes, Voiture autonome indemne}.

(iii) Les préférences entre les ensembles de conséquences

Comment l’algorithme va-t-il pouvoir comparer les deux ensembles de conséquences, dont on constate que (i) ils comportent des conséquences positives et négatives et (ii) ces conséquences concernent des domaines différents : des personnes et des choses ? Le concepteur pose-t-il des préférences absolues (par exemple, toujours privilégier un piéton par rapport à des passagers qui seraient mieux protégés, toujours privilégier les personnes par rapport aux choses) ou bien variables selon le contexte ? Ensuite comment réaliser l’agrégation de préférences élémentaires (entre deux conséquences) pour obtenir une relation de préférence entre deux ensembles de conséquences ?

Le concepteur peut choisir par exemple de considérer séparément les conséquences positives et les conséquences négatives de chaque action et préférer l’ensemble {Piéton indemne} à l’ensemble {Passagers indemnes, Voiture autonome indemne} et l’ensemble {Passagers blessés, Voiture autonome dégradée} à l’ensemble {Piéton blessé}.

Compte tenu de ces connaissances, dont on constate qu’elles sont largement issues de choix empreints de subjectivité, un tel algorithme conséquentialiste produirait l’action S’interposer, puisque ses conséquences (celles qui sont considérées) sont préférées (au sens de la relation de préférence considérée) à celle de l’autre action.

L’approche déontologique

L’algorithme évaluerait dans ce cas les décisions possibles selon un cadre déontologique, qui suppose de juger de la conformité de chaque action possible : une action est jugée acceptable si elle est « bonne » ou « neutre ».

Comment équiper l’algorithme de connaissances qui lui permettraient de calculer un tel jugement ? Que signifient « bon », « mauvais » ? Une action peut-elle être « bonne »  ou mauvaise » en soi ou doit-elle être jugée en fonction du contexte ou de la culture environnante ? Quelles références le concepteur doit-il considérer ? Par exemple, l’action de « brûler » un feu rouge peut être considérée comme « mauvaise » dans l’absolu (parce qu’elle contrevient au code de la route), mais « bonne » s’il s’agir d’éviter un danger immédiat.

Dans notre exemple, le concepteur de l’algorithme peut choisir de qualifier les deux actions S’interposer et Ne pas intervenir comme « bonnes » ou « neutres » dans l’absolu. L’algorithme déontologique ne pourrait alors pas discriminer l’action à réaliser. Cette question relève de manière classique des choix inhérents à l’activité de modélisation.

Actions, conséquences, est-ce si clair ?

Sans jeu de mots, arrêtons-nous un instant sur la question du feu rouge, et plus précisément sur « brûler un feu rouge ». S’agit-il d’une action (la voiture autonome brûle le feu rouge et ce faisant, elle s’interpose) ? S’agit-il d’une conséquence de l’action S’interposer (la voiture autonome s’interpose, et une des conséquences de cette action – un effet collatéral – est qu’elle brûle le feu rouge) ? Ou bien s’agit-il simplement d’un moyen pour réaliser l’action S’interposer (la voiture autonome utilise le fait de brûler le feu rouge pour s’interposer) ?

Nous voyons ici que selon ce que le concepteur va choisir (considérer ou non « brûler » un feu rouge, et si oui, le considérer comme action, conséquence, ou comme autre chose) les réponses de l’algorithme conséquentialiste ou déontologique seront différentes de celles que nous avons vues précédemment.

Les valeurs morales

Le concepteur pourrait également s’affranchir de ces notions d’actions et de conséquences et considérer uniquement des valeurs morales. L’algorithme consisterait alors à choisir quelles valeurs morales privilégier dans la situation de dilemme considérée, ce qui revient de manière duale à programmer la possibilité d’infraction, de dérogation aux valeurs. Veut-on par exemple programmer explicitement qu’une infraction au code de la route est envisageable ?

Dans notre exemple, le concepteur pourrait choisir de considérer quatre valeurs morales : la conformité au code de la route, la non atteinte aux biens, la non atteinte aux personnes, la protection des personnes, et de les placer sur une échelle de préférences (>), forcément subjective, de la manière suivante :

Le concepteur a ici considéré que les valeurs de non atteinte aux personnes et de protection des personnes, non hiérarchisables entre elles, étaient préférables à la valeur de non atteinte aux biens, elle-même préférable à la valeur de conformité au code de la route.

Ensuite le concepteur pourrait choisir les valeurs à respecter et parmi celles-ci, celles qui sont préférées au sens de son échelle au détriment d’autres valeurs qui pourraient être transgressées.

Si le concepteur choisit de respecter la valeur protection des personnes, c’est l’action s’interposer qui est satisfaisante, dans le sens où le piéton sera protégé. Dans ce cas la valeur non atteinte aux biens sera transgressée (les voitures subissent des dommages), ainsi que la valeur de conformité au code de la route (la voiture autonome « brûle » le feu rouge). On remarque qu’il est difficile d’établir si la valeur de non atteinte aux personnes est respectée ou non : en effet, en s’interposant, la voiture autonome provoque un accident dans lequel les passagers de la voiture habitée peuvent éventuellement être blessés.

Si le concepteur choisit au contraire de respecter la valeur non atteinte aux personnes, ainsi que la valeur non atteinte aux biens et la conformité au code de la route, ou bien s’il cherche à minimiser le nombre de valeurs transgressées, c’est l’action ne pas intervenir qui est satisfaisante. Ainsi les passagers de la voiture habitée sont épargnés, les deux voitures restent indemnes et la voiture autonome respecte le feu rouge. En revanche la protection des personnes n’est pas respectée – ce qui ne signifie pas que le piéton sera obligatoirement blessé (la voiture habitée peut freiner, le piéton peut courir, etc.)

Des questionnements

Ces tentatives de modélisation de concepts éthiques et axiologiques dans le cadre d’une expérience de pensée simple illustrent le fait que la conception d’algorithmes dits « éthiques » doit s’accompagner de questionnements, par exemple :

  • Dans quelle mesure des considérations éthiques ou des valeurs morales peuvent-elles être mathématisées, calculées, mises en algorithme ?
  • Un tel algorithme doit-il être calqué sur les considérations éthiques ou les valeurs morales de l’humain, et si oui, de quel humain ? N’a-t-on pas des attentes différentes vis-à-vis d’un algorithme ?
  • Un humain peut choisir de ne pas agir de façon « morale », doit-on ou peut-on transposer ce type d’attitude dans un algorithme ?

Enfin il faut garder à l’esprit que  l’« éthique », les « valeurs » programmées sont des leurres ou relèvent du fantasme –  en aucun cas une machine ne « comprend » ces concepts : une machine ne fait qu’effectuer des calculs programmés sur des données qui lui sont fournies. En ce sens, on ne peut pas parler de machine « morale » ou « éthique » mais de machine simulant des comportements moraux ou éthiques spécifiés par des humains.

Catherine Tessier (1, 2), Vincent Bonnemains (1,3), Claire Saurel (1)

Pour aller plus loin

  • Vincent Bonnemains, Claire Saurel, Catherine Tessier – Machines autonomes « éthiques » : questions techniques et éthiques. Revue française d’éthique appliquée (RFEA), numéro 5. Mai 2018
  • Vincent Bonnemains, Claire Saurel, Catherine Tessier – Embedded ethics – Some technical and ethical challenges. Journal of Ethics and Information Technology, special issue on AI and Ethics, January 2018

 

 

 

 

Les selfies de binaire : Thierry

Si vous lisez ces lignes, c’est que vous connaissez le blog binaire et que l’informatique ou les sciences du numérique vous intéressent ou du moins attisent votre curiosité. Comme vous le savez, nous avons le souhait de proposer des sujets variés dans des domaines où l’informatique est omniprésente.  Aujourd’hui, nous avions envie de vous parler de nous, pour que vous puissiez découvrir la diversité des parcours qui sont les nôtres et avoir ainsi une meilleure connaissance de celles et ceux qui s’adressent à vous.  C’est Thierry Viéville qui démarre cette mini-série.

icons/myface.jpg

Thierry Viéville
Chercheur en neurosciences

 

Ton parcours

Je faisais des études d’ingénieur parce que je n’avais pas pu être ni psychiatre ni curé (c’est authentique), et comme travailler en télécommunication me gonflait prodigieusement, j’ai été faire des recherches en neurosciences parce que mes professeurs de l’époque m’avaient expliqué que l’informatique n’était pas une discipline scientifique donc qu’on ne pouvait pas y faire des recherches scientifiques (c’est authentique !)… et puis j’ai découvert l’INRIA.

Ton domaine de recherche

Animation des sections IRM à travers l'axe-Z d'un être humain adulte sain.
©fastfission@wikipédia

 Les neurosciences computationnelles* forment un domaine de recherche scientifique assez étrange où on part d’une hypothèse complètement fausse à savoir que le cerveau est une simple machine à traiter l’information pour essayer d’expliquer certains aspects de son fonctionnement. Ces modèles dits computationnels (c’est à dire se concentrant sur le traitement de l’information) marchent assez bien quand on s’intéresse à des fonctions plutôt « animales » c’est à dire correspondant à des fonctions déjà présentes dans le règne animal (ex: réflexes, reconnaissances d’objets, sélection d’une action, …). Mais c’est encore plus intéressant quand  la confrontation de ces modèles à la réalité biologique échoue : cela oblige à faire évoluer notre vision scientifique et c’est ça qui est passionnant.
Techniquement, autour de Frédéric Alexandre, nous proposons de modéliser le cerveau comme un système de mémoires actives en synergie et en interaction avec le monde interne et externe et de le simuler dans son ensemble et en situation.

Quelle est l’évolution de ton domaine ?

C’est l’arrivée du « machine learning » c’est-à-dire de ces algorithmes qui sont capables d’être extrêmement performants  à condition de leur confier la simulation d’une tâche cognitive très restreinte, qui a bouleversé notre champ de recherche. Tandis que nous savons que la construction d’une soit disant intelligence artificielle globale contredit des résultats mathématiques établis (par exemple** les « no-free lunch theorems« ) donc reste une croyance, il n’en reste pas moins que l’espèce humaine est là avec son cerveau, et le comprendre dans sa globalité semble impliquer de dépasser les outils théoriques dont nous disposons aujourd’hui.

Le plus et le moins dans ton activité de recherche

Le plus : le moment où un truc super compliqué (parce qu’on a pas encore compris ou parce que le ou la collègue qui l’exprime a encore une vision confuse ou pire : se la joue de manière pédante) devient limpide et clair.
Le moins :
mourir d’ici moins d’un demi siècle sans savoir ce qui se passera après en matière de compréhension de notre cerveau.

Pour en savoir plus

(*) La grenouille gobe t’elle aussi les cailloux ? une introduction aux neurosciences computationnelles

(**) Les « no-free lunch » theorems.

©Leon Fedden https://goo.gl/CmbwQF

Rien n’est gratuit 🙂 Ces théorèmes montrent qu’un algorithme de machine-learning, tel que nous le formulons aujourd’hui, qui serait plus performant que les autres pour résoudre une classe de problèmes particulière est forcément moins performant sur un grand nombre d’autres classes de problèmes. Un algorithme qui résoudrait tous les problèmes serait obligatoirement totalement inefficace, en fait pas plus efficace que tirer au hasard la solution. La conséquence est que plutôt que de chercher un algorithme qui serait artificiellement intelligent de manière globale, il faut au contraire se doter d’outils mathématiques et informatiques pour introduire de maximum d’informations a-priori pour résoudre un problème donné, comme l’explique Stéphane Mallat.

 

La transparence à l’école de Parcoursup

Le psychodrame du printemps, c’est Parcoursup, c’est à dire le nouveau système mis en place pour l’affectation des bacheliers et bachelières dans l’enseignement supérieur. On ne parle plus de tirage au sort comme dans son prédécesseur, Admission Post-Bac (APB). Les sujets de controverse sont plutôt : le nombre d’élèves qui attendent toujours leur affectation et l’opacité des classements locaux. Le public prend sans doute conscience de la complexité de l’exercice. Néanmoins, on ne peut que se féliciter de voir le sujet de la transparence des algorithmes progresser en France dans la vie publique. Claire Mathieu qui a travaillé sur l’algorithme de Parcoursup et collaboratrice régulière de Binaire nous en parle. Serge Abiteboul, Marie-Agnès Enard.

Depuis le 22 mai 2018, nous assistons à  un apprentissage accéléré de concepts d’informatique et d’algorithmique par la société française. Avec le démarrage de la phase principale de la plateforme Parcoursup, des concepts informatiques de base deviennent soudain très concrets. La publication des algorithmes et du programme Java permet de voir la différence entre algorithme et programme, sur un sujet qui passionne le public. La publication des rangs d’attente des candidats, qui évoluent quotidiennement, donne une réalité saisissante à  la notion d’exécution d’algorithme. Sur les réseaux sociaux, nous voyons se multiplier les questions, non pas simplement sur l’interface avec la plateforme, mais aussi sur le fonctionnement de l’algorithme de Gale-Shapley. A mesure que les lycéens et leurs professeurs se familiarisent avec l’algorithme et le voient en action jour après jour, nous assistons à  une prise de conscience progressive de l’impact de leurs choix, et des notions de théorie des jeux apparaissent. La transparence de la plateforme met en lumière les éléments déterminants, le classement des dossiers par les formations, le taux de boursiers et de résidents, la méthode pour modifier ces classements de façon à  incorporer ces taux. Une discussion publique s’engage sur ces éléments, autour de questions qui auparavant auraient semblé largement théoriques et déconnectées de la vraie vie.

D’un seul coup, toute une génération constate l’impact sur leur vie individuelle de décisions politiques publiques réalisées par des algorithmes. A mesure que les gens comprennent mieux ce qui se passe, la réflexion s’engage sur les conséquences pour notre société,  et nous assistons à  une éducation des citoyens à vitesse grand V. Il faut espérer que ceux de la génération 2000 qui auront passé quelques jours ou quelques semaines sur la plateforme Parcoursup seront motivés pour s’inscrire sur les listes électorales, suivre les campagnes électorales en étant mieux armés pour évaluer les arguments, et voter avec discernement aux prochaines élections.

En ce qui concerne l’enseignement de l’informatique à  proprement parler, on peut prédire que l’an prochain les enseignants d’informatique auront d’évidentes sources de problèmes à  proposer à  leurs élèves. Le programme Java disponible sur le site https://framagit.org/parcoursup/algorithmes-de-parcoursup sera réécrit dans d’autres langages de programmation, avec des variantes dans les structures de données et les détails d’implémentation. Ce programme a naturellement vocation à  être exemplaire, et la communauté informatique va donc certainement contribuer à  l’améliorer, que ce soit pour l’efficacité, la présentation, la certification, ou d’autres aspects. C’est surtout à la société civile de discuter comment cette affectation doit être réalisée. Avec la publication de l’algorithme et du code, le sujet est sur la place publique.

Ce succès de la transparence de Parcoursup fait souhaiter que d’autres algorithmes et programmes soient à  leur tour rendus publics. Par exemple, si certaines formations  publiaient leurs méthodes de classement des dossiers, cela enrichirait la discussion sur l’évaluation.  Autre exemple, il serait passionnant que tous puissent comprendre comment notre impôt est calculé. [note de Binaire : voir « Dessine-moi les impôts »] Si le citoyen avait accès à  l’algorithme et au programme, une discussion publique pourrait s’engager, à  l’instar de celle qui est en train de naître de la transparence de Parcoursup, sur les possibilités ou non de manipulation du système, les critères, et leur équité.

La transparence des algorithmes utilisée par le gouvernement est un moteur puissant pour une société plus démocratique.

Claire Mathieu, Directrice de recherches au CNRS, Professeur au Collège de France (chaire annuelle Informatique et Sciences Numériques) et chargée de mission Parcoursup.

 

L’autre abécédaire de l’informatique

Le monde de l’informatique regorge de termes qui sont aujourd’hui rentrés dans le langage courant comme USB, Bluetooth ou Cloud. Binaire vous propose un abécédaire de l’informatique décalé avec des mots communs, imagés voire surprenants. Nous sommes notamment allés piocher dans le dicofr.com réalisé par Eric Goguey ainsi que dans le glossaire Celog des termes officiels de l’informatique pour vous faire une sélection insolite de A à Z. Vous découvrirez que Fibre Channel n’est pas un textile de luxe, que le bus est un moyen de transport peu ordinaire ou qu’on peut dire OUI sans risque ! Marie-Agnès Enard

Arbre : En informatique, un arbre binaire est une structure de données qui peut se représenter sous la forme d’une hiérarchie dont chaque élément est appelé nœud, le nœud initial étant appelé racine.

Bus : Support de transfert d’information entre les différents ensembles d’un ordinateur. Un bus permet de transférer des données entre la carte mère et les périphériques qui s’y connectent. Sa rapidité dépend de sa largeur en bits et de sa fréquence.

Crénelage : Effet visuel indésirable provoqué par l’insuffisance de la définition d’une image ou par un filtrage inadéquat des contours d’objets, et qui prend habituellement la forme de dentelures et de contours brisés. En anglais : aliasing

Dorsale : Partie principale d’un réseau de télécommunication ou de téléinformatique, caractérisée par un débit élevé, qui concentre et transporte les flux de données entre des réseaux affluents.  Équivalent anglais : backbone (Journal officiel du 16 mars 1999 « Vocabulaire de l’informatique et de l’internet »).

Étiquette : Une étiquette dans un programme est une séquence de caractères qui identifie un emplacement dans le code. Elle peut servir à se « déplacer » dans le code (goto dans le langage C). Elle peut aussi être utilisée pour attacher une propriété à un morceau de code (par exemple, pour donner une couleur à un titre en HTML).

Fibre Channel : Protocole de transport s’appuyant sur des composants fibre optique (disque, carte réseau, concentrateurs). Il permet d’obtenir des débits de transferts très rapides, que ce soit entre des stations de travail ou entre des périphériques de stockage.

Grappe :  Ensemble d’appareils de même type (terminaux, ordinateurs, etc.) rattachés à une même unité de contrôle. Anglais : cluster.

Hop : Quand l’information transite par un routeur, on parle d’un hop. Vos messages passent souvent par plusieurs hops avant d’atteindre leur destinataire.

Indicatif : Un caractère ou une série de caractères qui apparaissent sur l’écran pour demander une entrée à l’utilisateur.

Joker : Caractère (le plus souvent, il s’agit d’un astérisque) utilisé en remplacement d’un ou de plusieurs caractères quelconques. Il permet donc de tronquer les mots, ce qui facilite la recherche de termes apparentés. Anglais : wildcard.

Klips : Unité de mesure des performances d’un ordinateur à base de connaissances.

LAN : De l’anglais Local Area Network, ce réseau local est situé dans une zone réduite ou dans un environnement commun, tels qu’un immeuble ou un bloc d’immeubles. Un réseau local devient une partie d’un réseau étendu lorsqu’une liaison est établie (via des modems, routeurs distants, lignes téléphoniques, satellites ou une connexion hertzienne) avec un gros système, un réseau de données public (Internet par exemple) ou un autre réseau local.

Miroir : On peut répliquer un site Web pour le rendre plus disponible. Les copies du site original sont  appelées des sites miroirs.

Nœud :  Un « noeud », ou node en anglais,  est une machine (serveur, ordinateur, imprimante par exemple) qui sert de passerelle entre deux autres machines. Ce nœud permet l’inter-connectivité entre plusieurs machines.

OUI :  De l’anglais Organizationnal Unit Identifier. Séquence de trois octets identifiant les constructeurs de matériel de raccordement aux réseaux locaux. Ces trois octets constituent la première partie des adresses de type Ethernet ou 802.3 sur 6 octets.

Ping : De l’anglais Packet INternet Groper.  Commande informatique permettant d’envoyer une requête d’une machine à une autre machine pour tester la connexion. La réponse attendu n’est pas Pong :).

Queue : Une masse d’instructions qui attendent d’être traitées : e-mail, documents à imprimer, recherche dans une base de données, requêtes diverses, etc.

Retouche : Modification destinée à corriger provisoirement un défaut dans un programme informatique existant, dans l’attente d’une nouvelle version. Anglais : patch.

Spoule : Mode d’exploitation d’un ordinateur en multiprogrammation selon lequel les opérations d’entrée et de sortie sont automatiquement dissociées des traitements intermédiaires, les données correspondantes étant placées dans des mémoires tampons. Anglais : spool (Simultaneous Peripheral Operation On-line).

Tirage : Document graphique résultant du transfert sur un support permanent d’une image présentée sur un appareil permettant la présentation visuelle et non permanente d’informations (visu). Anglais : hard copy.

Unicast : Unicast est un protocole de connexion point à point entre le client et le serveur. La diffusion sur Internet en Unicast est le début de la vidéo à la demande, qui consiste en ce que chaque utilisateur puisse consulter n’importe quel programme audio et vidéo en différé.

Veuve : Dernière ligne d’un paragraphe isolée au sommet d’une page. Un traitement de texte peut contrôler l’apparition des lignes veuves ou orphelines et y remédier en imprimant tout le paragraphe sur la même page. Anglais : widow.

Wrapper : Programme « enveloppant » l’exécution d’un autre programme, pour lui préparer un environnement particulier. Utilisé par exemple pour sécuriser le fonctionnement de certaines applications en contrôlant très précisément leur interface avec le reste de l’univers connu.

XOFF : Signal indiquant que l’émission doit s’arrêter et que la transmission ne pourra reprendre qu’à la réception d’un signal XON. On parle du protocole XON-XOFF.

Yoyo : En jargon informatique, se dit d’un système très instable.

Zombie : Un ordinateur « Zombie » est en fait un ordinateur piraté qui va servir, à l’insu de son propriétaire, à des actes de piratages. Les machines « Zombies » vont officier à l’insu de leurs propriétaires respectifs, peut-être pour envoyer des millions de messages en direction de serveurs-cibles, ou des routeurs qui aiguillent le trafic. Une machine Zombie permet de créer plusieurs attaques, rendant la traque du pirate difficile.