Comment fonctionne ChatGPT ? Décrypter son nom pour comprendre les modèles de langage

On nous parle beaucoup de ChatGPT mais on en sait finalement très peu sur son fonctionnement. Frédéric Alexandre (Directeur de chercheur Inria) nous présente les mécanismes principaux se trouvant derrière chaque partie du nom de cette IA (Chat, G, P, T) et montre ainsi que ces derniers ne sont pas vraiment nouveaux. Ikram Chraibi Kaadoud et Pascal Guitton

Cet article est repris du site The Conversation (lire l’article original), un média généraliste en ligne qui fédère les établissements d’enseignement supérieur et de recherche francophones. Issu d’une étroite collaboration entre journalistes, universitaires et chercheurs, il propose d’éclairer le débat public grâce à des analyses indépendantes sur des sujets d’actualité. 

On voit passer beaucoup d’avis sur ChatGPT, mais finalement, qu’en sait-on ? Juste que c’est un réseau de neurones artificiels avec des milliards de paramètres, capable de tenir une discussion de haut niveau, mais aussi de tomber dans des pièges grossiers tendus par des internautes facétieux. On nous parle beaucoup de lui mais on en sait finalement très peu sur son fonctionnement.

Je vous propose donc de présenter les mécanismes principaux sur lesquels ChatGPT repose et de montrer ainsi que, si le résultat est parfois impressionnant, ses mécanismes élémentaires sont astucieux mais pas vraiment nouveaux. Pour ce faire, passons en revue les différents termes du sigle « ChatGPT ».

T comme transformer

Un « transformer » est un réseau de neurones qui bénéficie du même algorithme d’apprentissage que les réseaux profonds (deep networks), qui a déjà fait ses preuves pour l’entraînement de grosses architectures. Il bénéficie également de deux caractéristiques éprouvées : d’une part, des techniques de « plongement lexical » pour coder les mots ; d’autre part, des techniques attentionnelles pour prendre en compte le fait que les mots sont séquentiels.

Ce second point est majeur pour interpréter le sens de chaque mot dans le contexte de la phrase entière. La technique proposée par les transformers privilégie une approche numérique et statistique, simple à calculer massivement et très efficace. Cette approche consiste à apprendre, pour chaque mot et à partir de l’observation de nombreux textes, à quels autres mots de la phrase il faut faire « attention » pour identifier le contexte qui peut modifier le sens de ce mot. Ceci permet d’accorder un mot ou de remplacer un pronom par les mots de la phrase qu’il représente.

G comme génératif

ChatGPT est capable de générer du langage : on lui expose un problème et il nous répond avec du langage – c’est un « modèle de langage ».

La possibilité d’apprendre un modèle génératif avec un réseau de neurones date de plus de trente ans : dans un modèle d’auto-encodeur, la sortie du réseau est entraînée pour reproduire le plus fidèlement possible son entrée (par exemple une image de visage), en passant par une couche de neurones intermédiaire, choisie de petite taille : si on peut reproduire l’entrée en passant par une représentation aussi compacte, c’est que les aspects les plus importants de cette entrée (le nez, les yeux) sont conservés dans le codage de cette couche intermédiaire (mais les détails doivent être négligés car il y a moins de place pour représenter l’information). Ils sont ensuite décodés pour reconstruire un visage similaire en sortie.

Utilisé en mode génératif, on choisit une activité au hasard pour la couche intermédiaire et on obtient en sortie, à travers le décodeur, quelque chose qui ressemblera à un visage avec un nez et des yeux mais qui sera un exemplaire inédit du phénomène considéré.

schéma d’un auto-encodeur
Les couches de neurones d’un modèle auto-encodeur : la première couche accueille les entrées, une couche intermédiaire les code de façon plus compacte et la dernière les décode pour retrouver le format original. Frédéric Alexandre, Fourni par l’auteur

C’est par exemple en suivant ce procédé (avec des réseaux de grande taille) que l’on est capable de créer des deepfakes, c’est-à-dire des trucages très réalistes.

Si on souhaite maintenant générer des phénomènes séquentiels (des vidéos ou des phrases), il faut prendre en compte l’aspect séquentiel du flux d’entrée. Ceci peut être obtenu avec le mécanisme attentionnel décrit plus haut, utilisé sous une forme prédictive. En pratique, si l’on masque un mot ou si on cherche le mot suivant, on peut prédire ce mot manquant à partir de l’analyse statistique des autres textes. À titre d’illustration, voyez à quel point vous êtes capables de lire une BD des Schtroumpfs et de remplacer chaque « schtroumpf » par un mot issu de l’analyse attentionnelle des autres mots.

L’efficacité d’un simple mécanisme attentionnel (qui considère les autres mots importants du contexte mais pas explicitement leur ordre) pour traiter l’aspect séquentiel des entrées a été un constat majeur dans la mise au point des transformers (« Vous n’avez besoin que d’attention » titrait la publication correspondante : « Attention is all you need »), car auparavant les méthodes privilégiées utilisaient des réseaux plus complexes, dits récurrents, dont l’apprentissage est comparativement bien plus lent et moins efficace ; de plus ce mécanisme attentionnel se parallélise très bien, ce qui accélère d’autant plus cette approche.

P comme pretrained

L’efficacité des transformers n’est pas seulement due à la puissance de ces méthodes, mais aussi (et surtout) à la taille des réseaux et des connaissances qu’ils ingurgitent pour s’entrainer.

Les détails chiffrés sont difficiles à obtenir, mais on entend parler pour des transformers de milliards de paramètres (de poids dans les réseaux de neurones) ; pour être plus efficaces, plusieurs mécanismes attentionnels (jusqu’à cent) sont construits en parallèle pour mieux explorer les possibles (on parle d’attention « multi-tête »), on peut avoir une succession d’une dizaine d’encodeurs et de décodeurs, etc.

Rappelons que l’algorithme d’apprentissage des deep networks est générique et s’applique quelle que soit la profondeur (et la largeur) des réseaux ; il suffit juste d’avoir assez d’exemples pour entraîner tous ces poids, ce qui renvoie à une autre caractéristique démesurée de ces réseaux : la quantité de données utilisée dans la phase d’apprentissage.

Ici aussi, peu d’informations officielles, mais il semble que des pans entiers d’internet soient aspirés pour participer à l’entrainement de ces modèles de langages, en particulier l’ensemble de Wikipedia, les quelques millions de livres que l’on trouve sur Internet (dont des versions traduites par des humains sont très utiles pour préparer des transformers de traduction), mais aussi très probablement les textes que l’on peut trouver sur nos réseaux sociaux favoris.

Cet entrainement massif se déroule hors ligne, peut durer des semaines et utiliser des ressources calculatoires et énergétiques démesurées (chiffrées à plusieurs millions de dollars, sans parler des aspects environnementaux d’émission de CO₂, associés à ces calculs).

Chat comme bavarder

Nous sommes maintenant en meilleure position pour présenter ChatGPT : il s’agit d’un agent conversationnel, bâti sur un modèle de langage qui est un transformer génératif pré-entraîné (GPT).

Les analyses statistiques (avec approches attentionnelles) des très grands corpus utilisés permettent de créer des séquences de mots ayant une syntaxe de très bonne qualité. Les techniques de plongement lexical offrent des propriétés de proximité sémantique qui donnent des phrases dont le sens est souvent satisfaisant.

Outre cette capacité à savoir générer du langage de bonne qualité, un agent conversationnel doit aussi savoir converser, c’est-à-dire analyser les questions qu’on lui pose et y apporter des réponses pertinentes (ou détecter les pièges pour les éviter). C’est ce qui a été entrepris par une autre phase d’apprentissage hors-ligne, avec un modèle appelé « InstructGPT », qui a nécessité la participation d’humains qui jouaient à faire l’agent conversationnel ou à pointer des sujets à éviter. Il s’agit dans ce cas d’un « apprentissage par renforcement » : celui-ci permet de sélectionner des réponses selon les valeurs qu’on leur donne ; c’est une sorte de semi-supervision où les humains disent ce qu’ils auraient aimé entendre (ou pas).

ChatGPT fait ce pour quoi il a été programmé

Les caractéristiques énoncées ici permettent de comprendre que la principale fonction de ChatGPT est de prédire le mot suivant le plus probable à partir des nombreux textes qu’il a déjà vus et, parmi les différentes suites probables, de sélectionner celles qu’en général les humains préfèrent.

Cette suite de traitements peut comporter des approximations, quand on évalue des statistiques ou dans les phases de décodage du modèle génératif quand on construit de nouveaux exemples.

Ceci explique aussi des phénomènes d’hallucinations rapportées, quand on lui demande la biographie de quelqu’un ou des détails sur une entreprise et qu’il invente des chiffres et des faits. Ce qu’on lui a appris à faire c’est de construire des phrases plausibles et cohérentes, pas des phrases véridiques. Ce n’est pas la peine de comprendre un sujet pour savoir en parler avec éloquence, sans donner forcément de garantie sur la qualité de ses réponses (mais des humains aussi savent faire ça…).The Conversation

Frédéric Alexandre (Directeur de recherche Inria en neurosciences computationnelles)

Cet article est republié à partir de The Conversation sous licence Creative Commons.

De Cambridge Analytica à ChatGPT, comprendre comment l’IA donne un sens aux mots

Dans cet article. Frédéric Alexandre (Directeur de chercheur Inria) aborde ChatGPT en nous éclairant sur son fonctionnement à travers le prisme de la cognition et ce que nos données disent de nous à cet outil dit intelligent.  Ikram Chraibi Kaadoud et Pascal Guitton

Cet article est repris du site The Conversation (lire l’article original), un média généraliste en ligne qui fédère les établissements d’enseignement supérieur et de recherche francophones. Issu d’une étroite collaboration entre journalistes, universitaires et chercheurs, il propose d’éclairer le débat public grâce à des analyses indépendantes sur des sujets d’actualité. 

Un des problèmes que l’IA n’a toujours pas résolu aujourd’hui est d’associer des symboles – des mots par exemple – à leur signification, ancrée dans le monde réel – un problème appelé l’« ancrage du symbole ».

Par exemple, si je dis : « le chat dort sur son coussin car il est fatigué », la plupart des êtres humains comprendra sans effort que « il » renvoie à « chat » et pas à « coussin ». C’est ce qu’on appelle un raisonnement de bon sens.

En revanche, comment faire faire cette analyse à une IA ? La technique dite de « plongement lexical », si elle ne résout pas tout le problème, propose cependant une solution d’une redoutable efficacité. Il est important de connaître les principes de cette technique, car c’est celle qui est utilisée dans la plupart des modèles d’IA récents, dont ChatGPT… et elle est similaire aux techniques utilisées par Cambridge Analytica par exemple.

Le plongement lexical, ou comment les systèmes d’intelligence artificielle associent des mots proches

Cette technique consiste à remplacer un mot (qui peut être vu comme un symbole abstrait, impossible à relier directement à sa signification) par un vecteur numérique (une liste de nombres). Notons que ce passage au numérique fait que cette représentation peut être directement utilisée par des réseaux de neurones et bénéficier de leurs capacités d’apprentissage.

Plus spécifiquement, ces réseaux de neurones vont, à partir de très grands corpus de textes, apprendre à plonger un mot dans un espace numérique de grande dimension (typiquement 300) où chaque dimension calcule la probabilité d’occurrence de ce mot dans certains contextes. En simplifiant, on remplace par exemple la représentation symbolique du mot « chat » par 300 nombres représentant la probabilité de trouver ce mot dans 300 types de contextes différents (texte historique, texte animalier, texte technologique, etc.) ou de co-occurrence avec d’autres mots (oreilles, moustache ou avion).

pieds d’un plongeur
Plonger dans un océan de mots et repérer ceux qui sont utilisés conjointement, voilà une des phases de l’apprentissage pour ChatGPT. Amy Lister/Unsplash, CC BY

Même si cette approche peut sembler très pauvre, elle a pourtant un intérêt majeur en grande dimension : elle code des mots dont le sens est proche avec des valeurs numériques proches. Ceci permet de définir des notions de proximité et de distance pour comparer le sens de symboles, ce qui est un premier pas vers leur compréhension.

Pour donner une intuition de la puissance de telles techniques (en fait, de la puissance des statistiques en grande dimension), prenons un exemple dont on a beaucoup entendu parler.

Relier les traits psychologiques des internautes à leurs « likes » grâce aux statistiques en grande dimension

C’est en effet avec une approche similaire que des sociétés comme Cambridge Analytica ont pu agir sur le déroulement d’élections en apprenant à associer des préférences électorales (représentations symboliques) à différents contextes d’usages numériques (statistiques obtenues à partir de pages Facebook d’usagers).

Leurs méthodes reposent sur une publication scientifique parue en 2014 dans la revue PNAS, qui comparait des jugements humains et des jugements issus de statistiques sur des profils Facebook.

L’expérimentation reportée dans cette publication demandait à des participants de définir certains de leurs traits psychologiques (sont-ils consciencieux, extravertis, etc.), leur donnant ainsi des étiquettes symboliques. On pouvait également les représenter par des étiquettes numériques comptant les « likes » qu’ils avaient mis sur Facebook sur différents thèmes (sports, loisirs, cinéma, cuisine, etc.). On pouvait alors, par des statistiques dans cet espace numérique de grande dimension, apprendre à associer certains endroits de cet espace à certains traits psychologiques.

Ensuite, pour un nouveau sujet, uniquement en regardant son profil Facebook, on pouvait voir dans quelle partie de cet espace il se trouvait et donc de quels types de traits psychologiques il est le plus proche. On pouvait également comparer cette prédiction à ce que ses proches connaissent de ce sujet.

Le résultat principal de cette publication est que, si on s’en donne les moyens (dans un espace d’assez grande dimension, avec assez de « likes » à récolter, et avec assez d’exemples, ici plus de 70000 sujets), le jugement statistique peut être plus précis que le jugement humain. Avec 10 « likes », on en sait plus sur vous que votre collègue de bureau ; 70 « likes » que vos amis ; 275 « likes » que votre conjoint.

Être conscients de ce que nos « likes » disent sur nous

Cette publication nous alerte sur le fait que, quand on recoupe différents indicateurs en grand nombre, nous sommes très prévisibles et qu’il faut donc faire attention quand on laisse des traces sur les réseaux sociaux, car ils peuvent nous faire des recommandations ou des publicités ciblées avec une très grande efficacité. L’exploitation de telles techniques est d’ailleurs la principale source de revenus de nombreux acteurs sur Internet.

likes peints sur un mur argenté
Nos likes et autres réaction sur les réseaux sociaux en disent beaucoup sur nous, et ces informations peuvent être exploitées à des fins publicitaires ou pour des campagnes d’influence. George Pagan III/Unsplash, CC BY

Cambridge Analytica est allée un cran plus loin en subtilisant les profils Facebook de millions d’Américains et en apprenant à associer leurs « likes » avec leurs préférences électorales, afin de mieux cibler des campagnes électorales américaines. De telles techniques ont également été utilisées lors du vote sur le Brexit, ce qui a confirmé leur efficacité.

Notons que c’est uniquement l’aspiration illégale des profils Facebook qui a été reprochée par la justice, ce qui doit continuer à nous rendre méfiants quant aux traces qu’on laisse sur Internet.

Calculer avec des mots en prenant en compte leur signification

En exploitant ce même pouvoir des statistiques en grande dimension, les techniques de plongement lexical utilisent de grands corpus de textes disponibles sur Internet (Wikipédia, livres numérisés, réseaux sociaux) pour associer des mots avec leur probabilité d’occurrence dans différents contextes, c’est-à-dire dans différents types de textes. Comme on l’a vu plus haut, ceci permet de considérer une proximité dans cet espace de grande dimension comme une similarité sémantique et donc de calculer avec des mots en prenant en compte leur signification.

Un exemple classique qui est rapporté est de prendre un vecteur numérique représentant le mot roi, de lui soustraire le vecteur (de même taille car reportant les probabilités d’occurrence sur les mêmes critères) représentant le mot homme, de lui ajouter le vecteur représentant le mot femme, pour obtenir un vecteur très proche de celui représentant le mot reine. Autrement dit, on a bien réussi à apprendre une relation sémantique de type « A est à B ce que C est à D ».

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Le principe retenu ici pour définir une sémantique est que deux mots proches sont utilisés dans de mêmes contextes : on parle de « sémantique distributionnelle ». C’est ce principe de codage des mots qu’utilise ChatGPT, auquel il ajoute d’autres techniques.

Ce codage lui permet souvent d’utiliser des mots de façon pertinente ; il l’entraîne aussi parfois vers des erreurs grossières qu’on appelle hallucinations, où il semble inventer des nouveaux faits. C’est le cas par exemple quand on l’interroge sur la manière de différencier des œufs de poule des œufs de vache et qu’il répond que ces derniers sont plus gros. Mais est-ce vraiment surprenant quand on sait comment il code le sens des symboles qu’il manipule ?

Sous cet angle, il répond bien à la question qu’on lui pose, tout comme il pourra nous dire, si on lui demande, que les vaches sont des mammifères et ne pondent pas d’œuf. Le seul problème est que, bluffés par la qualité de ses conversations, nous pensons qu’il a un raisonnement de bon sens similaire au nôtre : qu’il « comprend » comme nous, alors que ce qu’il comprend est juste issu de ces statistiques en grande dimension.The Conversation

Frédéric Alexandre (Directeur de recherche Inria en neurosciences computationnelles)

Cet article est republié à partir de The Conversation sous licence Creative Commons.

L’IA peut tout faire sauf prétendre à des droits d’auteur ?

Pas un jour où nous n’entendions parler de ChatGPT ou d’intelligence artificielle générative.  Parmi les points abordés, le respect des droits d’auteur fait souvent débat. Alors nième billet sur ce sujet ? Et bien, non ! Charles CUVELIEZ et Jean-Jacques QUISQUATER nous proposent d’inverser la question et de nous interroger sur la possibilité d’attribuer des droits d’auteur à une oeuvre créée à l’aide d’une IA. Pour ce faire, ils s’appuient sur un dossier émanant des Etats-unis où la question des droits d’auteur est traitée différemment de notre culture européenne, notamment avec une tension très forte entre la protection des droits d’auteur (qui est une exception) et la liberté individuelle.  Pascal Guitton
Parmi les nombreuses questions soulevées par l’apparition des systèmes d’intelligence artificielle générative, figure celle sur les droits d’auteur relatifs aux données utilisées pour les entraîner. Elle touche bien entendu des systèmes comme ChatGPT, l’IA Act adopté en commission au Parlement européen le 11 mai dernier l’évoque. Mais, symétriquement, on pourrait aussi questionner les droits d’auteur sur une œuvre produite par l’IA. Curieusement, on n’en parle pas beaucoup et pourtant ChatGPT et ses consœurs sont directement concernées.

De l’autre côté de l’Atlantique, l’organisme en charge des questions de droits d’auteur aux Etats unis (le Copyright Office) a voulu clarifier les choses avec des lignes directrices qui consacrent le cas par cas.  Il n’y a jamais eu de droit d’auteur donné à une œuvre créée par un algorithme sur une machine autonome sans intervention humaine.  En effet, octroyer des droits d’auteur à un logiciel reviendrait à lui octroyer des droits réservés aux personnes physiques. Mais qui sont ces auteurs ? Qui sont donc les bénéficiaires de ces droits : le(s) développeur(s) du système, l’entreprise le commercialisant, et au fond, pourquoi pas les utilisateurs experts (on parle maintenant de scripteurs d’IA) sachant tirer partie au mieux des IA.

Le Copyright Office a notamment pris pour exemple l’affaire dite Zarya of the Dawn du nom d’une BD dont les images avaient été calculées à l’aide de MidJourney, un logiciel d’intelligence artificielle, mais dont le texte avait été créé par Kristina Kashtanova son autrice.  Dans ce cas, le Copyright Office n’a reconnu des droits d’auteur que pour le texte. Il y a eu d’autres variations : des œuvres où l’IA était citée comme co-auteur ou bien figurait dans les remerciements. De façon générale, le Copyright Act bannit tout auteur qui ne serait pas humain : un singe qui prend une photo n’aura pas de droit d’auteur.  Un photographe peut y prétendre (la Cour Suprême a tout de même dû statuer) mais un appareil qui prend automatiquement des photos, non, sauf à prétendre que l’avoir placé à tel endroit constitue un acte créatif.

Couverture de l’album Zarya of the Dawn – Kris Kashtanova using Midjourney AI (Image extraite de WikiPedia)

Dorénavant, le Copyright Office décomposera chaque œuvre en parties crées par IA de manière autonome et d’autres qui ne le sont pas. Il examinera dans quelle mesure l’IA a produit sa partie de manière autonome ou si une intervention humaine a été nécessaire au point de l’orienter avec une approche mentale, et donc une expertise, de sa part. Il faudra donc une mise en forme visible d’origine humaine (sic).

ChatGPT

C’est évidemment ChatGPT que le Copyright Office a en tête : en quelques instructions, on peut lui demander de construire une œuvre musicale ou littéraire qui est souvent bluffante.

Ces quelques instructions ne peuvent prétendre à bénéficier du droit d’auteur, dit le Copyright Office. Tout le monde ne sera pas d’accord : il faut parfois un tel savoir-faire pour donner à ChatGPT la bonne instruction qu’on peut s’interroger pour savoir si on peut parler d’intervention humaine créative.

Les droits d’auteur vont uniquement s’appliquer aux aspects émanant d’un humain dans ce qui aura été produit en commun par l’IA et l’humain, comprend-t-on dans les intentions du Copyright Office. Si un auteur réarrange ce que ChatGPT aura produit, il y a de l’espoir.

Suite à l’affaire Zarya of the Dawn où Kristina Kashtanova avait initialement déclaré être l’autrice de l’ensemble de la BD, le Copyright Office a modifié son formulaire de déclaration en demandant désormais explicitement aux auteurs si certaines parties de leur œuvre avait été fabriquées à l’aide d’IA. Et s’ils ne savent pas le distinguer, le Copyright Office les contactera pour décider ensemble !

En Europe, la directive sur les droits d’auteur s’applique mais elle représente au fond une exception à la liberté d’expression : le contenu auquel les droits d’auteur s’appliquent doivent résulter d’un effort intellectuel humain. Avec l’IA, ce dernier peut intervenir au moment de la conception ou de la touche finale : l’exécution reste souvent l’apanage de l’IA.

Avec l’IA, on a encore une illustration de cette éternelle tension entre l’exception à la liberté d’expression qu’est le droit d’auteur et la protection de l’investisseur dans le développement de l’IA.

Charles CUVELLIEZ (DSSI Belfius Banque et Ecole Polytechnique de Bruxelles, Université  de Bruxelles) & Jean-Jacques QUISQUATER (Ecole Polytechnique de Louvain, Université  de Louvain)

Pour en savoir plus :

 

 

Qui a hacké Garoutzia ? En Avignon

Un éditeur de binaire, Serge Abiteboul, et deux amis du blog, Laurence Devillers et Gilles Dowek, ont écrit une pièce qui sera présentée en grande première en Avignon, dans le cadre du festival off – les  15,  16, 17 juillet au Grenier à Sel. Si vous les connaissez, vous ne serez pas surpris que cela parle d’intelligence artificielle dans un texte plutôt déjanté. Pierre Paradinas.