Chatbots wie ChatGPT oder Gemini sind unzuverlässig, sie lügen und irren sich. Forscher wollen nun eine Methode entwickelt haben, wie sie zumindest einige dieser fehlerhaften Antworten finden können. Damit könnten zum Beispiel Nutzer gewarnt werden, wenn sie ein KI-generiertes Ergebnis mit besonderer Vorsicht betrachten sollen.

Was ist das Problem?

Das Problem kennen viele Nutzer großer Sprachmodelle: Nicht alles, was die Systeme generieren, stimmt. Manche Antworten sind falsch, andere einfach absurd. Manchmal ist das auf den ersten Blick recht schnell erkennbar, etwa wenn einem ein Imbiss in Berlin empfohlen wird, der nicht existiert. Manchmal müssen die Ergebnisse auch erst einmal etwas mühselig und händisch überprüft werden. Bei der leidigen Imbisssuche kann das nerven. In der Medizin wird es schon heikler, wenn KI eingesetzt wird und möglicherweise zu Falschdiagnosen kommt.

Stimmen solche Fakten nicht, spricht man davon, dass die Systeme "halluzinieren". Der Begriff ist zwar nicht unumstritten, weil er die Modelle vermenschlicht, illustriert aber das Problem. Eine Untergruppe dieser Halluzinationen wird als Konfabulationen bezeichnet, damit meint das Forscherteam aus Oxford "willkürliche und inkorrekte Generierungen". Das bedeutet, dass ein Sprachmodell willkürlich falsch antwortet. Diese Fehler seien abzugrenzen von anderen Fehlern, wie beispielsweise den gezielten "Lügen" eines Sprachmodells oder Falschaussagen aufgrund inkorrekter Trainingsdaten.

Nach oben Link kopieren

Welchen Ansatz verfolgen die Forscher?

Die Forscher der Universität Oxford haben sich mit ebendiesen Konfabulationen beschäftigt, ihre Studie haben sie im Fachjournal Nature veröffentlicht. Die Autoren haben eine statistische Methode entwickelt, mit der sich herausfinden lassen soll, ob ein Sprachmodell wie ChatGPT bei seiner Antwort sicher oder unsicher ist. Wenn es unsicher ist, ist das ein Indiz dafür, dass das System halluziniert.

Die Forscher berechnen dafür die "semantische Entropie". Dazu vergleichen sie die Antworten des Sprachmodells auf die gleiche Frage mithilfe eines zweiten Sprachmodells. Je weiter die Antworten und deren Bedeutung auseinandergehen, also je unterschiedlicher sie ausfallen, desto unsicherer ist das Modell und desto höher ist die Wahrscheinlichkeit dafür, dass irgendetwas nicht stimmt, das Modell also möglicherweise fabuliert. Je mehr sich die Antworten hingegen ähneln, desto geringer ist die semantische Entropie. Dann scheint sich das System sicher zu sein. Das haben die Forscher für verschiedene Sprachmodelle und Szenarien getestet, in denen sie so Konfabulationen erkennen konnten.

Diese Erkenntnis könnte das System nun selbst nutzen, um die eigene Verlässlichkeit zu erhöhen. Es könnte diese Unsicherheit erkennen und "Mut zur Lücke" beweisen, aber seine Nutzer im Vorhinein warnen, wie die deutschsprachige Ausgabe der Technology Review etwa schreibt.

Nach oben Link kopieren

Was ist das Besondere an dieser Methode?

Bei früheren Analysen von Sprachmodellen wurden die Antworten isoliert betrachtet. In dem jetzt vorgestellten Paper werden sie hingegen geclustert. Fragt man zum Beispiel ein Sprachmodell, in welcher Stadt der Eiffelturm steht und es mit "Paris", "Es ist Paris" und "In Frankreichs Hauptstadt Paris" antwortet, dann werden diese Angaben auf ihre Bedeutung hin abgeglichen und gebündelt. Das soll dabei helfen zu erkennen, ob sich ein Modell sicher oder unsicher ist. Getestet wurde das Verfahren an 30 Sprachmodellen mit verschiedenen Aufgaben. Fast durchgängig waren die Ergebnisse besser als in früheren Verfahren, die die Antworten nicht clusterten.

Nach oben Link kopieren

Kann die Methode Halluzinationen verhindern?

Nein, es geht lediglich darum, Konfabulationen mit einer gewissen Wahrscheinlichkeit zu erkennen. Das Science Media Center (SMC) hat in dieser Woche zwei Forscher aus Deutschland zu der Studie befragt. Philipp Hennig, Professor für die Methoden des Maschinellen Lernens an der Eberhard Karls Universität Tübingen, weist darauf hin, dass sich die "inhaltliche Ähnlichkeit" mehrerer Antworten nicht in rigorose Mathematik übersetzen lasse. Ob so eine Methode funktioniert, hänge davon ab, wie gut das zweite "Lektorenmodell" ist, das die Antworten abgleicht. Es gebe immer mehr Fälle, in denen ein KI-Modell ein anderes überwacht. Noch sei jedoch unklar, ob sich die Technik als langfristig sinnvoll erweise. Die Studie liefere aber ein Hilfsmittel, um eine wichtige Form von KI-Fehlverhalten zu erkennen. Hennig erwartet, dass KI-Unternehmen solche Methoden nutzen werden, um ihre Modelle verlässlicher zu machen, aber dass solche Methoden "unter der Haube" eingesetzt werden, wie er schreibt. "Als Endnutzer merkt man dann lediglich, dass die Qualität der Ausgaben besser wird."

Barbara Hammer, Professorin für Maschinelles Lernen an der Universität Bielefeld, weist auf den intrinsischen Ansatz des Papers hin, mit dem versucht wird, statistisch merkwürdige Situationen auszuschließen. Anders sei das bei extrinsischen Ansätzen, bei denen generierte Texte mit äußerem Wissen abgeglichen werden. Nur die könnten aber beweisbar korrekte Antworten liefern, so Hammer.

Nach oben Link kopieren

Gibt es noch andere Ansätze?

Warum und wie Sprachmodelle halluzinieren, ist bisher noch nicht abschließend geklärt. In der Forschung werden bereits verschiedene Ansätze verfolgt, die helfen sollen, Halluzinationen zu verhindern. Ein Beispiel ist die Retrieval Augmented Generation (RAG). Bei diesem Verfahren gleicht das Sprachmodell die wichtigsten Informationen noch einmal mit einer zweiten, externen Wissensquelle ab, so sollen die Antworten zuverlässiger werden. Ein anderes Verfahren ist die Chain of Verification (CoVe), beziehungsweise die Chain of Thought (CoT). Bei der CoVe hinterfragt sich das System selbst, es verifiziert quasi seine eigenen Antwortentwürfe, bevor es diese auswirft. So sollen frühzeitig Halluzinationen und Unwahrheiten identifiziert werden. Beim Chain of Thought-Prompting sollen die Large Language Models ihren Lösungsweg selbst erläutern, etwa weil Nutzer es schrittweise dazu auffordern und seine Gedankenketten so sicht- und nachvollziehbar werden. Möglich wäre aber auch, dass die Modelle selbst ihre Lösungsschritte nachprüfen. Insgesamt können solche Methoden die Wahrscheinlichkeit für Halluzinationen zwar verringern, gänzlich unterbinden lassen sie sich bislang aber nicht.

Nach oben Link kopieren