KI-Chatbots im Kreuzverhör: Ansätze gegen Halluzinationen vorgestellt

Inhaltlich falscher Output ist die größte Crux der KI-Chatbots. Forscherteams haben sich nun Mittel gegen die Halluzinationen genannten Fehler ausgedacht.

In Pocket speichern vorlesen Druckansicht 23 Kommentare lesen

(Bild: Skorzewiak/Shutterstock.com)

Lesezeit: 9 Min.
Von
  • Prof. Christian Winkler
Inhaltsverzeichnis

Neben dem menschenähnlichen Auftreten und einer Meinung zu jedem Thema fallen die aktuellen KI-Chatbots besonders durch eins auf: fehlerhafte Antworten. Für diese Fehler der Sprachmodelle hat sich der Begriff Halluzinationen verbreitet. Anders als bei Menschen lässt sich im Dialog nicht schnell feststellen, ob etwas nicht stimmt oder inkonsistent ist. Bedingt durch die vielen Texte, die man im Training der Sprachmodelle verwendet hat, klingen die Unwahrheiten oft äußerst logisch, da sie sehr präzise und geschliffen formuliert sind. Dies führt zu sehr plausiblen und damit glaubwürdigen Texten, was das Problem deutlich verschärft. Oft erkennen nur Experten eines Gebiets die falschen Antworten. Deshalb wäre es schön, wenn man den Sprachmodellen dieses Halluzinieren oder Fabulieren abgewöhnen könnte – dafür gibt es einige neue, vielversprechende Ansätze.

Prof. Christian Winkler

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Als Professor an der TH Nürnberg konzentriert sich seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

Mehr zu Künstlicher Intelligenz (KI)

Erklärung von ChatGPT für die m3-Konferenz, eine von Heise organisierte Veranstaltung zum Thema Machine Learning. Zwar gibt es auch noch weitere m3-Konferenzen, die von ChatGPT ist allerdings erfunden.

(Bild: ChatGPT)

Forschende von der Tel Aviv University und Google haben sich Gedanken gemacht, wo es besonders auf die Wahrheit ankommt, nämlich vor Gericht. Dort kommt es häufig zu einem Kreuzverhör: Im Strafprozess befragen Staatsanwalt und Strafverteidiger zusammen den Zeugen und versuchen Ungereimtheiten zu entdecken.

In ihrem Artikel „LM vs LM: Detecting Factual Errors via Cross Examination“ beschreiben die Forschenden, wie sie zwei unterschiedliche Sprachmodelle als Prüfling und Prüfer verwenden, um mögliche Unwahrheiten über Widersprüche aufzudecken. Das dort verwendete Beispiel dreht sich um griechische Gottheiten und wird schnell als inkonsistent erkannt.

Im Artikel sind noch mehr Beispiele genannt, die Zahlen klingen auf den ersten Blick überzeugend. Die Modelle erkennen viele falsche Antworten (Recall) und ordnen richtige Antworten gleichzeitig selten als falsch ein (Precision). Die Autoren und Autorinnen führen die fehlerhaften Ergebnisse der Sprachmodelle auf ein Kalibrierungsproblem zurück. Dabei möchte man vom Sprachmodell wissen, mit welcher Wahrscheinlichkeit eine Aussage inkorrekt ist – leider liefern die Sprachmodelle solche Zahlen nicht. Das Kreuzverhör ist hier ein Hilfsmittel. Eine Verbesserung scheint denkbar, indem man unterschiedliche LLMs ins Kreuzverhör aufnimmt.

Das Verfahren hat auch einige Einschränkungen: So können erhebliche Kosten entstehen, wenn man für die Anfragen bezahlen muss. Es kann eine Weile dauern, bis man entweder von der Richtigkeit überzeugt ist oder einen Widerspruch findet. Sowohl das Modell für den Prüfling als auch das für den Prüfer müssen Instruction-Following-Modelle sein, die allerdings in immer größerer Anzahl verfügbar sind. Die Forschenden nennen zehn Milliarden Parameter als die benötigte Modellgröße. Solche Modelle lassen sich nicht auf einfachen Grafikkarten ausführen. Schließlich besteht die Gefahr, dass Fehler im Prüfer-LLM (oder in dessen Prompting) zu fehlerhaften Entscheidungen bezüglich der Richtigkeit des vom Prüfling generierten Text führen.

Inspiriert vom Kreuzverhör sollen Sprachmodelle generierte Antworten eines anderen Modells überprüfen. Dabei sollen sie Ungereimtheiten und Falschinformationen ausräumen.

(Bild: Cohen et al. 2023, Fig. 1. )

Parlamente entscheiden meist nicht zwischen richtig und falsch, sondern müssen intensive Debatten führen. Theoretisch sollte dadurch ein guter Kompromiss zustande kommen und der Diskurs falsche Ansichten als solche entlarven. Diese Idee nutzen Forschende vom MIT und Google in dem Artikel „Improving Factuality and Reasoning in Language Models through Multiagent Debate“.

Die Teilnehmer an den Debatten sind hier unterschiedliche Sprachmodelle, deren Antworten die weiteren Modelle als Kontext erhalten, um damit selbst eine Antwort auf eine Aufgabe zu finden. In mehreren Runden, so die Autoren und Autorinnen, gibt es dann fast immer einen Kompromiss, der der Wahrheit entspricht. Das Verfahren ist an die „Society of Minds“ angelehnt, in der viele Köpfe zusammen eine gute Lösung finden.

Argumentationsketten können das Verfahren noch verfeinern. Dabei nennen die Sprachmodelle nicht nur ihr Ergebnis, sondern auch den dazugehörigen Lösungsweg. Den können die anderen Modellen dann kritisieren oder optimieren.

Interessant an dem Verfahren ist, dass es sich nicht um eine reine Mehrheitslösung handelt, sondern das Ergebnis wirklich durch die Debatte zustande kommt. Allerdings ist das rechentechnisch sehr aufwändig, weil viele Modelle immer wieder Fragen beantworten. Notwendigerweise ist das auch mit höheren Kosten verbunden. Es handelt sich um ein reines Black-Box-Verfahren, bei dem die Kenntnis von intrinsischen Parametern der Sprachmodelle nicht notwendig ist. Es lässt sich auch mit geschlossenen Modellen wie ChatGPT anwenden, genug Credits vorausgesetzt.

Durch eine Debatte der möglichen Antworten auf ein Prompt sollen mehrere verknüpfte Sprachmodelle das beste Ergebnis finden. Dabei steigt die Genauigkeit gegenüber den Antworten einzelner Modelle. Perfekt ist das System dennoch nicht: Zwar finden die debattierenden Modelle scheinbar immer den besten Schachzug, legal ist dieser dabei noch nicht mal in der Hälfte der Fälle.

(Bild: Du et al. 2023, Fig. 1. )

Obwohl es sich bei den Sprachmodellen um generative Systeme handelt, kann man beobachten, dass sie gewisse Passagen aus ihren Trainingsdaten einfach wiederholen. Aus Urheberrechts- und Plagiatsgründen mag das problematisch sein, allerdings ist in solchen Fällen eine Halluzination absolut ausgeschlossen.

Forschende der Johns Hopkins Universität machen sich das in ihrem Artikel „According to ..." Prompting Language Models Improves Quoting from Pre-Training Data“ zunutze. Ähnlich wie Journalisten ihre Quellen angeben, möchten sie mit ihrer Prompting-Strategie erzwingen, dass Sprachmodelle bestimmte Datenquellen bevorzugt verwenden (oder auch vermeiden). Um das messbar zu machen, schlagen sie einen QUIP-Score vor, der misst, wie nahe der generierte Text der ursprünglichen Quelle ist. Dazu wenden sie einige Tricks wie Buchstaben-N-Gramme an, um etwa Flexionen und andere Spracheigenheiten zu berücksichtigen.

Das Verfahren scheint gut zu funktionieren und beantwortet viele Fragen mit den entsprechenden Textabschnitten von Wikipedia, die aller Wahrscheinlichkeit nach der Wahrheit entsprechen. Allerdings muss man sich fragen, ob in diesem Fall ein extraktives Question Answering für die gewählte Quelle nicht deutlich geschickter wäre. Damit könnte man sich nämlich das gesamte Training des großen Sprachmodells sparen und mit einer deutlich einfacheren Vektorsuche auch ans Ziel kommen. Schwieriger wäre das bei einem Prompt, der bestimmte Quellen nicht in Betracht ziehen soll. Damit ist dann aber auch der Wahrheitsgehalt nicht signifikant erhöht, offensichtliche Fake-Quellen lassen sich beim Training bereits viel einfacher eliminieren.

Durch das Verbinden eines Prompts mit einer spezifischen Quelle können Sprachmodelle scheinbar bessere Antworten generieren. Das funktioniert jedoch nur, wenn die Quelle wirklich in den Trainingsdaten enthalten ist.

(Bild: Weller et al. 2023, Fig. 1. )

Doch wie entstehen diese Halluzinationen überhaupt? Forschende von der CMU, UPenn und Microsoft haben im Artikel „Exposing Attention Glitches with Flip-Flop Language Modeling“ eine Idee entwickelt. Dazu haben sie sich einen synthetischen Benchmark ausgedacht, der das explorative Verhalten von neuralen Sequenzmodellen sehr feingranular messen kann. Die Messungen zeigen, dass „Attention Glitches“ auftreten. Der Attention-Mechanismus, der zentral für die großen Sprachmodelle ist, funktioniert nicht immer richtig. Leider handelt es sich dabei um einen systematischen Fehler in der Transformer-Architektur. Die Autoren und Autorinnen legen die Vermutung nahe, dass die Halluzinationen auch auf diesen Fehler zurückzuführen sind – ganz beweisen können sie das nicht.

Stattdessen schlagen sie einen Vermeidungsmechanismus vor. Dazu sollten Entwickler die Modelle mit besonders vielen Daten, am besten mit sehr hoher Diversität, trainieren. Außerdem sollten Regularisierungen zum Einsatz kommen: Hierbei limitiert man zum Beispiel Parameter auf einen bestimmten Wertebereich. Das Paper bleibt allerdings sehr im Ungefähren. Es ist abzuwarten, ob das wirklich funktioniert und ob die Attention Glitches überhaupt die originäre Ursache der Halluzinationen sind.

Die oben genannten Verfahren versuchen, die Unzulänglichkeiten der Sprachmodelle zu umschiffen, ohne etwas an der Grundfunktionalität zu ändern. Die Attention Glitches geben zwar einen möglichen Hinweis auf den zugrundeliegenden Mechanismus, es bietet sich jedoch keine nachträgliche Lösung für das Problem an.

Hier sind die Anbieter der Sprachmodelle gefragt, die diese Fehler direkt im Ansatz beheben sollten. An vorderster Stelle steht OpenAI, die sich schon einen Weg ausgedacht haben, diese Halluzinationen im Trainingsprozess zu verhindern. Man verfolgt den Ansatz, nicht nur das Ergebnis des Modells zu bewerten, sondern das System bei allen richtigen Prozessschritten zu belohnen. So will OpenAI bereits die Mathematik-Fähigkeiten von GPT-4 verbessert haben.

Die Idee klingt gut, ob das Training mit Argumentationsketten Halluzinationen erfolgreich verhindert, ist aber noch nicht nachgewiesen. Das „Finetuning“, das aus einem generativen Sprachmodell ein Instruction-Following-Modell macht, findet erst später im Trainingsprozess statt. Während das allgemeine Training der Sprachmodelle mit beliebigen Fließtexten funktioniert, benötigt das Finetuning Trainingsdaten, die Menschen erstellen und überprüfen. Wenn die Fehler und Glitches jedoch bereits im generativen Trainingsprozess entstehen, dann würde das Verfahren nur wenig nutzen.

Auch Nvidia als Großprofiteur von Sprachmodellen hat sich dazu Gedanken gemacht und ein eigenes Framework. Allerdings dient das als Leitplanke hauptsächlich dazu, dass Konversationen mit den Chatbots nicht aus dem Ruder laufen und kann Halluzinationen an sich nicht verhindern.

Wenn man Sprachmodelle als reine Antwortmaschine nutzen will, sind Halluzinationen äußerst störend – man möchte sich auf die Antworten verlassen können oder sucht vielleicht sogar direkt nach Fakten. Die oben genannten Ansätze scheinen vielversprechend. Welche davon Anbieter wie OpenAI in verbesserter Form in ihre Dienste integrieren, wird sich zeigen.

(pst)