4.4.2024

Was tun, wenn die KI halluziniert?

Erfahre mehr über die Herausforderung, KI-Halluzinationen zu minimieren. Branchenexperten befassen sich mit innovativen Lösungen, um genauere und zuverlässigere KI-generierte Inhalte zu gewährleisten. Ein Fachbeitrag von Helmut van Rinsum.

Helmut van Rinsum

Guest Author & AI Expert

Künstliche Intelligenz

GPTs geben regelmäßig auch falsche Antworten. Gerade für Unternehmen kann das peinlich sein. Wie lässt sich das Risiko von Halluzinationen verringern?

Yann LeCunn, Chief AI Scientist bei Meta, hat es kürzlich auf den Punkt gebracht: „Große Sprachmodelle haben keine Ahnung von der Realität, die Sprache beschreiben will“, sagte er gegenüber der renommierten Tech-Zeitschrift IEEE Spevtrum. „Die Systeme erzeugen einfach nur Texte, die grammatikalisch und semantisch gut klingen.“

Was der mehrfach ausgezeichnete KI-Wissenschaftler da beschrieb, ist jedem, der eine Generative KI wie ChatGPT nutzt, schonmal untergekommen: Die KI halluziniert. Sie erfindet Fakten und unzutreffende Informationen, liefert Antworten, die falsch sind. Zu erkennen ist dies allerdings nicht immer auf Anhieb. Denn das Large Language Model (LLM) präsentiert sie mit der gewohnten Autorität und in sachlichem Tonfall.

Studien belegen die Häufigkeit, mit der dieses Phänomen auftritt. In einer Umfrage des Plattform-Anbieters Aporia unter rund 1.000 ML-Experten gaben 98 Prozent an, dass ihre Modelle Anzeichen von Halluzinationen zeigen. Und in einer Studie des Tech-Dienstleisters Tidio mit knapp 1.000 Internetusern sagten 86 Prozent, sie hätten von ChatGPT bereits fehlerhafte Antworten erhalten. Das belegt, wie verbreitet und damit unzuverlässig die gängigen Systeme arbeiten. Bestätigt wird dies auch durch den Hinweis, den ChatGPT standardmäßig unter seiner Eingabemaske angebracht hat: „ChatGPT can make mistakes. Consider checking important information.“

Halluzinationen entstehen, weil LLMs Wahrscheinlichkeiten berechnen

Die Gründe für das Halluzinieren sind vergleichsweise banal. Die LLMs berechnen für ihre Antworten Wahrscheinlichkeiten – Buchstabe für Buchstabe, Wort für Wort. Es geht darum, welches auf das nächste folgen könnte. „Dies führt dazu, dass LLMs stets eine Antwort generieren, ohne dass allerdings eine Überprüfung der Fakten durch Experten stattfindet“, erklärt KI-Experte Christoph Haas von Bitsero. „Sie produzieren Texte, ohne zu wissen, ob die Fakten oder die zugrunde liegende Logik korrekt ist“, unterstreicht Julien Siebert, Senior AI Expert Fraunhofer IESE. „Aus diesem Grund werden sie manchmal auch als ‚statistische Papageien‘ bezeichnet.“

Eine weitere Ursache kann die Datenbasis sein, mit der die Modelle trainiert werden. Enthält sie falsche Informationen, neigt das LLM dazu, diese zu reproduzieren. Deutlich wird dies an tendenziösen Antworten, die trotz aller Bemühungen der GenAI-Anbieter immer wieder auftauchen. Ohnehin stammten die meisten der Trainingsdaten aus der westlichen Welt, erklärt Haas, was zu einem „Overfitting“ führe. Denn das Ergebnis seien Antworten, die vornehmlich westlich geprägt sind. Haas: „Informationen und Perspektiven aus Schwellen- und Entwicklungsländern sind dagegen unterrepräsentiert.“

Ein Problem können falsche oder Antworten mit Bias vor allem dann darstellen, wenn User nicht mit ChatGPT von OpenAI oder Gemini von Google kommunizieren, sondern mit einem Unternehmen. Wenn also der Absender für die Richtigkeit der Antworten steht und die Erwartungshaltung eine andere ist. Denn zu einer stimmigen Customer Experience zählt auch, dass Produktangaben und Antworten zu einem Artikel korrekt sind. Damit stellt sich für Unternehmen die Frage, wie ein Halluzinieren verhindert oder zumindest auf ein Mindestmaß eingedämmt werden kann, um etwaige Enttäuschungen zu verhindern.

Wie können KI Halluzinationen eliminiert werden? Ein Sprung durch Quantencomputing

Eine Strategie, das Halluzinieren zu unterbinden, ist, standardisierte Antworten regelmäßig zu überprüfen und damit das Modell weiter zu trainieren. Eine andere, das Sprachmodell mit einer Wissensdatenbank oder anderen Werkzeugen zu verbinden, um so Faktenchecks zu ermöglichen und diese Erkenntnisse wieder einfließen zu lassen. Dazu zählen Techniken wie „Retrieval Augmented Generation“, bei der die Textgenerierung mit Informationen aus privaten oder proprietären Quellen angereichert wird. Eine andere ist die Chain of Thoughts: Hier wird das LLM aufgefordert, die Zwischenschritte seiner Überlegungen darzulegen.

Der Frontnow Advisor, ein KI-getriebener virtueller Berater für Kunden des Onlinehandels, wiederum nutzt die LLMs, um Sprache zu verstehen und grammatikalisch und semantisch richtige Antworten zu geben. Für die Informationen greift er aber ausschließlich auf die im Shop hinterlegten Daten zu, die vom Kunden zur Verfügung gestellt werden. Damit lasse sich die Fehlertoleranz auf nahezu Null drücken und die ethischen und rechtlichen Guidelines unserer Kunden können berücksichtigt werden, so Marc Funk, CEO und Co-Founder von Frontnow.

Aber lassen sich Sprachmodelle so weiterentwickeln, dass ein Halluzinieren eines Tages ausgeschlossen werden kann? Das sei aufgrund der Komplexität und Dynamik von Sprache sowie der sich ständig verändernden Informationslandschaft eine enorme Herausforderung, betont Christoph Haas. Denn ähnlich wie beim menschlichen Danken, wo es auch Fehlinformationen und Missverständnisse gibt, sei auch eine gewisse Fehleranfälligkeit bei KI unvermeidlich. AI-Experte Siebert kann sich zumindest vorstellen, dass die neuronalen Netze, die den Hintergrund der LLMs bilden, eines Tages auch Faktenchecks durchführen können, und das vielleicht viel schneller als gedacht.

Der weitere technische Fortschritt könnte hier ebenfalls Verbesserungen bringen. Die Rechenleistung spielt bei der Optimierung der Modelle eine entscheidende Rolle, immerhin haben die Fortschritte in der Hardware eine Entwicklung wie ChatGPT erst möglich gemacht. Eine weitere Zäsur könnte jetzt mit dem Sprung ins Zeitalter des Quantencomputing gelingen. Haas: „Damit könnte eine Rechenkapazität erreicht werden, die der Leistung des menschlichen Gehirns näherkommt und die Grenzen der KI-Forschung neu definiert.“ Für die Halluzinationen einer KI bedeutet das: Sie könnten noch einmal deutlich reduziert werden.

GPTs geben regelmäßig auch falsche Antworten. Gerade für Unternehmen kann das peinlich sein. Wie lässt sich das Risiko von Halluzinationen verringern?

Yann LeCunn, Chief AI Scientist bei Meta, hat es kürzlich auf den Punkt gebracht: „Große Sprachmodelle haben keine Ahnung von der Realität, die Sprache beschreiben will“, sagte er gegenüber der renommierten Tech-Zeitschrift IEEE Spevtrum. „Die Systeme erzeugen einfach nur Texte, die grammatikalisch und semantisch gut klingen.“

Was der mehrfach ausgezeichnete KI-Wissenschaftler da beschrieb, ist jedem, der eine Generative KI wie ChatGPT nutzt, schonmal untergekommen: Die KI halluziniert. Sie erfindet Fakten und unzutreffende Informationen, liefert Antworten, die falsch sind. Zu erkennen ist dies allerdings nicht immer auf Anhieb. Denn das Large Language Model (LLM) präsentiert sie mit der gewohnten Autorität und in sachlichem Tonfall.

Studien belegen die Häufigkeit, mit der dieses Phänomen auftritt. In einer Umfrage des Plattform-Anbieters Aporia unter rund 1.000 ML-Experten gaben 98 Prozent an, dass ihre Modelle Anzeichen von Halluzinationen zeigen. Und in einer Studie des Tech-Dienstleisters Tidio mit knapp 1.000 Internetusern sagten 86 Prozent, sie hätten von ChatGPT bereits fehlerhafte Antworten erhalten. Das belegt, wie verbreitet und damit unzuverlässig die gängigen Systeme arbeiten. Bestätigt wird dies auch durch den Hinweis, den ChatGPT standardmäßig unter seiner Eingabemaske angebracht hat: „ChatGPT can make mistakes. Consider checking important information.“

Halluzinationen entstehen, weil LLMs Wahrscheinlichkeiten berechnen

Die Gründe für das Halluzinieren sind vergleichsweise banal. Die LLMs berechnen für ihre Antworten Wahrscheinlichkeiten – Buchstabe für Buchstabe, Wort für Wort. Es geht darum, welches auf das nächste folgen könnte. „Dies führt dazu, dass LLMs stets eine Antwort generieren, ohne dass allerdings eine Überprüfung der Fakten durch Experten stattfindet“, erklärt KI-Experte Christoph Haas von Bitsero. „Sie produzieren Texte, ohne zu wissen, ob die Fakten oder die zugrunde liegende Logik korrekt ist“, unterstreicht Julien Siebert, Senior AI Expert Fraunhofer IESE. „Aus diesem Grund werden sie manchmal auch als ‚statistische Papageien‘ bezeichnet.“

Eine weitere Ursache kann die Datenbasis sein, mit der die Modelle trainiert werden. Enthält sie falsche Informationen, neigt das LLM dazu, diese zu reproduzieren. Deutlich wird dies an tendenziösen Antworten, die trotz aller Bemühungen der GenAI-Anbieter immer wieder auftauchen. Ohnehin stammten die meisten der Trainingsdaten aus der westlichen Welt, erklärt Haas, was zu einem „Overfitting“ führe. Denn das Ergebnis seien Antworten, die vornehmlich westlich geprägt sind. Haas: „Informationen und Perspektiven aus Schwellen- und Entwicklungsländern sind dagegen unterrepräsentiert.“

Ein Problem können falsche oder Antworten mit Bias vor allem dann darstellen, wenn User nicht mit ChatGPT von OpenAI oder Gemini von Google kommunizieren, sondern mit einem Unternehmen. Wenn also der Absender für die Richtigkeit der Antworten steht und die Erwartungshaltung eine andere ist. Denn zu einer stimmigen Customer Experience zählt auch, dass Produktangaben und Antworten zu einem Artikel korrekt sind. Damit stellt sich für Unternehmen die Frage, wie ein Halluzinieren verhindert oder zumindest auf ein Mindestmaß eingedämmt werden kann, um etwaige Enttäuschungen zu verhindern.

Wie können KI Halluzinationen eliminiert werden? Ein Sprung durch Quantencomputing

Eine Strategie, das Halluzinieren zu unterbinden, ist, standardisierte Antworten regelmäßig zu überprüfen und damit das Modell weiter zu trainieren. Eine andere, das Sprachmodell mit einer Wissensdatenbank oder anderen Werkzeugen zu verbinden, um so Faktenchecks zu ermöglichen und diese Erkenntnisse wieder einfließen zu lassen. Dazu zählen Techniken wie „Retrieval Augmented Generation“, bei der die Textgenerierung mit Informationen aus privaten oder proprietären Quellen angereichert wird. Eine andere ist die Chain of Thoughts: Hier wird das LLM aufgefordert, die Zwischenschritte seiner Überlegungen darzulegen.

Der Frontnow Advisor, ein KI-getriebener virtueller Berater für Kunden des Onlinehandels, wiederum nutzt die LLMs, um Sprache zu verstehen und grammatikalisch und semantisch richtige Antworten zu geben. Für die Informationen greift er aber ausschließlich auf die im Shop hinterlegten Daten zu, die vom Kunden zur Verfügung gestellt werden. Damit lasse sich die Fehlertoleranz auf nahezu Null drücken und die ethischen und rechtlichen Guidelines unserer Kunden können berücksichtigt werden, so Marc Funk, CEO und Co-Founder von Frontnow.

Aber lassen sich Sprachmodelle so weiterentwickeln, dass ein Halluzinieren eines Tages ausgeschlossen werden kann? Das sei aufgrund der Komplexität und Dynamik von Sprache sowie der sich ständig verändernden Informationslandschaft eine enorme Herausforderung, betont Christoph Haas. Denn ähnlich wie beim menschlichen Danken, wo es auch Fehlinformationen und Missverständnisse gibt, sei auch eine gewisse Fehleranfälligkeit bei KI unvermeidlich. AI-Experte Siebert kann sich zumindest vorstellen, dass die neuronalen Netze, die den Hintergrund der LLMs bilden, eines Tages auch Faktenchecks durchführen können, und das vielleicht viel schneller als gedacht.

Der weitere technische Fortschritt könnte hier ebenfalls Verbesserungen bringen. Die Rechenleistung spielt bei der Optimierung der Modelle eine entscheidende Rolle, immerhin haben die Fortschritte in der Hardware eine Entwicklung wie ChatGPT erst möglich gemacht. Eine weitere Zäsur könnte jetzt mit dem Sprung ins Zeitalter des Quantencomputing gelingen. Haas: „Damit könnte eine Rechenkapazität erreicht werden, die der Leistung des menschlichen Gehirns näherkommt und die Grenzen der KI-Forschung neu definiert.“ Für die Halluzinationen einer KI bedeutet das: Sie könnten noch einmal deutlich reduziert werden.