KI: Wie Sprachmodelle ohne Sprache besser lernen könnten

Künstliche Intelligenz: Funktionieren Sprachmodelle ohne Sprache besser?

Bisher übersetzen große Sprachmodelle ihre mathematischen Prozesse immer wieder in Worte. Aber jetzt zeigt sich, dass es vielleicht einen besseren Weg gibt: das Denken ohne Sprache.

von Anil Ananthaswamy

Übereinanderliegende Sprechblasen in verschiedenen Farben — © HowLettery / Getty Images / iStock (Ausschnitt)
Vielleicht lässt sich Sprache am besten sprachlos lernen?

Sprache wird überschätzt. Zu dieser Einschätzung kann man kommen, wenn man sich fragt, welche Vorgänge auf Sprache angewiesen sind. Sie hilft zwar bei der Vermittlung von Standpunkten oder Ideen, aber viele Formen des menschlichen Denkens und Argumentierens benötigen keine Worte und Grammatik. Manchmal, so argumentieren Neurowissenschaftler, verlangsamt die Umsetzung von Ideen in Sprache sogar den Denkprozess.

Wir Menschen sind nicht allein mit dieser Erkenntnis. Es gibt erste Hinweise darauf, dass auch bestimmte Systeme der künstlichen Intelligenz davon profitieren könnten, unabhängig von Sprache zu »denken«. Wenn große Sprachmodelle Informationen verarbeiten, tun sie das ohnehin fernab der Welt der Worte, nämlich in mathematischen Räumen. Denn die so genannten LLMs (englisch: large language models) basieren auf tiefen neuronalen Netzen, die im Wesentlichen eine Zahlenfolge in eine andere umwandeln – sie sind praktisch komplizierte mathematische Funktionen. Forschende nennen das numerische Universum, in dem diese Berechnungen stattfinden, einen »latenten Raum«.

Dieser ist viel größer als der Raum der einzelnen Wörter. Dennoch müssen Sprachmodelle oft in diesen eingeschränkteren Sprachraum wechseln. Dafür braucht es zum einen zusätzliche Rechenressourcen, um die latenten Darstellungen durch das neuronale Netz in bestimmte Wörter umzuwandeln. Zum anderen kann dieser Vorgang auch zu Informationsverlust führen. Deshalb fragen sich Fachleute neuerdings, ob die Maschinen allein im latenten Raum arbeiten könnten.

Den Sprachmodellen in den Kopf geschaut

Zwei jüngere Studien lassen vermuten, dass dies tatsächlich möglich sein könnte. Ihnen zufolge ermöglichen tiefe neuronale Netze es Sprachmodellen prinzipiell, in mathematischen Räumen weiterzudenken, bevor sie einen Text erzeugen. Die untersuchten Sprachmodelle sind zwar noch recht einfach, aber effizienter als ihre Standardalternativen. »Es ist eine aufregende neue Forschungsrichtung«, sagt Luke Zettlemoyer, ein Informatiker und Experte für Sprachverarbeitung an der University of Washington, der nicht an den Arbeiten beteiligt war.

Um zu verstehen, warum Sprache LLMs einschränken könnte, muss man einen Blick in ihr Inneres werfen. Die meisten modernen Modelle verwenden eine bestimmte Art von neuronalem Netz, das als Transformer bezeichnet wird und einen Text in seiner Gesamtheit – und nicht Stück für Stück – verarbeitet. Dieses Vorgehen erzeugt erstaunlich natürliche und eloquente Sprache. Transformer arbeiten jedoch nicht direkt mit Wörtern, sondern verwenden Textteile, so genannte Token. Dabei kann es sich um ganze Wörter, Wortfragmente oder sogar einzelne Zeichen handeln.

Sprachmodelle funktionieren in der Regel folgendermaßen: Wenn ein Benutzer eine Anfrage in ein LLM eingibt, zerlegt ein Algorithmus den eingegebenen Text in eine Folge von Token. Das Modell wandelt dann jedes Token in eine Zahlenfolge um, die als Einbettung (embedding) bezeichnet wird. Eine Eingabe von zehn Token ergibt zum Beispiel zehn Einbettungen. Der Transformer verarbeitet diese dann durch seine verschiedenen Komponenten, die Schichten. Jede Schicht speist ihre Ergebnisse in die nächste ein und verbindet so nach und nach sämtliche Einbettungen miteinander. Die letzte Schicht fügt all diese Informationen zusammen. Die letzte Einbettung in dieser Folge wird als verborgener Zustand (hidden state) bezeichnet – »verborgen«, weil sie nicht von außen sichtbar ist. Dieser Zustand enthält alle relevanten Informationen, die das Modell benötigt, um das wahrscheinlichste nächste Token vorherzusagen.

Künstliches neuronales Netz | Schematische Darstellung eines künstlichen neuronalen Netzwerks, das aus zwei inneren neuronalen Schichten besteht. Jede neuronale Schicht wiederum besteht aus mehreren künstlichen Neuronen, die Werte aus vorausgehenden Neuronenschichten aufnehmen, gewichten und summieren.

Das ist aber nur der Anfang des Prozesses. Das vorhergesagte Token – also Wort, Wortteil oder Buchstabensequenz – wird dann an das Ende der anfänglichen Eingabe des Nutzers angehängt. Anschließend wird der neue Satz (das heißt ursprüngliche Eingabe plus Token) erneut in das Netz gespeist. Der Transformer verarbeitet den Inhalt wie zuvor beschrieben und erzeugt ein weiteres Token, das an die letzte Eingabe angehängt und wieder zurückgesendet wird. Das setzt sich so lange fort, bis das Netzwerk ein »Ende des Textes«-Token erzeugt, ein Signal, dass der Prozess abgeschlossen ist. Dann gibt das LLM – beispielsweise in Form eines Chatbots – die Antwort aus.

Entscheidend ist, dass die heutigen LLMs so trainiert sind, dass sie zuerst eine längere Sequenz von Token erstellen, die ihren Verarbeitungsprozess nachahmt, bevor sie die endgültige Antwort produzieren. Bei einem mathematischen Problem kann das LLM zum Beispiel zahlreiche Token erzeugen, die die einzelnen Schritte auf dem Weg zur Antwort aufzeigen. Diese Token, die zur Antwort führen, heißen »Gedankenkette« (chain of thought) des LLM. Diese hilft nicht nur dabei, zu verstehen, was das Modell tut, sondern macht es auch viel genauer.

Dieser Ansatz hat sich als äußerst effektiv erwiesen: Die modernen Sprachmodelle wurden dadurch viel leistungsfähiger. Gleichzeitig muss ein LLM dafür immer wieder zwischen Token-Einbettungen und verborgenem Zustand hin- und herwechseln und die Daten entsprechend umwandeln. Das ist nicht nur ineffizient, sondern kann auch zu Informationsverlusten führen. »Wenn wir in einem latenten Raum denken wollen, müssen wir diesen Schritt überspringen«, sagt der Informatiker Shibo Hao von der University of California in San Diego. Genau das haben er und sein Team getan.

Nur Mathe klappt nicht so gut ohne Sprache

Als Praktikant bei Meta wollte Hao im Jahr 2024 gemeinsam mit Kollegen herausfinden, ob es möglich ist, ein Sprachmodell zu entwickeln, das hauptsächlich im latenten Raum denkt. Sie nahmen sich dafür eine Standardversion von GPT-2 vor, ein frühes Sprachmodell von OpenAI. Dieses ist mit »nur« 124 Millionen Parametern – also jenen internen Variablen, die während des Trainings festgelegt werden und letztlich bestimmen, wie gut das Modell funktioniert – relativ klein.

Haos Team konzentrierte sich auf den entscheidenden Punkt des Prozesses, an dem der verborgene Zustand, der von der letzten Transformerschicht erzeugt wird, in ein Token umgewandelt wird. Im Zuge dieser Umwandlung sinkt die Information von den unendlichen Möglichkeiten kontinuierlicher Zahlen auf das begrenzte Vokabular der etwa 50 000 Token des Sprachmodells GPT-2. Das Team baute das Modell so um, dass der verborgene Zustand direkt zu den Eingabeeinbettungen zurückführt. Diese durchlaufen dann also die Schichten des Transformers, ohne zwischendurch immer wieder in Sprachdaten umgewandelt zu werden.

Nun konnte das LLM also alle Informationen in kontinuierlichen Werten verarbeiten anstatt in einem diskreten Raum, der durch die menschliche Sprache aufgezwungen wird. Die Forschenden nannten ihr Modell Coconut, was für »chain of continuous thought« steht, und veröffentlichten es im Dezember 2024.

»Es ist ein grundlegend anderes Denkmuster«Shibo Hao, Informatiker

Haos Team verglich das Modell mit der leistungsstärksten Version von GPT-2, die darauf trainiert wurde, vor der Antwort eine Gedankenkette zu produzieren. Coconut lag fast immer vorn. Auch im logischen Schlussfolgern war Coconut viel effizienter: Beide Modelle lagen zwar zu 98,8 Prozent richtig, aber Coconut benötigte nur etwa ein Zehntel der Token, um das gleiche Ergebnis zu erzielen. In einem anderen Test, bei dem aus einer großen Anzahl von Optionen ausgewählt werden musste, benötigte Coconut etwa ein Drittel so viele Zeichen und war mit 97 Prozent im Vergleich zu 77,5 Prozent sogar wesentlich genauer. »Beim kontinuierlichen oder latenten Denken muss man seine Gedanken nicht in Sprache umwandeln. Man kann die Unsicherheiten beibehalten und dann schließlich sehr sicher antworten«, führt Hao aus. »Es ist ein grundlegend anderes Denkmuster.«

Allerdings gab es auch Misserfolge: Bei grundlegenden Mathematikaufgaben erzeugte Coconut zwar nur etwa ein Drittel der Token im Vergleich zum Konkurrenzmodell, lag aber nur in 34 Prozent der Fälle richtig, gegenüber einer 43-prozentigen Genauigkeit seines Konkurrenten. Das könnte daran liegen, sagt Hao, dass Coconut auf einem vortrainierten Standardmodell basiert und nicht von Anfang an auf latentes Raumdenken trainiert wurde.

Es könnte jedoch auch andere Gründe dafür geben: Das Team um Hao hat die Anzahl der Schleifen begrenzt, welche die Informationen durch die Transformerschichten durchlaufen. Das heißt, das Modell musste den Prozess spätestens nach einer bestimmten Anzahl von Schleifen beenden. »Im Idealfall sollte das Sprachmodell selbst entscheiden, wann die Argumentation abgeschlossen ist«, erklärt Hao.

Das selbstbestimmte Sprachmodell

Ein Team unter der Leitung von Tom Goldstein von der University of Maryland widmete sich der gleichen Aufgabe. 2024 entwickelten und trainierten die Forschenden einen Transformer, der nicht nur lernte, im latenten Raum zu »denken«, sondern auch selbstständig entschied, wann er zur Sprache zurückkehrt. Die Idee ähnelt zwar jener von Haos Forschung, doch das Team um Goldstein ging auf eine ganz andere Art und Weise an die Aufgabe heran.

Alle modernen LLMs haben eine feste Anzahl von Transformerschichten. »Das scheint grundsätzlich einschränkend zu sein«, sagt Goldstein. Denn dadurch können sie Probleme, die zusätzliche Berechnungen benötigen – also mehr Durchläufe durch die Schichten –, nicht optimal lösen. Dies galt insbesondere für die frühen LLMs, die relativ wenige Schichten hatten. Goldstein wollte daher einen Weg finden, um die Anzahl der Schichten in einem LLM bei Bedarf zu erhöhen.

Die Gruppe erkannte, dass ein Modell einige seiner Schichten mehr als einmal nutzen kann. Um ihre Idee zu testen, entwickelte sie ein LLM mit acht Schichten. Die Berechnung läuft wie üblich über die ersten beiden Schichten. Die nächsten vier Schichten werden zu einem Block zusammengefasst, den die Berechnung beliebig oft durchlaufen kann. Danach wird die Ausgabe dieses »rekurrenten Blocks« an die letzten beiden Schichten weitergeleitet, die das nächste Token vorhersagen. Passiert die Information den rekurrenten Block nur einmal, funktioniert das Modell wie ein achtschichtiges LLM. Bei 25 Durchläufen entspricht es schon einem KI-Modell mit 104 Schichten.

Der Prozess findet demnach fast ausschließlich im latenten Raum statt, da die Ausgabe des rekurrenten Blocks während der Berechnung nie in Token umgewandelt wird. Stattdessen werden die erzeugten Einbettungen direkt in den rekurrenten Block zurückgeführt und erneut verarbeitet.

Einfache Aufgaben erkennen und Ressourcen sparen

Im Gegensatz zu Coconut hat Goldsteins Team das Modell von Grund auf trainiert, damit es selbst lernt, wie oft es den rekurrenten Block verwenden sollte. Der Algorithmus stoppt den Prozess von allein, wenn sich die vom rekurrenten Block erzeugten Einbettungen nicht mehr signifikant ändern. Die Forschenden konnten dank des US-Energieministeriums auf beträchtliche Rechenleistung zurückgreifen und so ein Modell mit 3,5 Milliarden Parametern erstellen, das Coconut weit übertrifft.

Das rekurrente System zeigte ein erstaunlich ausgeklügeltes Verhalten. Das Modell lernte, bei einfacheren Aufgaben früher aufzuhören und nur bei wirklich schwierigen Aufgaben mehr Zeit (und Ressourcen) aufzuwenden. Bei Denkaufgaben, die moralische Entscheidungen enthielten, benötigte das Modell beispielsweise etwa 3,5 Durchgänge mehr als bei Aufgaben, die sich mit Schulmathematik befassten. »Das ist ziemlich aufregend«, sagt Mitautor Jonas Geiping vom Max-Planck-Institut für Intelligente Systeme in Tübingen. »Wir haben es nicht wirklich darauf trainiert. Das Verhalten hat sich einfach so ergeben: Das Modell scheint leichtere Aufgaben als solche zu erkennen.«

Goldsteins Team testete das Modell an Standardmaßstäben, die Programmieraufgaben und mathematisches Denken umfassen. Ihr Modell schnitt deutlich besser ab als die größten OLMo-Sprachmodelle der ersten Generation vom Allen Institute for AI, obwohl diese doppelt so viele Parameter haben. Bei mathematischen Aufgaben lag OLMo-7B nur bei etwa vier Prozent richtig, während das rekurrente Modell etwa 28 Prozent Genauigkeit erreichte – und das trotz des anspruchsvolleren und längeren Trainings von OLMo. »Unser Modell ist diesem weit überlegen«, urteilt Goldstein.

Trotz dieser positiven Ergebnisse brauche es noch mehr Zeit und Forschung, bis sich die so genannten Latent-Reasoning-Modelle durchsetzen, sagt Hao. Schließlich haben führende Unternehmen wie OpenAI und Anthropic schon viel in die bestehenden LLM-Architekturen investiert. Auf Latent-Space-Reasoning umzustellen, wäre enorm aufwändig. Deshalb sei es unwahrscheinlich, dass sich solche Techniken in absehbarer Zeit durchsetzen.

»Eines unserer Ziele besteht darin, die Art des Denkens zu verändern. Das bietet uns die Chance für einen großen Wandel«Luke Zettlemoyer, Informatiker

Zudem habe auch das Latent-Space-Reasoning seine eigenen Unzulänglichkeiten, erklärt Zettlemoyer. Letztendlich werden LLMs nämlich mit Text trainiert. Die Modelle sind sehr gut darin, in den Daten Muster zu finden. Beispielsweise können sie jede Art von Argumentationstechnik erlernen, wenn sie in Texten vorkommt – dadurch »denken« die Modelle ähnlich wie Menschen. LLMs ohne Worte arbeiten zu lassen, könnte bedeuten, dass sie auf eine Weise funktionieren, die Menschen nicht zugänglich ist. »Dadurch ergeben sich allerlei Möglichkeiten, die nicht wirklich hilfreich sind«, so Zettlemoyer.

Dennoch haben die Forschungsarbeiten gezeigt, dass es zumindest möglich ist, Modelle auf diese Weise laufen zu lassen. Das Arbeiten im latenten Raum stellt laut Zettlemoyer für LLMs eine völlig neue Art des »Denkens« dar. Wer weiß, welche Muster ein solcher Ansatz finden könnte? »Eines unserer Ziele besteht darin, die Art des Denkens zu verändern«, sagt Zettlemoyer. »Das bietet uns die Chance für einen großen Wandel.«

Von »Spektrum der Wissenschaft« übersetzte und bearbeitete Fassung des Artikels »To Make Language Models Work Better, Researchers Sidestep Language« aus »Quanta Magazine«, einem inhaltlich unabhängigen Magazin der Simons Foundation, die sich die Verbreitung von Forschungsergebnissen aus Mathematik und den Naturwissenschaften zum Ziel gesetzt hat.

Künstliche Intelligenz: Funktionieren Sprachmodelle ohne Sprache besser?

Den Sprachmodellen in den Kopf geschaut

Nur Mathe klappt nicht so gut ohne Sprache

Das selbstbestimmte Sprachmodell

Einfache Aufgaben erkennen und Ressourcen sparen

WEITERLESEN MIT »SPEKTRUM +«

Schreiben Sie uns!

Artikel zum Thema

Künstliche Intelligenz: Sprachmodell AlphaEvolve macht mathematische Entdeckungen – und mehr

Künstliche Intelligenz: Wie nah ist KI an menschlicher Intelligenz?

detektor.fm: Künstliche Intelligenz

Themenkanäle

Informationstechnologie

Der digitale Mensch

Das Digital-Manifest

SponsoredPartnerinhalte