Künstliche Intelligenz: Diese KI-Anfragen verbrauchen besonders viel Strom

»Wie viele Einwohner haben die USA?«, »Ist es in Italien legal, per Anhalter zu fahren?« oder »Wie lautet die dritte binomische Formel?«: Für solche Fragen greifen viele Menschen inzwischen fast täglich auf KI-Modelle wie ChatGPT von OpenAI, Claude von Anthropic oder R1 von DeepSeek zurück. Anstatt sich mühsam mit einer Suchmaschine auseinanderzusetzen, sich durch eine Linkliste zu klicken und auf den entsprechenden Webseiten die Antworten zu suchen, kann man bei den Chatbots die gewünschten Antworten direkt schön aufbereitet nachlesen.
So angenehm die Handhabung auch sein mag: Die Technologie hat auch Kehrseiten. Erstens kann es sein, dass die KI »halluziniert«, also selbstsicher eine falsche Antwort samt inkorrekten Erklärungen liefert. Zweitens verbrauchen die Modelle in der Regel deutlich mehr Strom als eine einfache Google-Suche. Wie viel höher der Verbrauch aber ausfällt, ist meist unklar, weil viele Firmen ihre Daten dazu nicht offenlegen. Deswegen haben die Informatiker Maximilian Dauner und Gudrun Socher von der Fachhochschule München verschiedene KI-Modelle auf einem Server betrieben und dabei verzeichnet, wie viel Strom welche Anfrage erforderte – und ob die KI korrekte Antworten lieferte. In einer in der Fachzeitschrift »Frontiers in Communication« veröffentlichten Studie stellen sie ihre erstaunlichen Ergebnisse vor: Der Stromverbrauch und die damit verbundenen CO2-Emissionen unterscheiden sich je nach Modell und nach Anfrage stark voneinander.
Mit der Veröffentlichung von ChatGPT löste die US-Firma OpenAI im Jahr 2023 einen enormen KI-Boom aus, der bis heute anhält. Erstmals war ein Chatbot in der Lage, menschlich anmutende Unterhaltungen zu führen und auf komplizierte Fragen zu antworten. Ein solches KI-Modell zu entwickeln, ist allerdings enorm aufwändig. Monatelang muss man das Programm mit Unmengen an Daten füttern: Bücher, Zeitungsartikel, Blogeinträge. So lernt es schließlich, ein Wort mit einer bestimmten Wahrscheinlichkeit auf ein anderes folgen zu lassen.
Ein regelrechter Zoo an Sprachmodellen
Inzwischen gibt es neben ChatGPT eine große Vielzahl an KI-Chatbots. Sie unterscheiden sich nicht nur durch ihr Training, sondern auch durch ihre Größe; also die Menge an Parametern. Diese sind wie eine Stellschraube, die durch das aufwändige Training so eingestellt werden, dass die Modelle ihre Aufgabe möglichst gut meistern. Große Tech-Player wie OpenAI oder Anthropic setzen dabei auf die Strategie »viel hilft viel« und haben inzwischen KI-Modelle mit teilweise hunderten oder gar tausenden Milliarden Parametern entwickelt. Der Trainingsaufwand und die Menge der dafür erforderlichen Daten wächst aber mit der Größe der Modelle an. Deswegen setzen insbesondere kleinere Unternehmen auf effizientere Programme mit nur mehreren Milliarden Parametern – in der Hoffnung, dass auch diese verlässliche Antworten liefern.
Zudem setzen einige Firmen inzwischen auf so genanntes »Reasoning«: Deren KI-Modelle unterteilen eine Anfrage in mehrere Teilschritte und arbeiten sich durch diese – wenn nötig auch mehrmals – durch, um ein möglichst zufrieden stellendes Resultat zu liefern.
»Es war zu erwarten, dass kleinere Modelle weniger Energie verbrauchen als größere«, erklärt Dauner – und das nicht nur während des Trainings, sondern auch im laufenden Betrieb. Genau das konnten Dauner und Socher beobachten. Hierfür ließen sie insgesamt 14 verschiedene Versionen an Sprachmodellen (Llama von Meta, Qwen von Alibaba, Cogito vom US-Start-Up Deep Cogito und R1 von DeepSeek), deren Größen von 7 bis 70 Milliarden Parametern reichten, auf einem eigenen Server mit einer NVIDIA-A100-Grafikkarte laufen und zeichneten den Stromverbrauch für verschiedene Anfragen auf. Anschließend ermittelten sie den Treibhausgasausstoß für die jeweiligen Anfragen. »Der CO2-Ausstoß wurde auf Basis des gemessenen Stromverbrauchs der Grafikkarte sowie eines globalen Emissionsfaktors berechnet«, erklärt Dauner auf Anfrage.
Welche Anfrage ist am umweltschädlichsten?
Die zwei Forscher übergaben den 14 Sprachmodellen je 100 Fragen aus insgesamt fünf Kategorien: Philosophie, Geschichte, internationales Recht, abstrakte Algebra und Schulmathematik. Große Sprachmodelle und Reasoning-Modelle schnitten dabei am besten ab. Das 70-Milliarden-Parameter-Reasoning-Modell von DeepSeek zum Beispiel beantwortete fast 80 Prozent der Fragen richtig, erzeugte dabei aber insgesamt rund zwei Kilogramm CO2-Äquivalente zur Beantwortung aller 500 Fragen – das entspricht etwa einer Autofahrt von zehn Kilometern mit einem Benziner. Das 7-Milliarden-Parameter-Modell Qwen von Alibaba erzeugte hingegen umgerechnet nur 27 Gramm CO2-Äquivalente, lag aber bei nicht einmal einem Drittel der Fragen richtig. Einen guten Kompromiss aus Genauigkeit und Sparsamkeit wies dabei die mit 72-Milliarden-Parametern deutlich größere Variante von Alibaba auf: Bei rund 78 Prozent korrekten Antworten verbrauchte es nur rund 400 Gramm CO2-Äquivalente.
»Reasoning-Modelle erzeugen in der Regel längere Antworten, was zu längeren Laufzeiten und damit zu einem höheren Stromverbrauch führt«, erklärt Dauner. »Dementsprechend steigt auch der CO2-Ausstoß an.« Dabei stach vor allem das 8-Milliarden-Parameter-Modell von Deep Cogito heraus, das bein einer Algebraaufgabe eine Ausgabe mit knapp 10 000 Wörtern erzeugte.
Doch nicht nur die Größe und die Funktionsweise eines KI-Modells entscheidet darüber, wie viel Strom es verbraucht. Auch die Arten der Fragen verlangen einer KI unterschiedlich viel ab. Die mathematischen Aufgaben, insbesondere die abstrakte Algebra, machten den Sprachmodellen am meisten zu schaffen. Fragen zu Geschichte und Philosophie schienen den KI-Modellen hingegen leichter zu fallen – zumindest fallen die Antworten hierbei deutlich kürzer aus.
Insgesamt sind die berechneten Emissionen abhängig von der Technologie, die die Unternehmen verwenden – und natürlich von der Herkunft des Stroms. Zudem konnten die zwei Forschenden jedoch nur solche Sprachmodelle testen, die quelloffen sind – also deren Programmcode verfügbar ist. Die Codes der beliebten Modelle von Firmen wie OpenAI oder Anthropic sind nicht frei zugänglich und können daher nicht auf eigenen Servern betrieben werden. Wie viel Ressourcen die Anfragen an ChatGPT oder Claude verbrauchen, ist deshalb unklar.
Wenn Sie inhaltliche Anmerkungen zu diesem Artikel haben, können Sie die Redaktion per E-Mail informieren. Wir lesen Ihre Zuschrift, bitten jedoch um Verständnis, dass wir nicht jede beantworten können.