Eine Trainingseinheit verbraucht 24 Millionen kWh Strom. Warum verbraucht KI so viel Strom?

Eine Trainingseinheit verbraucht 24 Millionen kWh Strom. Warum verbraucht KI so viel Strom?

Allein die GPU von GPT-4 verbraucht für ein Training 24 Millionen kWh Strom. Warum verbraucht KI so viel Strom? Wohin fließt der ganze Strom, den sie verbrauchen? Ist es möglich, die aus diesem Strom umgewandelte Energie zurückzugewinnen?

Geschrieben von | Mammut

Wenn wir heute von Künstlicher Intelligenz (KI) sprechen, meinen wir hauptsächlich generative Künstliche Intelligenz. Ein großer Teil davon ist generative künstliche Intelligenz, die auf großen Sprachmodellen basiert.

Sie erfordern große Rechenzentren für Training und Inferenz. Diese Rechenzentren bestehen aus einer großen Anzahl von Servern. Der größte Teil des von den Servern verbrauchten Stroms wird in Wärmeenergie umgewandelt und schließlich über das Wasserkühlsystem abgegeben. Man kann also auch sagen, dass die physische Hardware der KI ein riesiger „elektrischer Warmwasserbereiter“ ist.

Diese Aussage mag etwas seltsam klingen. Wir alle wissen, dass ein Server ein elektronischer Computer ist und dass die Daten, die im Computer verarbeitet werden, Informationen sind. Welche Beziehung besteht zwischen Information und Energie?

Es existiert wirklich.

Die Verarbeitung von Informationen verbraucht Energie

Im Jahr 1961 veröffentlichte Rolf Landauer, ein bei IBM tätiger Physiker, eine Abhandlung, in der er das sogenannte Landauer-Prinzip vorschlug. Diese Theorie besagt, dass bei irreversiblen Änderungen der in einem Computer gespeicherten Informationen eine geringe Menge Wärme an die Umgebung abgegeben wird. Die Menge der abgegebenen Wärme hängt von der aktuellen Temperatur des Computers ab – je höher die Temperatur, desto mehr Wärme wird abgegeben.

Landauers Prinzip verbindet Information und Energie; genauer gesagt auf den zweiten Hauptsatz der Thermodynamik. Da logisch irreversible Informationsverarbeitungsvorgänge die Vernichtung von Informationen bedeuten, führt dies zu einer Zunahme der Entropie in der physischen Welt und verbraucht somit Energie.

Dieses Prinzip wurde seit seiner Einführung häufig in Frage gestellt. Doch etwa im letzten Jahrzehnt wurde Landauers Prinzip experimentell bewiesen. Im Jahr 2012 veröffentlichte das Magazin „Nature“ einen Artikel, in dem ein Forscherteam erstmals die geringe Wärmemenge maß, die beim Löschen eines Datenbits freigesetzt wurde. Mehrere unabhängige Experimente bewiesen später auch Landauers Prinzip.

Die Verarbeitung von Informationen ist also mit Energiekosten verbunden.

Der tatsächliche Energieverbrauch heutiger elektronischer Computer beim Rechnen liegt mehrere Hundert Millionen Mal über diesem theoretischen Wert. Wissenschaftler arbeiten ständig daran, effizientere Rechenmethoden zu finden, um die Kosten zu senken. Dem aktuellen Forschungsstand zufolge dürfte dieser Energieverbrauch jedoch erst dann näher an dem theoretischen Wert liegen, der durch das Landauer-Prinzip beschrieben wird, wenn echte supraleitende Materialien bei Raumtemperatur in großem Umfang in Computergeräten eingesetzt werden können.

Große KI-Modelle erfordern einen hohen Rechenaufwand. Der Arbeitsprozess lässt sich grob in zwei Phasen unterteilen: Training und Argumentation. Während der Trainingsphase müssen zunächst große Mengen Textdaten gesammelt und vorverarbeitet werden, um als Eingabedaten verwendet werden zu können. Initialisieren Sie dann die Modellparameter in der entsprechenden Modellarchitektur, verarbeiten Sie die Eingabedaten und versuchen Sie, eine Ausgabe zu generieren. Passen Sie dann basierend auf der Differenz zwischen der Ausgabe und dem erwarteten Wert die Parameter wiederholt an, bis sich die Leistung des Modells nicht mehr wesentlich verbessert. In der Inferenzphase werden zuerst die trainierten Modellparameter geladen, die abzuleitenden Textdaten werden vorverarbeitet und dann generiert das Modell basierend auf den erlernten Sprachregeln eine Ausgabe.

Unabhängig davon, ob es sich um die Trainings- oder Argumentationsphase handelt, handelt es sich um eine Reihe von Prozessen zur Neuorganisation von Informationen, die ebenfalls dem Landauer-Prinzip folgen. Es lässt sich unschwer schlussfolgern, dass je größer die Anzahl der Parameter im Modell ist, desto mehr Daten verarbeitet werden müssen, desto größer der erforderliche Rechenaufwand ist, desto mehr Energie verbraucht wird und desto mehr Wärme freigesetzt wird.

Dies ist jedoch nur ein winziger Teil des Stromverbrauchs der KI. Der höhere Verbrauch ist auf ein anderes, uns vertrauteres physikalisches Gesetz zurückzuführen: das Joulesche Gesetz. Dies beginnt bei integrierten Schaltkreisen.

Der größte Energieverbrauch entsteht durch Strom

Heutige elektronische Computer basieren auf integrierten Schaltkreisen. Wir nennen integrierte Schaltkreise oft Chips. In jedem Chip befinden sich viele Transistoren.

Grob gesagt kann man sich Transistoren als winzige Schalter vorstellen. Diese Schalter können in Reihe oder parallel geschaltet werden, um logische Operationen zu realisieren. „Ein“ und „Aus“ stellen zwei Zustände dar, nämlich 1 und 0, die Grundeinheit der Informatik, das „Bit“. Es ist die Grundlage der Computerbinärcodes. Computer betätigen diese Schalter, indem sie die Spannung schnell ändern.

Eine Spannungsänderung erfordert einen Elektronenzu- bzw. -abfluss. Der Fluss ein- und ausgehender Elektronen stellt einen elektrischen Strom dar. Und weil es in einem Stromkreis immer Widerstand gibt, wird Wärmeenergie erzeugt. Das Joulesche Gesetz besagt, dass die erzeugte Wärme proportional zum Quadrat der Stromstärke, proportional zum Widerstand des Leiters und proportional zur Zeit ist, in der der Strom fließt.

Mit der Entwicklung der integrierten Schaltkreistechnologie sind die Transistoren in Chips extrem klein geworden. Daher ist die von einem einzelnen Transistor erzeugte Wärme nicht zu hoch. Das Problem besteht jedoch darin, dass die Zahl der Transistoren auf dem Chip ein Niveau erreicht hat, das für den Normalbürger unvorstellbar ist. So befinden sich beispielsweise auf dem entsprechenden 2-Nanometer-Prozesschip, den IBM vor einigen Jahren auf den Markt brachte, durchschnittlich 330 Millionen Transistoren pro Quadratmillimeter. Selbst die kleinste Wärmemenge führt, wenn sie mit dieser Skala multipliziert wird, zu einem signifikanten Ergebnis.

Eine interessante Tatsache, die manche Leute überraschen mag, ist, dass die Leistung pro Volumeneinheit heutiger Chips um mehrere Größenordnungen höher ist als die des Sonnenkerns. Ein typischer CPU-Chip hat eine Leistung von etwa 100 Watt pro Kubikzentimeter oder 100 Millionen Watt pro Kubikmeter; Die Leistung des Sonnenkerns beträgt weniger als 300 Watt pro Kubikmeter.

Als OpenAI das große Sprachmodell GPT-4 trainierte, dauerte es etwa drei Monate, um eine Trainingssitzung abzuschließen, wobei etwa 25.000 NVIDIA A100-GPUs verwendet wurden. Jede A100-GPU verfügt über 54 Milliarden Transistoren, verbraucht 400 Watt Strom und kann 19,5 Billionen Gleitkommaoperationen mit einfacher Genauigkeit pro Sekunde ausführen, wobei bei jeder Operation viele Transistoren umgeschaltet werden müssen.

Es lässt sich leicht ausrechnen, dass diese GPUs allein für eine einzige Trainingseinheit 240 Millionen kWh Strom verbrauchen. Fast die gesamte Elektrizität wird in Wärme umgewandelt, genug, um etwa zwei Millionen Kubikmeter Eiswasser – das entspricht etwa der Wassermenge in 1.000 olympischen Schwimmbecken – zum Kochen zu bringen.

Warum benötigt KI zum Trainieren so viele leistungsstarke GPUs? Weil der Maßstab des großen Sprachmodells zu groß ist. Das GPT-3-Modell verfügt über 175 Milliarden Parameter, während GPT-4 schätzungsweise 1,8 Billionen Parameter hat, also das Zehnfache von GPT-3. Um ein Modell dieser Größe zu trainieren, ist es notwendig, einen umfangreichen Datensatz wiederholt zu iterieren. Jede Iteration erfordert die Berechnung und Anpassung der Werte von Milliarden, Dutzenden oder sogar Hunderten von Milliarden Parametern. Diese Berechnungen manifestieren sich letztendlich im Schalten von Transistoren und im dünnen Stromfluss in integrierten Schaltkreisen – und in der Wärme.

Energie kann weder erzeugt noch vernichtet werden, sie kann nur von einer Form in eine andere umgewandelt werden. Für elektronische Computer ist die Umwandlung von elektrischer Energie in thermische Energie der wichtigste Weg der Energieumwandlung.

Dasselbe gilt für große Sprachmodelle. Sein Bedarf an Elektrizität und Kühlwasser führt zu immer größeren Umweltproblemen.

Wärmerückgewinnung aus einem „elektrischen Warmwasserbereiter“?

Erst vor wenigen Tagen erklärte ein Ingenieur von Microsoft, dass Microsoft und OpenAI zum Trainieren von GPT-6 ein riesiges Rechenzentrum errichtet und 100.000 Nvidia H100-GPUs verwenden werden – die eine stärkere Leistung als A100 haben und natürlich mehr Strom verbrauchen –, diese GPUs dürfen jedoch nicht in den gleichen Zustand versetzt werden, da dies sonst zu einer Überlastung und einem Zusammenbruch des Stromnetzes führen würde.

Das durch die Entwicklung der KI verursachte Problem der Energieknappheit hat begonnen, sich abzuzeichnen. Auf dem diesjährigen Weltwirtschaftsforum in Davos argumentierte Sam Altman, CEO von OpenAI, dass die Kernfusion der Weg in die Zukunft der Energieversorgung sein könnte. Bis die Kernfusionstechnologie jedoch wirklich brauchbar ist, dürfte es noch einige Zeit dauern.

Das Gleiche gilt für Wasser. In den letzten Jahren waren große Unternehmen, die im Bereich der KI-Großmodelle eine Vorreiterrolle übernommen haben, mit einem deutlichen Anstieg ihres Wasserverbrauchs konfrontiert. Im Juni 2023 veröffentlichte Microsoft seinen Umweltverträglichkeitsbericht 2022, der einen deutlichen Anstieg des Wasserverbrauchs um über 20 % aufzeigte. Dasselbe gilt für Google.

Einige Forscher glauben, dass die Entwicklung der KI der Hauptgrund für den starken Anstieg des Wasserverbrauchs dieser Technologiegiganten ist – um die wahnsinnig heißen Chips zu kühlen, werden am häufigsten Wasserkühlungssysteme verwendet. Das Rechenzentrum, das die Hardware-Grundlage für KI bereitstellt, ist wie ein riesiger „elektrischer Warmwasserbereiter“.

Wie können wir verhindern, dass diese verlorene Wärmeenergie verschwendet wird? Am einfachsten ist die Wärmerückgewinnungstechnologie zu verstehen und umzusetzen. So kann die aus dem Rechenzentrum gewonnene Wärme beispielsweise zur Bereitstellung von Warmwasser und zur Heizung der Bevölkerung im Winter genutzt werden. Einige Unternehmen wie beispielsweise das China Mobile Harbin Data Center und das Alibaba Qiandao Lake Data Center haben mittlerweile damit begonnen, Abwärme zur Wiederverwendung zu recyceln.

Dies kann vermutlich als Lösung betrachtet werden, kann das Problem jedoch nicht grundsätzlich lösen. Die KI-Branche entwickelt sich mit einer Geschwindigkeit, mit der keine Branche in der Menschheitsgeschichte mithalten kann. Die Entwicklung der KI-Technologie mit der ökologischen Nachhaltigkeit in Einklang zu bringen, könnte in den nächsten Jahren eines unserer wichtigsten Themen sein. Die komplexe Beziehung zwischen technologischem Fortschritt und Energieverbrauch war für die Menschheit noch nie so dringlich.

Dieser Artikel wird vom Science Popularization China Starry Sky Project unterstützt

Produziert von: Chinesische Vereinigung für Wissenschaft und Technologie, Abteilung für Wissenschaftspopularisierung

Hersteller: China Science and Technology Press Co., Ltd., Beijing Zhongke Xinghe Culture Media Co., Ltd.

Besondere Tipps

1. Gehen Sie zur „Featured Column“ unten im Menü des öffentlichen WeChat-Kontos „Fanpu“, um eine Reihe populärwissenschaftlicher Artikel zu verschiedenen Themen zu lesen.

2. „Fanpu“ bietet die Funktion, Artikel nach Monat zu suchen. Folgen Sie dem offiziellen Account und antworten Sie mit der vierstelligen Jahreszahl + Monat, also etwa „1903“, um den Artikelindex für März 2019 zu erhalten, usw.

Copyright-Erklärung: Einzelpersonen können diesen Artikel gerne weiterleiten, es ist jedoch keinem Medium und keiner Organisation gestattet, ihn ohne Genehmigung nachzudrucken oder Auszüge daraus zu verwenden. Für eine Nachdruckgenehmigung wenden Sie sich bitte an den Backstage-Bereich des öffentlichen WeChat-Kontos „Fanpu“.

<<:  Ich habe es für alle ausprobiert und festgestellt, dass der „20-Minuten-Park-Effekt“ wirklich funktioniert!

>>:  Weltquantentag|Ja, Sie haben richtig gelesen! Laser können Partikel tatsächlich kühlen!

Artikel empfehlen

GSMA: Digitale Nation im asiatisch-pazifischen Raum

Der GSMA-Bericht hob hervor, dass die Philippinen...

Kann man durch Schwimmen wirklich die Bauchmuskeln trainieren?

Schwimmen ist ein sehr guter Sport, besonders für...

Kann Joggen wirklich dabei helfen, in Form zu kommen?

Eine gute Figur kann zu einem besseren Temperamen...

Wozu dienen Yoga-Widerstandsbänder?

Beim Üben von Yoga bemerken viele Menschen, dass ...

So trainieren Sie im Büro

Viele Menschen haben das Gefühl, dass sie bei ihr...

Welche Vorteile bietet eine halbe Stunde Aerobic-Training?

Aerobes Training ist relativ zu anaerobem Trainin...

Warum haben Sie nach dem Training überall Schmerzen?

Viele Menschen haben nach anstrengenden Übungen, ...

Wie kann man leicht Bauchfett verlieren?

Der Sommer ist die Jahreszeit, in der man am Stra...

Wie lindert man Muskelkater nach dem Training?

Im Allgemeinen verspüren Menschen innerhalb von z...