Wenn Sie einen Berg bestiegen haben, wie können Sie dann maschinelles Lernen nicht verstehen?

Wenn Sie einen Berg bestiegen haben, wie können Sie dann maschinelles Lernen nicht verstehen?

Angesichts der rasanten Entwicklung künstlicher Intelligenz scheint es heutzutage nicht einfach zu sein, ihre Prinzipien zu verstehen. Tatsächlich ist das Kernproblem immer noch die Mathematik und es ist nicht kompliziert. Es ist viel einfacher als Sie denken. Wenn Sie schon einmal einen Berg bestiegen haben (oder noch besser, sich darin verirrt haben), dann verstehen Sie die zugrunde liegende Strategie.

Von Jordan Ellenberg

Übersetzungen | Hu Xiaorui, Zhong Yi

Meine Freundin Meredith Broussard ist Professorin an der NYU, wo sie sich auf maschinelles Lernen und seine gesellschaftlichen Auswirkungen spezialisiert hat. Vor kurzem nahm sie eine Aufgabe an: Sie sollte einem amerikanischen Fernsehpublikum in etwa zwei Minuten die Definition von künstlicher Intelligenz und ihre Funktionsweise erklären.

Dem Moderator, der sie interviewte, erklärte sie, dass es sich bei künstlicher Intelligenz weder um einen Killerroboter noch um einen humanoiden Roboter handele, dessen Intelligenz die des Menschen in den Schatten stellt, der aber keine Emotionen besitzt. Sie sagte dem Moderator: „Wir müssen uns einfach daran erinnern, dass das Grundprinzip die Mathematik ist. Es gibt nichts, wovor wir Angst haben müssen!“

Die gequälten Mienen der Moderatoren ließen darauf schließen, dass sie lieber über Killerroboter reden würden.

Aber Merediths Antwort traf den Nagel auf den Kopf. Da ich mich nicht an ein Zeitlimit von zwei Minuten halten muss, überlasse ich die Aufgabe und erkläre die Mathematik des maschinellen Lernens, denn diese „große Idee“ ist einfacher als Sie denken.

Maschinelles Lernen ist wie das Besteigen eines Berges

Stellen Sie sich vor, Sie sind keine Maschine, sondern ein Bergsteiger, der hart arbeitet, um den Gipfel des Berges zu erklimmen. Aber Sie haben keine Karte und sind von Bäumen und Büschen umgeben, ohne dass Sie einen Aussichtspunkt haben, von dem aus Sie die weitere Landschaft überblicken können. Wie gelangt man also an die Spitze?

Eine Strategie besteht darin, die Neigung des Bodens unter Ihren Füßen einzuschätzen. Wenn Sie nach Norden gehen, kann der Boden leicht ansteigen, und wenn Sie nach Süden gehen, kann der Boden leicht abfallen. Wenn Sie nach Nordosten abbiegen, sehen Sie, dass der Hang steiler wird. Sie gehen in einem kleinen Kreis umher, erkunden alle möglichen Richtungen und entdecken, dass eine davon den steilsten Anstieg hat, also machen Sie ein paar Schritte in diese Richtung. Dann zeichnen Sie einen weiteren Kreis und wählen von allen möglichen Richtungen die steilste Steigung aus und so weiter.

Jetzt wissen Sie, wie maschinelles Lernen funktioniert!

Okay, vielleicht ein bisschen mehr als das, aber dieses Konzept namens Gradientenabstieg ist das Herzstück des maschinellen Lernens. Im Wesentlichen handelt es sich dabei um einen Versuch-und-Irrtum-Prozess: Sie probieren eine Reihe möglicher Vorgehensweisen aus und wählen dann die aus, die Ihnen am besten aus der Patsche hilft. Der mit einer Richtung verbundene „Gradient“ ist ein mathematisches Konzept, das sich darauf bezieht, „wie stark sich die Höhe ändert, wenn Sie einen kleinen Schritt in diese Richtung machen“, oder auf die Neigung des Bodens, auf dem Sie gehen. Beim Gradientenabstieg handelt es sich um einen Algorithmus, der die Sprache der Mathematik nutzt, um „eine klare Regel für das Verhalten in jeder möglichen Situation zu erstellen“.

Die Regel lautet: Überlegen Sie sich alle möglichen Richtungen, suchen Sie die mit der größten Steigung und machen Sie ein paar Schritte in diese Richtung. wiederholen.

Zeichnen Sie Ihre Route zum Gipfel des Berges auf einer topografischen Karte ein, die ungefähr wie in Abbildung 1 aussehen sollte.

Abbildung 1 Dies ist eine weitere tolle geometrische Figur. Wenn Sie zur Orientierung einen Gradientenabstieg verwenden, muss Ihre Route auf der topografischen Karte senkrecht zu den Höhenlinien verlaufen.

Aber was hat das mit maschinellem Lernen zu tun?

Angenommen, ich wäre kein Bergsteiger, sondern ein Computer, der versucht, etwas zu lernen, wie AlphaGo oder GPT-3 (das KI-Sprachmodell, das lange Zeichenfolgen plausibler und verstörender englischer Texte generiert). Aber tun wir zunächst einmal so, als wäre ich ein Computer, der versucht zu lernen, was eine Katze ist.

Wie kann ich das machen? Die Antwort: Übernehmen Sie eine Lernstrategie, die der eines Babys ähnelt. Kleinkinder leben in einer Welt, in der Erwachsene oft auf etwas in ihrem Blickfeld zeigen und „Katze“ sagen. Sie können einen Computer auch trainieren, indem Sie ihm 1.000 Bilder von Katzen in unterschiedlichen Posen, Helligkeiten und Emotionen geben. Sie sagen dem Computer: „Das sind alles Katzen.“ Wenn Sie wirklich wollten, dass dies funktioniert, würden Sie ihm 1.000 zusätzliche Bilder von Nicht-Katzen zuführen und dem Computer mitteilen, welche davon Katzen sind und welche nicht.

Die Aufgabe der Maschine besteht darin, eine Strategie zu entwickeln, die es ihr ermöglicht, selbstständig zu unterscheiden, was eine Katze ist und was nicht. Es wechselt zwischen allen möglichen Strategien und versucht, die beste zu finden, diejenige, die die höchste Genauigkeit bei der Identifizierung von Katzen erreicht. Es handelt sich um einen Quasi-Kletterer, der seinen Weg mithilfe des Gradientenabstiegs bestimmen kann. Sie wählen eine Strategie, versetzen sich in die entsprechende Umgebung und bewegen sich dann gemäß den Regeln des Gradientenabstiegs vorwärts. Überlegen Sie, welche kleinen Änderungen Sie an Ihrer aktuellen Strategie vornehmen können, finden Sie diejenige, die Ihnen die größte Steigerung bietet, und setzen Sie diese um. wiederholen.

Gier ist eine ziemlich gute Sache

Diese Aussage klingt vernünftig, aber dann merkt man, dass man nicht versteht, was sie bedeutet. Was ist beispielsweise eine Strategie? Es musste etwas sein, das ein Computer ausführen konnte, und das bedeutete, dass es in der Sprache der Mathematik ausgedrückt werden musste. Für einen Computer ist ein Bild nur eine lange Zahlenfolge. Wenn dieses Bild ein 600×600 Pixel großes Raster ist, dann hat jedes Pixel eine Helligkeit mit einem Wert zwischen 0 (reines Schwarz) und 1 (reines Weiß). Solange Sie diese 360.000 (600 × 600) Zahlen kennen, wissen Sie, worum es in dem Bild geht. (Oder wissen Sie zumindest, wie es in Schwarzweiß aussieht.)

Die Strategie besteht darin, die 360.000 in den Computer eingegebenen Zahlen entweder in „Katze“ oder „keine Katze“ (oder „1“ oder „0“ in der Computersprache) umzuwandeln. Mathematisch ausgedrückt ist eine Strategie eine Funktion. Um der psychologischen Realität näher zu kommen, könnte die Ausgabe der Richtlinie eine Zahl zwischen 0 und 1 sein, die die Unsicherheit darstellt, die die Maschine ausdrücken möchte, wenn die Eingabe ein verschwommenes Bild eines Luchses oder eines Garfield-Kissens ist. Wenn die Ausgabe 0,8 ist, sollten wir sie wie folgt interpretieren: „Ich bin fast sicher, dass dies eine Katze ist, aber ich habe immer noch meine Zweifel.“

Ihre Richtlinie könnte beispielsweise eine Funktion sein, die besagt: „Geben Sie den Durchschnitt der 360.000 von Ihnen eingegebenen Zahlen aus.“ Wenn das Bild vollständig weiß ist, gibt die Funktion den Wert 1 zurück; Wenn das Bild vollständig schwarz ist, gibt die Funktion den Wert 0 zurück. Im Allgemeinen misst diese Funktion die durchschnittliche Gesamthelligkeit des Bildes auf Ihrem Computerbildschirm. Was hat das damit zu tun, ob es sich bei dem Bild um eine Katze handelt? Es spielt keine Rolle, ich habe nicht gesagt, dass es eine gute Strategie ist.

Wie messen wir den Erfolg einer Strategie? Am einfachsten gelingt dies, indem man beobachtet, wie sich der Computer, der mit 2.000 Bildern von Katzen und anderen Tieren trainiert wurde, als nächstes verhält. Für jedes Bild können wir der Richtlinie einen „Fehlerwert“ zuordnen (in der Praxis wird dies von Informatikern häufig als „Fehler oder Verlust“ bezeichnet). Wenn das Bild eine Katze zeigt und die Richtlinienausgabe 1 ist, beträgt der Fehlerwert 0, was bedeutet, dass die Antwort richtig ist. Wenn das Bild eine Katze zeigt und die Richtlinienausgabe 0 ist, beträgt der Fehlerwert 1, was das schlechteste mögliche Ergebnis ist. Wenn das Bild eine Katze zeigt und die Richtlinienausgabe 0,8 beträgt, ist die Antwort ungefähr richtig, aber mit einem Fehlerwert von 0,2 leicht unsicher. (Es gibt viele Möglichkeiten, Fehler zu messen. Dies ist zwar nicht die in der Praxis am häufigsten verwendete Methode, aber sie lässt sich leichter beschreiben.)

Indem Sie die Fehlerwerte aller 2.000 für das Training verwendeten Bilder addieren, erhalten Sie den Gesamtfehlerwert, der ein Maß für den Erfolg Ihrer Strategie ist. Ihr Ziel besteht darin, eine Strategie mit der geringstmöglichen Gesamtfehlerbewertung zu finden. Wie können Sie sicherstellen, dass Ihre Strategie keine Fehler macht? Hier kommt der Gradientenabstieg ins Spiel, denn jetzt wissen Sie, was es bedeutet, wenn die Richtlinie besser oder schlechter wird, wenn Sie Anpassungen vornehmen. Der Gradient misst, wie stark sich der Fehlerwert ändert, wenn Sie eine kleine Änderung an Ihrer Richtlinie vornehmen. Wählen Sie aus allen kleinen Änderungen, die Sie an Ihrer Police vornehmen könnten, diejenige aus, die zu der größten Reduzierung der Fehlerbewertung führt. Gradientenabstieg ist nicht nur etwas für Katzen; Es ist überall dort anwendbar, wo eine Maschine eine Richtlinie aus Erfahrung lernen soll.

Ich möchte die rechnerischen Herausforderungen hier nicht unterschätzen. Der Computer, der lernt, Katzen zu erkennen, hat sich wahrscheinlich eher mit Millionen von Bildern trainiert als nur mit 2.000. Dies bedeutet, dass zur Berechnung der Gesamtfehlerpunktzahl möglicherweise eine Million Fehlerpunktzahlen addiert werden müssen. Auch wenn Sie einen leistungsstarken Prozessor haben, kann dies eine Weile dauern! Daher verwenden wir in der Praxis häufig eine der Varianten des Gradientenabstiegs – den stochastischen Gradientenabstieg. Dieser Ansatz bringt unzählige kleine Änderungen und Fehlerwerte mit sich, die Grundidee ist jedoch folgende: Im ersten Schritt wählen Sie zufällig ein einzelnes Bild aus einer großen Menge von Trainingsbildern aus (beispielsweise ein Bild einer Angorakatze oder eines Aquariums) und führen dann den Schritt aus, der den Fehlerwert für dieses einzelne Bild minimiert, anstatt alle Fehlerwerte zu addieren. Wählen Sie im zweiten Schritt zufällig ein weiteres Bild aus und wiederholen Sie die obigen Schritte. Mit der Zeit (da dieser Prozess viele Schritte umfasst) können schließlich alle Bilder berücksichtigt werden.

Was mir am stochastischen Gradientenabstieg gefällt, ist, dass er verrückt klingt. Stellen Sie sich beispielsweise vor, der Präsident der Vereinigten Staaten sei dabei, eine globale Strategie zu entwickeln, und werde von einer Gruppe Untergebener umringt, die ihn anschreien, er solle seine Politik so anpassen, dass sie ihren eigenen Interessen dient. Der Präsident wählt jeden Tag eine zufällig ausgewählte Person aus, hört sich deren Rat an und nimmt entsprechende politische Änderungen vor. Dies ist eine absurde Art, ein großes Land zu regieren, aber für maschinelles Lernen funktioniert es hervorragend!

In unserer bisherigen Beschreibung fehlte ein wichtiges Element: Woher wissen Sie, wann Sie aufhören müssen? Das ist einfach, könnten Sie sagen, und wir können aufhören, wenn die von uns vorgenommenen kleinen Änderungen die Fehlerquote nicht verringern. Aber es gibt ein großes Problem: Möglicherweise haben Sie es gar nicht bis ganz nach oben geschafft!

Wenn Sie der glückliche Kletterer in Abbildung 2 wären und einen Schritt nach links oder einen Schritt nach rechts machen würden, würden Sie sehen, dass es in keiner der beiden Richtungen bergauf geht. Deshalb sind Sie glücklich: Sie denken, Sie haben den Gipfel erreicht!

Abbildung 2

Aber das ist nicht der Fall. Der wahre Gipfel ist noch weit entfernt und ein Gefälle kann Ihnen nicht dabei helfen, ihn zu erreichen. Sie befinden sich in einer Position, die Mathematiker als lokales Optimum bezeichnen. Dabei handelt es sich um eine Position, in der keine kleine Änderung zu einer Verbesserung führt, die aber weit von der wirklich besten Position entfernt ist.

Ich stelle mir lokale Optima gerne als ein mathematisches Modell der Prokrastination vor. Angenommen, Sie stehen vor einer langweiligen Aufgabe, beispielsweise dem Ordnen eines großen Stapels Dokumente, von denen die meisten mit einem Ziel in Zusammenhang stehen, das Sie schon seit Jahren zu erreichen versuchen. Wenn Sie sie wegwerfen, bedeutet das, dass Sie sich endgültig entschieden haben, aufzugeben und nicht weiter durchhalten werden. Gradient Descent schlägt Ihnen jeden Tag eine kleine Aktion vor, mit der Sie Ihr Glück für den Tag maximieren können. Macht es Ihnen Freude, diesen Papierstapel zu ordnen? Nein, im Gegenteil, es verursacht einem ein schlechtes Gefühl. Die Aufgabe um einen Tag zu verschieben ist die Anforderung der Gradientenabstiegsmethode an Sie. Der Algorithmus gibt Ihnen dann jeden Tag, den nächsten, den dritten, den vierten Tag usw. denselben Rat. Und schon tappen Sie in die Falle des lokalen Optimums – des Tals. Wer höhere Berge erklimmen will, muss die Zähne zusammenbeißen und das Tal durchqueren. Es kann ein langer Weg sein und Sie müssen zuerst hinuntergehen und dann hinaufklettern. Der Gradientenabstieg wird auch als „gieriger Algorithmus“ bezeichnet, da er in jedem Moment den Schritt wählt, der den kurzfristigen Nutzen maximiert. Gier ist eine der Hauptfrüchte vom Baum des Bösen, aber es gibt ein beliebtes Sprichwort über den Kapitalismus, das besagt: „Gier ist gut.“ Im Bereich des maschinellen Lernens wäre es zutreffender zu sagen, dass „Gier eine ziemlich gute Sache ist“. Der Gradientenabstieg kann Sie zu einem lokalen Optimum führen, aber das kommt in der Praxis seltener vor als in der Theorie.

Um das lokale Optimum zu umgehen, müssen Sie lediglich Ihre Gier vorübergehend beiseite legen. Alle guten Regeln haben Ausnahmen. Wenn Sie beispielsweise den Gipfel erreicht haben, können Sie einen anderen zufälligen Punkt auswählen und stattdessen den Gradientenabstieg neu starten. Wenn Sie jedes Mal am selben Ort landen, sind Sie zuversichtlicher, dass es der beste Ort ist. Wenn der Bergsteiger in Abbildung 2 von einem beliebigen Standort aus startet und einen Gradientenabstieg verwendet, ist es wahrscheinlicher, dass er den Gipfel des großen Berges erreicht, als dass er auf dem kleinen Berg stecken bleibt.

Im wirklichen Leben ist es schwierig, sich auf eine völlig zufällige Lebensposition zurückzusetzen. Es ist praktischer, von Ihrer aktuellen Position aus einen zufälligen großen Schritt zu machen, als gierig einen kleinen Schritt zu wählen. Dieser Ansatz reicht oft aus, um Sie in eine völlig neue Position zu bringen und Sie zum Höhepunkt Ihres Lebens zu katapultieren.

Habe ich recht oder unrecht?

Es gibt immer noch ein großes Problem. Wir haben uns gerne dazu entschlossen, alle möglichen kleinen Änderungen zu prüfen, um zu sehen, welche davon zum besten Farbverlauf führen würden. Wenn Sie Bergsteiger sind, stehen Sie vor einem klaren Problem: Sie wählen Ihren nächsten Zug in einem zweidimensionalen Raum, was der Auswahl eines der Kreise auf einem Kompass entspricht, und Ihr Ziel besteht darin, den Punkt mit der besten Steigung zu finden.

Tatsächlich aber stellen alle möglichen Strategien zur Bewertung von Katzenbildern einen unendlich großen Raum dar. Es gibt keine einheitliche Möglichkeit, alle Ihre Optionen zu berücksichtigen. Dies wird deutlich, wenn Sie es aus der menschlichen Perspektive und nicht aus der Perspektive einer Maschine betrachten. Angenommen, ich schreibe ein Selbsthilfebuch über Gradientenabstieg und sage Ihnen: „Wenn Sie Ihr Leben ändern wollen, ist es ganz einfach. Überlegen Sie sich alle Möglichkeiten, wie Sie Ihr Leben ändern können, und wählen Sie dann diejenige aus, die am wahrscheinlichsten funktioniert.“ Sie werden erstaunt sein, das zu lesen, denn die Möglichkeiten, wie Sie Ihr Leben ändern können, sind so umfangreich, dass es unmöglich ist, sie vollständig zu durchsuchen.

Was wäre, wenn Sie diesen unendlichdimensionalen Raum mithilfe einer außergewöhnlichen Methode der Selbstbeobachtung durchsuchen könnten? In diesem Fall haben Sie ein weiteres Problem, denn die folgende Strategie wird den Fehlerwert Ihrer bisherigen Lebenserfahrungen definitiv minimieren.

Strategie: Wenn die Entscheidung, die Sie treffen möchten, genau der gleichen ist wie eine Entscheidung, die Sie zuvor getroffen haben, betrachten Sie die Entscheidung, die Sie jetzt in Erwägung ziehen, als die richtige Entscheidung. Andernfalls werfen Sie eine Münze.

Wenn wir stattdessen das Computerlernen zum Erkennen von Katzen verwenden, wird die obige Strategie zu:

Strategie: Für Bilder, die während des Trainings als Katzen identifiziert wurden, geben Sie „Katze“ aus. Geben Sie für Bilder, die als Nicht-Katzenbilder identifiziert werden, „Nicht-Katze“ aus. Werfen Sie für die anderen Bilder eine Münze.

Diese Strategie hat einen Fehlerwert von 0! Der Computer gab für alle in seinem Training verwendeten Bilder die richtige Antwort. Aber wenn ich ihm ein Bild einer Katze zeige, die es noch nie zuvor gesehen hat, wirft es eine Münze. Wenn ich ihm ein Bild zeige und ihm sage, dass es eine Katze ist, ich das Bild aber um 0,01 Grad drehe, wirft es zur Entscheidung auch eine Münze. Wenn ich ihm ein Bild eines Kühlschranks zeige, wirft es immer noch eine Münze. Es kann lediglich die begrenzte Anzahl an Katzen- und Nicht-Katzenbildern, die ich ihm gezeigt habe, genau identifizieren. Das ist kein Lernen, sondern Auswendiglernen.

Wir haben zwei Möglichkeiten gesehen, wie Strategien scheitern können. In gewissem Sinne handelt es sich dabei um zwei Extreme.

1. Diese Strategie ist in vielen Situationen, denen Sie begegnen werden, falsch.

2. Diese Strategie funktioniert nur in Situationen, die Sie schon einmal erlebt haben, aber sie ist für neue Situationen nutzlos.

Das erste Problem wird als „Underfitting“ bezeichnet und bedeutet, dass Sie Ihre Erfahrungen bei der Formulierung Ihrer Strategie nicht voll ausschöpfen. Letzteres Problem nennt man „Overfitting“, also das übermäßige Verlassen auf die eigene Erfahrung. Wie finden wir einen Mittelweg zwischen diesen beiden nutzlosen Extremen? Die Antwort lautet: Machen Sie das Problem eher zu einer Art Bergsteigen. Kletterer haben nur eine sehr begrenzte Auswahl und das können wir auch, vorausgesetzt, wir schränken unsere eigene Auswahl ein.

Wir wissen das instinktiv. Wenn wir darüber nachdenken, wie wir unsere eigenen Lebensstrategien bewerten, verwenden wir häufig die Metapher der Wahl von Richtungen auf der Erdoberfläche, anstatt ziellos durch den unendlichdimensionalen Raum zu gehen. Der amerikanische Dichter Robert Frost verglich es mit „zwei auseinandergehenden Wegen“. Das Lied „Once in a Lifetime“ von den Talking Heads ist wie eine Fortsetzung von Frosts Gedicht „The Road Not Taken“, und wenn Sie es aufmerksam lesen, werden Sie feststellen, dass es in diesem Lied um Gradientenabstieg geht:

Sie fragen sich vielleicht

Wohin führt diese Straße?

Sie fragen sich vielleicht

Habe ich recht oder unrecht?

Sie könnten sich sagen

Oh mein Gott! Was habe ich getan?

Sie müssen Ihre Auswahl nicht auf nur einen Knopf beschränken.

Die lineare Regression ist eine der gängigsten Methoden zur Auswahl von Knöpfen. Die lineare Regression ist auch das Mittel der Wahl für Statistiker, wenn sie nach Strategien suchen, um eine Variable aus dem Wert einer anderen bekannten Variablen vorherzusagen. Beispielsweise möchte der Besitzer eines Baseballteams, das aufs Geld aus ist, vielleicht wissen, wie sehr sich die Gewinnquote seines Teams auf den Ticketverkauf auswirkt. Er möchte nicht zu viel Personal und Material in das Stadion investieren, es sei denn, diese Ressourcen können effektiv in Besucherzahlen umgewandelt werden.

Abbildung 3: Zuschauerzahlen bei Heimspielen im Vergleich zur Siegquote der Teams in der MLB-Saison 2019

Jeder Punkt in Abbildung 3 stellt ein Team dar. Die vertikale Achse stellt die Gewinnquote dieser Teams in der Saison 2019 dar und die horizontale Achse stellt die Zuschauerzahlen dieser Teams bei Heimspielen dar. Ihr Ziel besteht darin, eine Strategie zu finden, die die Zuschauerzahlen bei Heimspielen auf Grundlage der Siegquote einer Mannschaft vorhersagt. Dabei ist der Spielraum an Optionen, den Sie in Betracht ziehen können, klein und die darin enthaltenen Strategien sind alle linear.

Zuschauerzahl bei Heimspielen = Mysteriöse Zahl 1 × Gewinnquote der Mannschaft + Mysteriöse Zahl 2

Jede ähnliche Strategie entspricht einer geraden Linie im Diagramm und Sie hoffen, dass diese Linie Ihren Datenpunkten so genau wie möglich entspricht. Die beiden mysteriösen Zahlen sind die Knöpfe, an denen Sie drehen, um einen Gradientenabstieg durchzuführen, bis Sie den Gesamtfehlerwert Ihrer Richtlinie durch weitere Feinabstimmung nicht mehr senken können. (Der Fehlerwert, der hier am besten funktioniert, ist die Summe der Quadrate der Differenzen zwischen den Vorhersagen der linearen Strategie und den wahren Werten für alle Teams. Daher wird diese Methode oft als „Kleinste Quadrate“ bezeichnet. Kleinste Quadrate sind eine sehr alte und gut entwickelte Methode, mit der die beste Linie viel schneller gefunden werden kann als mit dem Gradientenabstieg, aber der Gradientenabstieg funktioniert trotzdem.)

Schließlich erhalten Sie eine gerade Linie wie in Abbildung 4.

Abbildung 4

Möglicherweise stellen Sie fest, dass selbst die Zeile mit der niedrigsten Fehlerbewertung einen erheblichen Fehler aufweist. Dies liegt daran, dass die meisten Beziehungen in der realen Welt nicht streng linear sind. Wir könnten versuchen, dies zu berücksichtigen, indem wir mehr Variablen als Eingabe einbeziehen (z. B. sollte die Größe des Stadions der Mannschaft eine korrelierte Variable sein), aber die letztendliche Wirksamkeit einer linearen Strategie wäre immer noch begrenzt. Mit dieser Strategie können Sie beispielsweise nicht feststellen, auf welchen Bildern Katzen zu sehen sind. In diesem Fall müssen Sie sich in die wilde Welt der Nichtlinearität wagen.

Deep Learning und neuronale Netzwerke

Im Bereich des maschinellen Lernens wird „Deep Learning“ als eine der wichtigsten Technologien entwickelt. Manchmal erscheint es der Menschheit als Prophet und vermittelt automatisch und in großem Umfang außergewöhnliche Erkenntnisse. Diese Technik hat einen Namen: „neuronales Netzwerk“, als ob diese Methode die Funktionsweise des menschlichen Gehirns irgendwie selbst erfassen könnte.

Aber das ist nicht der Fall. Wie Meredith Broussard sagt: Es ist bloß Mathematik, und nicht einmal die neueste Mathematik. Dieses Grundkonzept gab es bereits in den späten 1950er-Jahren, und in dem Stapel an Geschenken, den ich 1985 zu meiner Bar Mizwa bekam, erkennt man Ähnlichkeiten mit der Architektur neuronaler Netzwerke. Neben dem Scheck, einigen heiligen Gralen und über 20 Crosby-Stiften bekam ich auch das Geschenk, das sich meine Eltern am meisten gewünscht hatten – einen Yamaha DX21-Synthesizer, der noch immer in meinem Arbeitszimmer steht. Ich war sehr stolz, 1985 statt eines Keyboards einen Synthesizer zu haben. Mit dem DX21-Synthesizer lassen sich nicht nur Klavier-, Trompeten- und Geigenklänge spielen, sondern auch beliebige Töne erzeugen, sofern man sich mit den obskuren Inhalten des 70-seitigen Handbuchs, das viele Bilder wie das in Abbildung 5 gezeigte enthält, zurechtfindet.

Abbildung 5

Jedes „OP“-Feld stellt eine Synthesizerwelle dar und Sie können den Ton lauter oder leiser machen, mit der Zeit aus- oder einblenden usw., indem Sie die Knöpfe am Feld drehen. Dies sind alles alltägliche Dinge, aber die wahre Magie von DX21 liegt in seiner Verbindung mit dem Bediener. Abbildung 5 zeigt einen Rube-Goldberg-ähnlichen Prozess, bei dem die aus dem OP1 kommende Synthesizerwelle nicht nur von den Knöpfen abhängt, die Sie an der Box drehen können, sondern auch von der Ausgabe des OP2. Synth-Wellen können sich sogar selbst anpassen, eine Funktion, die durch den am OP4 angebrachten „Feedback“-Pfeil dargestellt wird. Durch Drehen einiger Knöpfe an jeder Box können Sie eine extrem große Bandbreite an Ausgängen erzielen. Dies gab mir die Möglichkeit, zu experimentieren und selbst neue Klänge zu kreieren.

Das neuronale Netzwerk ist meinem Synthesizer sehr ähnlich. Es handelt sich um ein Netzwerk, das aus mehreren kleinen Kästchen besteht, wie in Abbildung 6 dargestellt.

Abbildung 6

Alle Boxen funktionieren auf die gleiche Weise: Wenn ihnen eine Zahl größer oder gleich 0,5 zugeführt wird, geben sie 1 aus; andernfalls geben sie 0 aus. Die Idee, diese Box als Grundelement des maschinellen Lernens zu verwenden, wurde 1957–1958 vom Psychologen Frank Rosenblatt vorgeschlagen, der darin ein einfaches Modell der Funktionsweise von Neuronen sah. Die Box steht ruhig da und löst ein Signal aus, sobald sie einen Reiz empfängt, der einen bestimmten Schwellenwert überschreitet. Rosenblatt nannte diese Maschinen „Perceptrons“. Um diese Geschichte zu ehren, nennen wir diese Netzwerke aus künstlichen Neuronen immer noch „neuronale Netzwerke“, obwohl die meisten Menschen nicht mehr daran denken, dass sie die Hardware des menschlichen Gehirns simulieren.

Sobald die Zahl außerhalb des Felds liegt, bewegt sie sich entlang eines beliebigen Pfeils auf der rechten Seite des Felds. Jedem Pfeil ist eine Zahl zugeordnet, die als „Gewicht“ bezeichnet wird. Während die Ausgabe am Pfeil entlang saust, wird sie mit dem entsprechenden Gewicht multipliziert. Jedes Kästchen verwendet als Eingabe die Summe aller Zahlen, die von links hereinkommen.

Jede Spalte wird als Schicht bezeichnet und das Netzwerk in Abbildung 6 hat zwei Schichten. Die erste Ebene besteht aus zwei Feldern und die zweite Ebene aus einem Feld. Sie geben zunächst zwei Zahlen in das neuronale Netzwerk ein, die den beiden Kästchen in der ersten Ebene entsprechen. Hier sind einige mögliche Szenarien:

1. Beide Eingaben sind nicht kleiner als 0,5. Beide Kästchen in der ersten Ebene geben 1 aus, und wenn sich diese beiden Zahlen entlang der Pfeile bewegen, werden sie beide zu 1/3, sodass das Kästchen in der zweiten Ebene 2/3 als Eingabe erhält und 1 ausgibt.

2. Ein Eingang ist nicht kleiner als 0,5 und der andere Eingang ist kleiner als 0,5. Dann sind die beiden Ausgaben 1 und 0, sodass die Box in der zweiten Schicht 1/3 als Eingabe erhält und 0 ausgibt.

3. Beide Eingaben sind kleiner als 0,5. Dann geben beide Boxen in der ersten Ebene 0 aus und die Box in der zweiten Ebene gibt ebenfalls 0 aus.

Mit anderen Worten: Dieses neuronale Netzwerk ist eine Maschine, die zwei Zahlen als Eingabe entgegennimmt und Ihnen sagt, ob beide größer als 0,5 sind.

Abbildung 7 ist ein etwas komplexeres neuronales Netzwerk.

Abbildung 7

Die erste Schicht dieses neuronalen Netzwerks besteht aus 51 Feldern, und alle speisen Zahlen in das Feld in der zweiten Schicht ein. Die Gewichte der Pfeile sind jedoch unterschiedlich, das kleinste Gewicht beträgt 3/538 und das größte Gewicht beträgt 55/538. Was macht diese Maschine? Es verwendet 51 verschiedene Zahlen als Eingabe und aktiviert jedes Feld, bei dem die Eingabe größer als 0,5 ist. Anschließend führt es eine Gewichtungsberechnung für diese Felder durch und prüft, ob ihre Summe größer als 0,5 ist. Wenn ja, wird 1 ausgegeben; wenn nein, wird 0 ausgegeben.

Wir können es ein „zweischichtiges Rosenblatt-Perzeptron“ nennen, aber es hat einen geläufigeren Namen: „Electoral College System“. Die 51 Kästchen repräsentieren die 50 Bundesstaaten der USA und Washington, D.C. Wenn ein republikanischer Kandidat in einem Bundesstaat gewinnt, wird das Kästchen aktiviert, das diesen Bundesstaat repräsentiert. Addieren Sie die Wahlmännerstimmen aller dieser Staaten und dividieren Sie das Ergebnis durch 538. Wenn das Ergebnis größer als 0,5 ist, ist der republikanische Kandidat der Gewinner.

Abbildung 8 ist ein moderneres Beispiel, das sich nicht so einfach in Worte fassen lässt wie das Electoral College, aber viel näher an den neuronalen Netzwerken liegt, die die Fortschritte im maschinellen Lernen vorantreiben.

Abbildung 8

Die Box in Abbildung 8 ist komplexer als die Box für das Rosenblatt-Perzeptron. Die Box empfängt eine Zahl als Eingabe und gibt die größere dieser Zahl oder 0 aus. Mit anderen Worten: Wenn die Eingabe eine positive Zahl ist, gibt die Box diese Zahl unverändert aus. Wenn die Eingabe jedoch eine negative Zahl ist, gibt das Feld 0 aus.

Probieren wir dieses Gerät aus (siehe Abbildung 9). Angenommen, ich gebe zuerst 1 und 1 in die beiden Felder auf der äußersten linken Ebene ein. Beide Zahlen sind positiv, daher geben beide Felder in der ersten Ebene 1 aus. Sehen wir uns die zweite Ebene an. Die von der ersten Box empfangene Zahl ist 1×1 = 1, und die von der zweiten Box empfangene Zahl ist -1×1 = -1. In ähnlicher Weise sind die von der dritten und vierten Box auf der zweiten Ebene empfangenen Zahlen 1 bzw. -1. 1 ist eine positive Zahl, daher gibt die erste Box 1 aus. Die zweite Box empfängt jedoch einen negativen Eingang und kann nicht ausgelöst werden, daher gibt sie 0 aus. Ebenso gibt die dritte Box 1 und die vierte Box 0 aus.

Abb. 9

Als nächstes schauen wir uns die dritte Schicht an. Die vom oberen Kästchen empfangene Zahl ist 1×1+3×0+2×1+1×0=3, und die vom unteren Kästchen empfangene Zahl ist 3×1−1×0−5×1−1×0=−2. Die obere Box gibt also 3 aus, und die untere Box kann nicht ausgelöst werden und gibt 0 aus. Schließlich beträgt die Summe der beiden von der Box auf der vierten Ebene empfangenen Eingaben 1 × 3 + 1 × 0 = 3.

Auch wenn Sie auf diese Details nicht achten, spielt das keine Rolle. Wichtig ist, dass ein neuronales Netzwerk eine Richtlinie ist, die zwei Zahlen als Eingabe erhält und eine Zahl als Ausgabe zurückgibt. Verändert man die Gewichte der Pfeile, dreht man also an den 14 Knöpfen, ändert man die Strategie. Abbildung 9 bietet Ihnen einen vierzehndimensionalen Raum, der es Ihnen ermöglicht, auf Grundlage der vorhandenen Daten die am besten geeignete Strategie zu finden. Wenn Sie sich nur schwer vorstellen können, wie 14 Dimensionen aussehen, empfehle ich Ihnen, dem Rat von Geoffrey Hinton zu folgen, einem der Begründer der modernen Theorie neuronaler Netzwerke: „Stellen Sie sich einen dreidimensionalen Raum vor und sagen Sie laut zu sich selbst: ‚Das sind 14 Dimensionen.‘ Jeder sollte dazu in der Lage sein.“ Hinton stammt aus einer Familie von Enthusiasten für den hochdimensionalen Weltraum. Sein Urgroßvater Charles schrieb 1904 ein Buch darüber, wie man sich vierdimensionale Würfel vorstellt, und prägte zu ihrer Beschreibung das Wort „Tesserakt“. Ich weiß nicht, ob Sie jemals das Gemälde „Die Kreuzigung“ des spanischen Malers Salvador Dali gesehen haben, auf dem ein Hinton-Hyperwürfel zu sehen ist.

Die Gewichte des neuronalen Netzwerks in Abbildung 10 sind bekannt. Wenn ein Punkt (x, y) auf der Ebene innerhalb der grauen Form liegt, wird ihm ein Wert kleiner oder gleich 3 zugewiesen. Beachten Sie: Wenn der Punkt (1, 1) an der Grenze der grauen Form liegt, weist ihm die Richtlinie den Wert 3 zu.

Abb.10

Unterschiedliche Gewichte erzeugen unterschiedliche Formen, allerdings keine beliebigen. Aufgrund der Natur des Perzeptrons handelt es sich bei dieser Form immer um ein Polygon, also eine Form, deren Begrenzung aus mehreren Liniensegmenten besteht. (Heißt es im vorherigen Artikel nicht, dass dies nichtlinear sein sollte? Ja, aber das Perzeptron ist stückweise linear, was bedeutet, dass es in unterschiedlichen Raumbereichen unterschiedliche lineare Beziehungen erfüllt. Ein allgemeineres neuronales Netzwerk könnte stärker gekrümmte Ergebnisse erzeugen.)

Angenommen, ich markiere, wie in Abbildung 11 gezeigt, einige Punkte auf der Ebene mit X und andere mit O. Mein Ziel für die Maschine bestand darin, ihr eine Strategie beizubringen: den anderen unbeschrifteten Punkten auf der Ebene basierend auf den von mir beschrifteten Punkten X oder O zuzuweisen. Vielleicht (hoffentlich) kann ich eine Strategie entwickeln, indem ich diese 14 Knöpfe richtig einstelle, um allen mit einem X markierten Punkten große Werte und allen mit einem O markierten Punkten kleine Werte zuzuweisen, sodass ich fundierte Vermutungen über die nicht markierten Punkte auf der Ebene anstellen kann. Wenn es eine solche Richtlinie gäbe, würde ich hoffen, sie durch Gradientenabstieg zu erlernen: Drehen Sie jeden Knopf ein wenig, sehen Sie, um wie viel der Fehlerwert der Richtlinie für ein bestimmtes Beispiel abnimmt, finden Sie die Aktion, die am besten funktioniert, und implementieren Sie sie; wiederholen. Das „tief“ in Deep Learning bedeutet einfach, dass das neuronale Netzwerk viele Schichten hat. Die Anzahl der Kästen pro Schicht wird als „Breite“ bezeichnet und kann in der Praxis recht groß sein. Im Vergleich zu „Deep Learning“ fehlt „Width Learning“ jedoch ein Teil der Fachterminologie.

Abb.11

Natürlich sind die heutigen Deep-Learning-Netzwerke viel komplexer als die Diagramme oben, und die Funktionen in den Kästen sind viel komplexer als die einfachen Funktionen, die wir besprochen haben. Das RNN enthält auch Feedback-Boxen, wie das „OP4“ auf meinem DX21-Synthesizer, die ihren eigenen Ausgang als Eingang verwenden. Außerdem sind sie deutlich schneller. Wie wir sehen, gibt es das Konzept neuronaler Netzwerke schon seit langer Zeit, und ich erinnere mich, dass die Leute vor nicht allzu langer Zeit dachten, dieser Weg sei einfach nicht machbar. Aber es stellt sich heraus, dass es eine großartige Idee ist. Nur muss die Hardware mit dem Konzept Schritt halten. GPU-Chips, die für die schnelle Darstellung von Spielgrafiken entwickelt wurden, erwiesen sich später als ideales Werkzeug für das schnelle Training großer neuronaler Netzwerke und halfen Experimentatoren, die Tiefe und Breite neuronaler Netzwerke zu erhöhen. Mit modernen Prozessoren sind Sie nicht mehr auf 14 Knöpfe beschränkt, sondern können Tausende, Millionen oder sogar mehr manipulieren. GPT-3 generiert überzeugende englische Texte mithilfe eines neuronalen Netzwerks mit 175 Milliarden Knöpfen.

Ein Raum mit 175 Milliarden Dimensionen klingt riesig, verblasst jedoch im Vergleich zur Unendlichkeit. Ebenso erforschen wir im Vergleich zum Raum aller möglichen Strategien nur einen winzigen Bruchteil davon. In der Praxis scheint es jedoch auszureichen, um Text zu generieren, der aussieht, als wäre er von einem Menschen geschrieben worden, genauso wie das kleine Netzwerk von DX21 ausreicht, um die Klangfarben von Trompeten, Celli und Weltraumblitzen zu simulieren.

Das ist schon sehr überraschend, aber dahinter steckt ein noch tieferes Geheimnis. Denken Sie daran: Die Idee des Gradientenabstiegs besteht darin, den Knopf so lange zu drehen, bis das neuronale Netzwerk bei den Datenpunkten, mit denen es trainiert wurde, die bestmögliche Leistung erbringt. Heutige neuronale Netzwerke verfügen über so viele Regler, dass sie bei einem Trainingssatz oft eine perfekte Leistung erbringen und jedes der 1.000 Katzenbilder als „Katze“ und alle anderen 1.000 Bilder als „keine Katze“ klassifizieren.

Tatsächlich muss an so vielen Knöpfen gedreht werden, dass der Spielraum für mögliche Strategien, um die Trainingsdaten hundertprozentig korrekt zu erhalten, enorm ist. Es stellt sich heraus, dass die meisten dieser Strategien schlecht funktionieren, wenn das neuronale Netzwerk mit Bildern konfrontiert wird, die es noch nie zuvor gesehen hat. Allerdings kommt der dumme und gierige Gradientenabstieg bei manchen Strategien häufiger vor als bei anderen, und in der Praxis scheinen sich die durch den Gradientenabstieg bevorzugten Strategien leichter auf neue Beispiele übertragen zu lassen.

Warum? Was macht diese besondere Form neuronaler Netzwerke so gut für die Lösung einer großen Bandbreite von Lernproblemen? Warum enthält dieser kleine Bereich des politischen Raums, den wir durchsucht haben, eine gute Politik?

Soweit ich weiß, ist es ein Rätsel. Ehrlich gesagt gibt es große Kontroversen darüber, ob es sich um ein Mysterium handelt oder nicht. Ich habe diese Frage vielen berühmten Forschern auf dem Gebiet der künstlichen Intelligenz gestellt und sie alle haben sie eloquent beantwortet. Einige von ihnen erklärten die Gründe sehr selbstbewusst, aber jeder hatte eine andere Geschichte.

Über den Autor

Jordan Stuart Ellenberg (1971 -), ein amerikanischer Mathematiker, erhielt seinen Ph.D. von der Harvard University im Jahr 1998 und ist derzeit John D. MacArthur-Professor an der University of Wisconsin-Madison. Seine Hauptforschungsgebiete sind algebraische Geometrie und Zahlentheorie. Er hat viele Science Communication Awards gewonnen und Bücher veröffentlicht, wie z. B. wie nicht falsch, Form und der Roman The Grasshopper King. Seine Werke sind oft im Wall Street Journal, der New York Times, Slate, Kabel usw. zu sehen.

Dieser Artikel ist berechtigt, aus Kapitel 7 "Maschinelles Lernen wie ein Berg" von "The Power of Geometry" (Citic Press · Nautilus, 2023.3) mit einigen Löschungen auszuziehen.

<<:  Kann Sitzen tödlich sein? Achtung, Menschen, die lange sitzen, Vorsicht vor Blutgerinnseln

>>:  Lasst uns am 1. Mai zusammen grillen? Werfen wir zunächst einen Blick auf die weniger bekannten Fakten zum Grillen

Artikel empfehlen

Ist Hula-Hoop zum Abnehmen sinnvoll?

Abnehmen ist ein ewiges Thema unter Frauen, die S...

Heute würdigen wir den alten Mann!

Heute vor 4 Jahren 16. Januar 2019 Yu Min, der He...

PC-Geschäft herabgestuft Intel-Server übernehmen zuerst 10-nm-Prozess

Intel prognostiziert, dass PC-Chips in fünf Jahren...

Kann das abendliche Yoga-Training beim Abnehmen helfen?

Frauen wollen eine gute Figur haben und auf jeden...

Was ist Yoga zum Abnehmen von Bauchfett?

Die meisten Männer haben das Gefühl, dass ihr Bau...

Was lernen Kinder während ihrer langen Kindheit? Wie lernt man? Entrollen

Kognitive Kontrolle ist keine psychologische Funk...