Eine kurze Diskussion über die Deep-Learning-Technologie hinter AlphaGo

Einleitung: Es gibt viele Kommentarartikel zu Alfa Go, aber nicht viele davon können wirklich mit dem Entwicklungsteam kommunizieren. Ich möchte Freunden von DeepMind, dem Alfa Go-Entwicklungsteam, für ihre Aufmerksamkeit und Diskussion zum Inhalt dieses Artikels danken. Sie wiesen darauf hin, dass die Formulierung, die ich in der vorherigen Version des Artikels verwendet hatte, nicht präzise genug war, daher habe ich hier einige Anpassungen vorgenommen. Die „Gesamtsituation“, die ich in meinem vorherigen Artikel erwähnt habe, bezieht sich auf das gesamte Spiel über verschiedene Zeitpunkte hinweg und kann leicht mit dem gesamten Schachbrett zu einem bestimmten Zeitpunkt verwechselt werden. Daher werde ich sie später alle in „Gesamtschachspiel“ ändern. Darüber hinaus ist es im Hinblick auf die Gesamtbewertung von Schachspielen zusätzlich zu dem durch Offline-Daten erlernten Bewertungsnetzwerk auch möglich, die Unterschiede zwischen verschiedenen Strategien in Echtzeit basierend auf dem aktuellen Status zu berechnen (diese Technologie wird als Rollout bezeichnet). Durch das Zwischenspeichern der Berechnungsergebnisse kann es auch die Auswirkungen des gesamten Schachspiels lokal berücksichtigen. Nochmals vielen Dank an unsere Freunde bei DeepMind für ihre Kommentare.

Nachdem die Menschheit heute drei Spiele in Folge gegen AlphaGo verloren hat, ist es für alle ein guter Zeitpunkt, die in AlphaGo verwendete Deep-Learning-Technologie besser zu verstehen (anstatt sich die Panik bei Ultrons Ankunft in den Avengers vorzustellen). Bevor ich die Deep-Learning-Technologie von Alpha Go erkläre, möchte ich zunächst einige einfache Fakten zusammenfassen, um die häufigsten Missverständnisse auszuräumen:

●Die Technologie, die AlphaGo dieses Mal verwendet, unterscheidet sich grundlegend von der von Deep Blue. Es werden keine rohen Gewaltmethoden mehr eingesetzt, um Menschen zu besiegen.

●Ja, AlphaGo kann durch Deep Learning abstraktere Konzepte erfassen, Computer verfügen jedoch noch immer nicht über Selbstbewusstsein und Denkvermögen.

●AlphaGo versteht die Ästhetik und Strategie von Go nicht, es hat lediglich zwei schöne und leistungsstarke Funktionen gefunden, um seine Züge zu bestimmen.

Was sind neuronale Netze?

Tatsächlich handelt es sich bei neuronalen Netzwerken um eine sehr alte Technologie. Im Jahr 1943 schlugen Warren McCulloch und Walter Pitts erstmals das mathematische Modell der Neuronen vor. Später im Jahr 1958 schlug der Psychologe Rosenblatt das Konzept des Perzeptrons vor und fügte der Struktur der ehemaligen Neuronen einen Mechanismus zum Trainieren und Modifizieren von Parametern (auch als Lernen bekannt) hinzu. Zu diesem Zeitpunkt war der grundlegende theoretische Rahmen des neuronalen Netzwerks fertiggestellt. Die Neuronen in einem neuronalen Netzwerk sammeln tatsächlich verschiedene Signale vom Frontend (ähnlich den Dendriten eines Nervs), addieren dann die Gewichte der einzelnen Signale, wandeln sie dann durch eine Aktivierungsfunktion in neue Signale um und senden sie aus (ähnlich den Axonen eines Neurons).

Beim neuronalen Netzwerk sind die Neuronen in Reihe geschaltet. Wir können sie in die Eingabeschicht (die die Eingabevariablen darstellt), die Ausgabeschicht (die die vorherzusagenden Variablen darstellt) und die verborgene Schicht in der Mitte unterteilen, die verwendet wird, um die Komplexität der Neuronen zu erhöhen, sodass komplexere Funktionskonvertierungsstrukturen simuliert werden können. Jedes Neuron hat eine Verbindung untereinander, wobei jedes Neuron ein Gewicht hat, um die Gewichtung des Signals zu handhaben.

Bei der herkömmlichen neuronalen Netzwerktechnologie werden Gewichte nach dem Zufallsprinzip zugewiesen und anschließend mithilfe rekursiver Berechnungen die Gewichte auf Grundlage der eingegebenen Trainingsdaten nach und nach geändert, um die Gesamtfehlerrate zu minimieren. Mit der Entwicklung von Technologien wie Rückleitungsnetzwerken und unüberwachtem Lernen wurden neuronale Netzwerke damals populär, doch die Menschen stießen bald auf Schwierigkeiten, nämlich auf unzureichende Rechenleistung. Denn wenn nur eine verborgene Schicht vorhanden ist, ist der Klassifizierungsvorhersageeffekt des neuronalen Netzwerks in den meisten Fällen nicht viel schlechter als bei der herkömmlichen statistischen logistischen Regression, verbraucht jedoch mehr Rechenleistung. Mit der Zunahme der Neuronen der verborgenen Schicht oder der Zunahme der verborgenen Schichten steigt jedoch die Anzahl der zu berechnenden Gewichte dramatisch an. Ende der 1980er Jahre erlebte die gesamte Forschung zu neuronalen Netzwerken einen kalten Winter. Die geringe Leistung spüren Sie vielleicht nur in der Waschmaschine (mittlerweile nutzen viele Waschmaschinen neuronale Netze, um die Wassermenge und Laufzeit anhand der eingefüllten Wäsche zu berechnen). Ehrlich gesagt galten neuronale Netzwerke nicht als besonders leistungsstark.

Dieser kalte Winter dauerte bis 2006, als das Team von Hinton und Lecun das Papier „Ein schneller Lernalgorithmus für tiefe Glaubensnetze“ vorlegte und endlich Hoffnung auf eine Erholung bestand. Ihr Standpunkt war, dass die Rechenzeit des neuronalen Netzwerks erheblich verkürzt werden könnte, wenn die Gewichte der Neuronen in einem neuronalen Netzwerk nicht zufällig zugewiesen würden. Die von ihnen vorgeschlagene Methode bestand darin, unüberwachtes Lernen neuronaler Netzwerke zu verwenden, um die anfänglichen Gewichte des neuronalen Netzwerks zuzuweisen. Da alle Zeitschriften damals Artikel mit dem Wort „neuronales Netzwerk“ grundsätzlich als Müll betrachteten und nicht veröffentlichten, schlugen sie als Durchbruch den neuen Begriff „Deep Learning“ vor. Zusätzlich zu Hintons Bemühungen können wir dank der Wirkung des Mooreschen Gesetzes schnellere Rechenleistung nutzen. Später verwendete Hinton diese Methode mit GPU-Computing im Jahr 2010, um die Rechengeschwindigkeit der Spracherkennung um mehr als das 70-fache zu erhöhen. Eine neue Welle des Deep Learning kam 2012, als Deep Learning zum ersten Mal am ImageNet-Wettbewerb teilnahm (es gab 1,2 Millionen Fotos als Trainingsgruppe, 50.000 Fotos als Testgruppe und 1.000 Kategorien waren erforderlich). Die Fehlerquote, die sich in den vergangenen Jahren nur geringfügig verändert hatte, konnte von 26 % auf 15 % gesenkt werden. Ein im selben Jahr vom Microsoft-Team veröffentlichtes Dokument zeigte, dass sie die Fehlerrate des ImageNet 2012-Datensatzes durch Deep Learning auf 4,94 % reduzierten, was unter der menschlichen Fehlerrate von 5,1 % liegt. Letztes Jahr (2015) gewann Microsoft erneut die ImageNet 2015-Meisterschaft und die Fehlerrate war auf ein ultraniedriges Niveau von 3,57 % gesunken. Microsoft verwendete ein 152-schichtiges Deep-Learning-Netzwerk (ich war zu Tode erschrocken, als ich diese Zahl sah) …

Faltungsneuronales Netzwerk

Bei der Bilderkennung haben wir es mit einer zweidimensionalen neuronalen Netzstruktur zu tun. Bei einem 100 x 100 Pixel großen Bild sind die Eingabedaten tatsächlich ein Vektor mit 10.000 Pixeln (dies ist immer noch ein Graustufenbild, bei einem Farbbild sind es 30.000). Wenn die Neuronen in der verborgenen Schicht denen in der Eingabeschicht entsprechen, müssen wir 10 hoch 8 Gewichte berechnen. Allein der Gedanke an diese Zahl bereitet Kopfschmerzen und ist wahrscheinlich selbst durch Parallelrechnen oder verteiltes Rechnen schwer zu erreichen. Daher weisen Faltungs-Neuronale Netze auf zwei sehr wichtige Punkte hin:

1. Lokaler rezeptiver Bereich: Aus menschlicher Sicht sollten weiter entfernte Pixel unsere Sicht nicht beeinträchtigen, wenn unser Blick auf eine Ecke eines Bildes fokussiert ist. Daher besteht das Konzept der lokalen rezeptiven Domäne darin, dass Pixel mit benachbarten Pixeln verbunden sein müssen. Auf diese Weise kann die Anzahl der neuronalen Verbindungen, die wir berechnen müssen, erheblich reduziert werden. Beispielsweise muss ein Neuron mit den benachbarten 10*10 Pixeln verbunden werden, sodass unsere Berechnung von 10 hoch 8 auf 100*100*(10*10)=10 hoch 6 reduziert werden kann.

2. Gewichtsverteilung: Aber 10 hoch 6 ist immer noch viel, daher ist das zweite Konzept, das jetzt eingeführt wird, die Gewichtsverteilung. Da das menschliche Auge die absolute Position der Pixel auf einem Bild nicht erkennt, können wir das Bild auch dann noch verstehen, wenn es verschoben oder in seiner Position geändert wird. Dies bedeutet, dass die Gewichte, die ich aus einem lokalen Bereich (z. B. einem 10 * 10-Faltungskern) trainiert habe, auf alle Positionen des Fotos anwendbar sein sollten. Das heißt, die in diesem 10*10-Bereich erlernten Merkmale können in einen Filter umgewandelt und auf den gesamten Bildbereich angewendet werden. Durch die Gewichtsteilung werden dem 10*10-Faltungskern dieselben Gewichte zugewiesen. Ein Faltungskernel kann als Merkmal verstanden werden, sodass im neuronalen Netzwerk mehrere Faltungskerne entworfen werden können, um mehr Merkmale zu extrahieren. Die folgende Abbildung ist ein schematisches Diagramm eines 3*3-Faltungskernels, der Merkmale aus einem 5*5-Foto extrahiert.

Nachdem die Faltungsschicht die Merkmale gefunden hat, können diese als Eingabevariablen zum Trainieren des Klassifizierungsmodells eines allgemeinen neuronalen Netzwerks verwendet werden. Wenn die Netzwerkstruktur jedoch immer komplexer wird und die Anzahl der Stichproben nicht extrem groß ist, kann es leicht zu einem Überanpassungsproblem kommen (das neuronale Netzwerk merkt sich die Struktur der Modelldaten, anstatt Regeln zu finden). Aus diesem Grund haben wir später das Konzept des Poolings oder Subsamplings eingeführt. Dabei werden die kleinen n * n-Bereiche im Faltungskern zusammengefasst, um die wichtigsten Merkmale dieses Bereichs hervorzuheben und so das Problem des Überlernens zu vermeiden.

Daher verwendet die gängige Bilderkennungstechnologie (wie ImageNet) eine Kombination aus mehrstufigen Faltungsschichten + Pooling-Schichten und stellt schließlich eine Verbindung zu einer allgemeinen neuronalen Netzwerkarchitektur zur Klassifizierungsvorhersage her. Die folgende Abbildung ist ein Beispiel für Bilderkennung. Unter diesen sind C2, C4 und C6 Faltungsschichten, während S3 und S5 Pooling-Schichten sind. Faltungsneuronale Netzwerke konstruieren eine neuronale Netzwerktechnologie, die abstrakte Probleme durch zweidimensionale Matrizen löst. Für die Bilderkennung ist nicht mehr wie früher eine manuelle Identifizierung von Bildmerkmalen erforderlich, damit neuronale Netzwerke lernen können. Stattdessen können sie durch die Faltungsnetzwerkstruktur selbst Merkmale aus den Daten identifizieren. Je mehr Faltungsschichten vorhanden sind, desto höherwertiger und abstrakter sind die Merkmale, die identifiziert werden können. Wenn Sie also ein neuronales Netzwerk trainieren möchten, um Katzen oder Hunde anhand von Fotos zu erkennen, müssen Sie die charakteristischen Annotationen von Katzen oder Hunden nicht mehr selbst finden. Stattdessen müssen Sie dem neuronalen Netzwerk lediglich eine große Anzahl von Fotos von Katzen oder Hunden geben, und es findet die abstrakte Definition von Katzen oder Hunden von selbst.

Sind Ihnen Ähnlichkeiten zwischen der Bilderkennung mithilfe von Convolutional Neural Networks und Go aufgefallen? Ja, Go ist eine 19 x 19 Quadrate große Anordnung und die Regeln von Go sind nicht so klar wie die von Schach oder Dame. Außerdem ist ein sehr hohes Maß an Intuition erforderlich, um die Platzierung der Figuren zu beurteilen. Deep Learning kann derzeit eine äußerst effektive Rolle spielen, da Programmierer die Go-Spielregeln nicht selbst in den Computer eingeben müssen. Es kann die entsprechende Logik und die abstrakten Konzepte anhand einer großen Anzahl von Schachaufzeichnungen finden.

Warum ist Go schwierig?

Warum kann Deep Blue Menschen im Schach schlagen, aber nicht im Go? Dies liegt daran, dass Deep Blue seine enorme Rechenleistung nutzt, um durch den Aufbau einer Baumstruktur zukünftiger Situationen die Möglichkeit zukünftiger Gewinne und Verluste abzuleiten. Sie sollten jedoch wissen, dass der Verzweigungsfaktor beim Schach bzw. chinesischen Schach etwa 40 beträgt. Das bedeutet, dass zum Vorhersagen der nächsten 20 Züge eine Berechnung von 40 hoch 20 erforderlich ist (wie groß ist das? Selbst mit einem 1-GHz-Prozessor würde die Berechnung 3486528500050735 Jahre dauern. Bitte beachten Sie, dass dies immer noch ein relativ einfaches Schachspiel ist). Daher verwendete er Algorithmen wie den MinMax-Suchalgorithmus und die Alpha-Beta-Pruning-Methode, um den möglichen Berechnungsbereich zu reduzieren. Grundsätzlich wird basierend auf der Gewinnrate der oberen Ebene der mögliche Gewinnanteil auf mehreren Ebenen berechnet, der Verlustanteil wird weniger berechnet und es erfolgt keine Berechnung, unabhängig davon, ob gewonnen oder verloren wurde. Um die beste Strategie zu finden, wird die Brute-Force-Problemlösungsmethode verwendet. Leider beträgt der Verzweigungsfaktor von Go 250. Bei einem 19*19 Go-Array gibt es 361 Plätze für die Spielsteine, sodass die Gesamtzahl der Permutationen und Kombinationen des gesamten Go-Spiels 10 hoch 171 beträgt. Zahlreiche Berichte besagen, dass dies mehr ist als die Anzahl der Atome im Universum. Dies basiert auf einer alten Studie, die besagt, dass die Anzahl der Atome im Universum 10 hoch 75 beträgt. Aber ich habe darüber nur gelacht. Ich denke, dass hier auch die Größe des Universums unterschätzt wird.

Der Hauptmechanismus von AlphaGo

In Bezug auf die Architektur kann man sagen, dass AlphaGo über zwei Gehirne verfügt, zwei unabhängige Netzwerke mit nahezu identischen neuronalen Netzwerkstrukturen: das Richtliniennetzwerk und das Bewertungsnetzwerk. Diese beiden Netzwerke bestehen grundsätzlich aus einem 13-schichtigen Convolutional Neural Network mit einer Convolution-Kernel-Größe von 5*5. Sie sind also grundsätzlich dasselbe wie Bilderkennungs-Neural Networks, die auf Pixel mit fester Länge und Breite zugreifen, mit der Ausnahme, dass wir den Eingabewert der Matrix durch den Platzierungsstatus jedes Koordinatenpunkts auf dem Schachbrett ersetzen.

Das erste Gehirn, das „Strategienetzwerk“, ist im Grunde ein einfacher überwachter Lernalgorithmus, der verwendet wird, um die wahrscheinlichste Zugposition des Gegners zu bestimmen. Er nutzte eine große Anzahl von Schachaufzeichnungen professioneller Schachspieler aus aller Welt, um die wahrscheinlichste Position der Züge seines Gegners vorherzusagen. In diesem Netzwerk müssen Sie überhaupt nicht ans „Gewinnen“ denken, Sie müssen lediglich in der Lage sein, die Züge Ihres Gegners vorherzusagen. Derzeit liegt die Genauigkeitsrate von AlphaGo bei der Vorhersage der Zugpositionen des Gegners bei 57 % (dies waren die Daten zum Zeitpunkt der Veröffentlichung des Nature-Artikels und sind jetzt wahrscheinlich noch höher). Sie denken vielleicht, dass die Schwäche von AlphaGo in seinem Strategienetzwerk liegt. Einerseits ist die Vorhersagegenauigkeit nicht hoch. Wenn es andererseits ein Spiel spielt, das es noch nie zuvor gesehen hat, wird es dann eine Chance haben, es zu gewinnen? Leider ist dies nicht der Fall, da das Richtliniennetzwerk von AlphaGo auf zwei Ebenen erweitert wurde. Die erste Ebene verwendet eine Technologie namens Reinforced Learning (RL) Policy Network. Dabei wird zunächst ein Teil der Beispiele verwendet, um eine Basisversion des Richtliniennetzwerks zu trainieren, und anschließend eine erweiterte Version des Richtliniennetzwerks unter Verwendung vollständiger Beispiele. Anschließend werden die beiden Netzwerke gegeneinander ausgespielt. Die erweiterte Version des Richtliniennetzwerks entspricht dem „Master“, der vor der Basisversion steht. Daher kann sich das Basisnetzwerk schnell mit den Positionsdaten der möglichen Bewegungen des Masters vertraut machen und dann eine erweiterte Version erstellen. Diese erweiterte Version wird zum „Master“ der ursprünglichen erweiterten Version. Durch die Wiederholung dieses Korrekturzyklus kann die Vorhersage der Züge des Gegners (Meisters) kontinuierlich verbessert werden. Die zweite Ebene besteht darin, dass das aktuelle Richtliniennetzwerk nicht mehr die wahrscheinlichste Position im 19*19-Raster finden muss. Das verbesserte Richtliniennetzwerk kann zunächst einige Bereiche durch den Faltungskernel von der Berechnung ausschließen und dann basierend auf den verbleibenden Bereichen die wahrscheinlichste Position finden. Obwohl dies die Leistung des Richtliniennetzwerks von AlphaGo verringern kann, kann dieser Mechanismus die Berechnungsgeschwindigkeit von AlphaGo um mehr als das 1.000-fache erhöhen. Gerade weil Alpha Go die möglichen Züge des Gegners auf der Grundlage der Gesamtsituation errät, sind die Tricks der Menschen, wie etwa das absichtliche Ausführen einiger Züge in der Hoffnung, die Züge des Computers zu stören, eigentlich bedeutungslos.

Das zweite Gehirn ist das Bewertungsnetzwerk. Im Bewertungsnetzwerk liegt der Schwerpunkt eher auf der „endgültigen“ Gewinnrate jeder Zugposition unter der aktuellen Situation (das ist, was ich das gesamte Schachspiel nenne) als auf kurzfristiger Belagerung und Eroberung. Mit anderen Worten: Das Strategienetzwerk ist ein Klassifizierungsproblem (wo wird der Gegner seinen Einsatz platzieren) und das Bewertungsnetzwerk ist ein Bewertungsproblem (wie hoch ist meine Gewinnchance, wenn ich meinen Einsatz hier platziere). Das Bewertungsnetzwerk ist kein Bewertungsmechanismus für eine exakte Lösung, da die Berechnung der exakten Lösung eine enorme Menge an Rechenleistung verbrauchen kann. Daher handelt es sich nur um ein ungefähres Lösungsnetzwerk, und die durchschnittliche Gewinnrate des Faltungskernbereichs wird über ein Faltungsneuronales Netzwerk berechnet (der Zweck dieses Ansatzes besteht hauptsächlich darin, die Bewertungsfunktion zu glätten und das Problem des Überlernens zu vermeiden). Die endgültige Antwort wird dem endgültigen Monte-Carlo-Suchbaum überlassen. Natürlich hängt die hier erwähnte Gewinnrate von der Anzahl der Abwärtsvorhersageschritte ab. Je mehr Abwärtsvorhersageschritte es gibt, desto komplexer wird die Berechnung. AlphaGo verfügt derzeit über die Fähigkeit, die Anzahl der Vorhersageschritte zu beurteilen, die erweitert werden müssen. Aber wie können wir sicherstellen, dass frühere Stichproben die Gewinnrate richtig widerspiegeln und nicht durch die vorherige Einschätzung der Stärke der beiden Spieler beeinflusst werden (vielleicht gewinnt man an einer bestimmten Stelle nicht, weil man dort gewinnen sollte, sondern weil diese Person stärker ist). Sie lösten dieses Problem, indem sie zwei AlphaGo-Maschinen gegeneinander spielen ließen. Da die Stärke der beiden AlphaGo-Maschinen als gleich angesehen werden kann, hat der endgültige Sieg oder die Niederlage nichts mit der Stärke der beiden ursprünglichen Spieler zu tun, sondern hängt von der Position des nächsten Zuges ab. Daher wird das Bewertungsnetzwerk nicht durch die bekannten Schachrekorde der Welt trainiert, da menschliche Schachspiele von der Stärke beider Seiten beeinflusst werden. Bei der Zwei-gegen-Eins-Methode umfassten die von der Trainingsgruppe verwendeten Stichproben beim Spiel gegen den europäischen Schachkönig nur 30 Millionen Schachrekorde, beim Spiel gegen Lee Sedol stieg die Zahl jedoch auf 100 Millionen. Da Menschen stundenlang Schach spielen können, AlphaGo jedoch mehrere Spiele in einer Sekunde absolvieren kann, können mit dieser Methode schnell korrekte Bewertungsbeispiele gesammelt werden. Daher wird der Bewertungsmechanismus, der zuvor als größte Schwierigkeit beim maschinellen Go-Spielen erwähnt wurde, durch Convolutional Neural Networks gelöst.

Das letzte Glied der AlphaGo-Technologie ist der Monte-Carlo-Suchbaum. Im Vergleich zur zuvor von Deep Blue verwendeten Suche (mit dem MinMax-Suchalgorithmus und der Alpha-Beta-Beschneidungsmethode, die hier nicht näher erläutert werden) ist es unmöglich, die alte Methode anzuwenden, da wir nicht über unendliche Rechenleistung verfügen (bitte beachten Sie, dass der Monte-Carlo-Suchbaum bei endlichen Permutationen und Kombinationen zwar eine umfassende Auswertung aller Kombinationen durchführen kann, dies jedoch im Kontext von Go nicht möglich ist. Selbst wenn dies getan wird, würde es wahrscheinlich zu einer erheblichen Erhöhung der Rechenzeit führen). Allerdings kann AlphaGo im bisherigen Strategie-Netzwerk und Bewertungs-Netzwerk bereits die Möglichkeiten des nächsten Zuges (inkl. des Gegners) auf einen kontrollierbaren Bereich eingrenzen. Anschließend kann es mithilfe des Monte-Carlo-Suchbaums schnell die beste Lösung aus den begrenzten Kombinationen berechnen. Im Allgemeinen besteht der Monte-Carlo-Suchbaum aus vier Schritten:

1. Auswahl: Wählen Sie zunächst basierend auf der aktuellen Situation mehrere mögliche Zugmodi des Gegners aus.

2. Erweitern: Erweitern Sie basierend auf den Zügen des Gegners zum Zugmuster mit der höchsten Gewinnchance (wir nennen das einen Monte-Carlo-Baum erster Ordnung). Daher werden im Suchbaum von AlphaGo nicht alle Kombinationen tatsächlich erweitert.

3. Bewertung: Wie bewertet man die beste Aktion (wohin sollte AlphaGo den Zug machen?). Eine Möglichkeit besteht darin, das Spiel an das Bewertungsnetzwerk weiterzuleiten, um die Gewinnchancen zu bewerten. Die zweite Möglichkeit besteht darin, einen tieferen Monte-Carlo-Baum zu erstellen (der mehrere weitere mögliche Ergebnisse vorhersagt). Die Ergebnisse dieser beiden Methoden können völlig unterschiedlich sein. AlphaGo verwendet einen Mischungskoeffizienten, um die beiden Auswertungsergebnisse zu integrieren. Der derzeit in Nature veröffentlichte Mischungskoeffizient beträgt 50 %-50 % (ich vermute aber, dass dies in der Realität definitiv nicht der Fall ist).

4. Rückwärtsleitung: Nachdem wir unsere beste Aktionsposition ermittelt haben, verwenden wir diese Position schnell, um den möglichen nächsten Schritt des Gegners durch das Richtliniennetzwerk und die entsprechende Suchbewertung zu bewerten. Das Erschreckendste an AlphaGo ist, dass, als Lee Sedol überlegte, welchen Zug er machen sollte, AlphaGo nicht nur seinen möglichen Zug bereits erraten hatte, sondern die Zeit, die er zum Nachdenken brauchte, auch dazu nutzte, den nächsten Zug weiter zu berechnen.

Laut dem tatsächlichen Test des AlphaGo-Teams kann das Amateurniveau erreicht werden, wenn nur ein Gehirn oder die Monte-Carlo-Suchbaumtechnologie verwendet wird (die Stärke des europäischen Schachkönigs Fan Mo liegt bei etwa 2500 bis 2600 und die von Lee Sedol über 3500). Doch wenn diese Technologien integriert werden, werden sie noch leistungsfähiger. Als der Artikel in Nature veröffentlicht wurde, lag seine geschätzte Stärke jedoch nur bei etwa 3–4 Dan (Lee Sedol hat 9 Dan). Wie bereits erwähnt, stärkte er jedoch das Strategienetzwerk durch verbesserte Technologie und optimierte das Bewertungsnetzwerk durch zwei AlphaGo-Maschinen, wodurch er in kurzer Zeit stärker werden konnte. Darüber hinaus sind Computer emotionslos und haben keine Angst vor Druck. Sie unterschätzen den Gegner nicht aufgrund seiner Leistung (das Strategienetzwerk von AlphaGo hat immer nur die Stärke vorhergesagt). Selbst wenn Menschen also stärker sind, können sie dem Druck eines Sieges oder einer Niederlage möglicherweise nicht standhalten und ihre beste Leistung bringen.

Hat Lee Sedol eine Chance zu gewinnen?

In vielen Kommentaren finde ich viele falsche Spekulationen über AlphaGo. Die erste ist, ob AlphaGo die Fähigkeit besitzt, das „Gesamtspiel“ zu bewerten. Es muss gesagt werden, dass AlphaGo als Ganzes diese Fähigkeit besitzt, die hauptsächlich aus den Berechnungsergebnissen des Bewertungsnetzwerks resultiert (weil es die endgültige Gewinnrate berechnet), aber was erhalten wird, ist eine geglättete durchschnittliche Gewinnrate des zusammengefassten Bereichs. Das Strategienetzwerk von AlphaGo wird hauptsächlich verwendet, um den nächsten Zug des Gegners zu bewerten. Der Monte-Carlo-Suchbaum verwendet die Parameter des Bewertungsnetzwerks (das Ergebnis des Offline-Trainings) und die Rollouts-Technologie, die die Wertdifferenz in Echtzeit entsprechend dem aktuellen Status berechnet, sodass Simulationsberechnungen durchgeführt werden können, die das gesamte Schachspiel berücksichtigen. Allerdings kontrolliert der Mensch das „gesamte Schachspiel“ durch seine Intuition, die immer noch stärker sein sollte als die von Computern. Darüber hinaus können Menschen gewinnen, wenn wir das aktuelle AlphaGo verwenden, um die durchschnittliche Gewinnrate durch die Ergebnisse des Faltungskern-Poolings zu bewerten (hauptsächlich zum Glätten und Vermeiden von Überlernen), und wenn Lee Sedol AlphaGo verwenden kann, um sein Verhalten vorherzusagen und nachfolgende Entscheidungen zu treffen, und Fallen stellen kann, um Fehler bei der Bewertung der Gewinnrate zu verursachen (die durchschnittliche Gewinnrate innerhalb des Pooling-Bereichs ist hoch, aber ein falscher Zug in einer bestimmten Position führt dazu, dass das „gesamte Schachspiel“ auf den Kopf gestellt wird, was den Fehler bei der Vorhersage der Gewinnrate darstellt) (natürlich schlage ich hier nur die Möglichkeit vor, aber das zu wissen ist leichter gesagt als getan, und die tatsächliche Ausführungswahrscheinlichkeit einer solchen Aktion ist relativ gering). Der Grund, warum Lee Sedol jetzt zwangsläufig verlieren wird, liegt darin, dass er AlphaGos Züge erraten hat. Tatsächlich aber ist es AlphaGo, das seine Entscheidungen auf der Grundlage des Erratens von Lee Sedols nächstem Zug getroffen hat. Er sollte also seine Denkweise ändern und AlphaGo durch seine eigenen falschen Züge täuschen, dann besteht die Möglichkeit zu gewinnen.

Schwache KI und starke KI

Müssen wir uns jetzt, da Computer die Menschen in Go, der als letzte Bastion der Menschheit bekannten Disziplin, besiegt haben, Sorgen über den Tag machen, an dem künstliche Intelligenz über die Menschen herrschen wird? Eigentlich besteht kein Grund zur Sorge, denn bei der Klassifizierung künstlicher Intelligenz wird zwischen schwacher künstlicher Intelligenz (Artificial Narrow Intelligence) und starker künstlicher Intelligenz (Artificial General Intelligence) unterschieden (manche Leute haben sogar künstliche Superintelligenz vorgeschlagen, die als künstliche Intelligenz gilt, die leistungsfähiger als die menschliche Intelligenz ist und über kreative Innovation und soziale Fähigkeiten verfügt, aber ich denke, das ist zu sehr Science-Fiction und gehört nicht mehr in den Diskussionsrahmen). Der größte Unterschied besteht darin, dass schwache künstliche Intelligenz kein Selbstbewusstsein besitzt, nicht die Fähigkeit besitzt, Probleme zu verstehen und nicht die Fähigkeit besitzt, Probleme durch Denken und Planen zu lösen. Sie fragen sich vielleicht, wie AlphaGo so gut Go spielen kann, wenn es es nicht versteht. Bitte beachten Sie, dass AlphaGo im Wesentlichen ein neuronales Deep-Learning-Netzwerk ist. Es wurde lediglich ein Monte-Carlo-Suchbaum gefunden, der die Züge des Gegners vorhersagen (Strategienetzwerk), die Gewinnrate berechnen (Bewertungsnetzwerk) und durch die Netzwerkarchitektur und eine große Anzahl von Stichproben die beste Lösung aus einer begrenzten Anzahl von Optionen berechnen kann. Mit anderen Worten: Es findet die beste Aktion auf der Grundlage dieser drei Funktionen, anstatt wirklich zu verstehen, was Go ist. Der wesentliche Unterschied zwischen AlphaGo und Microsofts Cortana oder Siri vom iPhone besteht daher darin, dass AlphaGo auf das Spielen von Go spezialisiert ist und über keinen zusätzlichen Denkmechanismus verfügt. Ich habe auch einige Berichte gesehen, in denen es heißt, AlphaGo sei ein Allzwecknetzwerk und könne daher verwendet werden, um schnell World of Warcraft zu lernen oder Medizin zu studieren. Auch das ist ein großer Irrtum. Wenn Sie die obige Erklärung gelesen haben, wissen Sie, dass AlphaGo eine künstliche Intelligenz ist, die zum Spielen von Go entwickelt wurde. Wenn Sie es zur Lösung anderer Probleme verwenden möchten, müssen die neuronale Struktur und der Algorithmus neu gestaltet werden. Anstatt also zu sagen, dass Lee Sedol gegen AlphaGo verloren hat, wäre es genauer zu sagen, dass er gegen die Mathematik verloren hat, was beweist, dass die Intuition dem rationalen mathematischen Urteil tatsächlich unterlegen ist. Manche Leute glauben, dass die Menschheit ihre letzte Bastion verloren hat und die Kunst des Go kurz vor der Zerstörung steht … Eigentlich müssen Sie sich nicht allzu viele Sorgen machen. Warum geraten Menschen nicht in Panik, wenn sie Autos nicht davonlaufen können? Der Laufsport erfreut sich nach wie vor großer Beliebtheit und Ferrari hat noch nicht alle olympischen Goldmedaillen gewonnen. Es besteht also wirklich kein Grund zur Nervosität.

Wird es also eines Tages eine starke künstliche Intelligenz geben? Im Jahr 2013 befragte Bostrom Hunderte der weltweit führenden Experten für künstliche Intelligenz und fragte sie, wann sie mit der Entstehung starker künstlicher Intelligenz rechneten. Aus den Ergebnissen der Umfrage leitete er drei Antworten ab: Die optimistische Schätzung (Median von 10 % der Fragebögen) liegt bei 2022, die normale Schätzung (Median von 50 % der Fragebögen) bei 2040 und die pessimistische Schätzung (Median von 90 % der Fragebögen) bei 2075. Das ist also noch weit von uns entfernt. Wenn jedoch die Entwicklung schwacher künstlicher Intelligenz ein Stadium erreicht hat, in dem die Kosten gesenkt wurden und sie kommerzialisiert werden kann, wäre es praktischer, sich statt der Sorge darüber, ob künstliche Intelligenz die Erde beherrschen wird, Gedanken darüber zu machen, ob Ihre beruflichen Fähigkeiten durch Computer ersetzt werden.
Quelle: Huayuan Data

<<: Kunst und maschinelles Lernen

>>: Sind TV-Spiele Neuauflagen klassischer Spiele oder nur Aufwärmübungen alter Sachen?

Welche Teile der Ultraschalluntersuchung erfordern das Zurückhalten des Urins? Wie kann ich es zurückhalten? Nutzen Sie jetzt diese 3 Tipps!

Artikel

Baidu World Conference 2017: KI-Ökosystem endgültig geschlossen

Neueste Forschungsergebnisse haben ergeben, dass Kometen von außerhalb des Sonnensystems ursprünglich aus dem Sonnensystem geflohen sind!

Artikel

Wie trainiert man die Beine beim Fitness?

Artikel

Artikel empfehlen

Ist das wahr oder falsch? Das Fleisch, das wir in Zukunft essen, muss nicht unbedingt von lebenden Tieren stammen!

□ Shan Shouqing Die von Zhuge Liang erfundenen ge...

Welche Körperpartien werden durch Liegestütze trainiert?

Viele Menschen können Liegestütze machen, insbeso...

Der Kranich und sein Pfleger sind seit fast 20 Jahren verliebt und haben 7 Babys zur Welt gebracht? Kranich: Es ist wahr!

Das Smithsonian Conservation Biology Institute (S...

Die Nationale Gesundheitskommission hat die neuesten Ernährungsrichtlinien veröffentlicht! Merken Sie sich diese 30 Schlüsselpunkte und werden Sie die „drei Hochs“ leicht los →

Viele Menschen leiden unter den chronischen Erkra...

Heute findet die „Marsopposition“ statt! Verpassen Sie nicht die beste Zeit, um „Yinghuo“ zu beobachten

Es ist eine gute Gelegenheit, den Mars zu beobach...

Honda beschleunigt die Elektrifizierung auf dem chinesischen Markt und beschließt, nach 2027 keine Modelle mit Kraftstoffantrieb mehr zu verkaufen

Sanae Seimura, stellvertretender Generaldirektor ...

Eine kurze Diskussion über die Deep-Learning-Technologie hinter AlphaGo

Welche Teile der Ultraschalluntersuchung erfordern das Zurückhalten des Urins? Wie kann ich es zurückhalten? Nutzen Sie jetzt diese 3 Tipps!

Baidu World Conference 2017: KI-Ökosystem endgültig geschlossen

Welches Badminton ist gut?

Wird das Gesicht durch Laufen dünner?

Ist Sport gut bei Nierenschwäche?

[Getreidepolitik eines großen Landes] KI-Cartoon | Der technologische Stil in der Frühlingslandwirtschaftsszene

So führen Sie grundlegende Aerobic-Bewegungen aus

Wie sollten Frauen mittleren Alters trainieren?

Neueste Forschungsergebnisse haben ergeben, dass Kometen von außerhalb des Sonnensystems ursprünglich aus dem Sonnensystem geflohen sind!

Wie trainiert man die Beine beim Fitness?

Artikel empfehlen

Ist das wahr oder falsch? Das Fleisch, das wir in Zukunft essen, muss nicht unbedingt von lebenden Tieren stammen!

Welche Körperpartien werden durch Liegestütze trainiert?

Der Kranich und sein Pfleger sind seit fast 20 Jahren verliebt und haben 7 Babys zur Welt gebracht? Kranich: Es ist wahr!

Sind die Menschen in diesem einsamen Universum eine Ausnahme?

Gefahr der „Ansteckung“ mit Schimpfwörtern: Seitdem der Papagei das Fluchen gelernt hat, kann er nie wieder zurück...

Ministerium für Kultur und Tourismus: Nationale statistische Erhebung zu Sternehotels im dritten Quartal 2022

Welche Vorteile hat das Schwitzen beim Training für die Haut?

Zusätzlich zur Epidemie und dem Börsencrash könnte es auch noch zu La Niña kommen!

Hilfe, warum steigt mein Gewicht immer wieder an? Denn die Fettzellen „erinnern“ sich daran, dass Sie dick waren …

HTC feiert ein Comeback und die Spionagefotos des Tablets mit einem dem HTC One ähnlichen Design werden veröffentlicht

Yoga-Tipps zum Abnehmen in einer Woche

So schützen Sie Ihre Knie beim Sport

Die Nationale Gesundheitskommission hat die neuesten Ernährungsrichtlinien veröffentlicht! Merken Sie sich diese 30 Schlüsselpunkte und werden Sie die „drei Hochs“ leicht los →

Heute findet die „Marsopposition“ statt! Verpassen Sie nicht die beste Zeit, um „Yinghuo“ zu beobachten

Honda beschleunigt die Elektrifizierung auf dem chinesischen Markt und beschließt, nach 2027 keine Modelle mit Kraftstoffantrieb mehr zu verkaufen