Auf den Schultern von Shannon und Boltzmann stehen und die Kunst und Philosophie des Deep Learning betrachten

Auf den Schultern von Shannon und Boltzmann stehen und die Kunst und Philosophie des Deep Learning betrachten

Auf den Schultern von Shannon und Boltzmann stehen und die Kunst und Philosophie des Deep Learning betrachten

In dem Artikel „Faszinierende Daten und Shannons Perspektive“ habe ich meine eigene „Erleuchtung“ vorgestellt: Dinge werden durch die Informationen ausgedrückt, die durch Zufallsvariablen auf verschiedenen Ebenen angezeigt werden. Zufallsvariablen auf verschiedenen Ebenen enthalten unterschiedliche Informationen und beeinflussen gemeinsam den Informationsausdruck von Zufallsvariablen auf der höheren Ebene. Die von Zufallsvariablen ausgedrückte Information nach außen hängt von der bedingten Wahrscheinlichkeitsverteilung der Zufallsvariablen ab. Viele Freunde stimmen dem zu und Kollegen denken sogar, dass es dem Deep Learning ähnelt.

Wenn Sie die Bedeutung dieses Satzes wirklich verstehen, haben Sie tatsächlich die Essenz des Deep Learning verstanden. So sind beispielsweise bei der Identifizierung einer Person Körperform, Hautfarbe, Gesichtsform, Augen, Nasenrücken, Mundwinkel usw. alles Zufallsvariablen, die diese Person charakterisieren. In der Terminologie des maschinellen Lernens werden sie als Merkmale bezeichnet, die explizit oder implizit sein können. Unterschiedliche Umrisse, unterschiedliche Blutgruppen, unterschiedliche Temperamente, unterschiedliche Persönlichkeiten, unterschiedliche IQs, EQs ..., unterschiedliche Informationsniveaus bringen diese Person umfassend zum Ausdruck. Mit diesem hierarchischen Ausdruck lässt sich das kosmische System im Großen oder Regentropfen und Mikroorganismen im Kleinen beschreiben.

Die von Shannon auf Grundlage der Wahrscheinlichkeitsverteilung definierte Informationsentropie ist eine Beschreibung der Unsicherheit der Zufallsvariablen beobachteter Dinge. Mit zunehmender Entropie nimmt die Unsicherheit zu; Wenn die Entropie abnimmt, nimmt die Unsicherheit ab. Beispielsweise hat die Gesichtsform eines menschlichen Gesichts verschiedene mögliche Werte und auch die Größe, Position, Wimpernlänge und relative Position der Augen haben alle unterschiedliche Wertebereiche und Möglichkeiten. Wenn wir die möglichen Werte dieser verschiedenen Merkmale nacheinander betrachten, erkennen wir nach und nach das Gesicht. Das heißt, wenn wir beobachten, dass etwas wie eine Ente läuft, wie eine Ente quakt und wie eine Ente aussieht, dann denken wir, dass es eine Ente ist.

Hier ist von der Beobachtung die Rede, denn nur so ist es möglich, Informationen über Dinge zu gewinnen und sie dadurch zu verstehen. Die Menschen müssen die Eigenschaften dieser Sache auf verschiedenen Ebenen so gut wie möglich verstehen, und zwar so gründlich wie möglich, so gründlich, dass sie sie von Dingen unterscheiden können, die ihr sehr ähnlich sind. Das heißt, nachdem die Möglichkeiten dieser Zufallsvariablen ausgeschöpft sind, unterscheidet er/sie/es sich immer noch von den anderen. Es klingt schwierig zu erklären, aber diese Informationen werden als Daten aufgezeichnet, was zum Teil erklärt, warum Big Data so beliebt ist. Groß bedeutet eigentlich „ausreichend“, „detailliert genug“, „tief genug“ und „zeitnah genug“, um ein Objekt zu identifizieren. Eine gängige Taktik von Big-Data-Unternehmen besteht darin, Menschen dazu zu bringen, 360-Grad-Kundenporträts anzufertigen. Wir müssen darüber nachdenken, was 360 Grad bedeutet. Wie gut kennen Ihre Freunde und Familie Sie? Kennen Sie sich selbst in 360 Grad? Können Sie 3,6 Grad zeichnen?

Die Beobachtung ist fehlerbehaftet und kann in vielen Fällen nicht direkt durchgeführt werden. Wenn Sie beispielsweise die durchschnittliche Länge von Fischen in einem See berechnen möchten, die Verteilung der Fische unterschiedlicher Länge im See jedoch unklar ist, wie können Sie diese fangen und messen? Markov sagte, das sei einfach. Sie konstruieren eine Kette von Wahrscheinlichkeitsverteilungsmigrationen. Von der anfänglichen Verteilung P0 konvergiert sie nach n Übergängen mit der Wahrscheinlichkeit P definitiv zur stationären Verteilung Pn. Nicht verstanden? Gibbs verstand dies und erfand die Gibbs-Sampling-Methode. Allerdings muss die Übertragungsmatrix hier die detaillierten Stabilitätsbedingungen erfüllen, d. h. die Wahrscheinlichkeit der gegenseitigen Übertragung muss gleich sein, andernfalls ist sie instabil (Achtung, denken Sie an die Prämisse der „Stabilität“).

In einem aktuellen Artikel mit dem Titel „Warum funktioniert Deep and Cheap Learning so gut?“ haben mehrere Harvard-Physiker eine theoretische Überprüfung der oben erwähnten Methode hierarchischer Zufallsausdrücke vorgenommen. Meiner Meinung nach ist es eine perfekte Zusammenfassung, die einen die profunden Fähigkeiten der Harvard-Physiker bewundern lässt. Viele Informatiker prahlen mit ausgefallenen neuronalen Netzwerkarchitekturen mit mehreren Schichten, stochastischen Gradientenoptimierungslösungen und unerklärlicher, unsinniger Regularisierung, die allesamt „Techniken“ sind. Hier finden wir das „Tao“, das ihnen als theoretische Grundlage dient. Der Autor des Papiers verwendet die folgende Abbildung, um die drei typischsten Probleme im Bereich des Deep Learning zusammenzufassen: unüberwachtes Lernen, Klassifizierung und Vorhersage des überwachten Lernens. Das Dokument scheint einen Tippfehler zu enthalten, den die KI möglicherweise nicht erkennen kann. Bei allen diesen drei Problemtypen geht es letztlich um die Verwendung neuronaler Netzwerke zur Annäherung an Wahrscheinlichkeitsverteilungen: Stellen Sie sich eine gemeinsame Wahrscheinlichkeitsverteilung von (x, y) oder die bedingte Wahrscheinlichkeitsverteilung von x unter der Bedingung vor, dass y eintritt, oder beides. Der Trainingsprozess ist der Prozess, diese ungefähre Wahrscheinlichkeitsverteilungsfunktion zu finden.

Wie lösen beliebte Deep-Learning-Algorithmen diese Wahrscheinlichkeitsverteilungen? Wir berechnen zunächst die Shannon-Informationsentropie, die in den beobachteten Daten (Trainingsdaten) dieser Zufallsvariablen enthalten ist, und bestimmen, dass dies die maximal mögliche Informationsdarstellung des Systems ist (maximale Wahrscheinlichkeit). Anschließend minimieren wir den verbleibenden Teil, d. h. wir ermitteln die Maximal- und Minimalwerte und verwenden numerische Methoden. Hier gibt es viele Annahmen, wie etwa konvexe Funktionen, etwa Lipschitz-Kontinuität (die in gewissem Sinne auch als stationäre Annahme verstanden werden kann), und jede Menge mathematische „Arithmetik“, wie etwa Lagrange-Multiplikatoren, etwa stochastische Gradientenabstiege, die alle „angenehm für das Auge“ sind. Durch Anwenden geeigneter Einschränkungen auf diesen Shannon-Entropie-Ansatz können Sie die bekannte Methode der kleinsten Quadrate erhalten, die Sie sicherlich schon einmal verwendet haben, um Geraden in Physikexperimenten an der Universität anzupassen.

Das Finden dieser Wahrscheinlichkeitsverteilungsfunktionen durch Training impliziert die Grundannahme, dass sich das System in einem relativ stabilen Zustand befindet. Für ein sich schnell entwickelndes offenes System dürfte die probabilistische Methode nicht geeignet sein. Beispielsweise sollte die maschinelle Übersetzung in der Lage sein, die sprachliche Beschreibung relativ stabiler Dinge zu bewältigen. Für neue Netzwerk-Vielfachsprachen oder Nischenneuheiten wie „Die Legende von Zhen Huan“ in den vergangenen Jahren ist eine auf Statistiken basierende KI-Übersetzung jedoch möglicherweise nicht so praktisch. Zhou Hongyi sagte beim 360 Marketing Festival, als er die Leistung von KI in Live-Übertragungen zusammenfasste: „Computer definieren alle kegelförmigen Gesichter als Schönheiten.“

Ein weiteres Beispiel ist die Boltzmann-Maschine. Die Verteilung der Hamiltonschen freien Energie beinhaltet tatsächlich eine implizite Annahme der relativen Stabilität des Systems (die Boltzmann-Verteilung ist das Energieverteilungsgesetz von Gasmolekülen im „Gleichgewichtszustand“). Bei instabilen Systemen müssen wir auf Prigogine zurückgreifen. Wenn wir uns also über die immer besser werdende „Intelligenz“ der KI freuen, müssen wir uns gleichzeitig in Ruhe darüber im Klaren sein, dass es Situationen gibt, in denen sie möglicherweise nicht anwendbar ist. Bitte glauben Sie, dass es keine universelle Wahrheit gibt, außer diesem Satz selbst. Außer mir, der ich diese Sache anzweifle, ist alles andere zweifelhaft.

Ich habe auch einen Ratschlag. Egal, wie leistungsstark KI ist, seien Sie vorsichtig, wenn Sie auf Statistiken basierenden Vorhersagen vertrauen. Schauen Sie sich dieses Bauernsprichwort an und Sie werden verstehen: Ich möchte nur wissen, wo ich in Zukunft sterben werde, damit ich nicht dorthin komme.

Autor: Wang Qingfa, Datenexperte, Mitglied der Expertengruppe Chief Data Officer Alliance

<<:  Ein chinesischer Schriftsteller hat erneut den Hugo Award gewonnen. Wer ist der Maler von „Der Maler von Raum und Zeit“?

>>:  „Wie viel wissen Sie über Lebensmittelernährung?“ Ist die Cordyceps-Blüte ein „Verwandter“ von Cordyceps?

Artikel empfehlen

Wie trainiert man den Deltamuskel?

Wie sollten wir den Deltamuskel am besten trainie...

Worauf muss ich beim Rudergerät achten?

Das Rudergerät ist ein Gerät, das Ruderübungen si...

Welche Methoden gibt es für das Unterarmmuskeltraining?

Viele Freunde haben oft das Gefühl, dass ihre Arm...

So machen Sie Dehnübungen nach dem Seilspringen

Seilspringen ist eine Übung, die viele Menschen g...

Wie viele Drehungen sind nötig, um den Zauberwürfel wiederherzustellen?

Der Zauberwürfel ist ein Lernspielzeug, das bei d...