KI-Direktor von Facebook: Trendbericht zur Deep-Learning-Technologie

KI-Direktor von Facebook: Trendbericht zur Deep-Learning-Technologie
Neue Weisheit Original 1

Quelle: Yann LeCun

Zusammengestellt von: MiLi

Yann LeCun ist der Erfinder der Convolutional Neural Networks und Leiter des Facebook Artificial Intelligence Research Institute. Die folgenden 150 PPTs stellen LeCuns umfassende und detaillierte Überlegungen zum Bereich Deep Learning dar. LeCun ist ein überzeugter Anhänger des unüberwachten Lernens und glaubt, dass dies die einzige Lernform ist, die genügend Informationen liefern kann, um Milliarden neuronaler Netzwerke zu trainieren.

Doch LeCun glaubt auch, dass es sehr schwierig sei, dies gut zu machen, schließlich sei die Welt unverständlich. Schauen wir uns an, welche Überraschungen LeCun uns in diesen 150 PPTs bietet.

Yann LeCun: 150 PPT Volltext

Wenn Sie den vollständigen Text herunterladen möchten, antworten Sie bitte mit 0326, um ihn im Xinzhiyuan-Abonnementkonto herunterzuladen.

Tiefes Lernen

Von Yann Le Cun

Courant Institut für Mathematische Wissenschaften, New York University,

Facebook-KI-Forschung


Müssen wir das Gehirn klonen, um intelligente Maschinen zu entwickeln?

Das Gehirn ist die Grundlage für die Existenz intelligenter Maschinen

- Vögel und Fledermäuse sind ein Beweis für den Flug schwerer als Luft

Gehirn

Die heutigen Hochgeschwindigkeitsprozessoren

Können wir künstliche Intelligenzsysteme entwickeln, indem wir das Gehirn nachbilden?

Ist die Rechenleistung von Computern nur 10.000-mal so hoch wie die des Gehirns? Höchstwahrscheinlich hoch eine Million: Synapsen sind komplex. 1 Million sind 30 Jahre Mooresches Gesetz

Am besten lässt man sich von der Biologie inspirieren; Wenn Sie jedoch einfach aus der Biologie kopieren und einfügen, ohne die zugrunde liegenden Prinzipien zu verstehen, sind Sie zum Scheitern verurteilt. Flugzeuge wurden von Vögeln inspiriert; sie nutzen die gleichen Grundprinzipien des Fliegens; Flugzeuge schlagen jedoch keine Flügel und haben keine Federn.

Lassen wir uns von der Natur inspirieren, aber wir müssen sie nicht kopieren.

Es ist gut, die Natur nachzuahmen, aber wir müssen die Natur auch verstehen. Für Flugzeuge entwickelten wir die Aerodynamik und die kompressible Strömungsdynamik und wussten, dass Federn und Flügelschlag nicht der Schlüssel waren.

1957: Perceptron (erste lernende Maschine)

Ein einfaches simuliertes Neuron mit adaptiven „synaptischen Gewichten“ berechnet die gewichtete Summe seiner Ein- und Ausgänge +1, wenn die gewichtete Summe über einem Schwellenwert liegt, andernfalls -1.

Perceptron-Lernalgorithmus

Herkömmliches maschinelles Lernen (überwachtes Lernen)

Entwerfen Sie eine Maschine mit einstellbaren Knöpfen (ähnlich den Gewichten in einem Perzeptron). Wählen Sie ein Trainingsbeispiel aus, führen Sie es durch die Maschine und messen Sie den Fehler. Finden Sie heraus, in welche Richtung der Knopf eingestellt werden muss, um den Fehler zu verringern. Wiederholen Sie diesen Vorgang mit allen Trainingsbeispielen, bis sich der Knopf stabilisiert.

Herkömmliches maschinelles Lernen (überwachtes Lernen)

Entwerfen Sie eine Maschine mit einem einstellbaren Knopf; Wählen Sie eine Trainingsprobe aus, führen Sie sie durch die Maschine und messen Sie den Fehler. Stellen Sie den Knopf ein, um den Fehler zu verringern. wiederholen, bis der Knopf stabil ist;

Maschinelles Lernen = Funktionsoptimierung

Das ist wie eine Wanderung in einem nebligen Gebirge: Man erreicht das Dorf im Tal, indem man in Richtung des steilsten Abhangs geht. aber jede Probe liefert uns eine verrauschte Schätzung der Richtung, sodass unser Pfad ziemlich zufällig ist.

Verallgemeinerung: Erkennen von Situationen, die während des Trainings nicht gesehen wurden

Nach dem Training: Testen Sie die Maschine mit Beispielen, die sie noch nie zuvor erkannt hat.


Überwachtes Lernen

Wir können eine Maschine mit vielen Beispielen wie Tischen, Stühlen, Hunden, Katzen und Menschen trainieren; Aber kann die Maschine Tische, Stühle, Hunde, Katzen und Menschen erkennen, die sie noch nie zuvor gesehen hat?

Maschinelles Lernen im großen Maßstab: Die Realität

Milliarden von „Knöpfen“ (oder „Gewichten“), Tausende von Kategorien; Millionen von Beispielen; das Identifizieren jedes einzelnen Beispiels kann Milliarden von Operationen erfordern; aber diese Operationen sind nur einige einfache Multiplikationen und Additionen.

Traditionelles Modell der Mustererkennung

Traditioneller Ansatz zur Mustererkennung (seit den späten 50er Jahren), feste/entworfene Merkmale (oder feste Matrix) + trainierbarer Klassifikator, Perzeptron (Cornell University, 1957)

Deep Learning = die gesamte Maschine ist trainierbar

Traditionelle Mustererkennung: feste und handgefertigte Merkmalsextraktoren; Mainstream-Mustererkennung der Moderne: unbeaufsichtigte Merkmale mittlerer Ebene; Deep Learning: Darstellungen sind hierarchisch und trainiert;

Deep Learning = Lernen hierarchischer Darstellung

Deep Learning ist mehr als eine Stufe der nichtlinearen Merkmalstransformation. Training von Faltungscodes zur Merkmalsvisualisierung auf ImageNet [Zeiler & Fergus 2013]

Trainierbare Feature-Levels

Mit zunehmender Abstraktionsebene steigt auch die Darstellungsebene. jede Phase ist eine Transformation trainierbarer Funktionen; Bilderkennung:

Pixel → Kante → Texturprimitiv → Motiv →

Teil → Objekt

Charakter → Wort → Wortgruppe → Satzteil → Satz → Geschichte

Rede

Beispiel → Spektralband → Ton → ... → Telefon → Phonem → Wort

Oberflächlichkeit vs. Tiefe == Nachschlagetabelle vs. mehrstufiger Algorithmus

„Flach und breit“ vs. „tief und schmal“ == „mehr Speicher“ vs. „mehr Zeit“, Nachschlagetabelle vs. Algorithmus; nur wenige Funktionen können in zwei Schritten ausgeführt werden, ohne dass eine exponentiell große Nachschlagetabelle erforderlich ist. Durch Exponentialfaktor kann die „Speicherung“ um mehr als zwei Schritte reduziert werden.

Wie interpretiert das Gehirn Bilder?

Der ventrale (Identifikations-)Pfad im visuellen Kortex umfasst mehrere Stufen; Netzhaut – LGN – V1 – V2 – V4 – PIT – AIT….etc;

Mehrschichtiges neuronales Netzwerk

Mehrschichtiges neuronales Netzwerk

Mehrere Schichten einfacher Einheiten; jede Einheit berechnet eine gewichtete Summe ihrer Eingaben; die gewichtete Summe durchläuft eine nichtlineare Funktion; ein Lernalgorithmus ändert die Gewichte;

Typische mehrschichtige neuronale Netzwerkarchitektur

  • Durch die Zusammenstellung von Modulen in einem Netzwerk können komplexe Lernmaschinen erfunden werden.
  • Linearmodule
  • Ausgabe = W. Eingabe + B
  • ReLU-Modul (gleichgerichtete lineare Einheit)
  • Ausgabe i = 0, wenn Eingabe i < 0;
  • Ausgabe i = Eingabe, wenn sonst;
  • Kostenmodul: Quadratische Distanz
  • Kosten = ||In1-In2||2
  • Zielfunktion
  • L(Θ)=1/pΣk C(Xk,Yk,Θ)
  • Θ = (W1, B1, W2, B2, W3, B3)

Bauen Sie ein Netzwerk auf, indem Sie Module zusammenstellen

Alle wichtigen Deep-Learning-Frameworks verwenden Module (inspiriert von SN/Lush, 1991), Torch7, Theano, TensorFlow….

Berechnen Sie die Steigung durch Backpropagation

Praktische Anwendung der Kettenregel

Algebraisches Herunterziehen der Steigung:

● dC/dXi-1 = dC/dXi . dXi/dXi-1

● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

Drücken Sie die Gewichtsschräge nach unten:

● dC/dWi = dC/dXi. dXi/dWi

● dC/dWi = dC/dXi. dFi(Xi-1,Wi)/dWi

Funktioniert jede Architektur?

Jeder beliebige Anschlussplan ist zulässig;

Azyklischer gerichteter Graph

Rekurrierende Netzwerke müssen „zeitlich entfaltet“ werden

Jedes Modul zulassen

Solange die entsprechenden Argumente und anderen nicht-terminalen Eingaben kontinuierlich sind, kann die Inversion an fast allen Positionen durchgeführt werden.

Fast alle Architekturen bieten automatische Differenzierungsfunktionen.

Theano, Torch7+Autograd, …

Das Programm wird zu einer Methode zur Berechnung azyklischer gerichteter Graphen (DAGs) und zum automatischen Finden von Pfaden.

Die Zielfunktion eines mehrschichtigen Netzwerks ist nicht konvex.

1-1-1-Netzwerk

– Y = W1*W2*X

Zielfunktion: Identitätsfunktion des quadratischen Verlusts

Ein Beispiel: X=1,Y=1 L(W) = (1-W1*W2)^2

Faltungsnetzwerke

(ConvNet oder kurz CNN)

Faltungsnetzwerkarchitektur

Mehrere Faltungen

Animation: Andrej Karpathy URL: //cs231n.github.io/convolutional-networks/

Faltungsnetzwerk (erstellt 1990)

Filter-Tanh → Aggregat → Filter-Tanh → Aggregat → Filter-Tanh

Hubel und Wiesels Modell des visuellen Kortex

Einfache Zellen werden verwendet, um lokale Merkmale zu erkennen, und komplexe Zellen werden verwendet, um die Ausgabeprodukte einfacher Zellen zu „aggregieren“, die sich in der Nähe im visuellen Kortex befinden, [Fukushima 1982][LeCun 1989, 1998], [Riesenhuber 1999] usw.

Gesamtarchitektur: mehrstufige Normalisierung → Filtersatz → Nichtlinearität → Aggregation

Standardisierung: Weißgradvariation (freie Wahl)

Subtraktion: Mittelwertentfernung, Hochpassfilter

Abteilung: Lokale Standardisierung, Standardabweichung

Filterbank: Dimensionserweiterung, Abbildung auf supervollständige Kardinalität

Nichtlinearität: Verdünnung, Sättigung, laterale Hemmungsmechanismen usw.

Korrektur (ReLU), Reduzierung der effektiven Komponenten, tanh,

Aggregation: Eine Sammlung räumlicher oder funktionaler Kategorien

LeNet1-Demonstration im Jahr 1993

Mehrzeichenerkennung [Matan et al., 1992]

Jede Schicht ist eine Faltung

ConvNet -Schiebefenster + gewichtete endliche Zustandsmaschine

ConvNet-Schiebefenster + gewichtetes FSM

Scheckleser (Bell Labs, 1995)

Das Image Transformer Network wird darauf trainiert, Scheckbeträge zu lesen, wobei für das vollständige Training ein negativer Log-Likelihood-Verlust verwendet wird. 50 % richtig, 49 % abgelehnt, 1 % Fehler (später im Prozess erkennbar) wurde ab 1996 von vielen Banken in den Vereinigten Staaten und Europa verwendet und verarbeitete Anfang der 2000er Jahre etwa 10 % bis 20 % der handschriftlichen Schecks in den Vereinigten Staaten.

Gesichtserkennung [Vaillant et al. 1993, 1994]

ConvNet wird für die Verarbeitung großer Bilder, Heatmaps in mehreren Größen und die Unterdrückung nicht maximaler Kandidaten verwendet und benötigt 6 Sekunden für ein 256 × 256-Bild auf SPARCstation



Synchronisierte Gesichtserkennung und Posenschätzung


Fußgängererkennung mit Faltungsnetzwerk

Szenenanalyse und Annotation

Szenenanalyse und -annotation: Multiskalige ConvNet-Architektur

Jeder Ausgang kann viel Eingangshintergrund sehen und die Überwachung auf vollständig annotierten Bildern trainieren

Methode 1: Mehrheitswahl in Superpixel-Regionen


Szenenanalyse und Annotation von RGB- und Tiefenbildern

Szenenanalyse und Annotation

Ohne Nachbearbeitung, Bild für Bild, läuft ConvNet mit 50 ms pro Bild auf Virtex-6-FPGA-Hardware, eingeschränkt durch die Möglichkeit, über Ethernet zu kommunizieren.


ConvNet für adaptives Robotersehen über große Entfernungen (DARPA LAGR-Projekt 2005–2008)


Weitsicht für Windernetz

Vorverarbeitung (125 ms), Bodenebenenschätzung, Horizontausrichtung, Konvertierung in YUV + lokale Kontrastnormalisierung, Messung des normalisierten Bildes „mit“ invarianter Pyramide

Faltungsnetzwerkarchitektur

100 Funktionen pro 3x12x25-Eingabefenster; YUV-Bildbänder 20–36 Pixel hoch, 36–500 Pixel breit

Faltungsnetzwerke zur visuellen Objekterkennung

Mitte der 2000er Jahre erzielte ConvNets mit dem Datensatz „Caltech101“ recht gute Ergebnisse bei der Objektklassifizierung: 101 Kategorien, 30 Trainingsbeispiele pro Kategorie. Die Ergebnisse waren jedoch den „traditionelleren“ Computer Vision-Methoden aus folgenden Gründen etwas unterlegen:

1. Der Datensatz ist zu klein;

2. Der Computer ist zu langsam;

Dann passierten zwei Dinge. . .

ImageNet-Datensatz [Fei-Fei et al., 2012]

1,2 Millionen Trainingsbeispiele

1000 Kategorien

Schnelle und programmierbare Allzweck-GPUs

Kann eine Billion Operationen pro Sekunde ausführen

Extrem tiefe ConvNet-Objekterkennung

100 Millionen bis 1 Milliarde Verbindungen, 10 Millionen bis 1 Milliarde Parameter, 8 bis 20 Schichten

Training extrem tiefer ConvNets auf GPUs

Die fünf größten Fehlerwahrscheinlichkeiten von ImageNet sind:

15 %;

[Sermanet et al. 2013]

13,8 % VGGNet [Simonyan, Zisserman 2014]

7,3 %

Google Net [Szegedy et al. 2014]

6,6 %

ResNet [He et al. 2015]

5,7 %

Extrem tiefe ConvNet-Architektur

Kleine Matrix, wenig Subsampling-Prozess (fragmentiertes Subsampling)

Matrix: Erste Schicht (11×11)

Erste Schicht: 3×9-Matrix, RGB->96-Feature-Map, 11×11-Matrix, 4 Schritte

Lernen in Aktion

Wie werden die Filter der ersten Schicht erlernt?

Deep Learning = Lernen hierarchischer Darstellung

Nichtlineare Merkmalstransformationen mit mehr als einer Stufe werden als tiefes, Merkmalsvisualisierungs-Convolutional-Network-Learning auf ImageNet bezeichnet [Zeiler & Fergus 2013].

ImageNet: Klassifizierung

Benennen Sie die Hauptobjekte im Bild. Top 5 Fehlerrate: Wenn der Fehler nicht in den Top 5 ist, wird er als Fehler gewertet. Rot: ConvNet, Blau: Nicht ConvNet

ConvNets-Objekterkennung und -lokalisierung

Klassifizierung + Lokalisierung: Multiskaliges gleitendes Fenster

Wenden Sie ein Convnet-Schiebefenster auf das Bild an, um wichtige Vorbereitungen in mehreren Maßstäben durchzuführen. Das Überziehen eines Convnets über ein Bild ist sehr kostengünstig. Sagen Sie für jedes Fenster eine Klassifizierung und Begrenzungsrahmenparameter voraus. Auch wenn sich das Objekt nicht vollständig im Anzeigefenster befindet, kann das Convnet vorhersagen, was es für ein Objekt hält.

Ergebnisse: Feinabgestimmte ImageNet-Erkennung vor dem ImageNet1K-Training


Erkennungsbeispiel:

Erkennungsbeispiel:

Erkennungsbeispiel:

Tiefes Gesicht

[Taigman et al. CVPR, 2014]

ConvNet Matrix Learning ausrichten

Automatische Anmerkungen auf Facebook verwenden

8 Millionen Fotos pro Tag

Matrix-Lernen und siamesische Architektur

Kontrative Zielfunktion: Ähnliche Objekte sollten Ausgabeprodukte erzeugen, die nahe beieinander liegen, und unähnliche Objekte sollten Ausgabeprodukte erzeugen, die weit voneinander entfernt sind. Reduzierung der Dimensionen durch Lernen und konstante Positionierung, [Chopra et al., CVPR 2005] [Hadsell et al., CVPR 2006]

Personenerkennung und Posenvorhersage

Bildbeschriftung: Generieren beschreibender Sätze

C3D: 3D ConvNet-Videoklassifizierung

Segmentieren und Lokalisieren von Objekten (DeepMask)

[Pinheiro, Collobert, Dollar ICCV 2015]

ConvNet generiert Objektgesichtsmodelle

DeepMask++ Empfehlungen

Identifizieren Sie die Route

Zug

Nach 2,5 Tagen Betrieb auf 8×4 Kepler GPUs mit EASGD [Zhang, Choromanska, LeCun, NIPS 2015]


::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86

Ergebnis

Mapping von ConvNets unter Aufsicht

Generieren von Bildern mit ConvNets

Überwachtes ConvNets-Mapping

Zeichne einen Stuhl, Stuhlalgorithmus im Merkmalsraum

ConvNets zur Spracherkennung

Spracherkennung und Faltungsnetzwerke (New York University/IBM)

Akustisches Modell: 7-Schicht-ConvNet. 54,4 Millionen Parameter.

Wandelt Tonsignale in 3.000 miteinander verbundene subphonemische Kategorien um

ReLU-Einheit + von der vorherigen Schicht getrennt

Nach 4 Tagen GPU-Training

Spracherkennung und Faltungsnetzwerke (New York University/IBM)

Trainingsbeispiele.

40 Mel-Frequenz-Cepstrum-Koeffizientenfenster: 40 Bilder pro 10 Mikrosekunden

Spracherkennung und Faltungsnetzwerke (New York University/IBM)

Die Faltungsmatrix der ersten Schicht, 9 × 9 Matrix der Größe 64


Spracherkennung und Faltungsnetzwerke (New York University/IBM)

Mehrsprachige Erkennung, Eingabe in mehreren Maßstäben, großes Anzeigefenster

ConvNets sind überall (oder werden es bald sein)

ConvNet-Chip

Derzeit entwickeln NVIDIA, Intel, Teradeep, Mobileye, Qualcomm und Samsung ConvNet-Chips.

Viele Startups: Movidius, Nervana usw.

In naher Zukunft werden ConvNets Autos fahren

NVIDIA: Fahrerassistenzsystem basierend auf ConvNet-Technologie

Drive-PX2: Open Source-Plattform für Fahrerassistenzsysteme (=150 Macbook Pros)

Eingebetteter Supercomputer: 42TOPS (=150 MacBook Pros)

MobilEye: Ein Fahrerassistenzsystem basierend auf ConvNet-Technologie

Konfiguriert im Tesla Model S und Model X

ConvNet-Konnektomik [Jain, Turaga, Seung, 2007]

3DConvNet-Volumenbilder, die 7x7x7 benachbarte Voxel verwenden, um jedes Voxel als „Membran“ oder „Nicht-Membran“ zu kennzeichnen, sind zur Standardmethode für die Konnektomik geworden

Erkennung von Hirntumoren

CNN-Architektur mit kaskadiertem Eingang, 802.368 Parameter, trainiert an 30 Patienten, Ergebnisse gezeigt bei BRAT2013

Vorhersage der DNA/RNA-Proteinbindung mit ConvNets

„Vorhersage der Sequenzspezifität von DNA- und RNA-bindenden Proteinen durch Deep Learning“ – Nature Biotechnology, Juli 2015, von B. Alipanahi, A. Delong, M. Weirauch, B. Frey

Deep Learning ist überall (ConvNets sind überall)

Viele Anwendungen auf Facebook, Google, Microsoft, Baidu, Twitter, IBM usw.

Bilderkennung für die Suche in Fotosammlungen

Filterung von Bild-/Videoinhalten: Spam, Nacktheit und Gewalt.

Rankings von Such- und Nachrichtenquellen

Menschen laden täglich 800 Millionen Bilder auf Facebook hoch

(Wenn wir Instagram, Messenger und WhatsApp mit einbeziehen, sind das 2 Milliarden Bilder pro Tag)

Jedes Foto auf Facebook durchläuft alle 2 Sekunden zwei ConvNets.

Eine davon ist die Bilderkennung und -annotation;

Eine weitere Möglichkeit ist die Gesichtserkennung (in Europa noch nicht aktiviert).

In naher Zukunft werden ConvNets überall sein:

Selbstfahrende Autos, medizinische Bildgebung, erweiterte Realität, mobile Geräte, intelligente Kameras, Roboter, Spielzeug und mehr.

Embedded Welt

Denkender Vektor

„Der Samojede meines Nachbarn sieht aus wie ein Siberian Husky“

Embedded Welt

iNSTAGRAM Video einbetten


Die Welt mit „Denkvektoren“ darstellen

Jedes Objekt, Konzept oder jede "Idee" kann durch einen Vektor dargestellt werden

[-0,2, 0,3, -4,2, 5,1, …..] stellt das Konzept der „Katze“ dar

[-0,2, 0,4, -4,0, 5,1, …..] stellt das Konzept „Hund“ dar

Diese beiden Vektoren sind sehr ähnlich, da Katzen und Hunde viele gemeinsame Merkmale haben.

Hinzufügen von Argumentation zur Manipulation von Gedankenvektoren

Vergleich von Vektoren für Fragen, Antworten, Informationsextraktion und Inhaltsfilterung

Argumentation, Planung und Sprachübersetzung durch Kombinieren und Transformieren von Vektoren

Speicherspeicherung, Denken, Vektor

MemNN (Memory Neural Network) ist ein gutes Beispiel

Bei FAIR wollen wir die Welt in Denkvektoren „einbetten“.

Natürliches Sprachverständnis

Kann Text eingebettet werden?

[Bengio 2003] [Collobert und Weston 2010]

Sagen Sie den Text basierend auf dem Text davor und danach voraus

Synthese semantischer Attribute

Tokio-Japan = Berlin-Deutschland

Tokio-Japan+Deutschland=Berlin

Fragen-Antwort-System


Fragen-Antwort-System

Fragen-Antwort-System

Sprachübersetzung mit LSTM-Netzwerken

Mehrstufiges rekursives LSTM-Modul

Lesen und Kodieren englischer Sätze

Generieren Sie französische Sätze am Ende englischer Sätze

Sehr ähnliche Genauigkeit wie der aktuelle Stand der Technik

Wie erinnern sich neuronale Netzwerke an Dinge?

Rekurrente Netzwerke können sich Dinge nicht über längere Zeiträume merken

Der Kortex kann sich Dinge nur 20 Sekunden lang merken

Wir brauchen einen Hippocampus (ein separates Speichermodul)

LSTM [Hochreiter 1997], Register

Gedächtnisnetzwerke [Weston et al., 2014] (FAIR), Assoziatives Gedächtnis

Gestapelte erweiterte rekurrente neuronale Netzwerke [Joulin und Mikolov, 2014] (FAIR)

NTM [DeepMind, 2014], „Bänder“.

Speichern/Stapeln erweiterter rekurrierender Netzwerke

Gestapeltes erweitertes RNN

Schwach überwachtes MemNN:

Suchen Sie nach verfügbaren Lagerorten.

Gedächtnisnetzwerke [Weston, Chopra, Bordes, 2014]

Kurzzeitgedächtnis zum Netzwerk hinzufügen

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116

Hindernisse für künstliche Intelligenz

Die vier fehlenden Teile der KI (neben der Rechenleistung)

Tiefes kognitives Lernen der Theorie

Wie ist die Geometrie von Zielfunktionen in tiefen Netzwerken?

Warum ist die ConvNet-Architektur so gut? [Mallat, Bruna, Tygert..]

Darstellung/Integration von Deep Learning mit logischem Denken, Aufmerksamkeit, Planung und Gedächtnis

Ein Großteil der Forschung konzentrierte sich auf die Bereiche Denken/Planen, Aufmerksamkeit, Gedächtnis und Lernen von „Algorithmen“.

Speichergestützte „differenzierbare“ Algorithmen für neuronale Netzwerke

Kombinieren Sie überwachtes, unüberwachtes und bestärkendes Lernen in einem einzigen „Algorithmus“.

Wenn sie funktionieren, könnten Boltzmann-Maschinen sehr nützlich sein.

Was gestapelt werden soll – wo Autoencoder, Leiternetzwerke usw.

Entdecken Sie die Struktur und Muster der Welt durch Beobachtung und indem Sie wie Tiere und Menschen leben.

Die mysteriöse Geometrie der Zielfunktionen

Tiefe Netzwerke mit ReLUs und Max Pooling

Linearer Transformationsstapel Maximaler diskreter Operator

ReLUs-Punktmethode

Maximale Zusammenfassung

Wechseln Sie von einer Ebene zur anderen

Tiefe Netzwerke und ReLUs: Die Zielfunktion ist eine stückweise Polynomfunktion

Wenn wir eine Verlustfunktion verwenden, hängt das Inkrement von Yk ab.

Stückweises Polynom von Zufallskoeffizienten auf w

viel: Die Verteilung der zufälligen (Gauß-)Koeffizienten polynomialer kritischer Punkte auf der Kugel [Ben Arous et al.]

Zufallsmatrixtheorie sphärischer Spingläser höherer Ordnung

Zufallsmatrizentheorie

Tiefe Netzwerke und ReLUs: Die Zielfunktion ist eine stückweise Polynomfunktion

Trainieren Sie ein verkleinertes (10×10) MNIST-2-Schicht-Netzwerk aus mehreren Anfangsbedingungen. Messen Sie den Verlust am Testsatz.

Bestärkendes Lernen, überwachtes Lernen, unüberwachtes Lernen: drei Arten des Lernens

Drei Arten des Lernens

Bestärkendes Lernen

Die Maschine macht gelegentlich Vorhersagen über Skalareffekte

Ein Teil der Beispielbytes

Überwachen Sie das Lernen

Die Maschine prognostiziert die Art oder Menge jeder Eingabe

100.000 bis 10.000 Bits pro Sample

Unüberwachtes Lernen

Maschinen treffen Vorhersagen für jeden Input und jedes beobachtbare

Vorhersage zukünftiger Aufnahmen in Videos

Jedes Sample hat Millionen von Bytes

Wie viele Informationen benötigt die Maschine für die Vorhersage?

Bestärkendes Lernen (Cherry)

Die Maschine macht gelegentlich Vorhersagen über Skalareffekte

Ein Teil der Beispielbytes

Überwachtes Lernen (Beschönigung)

Die Maschine prognostiziert die Art oder Menge jeder Eingabe

10 bis 10.000 Bytes pro Sample

Unüberwachtes Lernen (Cake)

Maschinen treffen Vorhersagen für jeden Input und jedes beobachtbare

Vorhersage zukünftiger Aufnahmen in Videos

Jedes Sample hat Millionen von Bytes

Unüberwachtes Lernen ist die „Black Box“ der künstlichen Intelligenz

Fast alle Lernprozesse bei Tieren und Menschen sind unüberwachtes Lernen.

Wir lernen die Funktionsweise der Welt durch Beobachtung kennen.

Die Welt, die wir erforschen, ist dreidimensional

Wir wissen, dass sich Objekte unabhängig voneinander bewegen können.

Wir wissen, dass Objekte dauerhaft sind.

Wir lernen, die Welt in einer Sekunde oder einer Stunde vorherzusagen.

Wir erstellen Weltmodelle durch prädiktives unüberwachtes Lernen

Ein solches Vorhersagemodell gibt uns ein "gesundes" Verständnis

Durch unüberwachtes Lernen können wir die Gesetze der Welt kennenlernen.

Gesunder Menschenverstand durch unüberwachtes Lernen erworben

Wenn wir die Vorhersagemodelle der Welt kennen, erlangen wir gesunden Menschenverstand.

Wenn wir sagen: „Gérard nimmt seine Tasche und verlässt den Raum“, können Sie daraus schließen:

Gérard stand auf, streckte die Arme aus, ging zur Tür, öffnete sie und ging hinaus.

Er und seine Tasche sind nicht mehr im Zimmer.

Er kann nicht verschwunden oder weggeflogen sein.

Unüberwachtes Lernen

Energiebasiertes unüberwachtes Lernen

Energiefunktion: Nehmen Sie den niedrigsten Wert im Datenstrom und den höchsten Wert anderswo

Wenn die gewünschte Energieabgabe erreicht ist, drücken Sie nach unten;

In anderen Fällen drücken Sie nach oben;

Generative Adversarial Networks


Laplace-GAN: Laegan (auch bekannt als EYESCREAM)

Lernen, Bilder zu generieren [Denton et al., NIPS 2015]

Der Generator gibt das durch die Laplace-Pyramidenkoeffizienten dargestellte Bild aus

Der Diskriminator lernt, zwischen echten und gefälschten Laplace-Bildern zu unterscheiden.

"Augenschrei"

"Augenschrei"/"LAPGAN"

Muster entdecken

DCGAN: Generieren von Bildern durch Adversarial Training

[Radford, Metz, Chintala, 2015]

Eingabe: Zufallszahlen;

Ausgang: Schlafzimmer



Navigationsfluss

DCGAN: Generieren von Bildern durch Adversarial Training

Training mit Comicfiguren

Einfügung zwischen Zeichen

Gesichtsalgebra (im DCGAN-Raum)

DCGAN: Generieren von Bildern durch Adversarial Training

[Radford, Metz, Chintala, 2015]

Unüberwachtes Lernen: Videovorhersage

Unüberwachtes Lernen ist die Blackbox der künstlichen Intelligenz

Unüberwachtes Lernen ist die einzige Lernform, die genügend Informationen liefert, um Milliarden neuronaler Netzwerke zu trainieren.

Überwachtes Lernen erfordert zu viel Kennzeichnungsaufwand

Reinforcement Learning erfordert zu viele Versuche

Aber wir wissen nicht, wie man unbeaufsichtigte Operationen durchführt (oder auch nur, wie man sie formalisiert).

Wir haben so viele Ideen und Methoden

Aber sie funktionieren nicht sehr gut

Warum ist es so schwierig? Weil die Welt von Natur aus unvorhersehbar ist.

Der Prädiktor erzeugt den Durchschnitt aller möglichen Zukünfte - ein unscharfes Bild

ConvNet Multi-Scale-Videovorhersage

4 bis 8 Frame-Eingabe → ConvNet ohne Aggregation → 1 bis 8 Frame-Ausgabe

Quadratwurzelfehler kann nicht verwendet werden: Fuzzy-Vorhersage

Die Welt ist von Natur aus unvorhersehbar, und das MSE-Training sagt den Durchschnitt möglicher zukünftiger Situationen voraus: verschwommene Bilder

ConvNet Multi-Scale-Videovorhersage


ConvNet Multi-Scale-Videovorhersage



ConvNet Multi-Scale-Videovorhersage

Vergleichen Sie mit denen, die LSTM verwendet haben [Srivastava et al., 2015]

Vorhersage durch unüberwachtes Lernen

Einige Ergebnisse wurden im „Konfrontationstraining“ erzielt.

Von einer vollständigen Lösung sind wir jedoch noch weit entfernt.

Prädiktives Lernen


Maschinelle Intelligenz und künstliche Intelligenz werden sich stark unterscheiden

Wie wird künstliche Intelligenz aussehen?

Menschliches und tierisches Verhalten hat evolutionär angeborene Triebe

Kampf/Flucht, Hunger, Selbsterhaltung, Schmerzvermeidung, Wunsch nach sozialer Interaktion usw.

Viele der falschen Dinge, die Menschen einander antun, sind auf diese Triebe zurückzuführen.

Gewalttätiges Verhalten bei Bedrohung, Verlangen nach materiellen Ressourcen und sozialer Macht usw.

KI-Systeme verfügen jedoch nicht über diese Antriebskräfte, es sei denn, wir konfigurieren sie in das System.

Es fällt uns schwer, uns intelligente Wesen ohne Antriebskraft vorzustellen.

Obwohl wir in der Tierwelt viele Beispiele haben.


Wie bringen wir die „ethischen Werte“ der KI mit menschlichen Werten in Einklang?

Wir werden einige grundlegende, unveränderliche, inhärente Treiber festlegen:

Menschliche Trainer verbinden Belohnungen mit Verhaltensweisen, die die Menschen in ihrer Umgebung glücklich und zufrieden machen.

Auf diese Weise lernen Kinder (und soziale Tiere), sich in der Gesellschaft zu verhalten.

Können wir unsichere KI verhindern?

Ja, genau wie wir uns vor potenziell gefährlichen Flugzeugen und Autos schützen.

Wie kann künstliche Intelligenz auf dem gleichen Niveau wie der Mensch geschaffen werden?

Das Aufkommen einer KI auf menschlichem Niveau wird kein isoliertes „Ereignis“ sein.

Es wird schrittweise erfolgen

Es geschieht auch nicht isoliert.

Keine Organisation hat ein Monopol auf gute Ideen.

Fortgeschrittene künstliche Intelligenz ist heute eher ein wissenschaftliches Problem als eine technologische Herausforderung.

Der Aufbau unüberwachten Lernens ist unsere größte Herausforderung

Einzelne Durchbrüche werden schnell reproduziert

Die Forschung zur künstlichen Intelligenz ist eine globale Gemeinschaft.

Die meisten guten Ideen kommen aus der Wissenschaft

Obwohl die eindrucksvollsten Anwendungen aus der Industrie kommen

Es ist wichtig, zwischen Intelligenz und Autonomie zu unterscheiden

Die intelligentesten Systeme sind nicht autonom.

abschließend

Deep Learning führt zu einer Welle von Anwendungen

Heute: Bilderkennung, Videokognition: Erkenntnisse in Aktion

Heute: Bessere Spracherkennung: Spracherkennung in Aktion

In naher Zukunft: besseres Sprachverständnis, Konversation und Übersetzung werden möglich sein

Deep Learning und Convolutional Networks werden häufig eingesetzt

Heute: Bildverständnisfunktionen werden bereits häufig von Facebook, Google, Twitter und Microsoft genutzt

In naher Zukunft: Autonomes Fahren, medizinische Bildanalyse und Roboterwahrnehmung werden möglich

Wir müssen Hardware (und Software) für eingebettete Anwendungen finden

Für Digitalkameras, Mobilgeräte, Autos, Roboter und Spielzeug. .

Von der Erfindung wirklich intelligenter Maschinen sind wir noch weit entfernt.

Wir müssen logisches Denken mit Deep Learning integrieren.

Wir brauchen ein gutes „episodisches“ (Kurzzeit-)Gedächtnis.

Wir müssen gute theoretische Prinzipien finden, um unüberwachtes Lernen zu unterstützen.

über: Neue Intelligenz

<<:  Vorsitzender der Gesellschaft für Künstliche Intelligenz: Es gibt Probleme in Chinas Forschung zur künstlichen Intelligenz

>>:  Das Einzige, was zwischen Alibaba Music und einer Weltklasse-Musikorganisation steht, ist Gao Xiaosong?

Artikel empfehlen

Wie trainiert man richtig, um Gewicht zu verlieren?

Viele Menschen wissen immer noch nicht viel darüb...

Die Tesla-Zulassungen in China stiegen 2019 um das 1,6-fache auf 42.715

Die Neuzulassungen von Tesla in China stiegen im ...

Wie kann ich durch Sport abnehmen?

Es gibt zwar viele Möglichkeiten, Gewicht zu verl...

Was bedeuten FM und AM bei Radiosignalen?

Im Radio hören wir oft: FM 96,6 MHz, AM 927 kHz. ...

NIO ES8, ein Elektroauto, das 35-40 Liter Diesel pro 100 Kilometer verbraucht

„Tragen Sie zur Emissionsreduzierung für blauen H...

Kann Seilspringen Bauchfett reduzieren?

Abnehmen ist eine Methode, die viele unserer Freu...

Kann ich durch Joggen ohne Schwitzen abnehmen?

Joggen kann beim Abnehmen helfen und viele Mensch...

Können Sit-ups Bauchfett reduzieren?

Heutzutage sitzen junge Menschen aufgrund ihrer b...

So führen Sie Aerobic-Übungen durch, um Muskeln aufzubauen

Heutzutage gibt es immer mehr fettleibige Mensche...

Dieses „Lotusblatt“ ist eigentlich keine Pflanze!

Wenn man von „Keramik“ spricht, denkt zweifellos ...