Quelle: Yann LeCun Zusammengestellt von: MiLi Yann LeCun ist der Erfinder der Convolutional Neural Networks und Leiter des Facebook Artificial Intelligence Research Institute. Die folgenden 150 PPTs stellen LeCuns umfassende und detaillierte Überlegungen zum Bereich Deep Learning dar. LeCun ist ein überzeugter Anhänger des unüberwachten Lernens und glaubt, dass dies die einzige Lernform ist, die genügend Informationen liefern kann, um Milliarden neuronaler Netzwerke zu trainieren. Doch LeCun glaubt auch, dass es sehr schwierig sei, dies gut zu machen, schließlich sei die Welt unverständlich. Schauen wir uns an, welche Überraschungen LeCun uns in diesen 150 PPTs bietet. Wenn Sie den vollständigen Text herunterladen möchten, antworten Sie bitte mit 0326, um ihn im Xinzhiyuan-Abonnementkonto herunterzuladen. Tiefes Lernen Von Yann Le Cun Courant Institut für Mathematische Wissenschaften, New York University, Facebook-KI-Forschung
Das Gehirn ist die Grundlage für die Existenz intelligenter Maschinen - Vögel und Fledermäuse sind ein Beweis für den Flug schwerer als Luft Gehirn Die heutigen Hochgeschwindigkeitsprozessoren Können wir künstliche Intelligenzsysteme entwickeln, indem wir das Gehirn nachbilden? Ist die Rechenleistung von Computern nur 10.000-mal so hoch wie die des Gehirns? Höchstwahrscheinlich hoch eine Million: Synapsen sind komplex. 1 Million sind 30 Jahre Mooresches Gesetz Am besten lässt man sich von der Biologie inspirieren; Wenn Sie jedoch einfach aus der Biologie kopieren und einfügen, ohne die zugrunde liegenden Prinzipien zu verstehen, sind Sie zum Scheitern verurteilt. Flugzeuge wurden von Vögeln inspiriert; sie nutzen die gleichen Grundprinzipien des Fliegens; Flugzeuge schlagen jedoch keine Flügel und haben keine Federn. Lassen wir uns von der Natur inspirieren, aber wir müssen sie nicht kopieren. Es ist gut, die Natur nachzuahmen, aber wir müssen die Natur auch verstehen. Für Flugzeuge entwickelten wir die Aerodynamik und die kompressible Strömungsdynamik und wussten, dass Federn und Flügelschlag nicht der Schlüssel waren. 1957: Perceptron (erste lernende Maschine) Ein einfaches simuliertes Neuron mit adaptiven „synaptischen Gewichten“ berechnet die gewichtete Summe seiner Ein- und Ausgänge +1, wenn die gewichtete Summe über einem Schwellenwert liegt, andernfalls -1. Perceptron-Lernalgorithmus Herkömmliches maschinelles Lernen (überwachtes Lernen) Entwerfen Sie eine Maschine mit einstellbaren Knöpfen (ähnlich den Gewichten in einem Perzeptron). Wählen Sie ein Trainingsbeispiel aus, führen Sie es durch die Maschine und messen Sie den Fehler. Finden Sie heraus, in welche Richtung der Knopf eingestellt werden muss, um den Fehler zu verringern. Wiederholen Sie diesen Vorgang mit allen Trainingsbeispielen, bis sich der Knopf stabilisiert. Herkömmliches maschinelles Lernen (überwachtes Lernen) Entwerfen Sie eine Maschine mit einem einstellbaren Knopf; Wählen Sie eine Trainingsprobe aus, führen Sie sie durch die Maschine und messen Sie den Fehler. Stellen Sie den Knopf ein, um den Fehler zu verringern. wiederholen, bis der Knopf stabil ist; Maschinelles Lernen = Funktionsoptimierung Das ist wie eine Wanderung in einem nebligen Gebirge: Man erreicht das Dorf im Tal, indem man in Richtung des steilsten Abhangs geht. aber jede Probe liefert uns eine verrauschte Schätzung der Richtung, sodass unser Pfad ziemlich zufällig ist. Verallgemeinerung: Erkennen von Situationen, die während des Trainings nicht gesehen wurden Nach dem Training: Testen Sie die Maschine mit Beispielen, die sie noch nie zuvor erkannt hat.
Wir können eine Maschine mit vielen Beispielen wie Tischen, Stühlen, Hunden, Katzen und Menschen trainieren; Aber kann die Maschine Tische, Stühle, Hunde, Katzen und Menschen erkennen, die sie noch nie zuvor gesehen hat? Maschinelles Lernen im großen Maßstab: Die Realität Milliarden von „Knöpfen“ (oder „Gewichten“), Tausende von Kategorien; Millionen von Beispielen; das Identifizieren jedes einzelnen Beispiels kann Milliarden von Operationen erfordern; aber diese Operationen sind nur einige einfache Multiplikationen und Additionen. Traditionelles Modell der Mustererkennung Traditioneller Ansatz zur Mustererkennung (seit den späten 50er Jahren), feste/entworfene Merkmale (oder feste Matrix) + trainierbarer Klassifikator, Perzeptron (Cornell University, 1957) Deep Learning = die gesamte Maschine ist trainierbar Traditionelle Mustererkennung: feste und handgefertigte Merkmalsextraktoren; Mainstream-Mustererkennung der Moderne: unbeaufsichtigte Merkmale mittlerer Ebene; Deep Learning: Darstellungen sind hierarchisch und trainiert; Deep Learning = Lernen hierarchischer Darstellung Deep Learning ist mehr als eine Stufe der nichtlinearen Merkmalstransformation. Training von Faltungscodes zur Merkmalsvisualisierung auf ImageNet [Zeiler & Fergus 2013] Trainierbare Feature-Levels Mit zunehmender Abstraktionsebene steigt auch die Darstellungsebene. jede Phase ist eine Transformation trainierbarer Funktionen; Bilderkennung: Pixel → Kante → Texturprimitiv → Motiv → Teil → Objekt Charakter → Wort → Wortgruppe → Satzteil → Satz → Geschichte Rede Beispiel → Spektralband → Ton → ... → Telefon → Phonem → Wort Oberflächlichkeit vs. Tiefe == Nachschlagetabelle vs. mehrstufiger Algorithmus „Flach und breit“ vs. „tief und schmal“ == „mehr Speicher“ vs. „mehr Zeit“, Nachschlagetabelle vs. Algorithmus; nur wenige Funktionen können in zwei Schritten ausgeführt werden, ohne dass eine exponentiell große Nachschlagetabelle erforderlich ist. Durch Exponentialfaktor kann die „Speicherung“ um mehr als zwei Schritte reduziert werden. Wie interpretiert das Gehirn Bilder? Der ventrale (Identifikations-)Pfad im visuellen Kortex umfasst mehrere Stufen; Netzhaut – LGN – V1 – V2 – V4 – PIT – AIT….etc; Mehrschichtiges neuronales Netzwerk Mehrschichtiges neuronales Netzwerk Mehrere Schichten einfacher Einheiten; jede Einheit berechnet eine gewichtete Summe ihrer Eingaben; die gewichtete Summe durchläuft eine nichtlineare Funktion; ein Lernalgorithmus ändert die Gewichte; Typische mehrschichtige neuronale Netzwerkarchitektur
Bauen Sie ein Netzwerk auf, indem Sie Module zusammenstellen Alle wichtigen Deep-Learning-Frameworks verwenden Module (inspiriert von SN/Lush, 1991), Torch7, Theano, TensorFlow…. Berechnen Sie die Steigung durch Backpropagation Praktische Anwendung der Kettenregel Algebraisches Herunterziehen der Steigung: ● dC/dXi-1 = dC/dXi . dXi/dXi-1 ● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1 Drücken Sie die Gewichtsschräge nach unten: ● dC/dWi = dC/dXi. dXi/dWi ● dC/dWi = dC/dXi. dFi(Xi-1,Wi)/dWi Funktioniert jede Architektur? Jeder beliebige Anschlussplan ist zulässig; Azyklischer gerichteter Graph Rekurrierende Netzwerke müssen „zeitlich entfaltet“ werden Jedes Modul zulassen Solange die entsprechenden Argumente und anderen nicht-terminalen Eingaben kontinuierlich sind, kann die Inversion an fast allen Positionen durchgeführt werden. Fast alle Architekturen bieten automatische Differenzierungsfunktionen. Theano, Torch7+Autograd, … Das Programm wird zu einer Methode zur Berechnung azyklischer gerichteter Graphen (DAGs) und zum automatischen Finden von Pfaden. Die Zielfunktion eines mehrschichtigen Netzwerks ist nicht konvex. 1-1-1-Netzwerk – Y = W1*W2*X Zielfunktion: Identitätsfunktion des quadratischen Verlusts Ein Beispiel: X=1,Y=1 L(W) = (1-W1*W2)^2 Faltungsnetzwerke (ConvNet oder kurz CNN) Faltungsnetzwerkarchitektur Mehrere Faltungen Animation: Andrej Karpathy URL: //cs231n.github.io/convolutional-networks/ Faltungsnetzwerk (erstellt 1990) Filter-Tanh → Aggregat → Filter-Tanh → Aggregat → Filter-Tanh Hubel und Wiesels Modell des visuellen Kortex Einfache Zellen werden verwendet, um lokale Merkmale zu erkennen, und komplexe Zellen werden verwendet, um die Ausgabeprodukte einfacher Zellen zu „aggregieren“, die sich in der Nähe im visuellen Kortex befinden, [Fukushima 1982][LeCun 1989, 1998], [Riesenhuber 1999] usw. Gesamtarchitektur: mehrstufige Normalisierung → Filtersatz → Nichtlinearität → Aggregation Standardisierung: Weißgradvariation (freie Wahl) Subtraktion: Mittelwertentfernung, Hochpassfilter Abteilung: Lokale Standardisierung, Standardabweichung Filterbank: Dimensionserweiterung, Abbildung auf supervollständige Kardinalität Nichtlinearität: Verdünnung, Sättigung, laterale Hemmungsmechanismen usw. Korrektur (ReLU), Reduzierung der effektiven Komponenten, tanh, Aggregation: Eine Sammlung räumlicher oder funktionaler Kategorien LeNet1-Demonstration im Jahr 1993 Mehrzeichenerkennung [Matan et al., 1992] Jede Schicht ist eine Faltung ConvNet -Schiebefenster + gewichtete endliche Zustandsmaschine ConvNet-Schiebefenster + gewichtetes FSM Scheckleser (Bell Labs, 1995) Das Image Transformer Network wird darauf trainiert, Scheckbeträge zu lesen, wobei für das vollständige Training ein negativer Log-Likelihood-Verlust verwendet wird. 50 % richtig, 49 % abgelehnt, 1 % Fehler (später im Prozess erkennbar) wurde ab 1996 von vielen Banken in den Vereinigten Staaten und Europa verwendet und verarbeitete Anfang der 2000er Jahre etwa 10 % bis 20 % der handschriftlichen Schecks in den Vereinigten Staaten. Gesichtserkennung [Vaillant et al. 1993, 1994] ConvNet wird für die Verarbeitung großer Bilder, Heatmaps in mehreren Größen und die Unterdrückung nicht maximaler Kandidaten verwendet und benötigt 6 Sekunden für ein 256 × 256-Bild auf SPARCstation Synchronisierte Gesichtserkennung und Posenschätzung
Szenenanalyse und Annotation Szenenanalyse und -annotation: Multiskalige ConvNet-Architektur Jeder Ausgang kann viel Eingangshintergrund sehen und die Überwachung auf vollständig annotierten Bildern trainieren Methode 1: Mehrheitswahl in Superpixel-Regionen
Szenenanalyse und Annotation Ohne Nachbearbeitung, Bild für Bild, läuft ConvNet mit 50 ms pro Bild auf Virtex-6-FPGA-Hardware, eingeschränkt durch die Möglichkeit, über Ethernet zu kommunizieren.
Vorverarbeitung (125 ms), Bodenebenenschätzung, Horizontausrichtung, Konvertierung in YUV + lokale Kontrastnormalisierung, Messung des normalisierten Bildes „mit“ invarianter Pyramide Faltungsnetzwerkarchitektur 100 Funktionen pro 3x12x25-Eingabefenster; YUV-Bildbänder 20–36 Pixel hoch, 36–500 Pixel breit Faltungsnetzwerke zur visuellen Objekterkennung Mitte der 2000er Jahre erzielte ConvNets mit dem Datensatz „Caltech101“ recht gute Ergebnisse bei der Objektklassifizierung: 101 Kategorien, 30 Trainingsbeispiele pro Kategorie. Die Ergebnisse waren jedoch den „traditionelleren“ Computer Vision-Methoden aus folgenden Gründen etwas unterlegen: 1. Der Datensatz ist zu klein; 2. Der Computer ist zu langsam; Dann passierten zwei Dinge. . . ImageNet-Datensatz [Fei-Fei et al., 2012] 1,2 Millionen Trainingsbeispiele 1000 Kategorien Schnelle und programmierbare Allzweck-GPUs Kann eine Billion Operationen pro Sekunde ausführen Extrem tiefe ConvNet-Objekterkennung 100 Millionen bis 1 Milliarde Verbindungen, 10 Millionen bis 1 Milliarde Parameter, 8 bis 20 Schichten Training extrem tiefer ConvNets auf GPUs Die fünf größten Fehlerwahrscheinlichkeiten von ImageNet sind: 15 %; [Sermanet et al. 2013] 13,8 % VGGNet [Simonyan, Zisserman 2014] 7,3 % Google Net [Szegedy et al. 2014] 6,6 % ResNet [He et al. 2015] 5,7 % Extrem tiefe ConvNet-Architektur Kleine Matrix, wenig Subsampling-Prozess (fragmentiertes Subsampling) Matrix: Erste Schicht (11×11) Erste Schicht: 3×9-Matrix, RGB->96-Feature-Map, 11×11-Matrix, 4 Schritte Lernen in Aktion Wie werden die Filter der ersten Schicht erlernt? Deep Learning = Lernen hierarchischer Darstellung Nichtlineare Merkmalstransformationen mit mehr als einer Stufe werden als tiefes, Merkmalsvisualisierungs-Convolutional-Network-Learning auf ImageNet bezeichnet [Zeiler & Fergus 2013]. ImageNet: Klassifizierung Benennen Sie die Hauptobjekte im Bild. Top 5 Fehlerrate: Wenn der Fehler nicht in den Top 5 ist, wird er als Fehler gewertet. Rot: ConvNet, Blau: Nicht ConvNet ConvNets-Objekterkennung und -lokalisierung Klassifizierung + Lokalisierung: Multiskaliges gleitendes Fenster Wenden Sie ein Convnet-Schiebefenster auf das Bild an, um wichtige Vorbereitungen in mehreren Maßstäben durchzuführen. Das Überziehen eines Convnets über ein Bild ist sehr kostengünstig. Sagen Sie für jedes Fenster eine Klassifizierung und Begrenzungsrahmenparameter voraus. Auch wenn sich das Objekt nicht vollständig im Anzeigefenster befindet, kann das Convnet vorhersagen, was es für ein Objekt hält. Ergebnisse: Feinabgestimmte ImageNet-Erkennung vor dem ImageNet1K-Training Erkennungsbeispiel: Erkennungsbeispiel: Erkennungsbeispiel: Tiefes Gesicht [Taigman et al. CVPR, 2014] ConvNet Matrix Learning ausrichten Automatische Anmerkungen auf Facebook verwenden 8 Millionen Fotos pro Tag Matrix-Lernen und siamesische Architektur Kontrative Zielfunktion: Ähnliche Objekte sollten Ausgabeprodukte erzeugen, die nahe beieinander liegen, und unähnliche Objekte sollten Ausgabeprodukte erzeugen, die weit voneinander entfernt sind. Reduzierung der Dimensionen durch Lernen und konstante Positionierung, [Chopra et al., CVPR 2005] [Hadsell et al., CVPR 2006] Personenerkennung und Posenvorhersage Bildbeschriftung: Generieren beschreibender Sätze C3D: 3D ConvNet-Videoklassifizierung Segmentieren und Lokalisieren von Objekten (DeepMask) [Pinheiro, Collobert, Dollar ICCV 2015] ConvNet generiert Objektgesichtsmodelle DeepMask++ Empfehlungen Identifizieren Sie die Route Zug Nach 2,5 Tagen Betrieb auf 8×4 Kepler GPUs mit EASGD [Zhang, Choromanska, LeCun, NIPS 2015] ::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86 Ergebnis Mapping von ConvNets unter Aufsicht Generieren von Bildern mit ConvNets Überwachtes ConvNets-Mapping Zeichne einen Stuhl, Stuhlalgorithmus im Merkmalsraum ConvNets zur Spracherkennung Spracherkennung und Faltungsnetzwerke (New York University/IBM) Akustisches Modell: 7-Schicht-ConvNet. 54,4 Millionen Parameter. Wandelt Tonsignale in 3.000 miteinander verbundene subphonemische Kategorien um ReLU-Einheit + von der vorherigen Schicht getrennt Nach 4 Tagen GPU-Training Spracherkennung und Faltungsnetzwerke (New York University/IBM) Trainingsbeispiele. 40 Mel-Frequenz-Cepstrum-Koeffizientenfenster: 40 Bilder pro 10 Mikrosekunden Spracherkennung und Faltungsnetzwerke (New York University/IBM) Die Faltungsmatrix der ersten Schicht, 9 × 9 Matrix der Größe 64
Mehrsprachige Erkennung, Eingabe in mehreren Maßstäben, großes Anzeigefenster ConvNets sind überall (oder werden es bald sein) ConvNet-Chip Derzeit entwickeln NVIDIA, Intel, Teradeep, Mobileye, Qualcomm und Samsung ConvNet-Chips. Viele Startups: Movidius, Nervana usw. In naher Zukunft werden ConvNets Autos fahren NVIDIA: Fahrerassistenzsystem basierend auf ConvNet-Technologie Drive-PX2: Open Source-Plattform für Fahrerassistenzsysteme (=150 Macbook Pros) Eingebetteter Supercomputer: 42TOPS (=150 MacBook Pros) MobilEye: Ein Fahrerassistenzsystem basierend auf ConvNet-Technologie Konfiguriert im Tesla Model S und Model X ConvNet-Konnektomik [Jain, Turaga, Seung, 2007] 3DConvNet-Volumenbilder, die 7x7x7 benachbarte Voxel verwenden, um jedes Voxel als „Membran“ oder „Nicht-Membran“ zu kennzeichnen, sind zur Standardmethode für die Konnektomik geworden Erkennung von Hirntumoren CNN-Architektur mit kaskadiertem Eingang, 802.368 Parameter, trainiert an 30 Patienten, Ergebnisse gezeigt bei BRAT2013 Vorhersage der DNA/RNA-Proteinbindung mit ConvNets „Vorhersage der Sequenzspezifität von DNA- und RNA-bindenden Proteinen durch Deep Learning“ – Nature Biotechnology, Juli 2015, von B. Alipanahi, A. Delong, M. Weirauch, B. Frey Deep Learning ist überall (ConvNets sind überall) Viele Anwendungen auf Facebook, Google, Microsoft, Baidu, Twitter, IBM usw. Bilderkennung für die Suche in Fotosammlungen Filterung von Bild-/Videoinhalten: Spam, Nacktheit und Gewalt. Rankings von Such- und Nachrichtenquellen Menschen laden täglich 800 Millionen Bilder auf Facebook hoch (Wenn wir Instagram, Messenger und WhatsApp mit einbeziehen, sind das 2 Milliarden Bilder pro Tag) Jedes Foto auf Facebook durchläuft alle 2 Sekunden zwei ConvNets. Eine davon ist die Bilderkennung und -annotation; Eine weitere Möglichkeit ist die Gesichtserkennung (in Europa noch nicht aktiviert). In naher Zukunft werden ConvNets überall sein: Selbstfahrende Autos, medizinische Bildgebung, erweiterte Realität, mobile Geräte, intelligente Kameras, Roboter, Spielzeug und mehr. Embedded Welt Denkender Vektor „Der Samojede meines Nachbarn sieht aus wie ein Siberian Husky“ Embedded Welt iNSTAGRAM Video einbetten
Jedes Objekt, Konzept oder jede "Idee" kann durch einen Vektor dargestellt werden [-0,2, 0,3, -4,2, 5,1, …..] stellt das Konzept der „Katze“ dar [-0,2, 0,4, -4,0, 5,1, …..] stellt das Konzept „Hund“ dar Diese beiden Vektoren sind sehr ähnlich, da Katzen und Hunde viele gemeinsame Merkmale haben. Hinzufügen von Argumentation zur Manipulation von Gedankenvektoren Vergleich von Vektoren für Fragen, Antworten, Informationsextraktion und Inhaltsfilterung Argumentation, Planung und Sprachübersetzung durch Kombinieren und Transformieren von Vektoren Speicherspeicherung, Denken, Vektor MemNN (Memory Neural Network) ist ein gutes Beispiel Bei FAIR wollen wir die Welt in Denkvektoren „einbetten“. Natürliches Sprachverständnis Kann Text eingebettet werden? [Bengio 2003] [Collobert und Weston 2010] Sagen Sie den Text basierend auf dem Text davor und danach voraus Synthese semantischer Attribute Tokio-Japan = Berlin-Deutschland Tokio-Japan+Deutschland=Berlin Fragen-Antwort-System Fragen-Antwort-System Fragen-Antwort-System Sprachübersetzung mit LSTM-Netzwerken Mehrstufiges rekursives LSTM-Modul Lesen und Kodieren englischer Sätze Generieren Sie französische Sätze am Ende englischer Sätze Sehr ähnliche Genauigkeit wie der aktuelle Stand der Technik Wie erinnern sich neuronale Netzwerke an Dinge? Rekurrente Netzwerke können sich Dinge nicht über längere Zeiträume merken Der Kortex kann sich Dinge nur 20 Sekunden lang merken Wir brauchen einen Hippocampus (ein separates Speichermodul) LSTM [Hochreiter 1997], Register Gedächtnisnetzwerke [Weston et al., 2014] (FAIR), Assoziatives Gedächtnis Gestapelte erweiterte rekurrente neuronale Netzwerke [Joulin und Mikolov, 2014] (FAIR) NTM [DeepMind, 2014], „Bänder“. Speichern/Stapeln erweiterter rekurrierender Netzwerke Gestapeltes erweitertes RNN Schwach überwachtes MemNN: Suchen Sie nach verfügbaren Lagerorten. Gedächtnisnetzwerke [Weston, Chopra, Bordes, 2014] Kurzzeitgedächtnis zum Netzwerk hinzufügen ::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116 Hindernisse für künstliche Intelligenz Die vier fehlenden Teile der KI (neben der Rechenleistung) Tiefes kognitives Lernen der Theorie Wie ist die Geometrie von Zielfunktionen in tiefen Netzwerken? Warum ist die ConvNet-Architektur so gut? [Mallat, Bruna, Tygert..] Darstellung/Integration von Deep Learning mit logischem Denken, Aufmerksamkeit, Planung und Gedächtnis Ein Großteil der Forschung konzentrierte sich auf die Bereiche Denken/Planen, Aufmerksamkeit, Gedächtnis und Lernen von „Algorithmen“. Speichergestützte „differenzierbare“ Algorithmen für neuronale Netzwerke Kombinieren Sie überwachtes, unüberwachtes und bestärkendes Lernen in einem einzigen „Algorithmus“. Wenn sie funktionieren, könnten Boltzmann-Maschinen sehr nützlich sein. Was gestapelt werden soll – wo Autoencoder, Leiternetzwerke usw. Entdecken Sie die Struktur und Muster der Welt durch Beobachtung und indem Sie wie Tiere und Menschen leben. Die mysteriöse Geometrie der Zielfunktionen Tiefe Netzwerke mit ReLUs und Max Pooling Linearer Transformationsstapel Maximaler diskreter Operator ReLUs-Punktmethode Maximale Zusammenfassung Wechseln Sie von einer Ebene zur anderen Tiefe Netzwerke und ReLUs: Die Zielfunktion ist eine stückweise Polynomfunktion Wenn wir eine Verlustfunktion verwenden, hängt das Inkrement von Yk ab. Stückweises Polynom von Zufallskoeffizienten auf w viel: Die Verteilung der zufälligen (Gauß-)Koeffizienten polynomialer kritischer Punkte auf der Kugel [Ben Arous et al.] Zufallsmatrixtheorie sphärischer Spingläser höherer Ordnung Zufallsmatrizentheorie Tiefe Netzwerke und ReLUs: Die Zielfunktion ist eine stückweise Polynomfunktion Trainieren Sie ein verkleinertes (10×10) MNIST-2-Schicht-Netzwerk aus mehreren Anfangsbedingungen. Messen Sie den Verlust am Testsatz. Bestärkendes Lernen, überwachtes Lernen, unüberwachtes Lernen: drei Arten des Lernens Drei Arten des Lernens Bestärkendes Lernen Die Maschine macht gelegentlich Vorhersagen über Skalareffekte Ein Teil der Beispielbytes Überwachen Sie das Lernen Die Maschine prognostiziert die Art oder Menge jeder Eingabe 100.000 bis 10.000 Bits pro Sample Unüberwachtes Lernen Maschinen treffen Vorhersagen für jeden Input und jedes beobachtbare Vorhersage zukünftiger Aufnahmen in Videos Jedes Sample hat Millionen von Bytes Wie viele Informationen benötigt die Maschine für die Vorhersage? Bestärkendes Lernen (Cherry) Die Maschine macht gelegentlich Vorhersagen über Skalareffekte Ein Teil der Beispielbytes Überwachtes Lernen (Beschönigung) Die Maschine prognostiziert die Art oder Menge jeder Eingabe 10 bis 10.000 Bytes pro Sample Unüberwachtes Lernen (Cake) Maschinen treffen Vorhersagen für jeden Input und jedes beobachtbare Vorhersage zukünftiger Aufnahmen in Videos Jedes Sample hat Millionen von Bytes Unüberwachtes Lernen ist die „Black Box“ der künstlichen Intelligenz Fast alle Lernprozesse bei Tieren und Menschen sind unüberwachtes Lernen. Wir lernen die Funktionsweise der Welt durch Beobachtung kennen. Die Welt, die wir erforschen, ist dreidimensional Wir wissen, dass sich Objekte unabhängig voneinander bewegen können. Wir wissen, dass Objekte dauerhaft sind. Wir lernen, die Welt in einer Sekunde oder einer Stunde vorherzusagen. Wir erstellen Weltmodelle durch prädiktives unüberwachtes Lernen Ein solches Vorhersagemodell gibt uns ein "gesundes" Verständnis Durch unüberwachtes Lernen können wir die Gesetze der Welt kennenlernen. Gesunder Menschenverstand durch unüberwachtes Lernen erworben Wenn wir die Vorhersagemodelle der Welt kennen, erlangen wir gesunden Menschenverstand. Wenn wir sagen: „Gérard nimmt seine Tasche und verlässt den Raum“, können Sie daraus schließen: Gérard stand auf, streckte die Arme aus, ging zur Tür, öffnete sie und ging hinaus. Er und seine Tasche sind nicht mehr im Zimmer. Er kann nicht verschwunden oder weggeflogen sein. Unüberwachtes Lernen Energiebasiertes unüberwachtes Lernen Energiefunktion: Nehmen Sie den niedrigsten Wert im Datenstrom und den höchsten Wert anderswo Wenn die gewünschte Energieabgabe erreicht ist, drücken Sie nach unten; In anderen Fällen drücken Sie nach oben; Generative Adversarial Networks Laplace-GAN: Laegan (auch bekannt als EYESCREAM) Lernen, Bilder zu generieren [Denton et al., NIPS 2015] Der Generator gibt das durch die Laplace-Pyramidenkoeffizienten dargestellte Bild aus Der Diskriminator lernt, zwischen echten und gefälschten Laplace-Bildern zu unterscheiden. "Augenschrei" "Augenschrei"/"LAPGAN" Muster entdecken DCGAN: Generieren von Bildern durch Adversarial Training [Radford, Metz, Chintala, 2015] Eingabe: Zufallszahlen; Ausgang: Schlafzimmer Navigationsfluss DCGAN: Generieren von Bildern durch Adversarial Training Training mit Comicfiguren Einfügung zwischen Zeichen Gesichtsalgebra (im DCGAN-Raum) DCGAN: Generieren von Bildern durch Adversarial Training [Radford, Metz, Chintala, 2015] Unüberwachtes Lernen: Videovorhersage Unüberwachtes Lernen ist die Blackbox der künstlichen Intelligenz Unüberwachtes Lernen ist die einzige Lernform, die genügend Informationen liefert, um Milliarden neuronaler Netzwerke zu trainieren. Überwachtes Lernen erfordert zu viel Kennzeichnungsaufwand Reinforcement Learning erfordert zu viele Versuche Aber wir wissen nicht, wie man unbeaufsichtigte Operationen durchführt (oder auch nur, wie man sie formalisiert). Wir haben so viele Ideen und Methoden Aber sie funktionieren nicht sehr gut Warum ist es so schwierig? Weil die Welt von Natur aus unvorhersehbar ist. Der Prädiktor erzeugt den Durchschnitt aller möglichen Zukünfte - ein unscharfes Bild ConvNet Multi-Scale-Videovorhersage 4 bis 8 Frame-Eingabe → ConvNet ohne Aggregation → 1 bis 8 Frame-Ausgabe Quadratwurzelfehler kann nicht verwendet werden: Fuzzy-Vorhersage Die Welt ist von Natur aus unvorhersehbar, und das MSE-Training sagt den Durchschnitt möglicher zukünftiger Situationen voraus: verschwommene Bilder ConvNet Multi-Scale-Videovorhersage
ConvNet Multi-Scale-Videovorhersage Vergleichen Sie mit denen, die LSTM verwendet haben [Srivastava et al., 2015] Vorhersage durch unüberwachtes Lernen Einige Ergebnisse wurden im „Konfrontationstraining“ erzielt. Von einer vollständigen Lösung sind wir jedoch noch weit entfernt. Prädiktives Lernen
Wie wird künstliche Intelligenz aussehen? Menschliches und tierisches Verhalten hat evolutionär angeborene Triebe Kampf/Flucht, Hunger, Selbsterhaltung, Schmerzvermeidung, Wunsch nach sozialer Interaktion usw. Viele der falschen Dinge, die Menschen einander antun, sind auf diese Triebe zurückzuführen. Gewalttätiges Verhalten bei Bedrohung, Verlangen nach materiellen Ressourcen und sozialer Macht usw. KI-Systeme verfügen jedoch nicht über diese Antriebskräfte, es sei denn, wir konfigurieren sie in das System. Es fällt uns schwer, uns intelligente Wesen ohne Antriebskraft vorzustellen. Obwohl wir in der Tierwelt viele Beispiele haben.
Wir werden einige grundlegende, unveränderliche, inhärente Treiber festlegen: Menschliche Trainer verbinden Belohnungen mit Verhaltensweisen, die die Menschen in ihrer Umgebung glücklich und zufrieden machen. Auf diese Weise lernen Kinder (und soziale Tiere), sich in der Gesellschaft zu verhalten. Können wir unsichere KI verhindern? Ja, genau wie wir uns vor potenziell gefährlichen Flugzeugen und Autos schützen. Wie kann künstliche Intelligenz auf dem gleichen Niveau wie der Mensch geschaffen werden? Das Aufkommen einer KI auf menschlichem Niveau wird kein isoliertes „Ereignis“ sein. Es wird schrittweise erfolgen Es geschieht auch nicht isoliert. Keine Organisation hat ein Monopol auf gute Ideen. Fortgeschrittene künstliche Intelligenz ist heute eher ein wissenschaftliches Problem als eine technologische Herausforderung. Der Aufbau unüberwachten Lernens ist unsere größte Herausforderung Einzelne Durchbrüche werden schnell reproduziert Die Forschung zur künstlichen Intelligenz ist eine globale Gemeinschaft. Die meisten guten Ideen kommen aus der Wissenschaft Obwohl die eindrucksvollsten Anwendungen aus der Industrie kommen Es ist wichtig, zwischen Intelligenz und Autonomie zu unterscheiden Die intelligentesten Systeme sind nicht autonom. abschließend Deep Learning führt zu einer Welle von Anwendungen Heute: Bilderkennung, Videokognition: Erkenntnisse in Aktion Heute: Bessere Spracherkennung: Spracherkennung in Aktion In naher Zukunft: besseres Sprachverständnis, Konversation und Übersetzung werden möglich sein Deep Learning und Convolutional Networks werden häufig eingesetzt Heute: Bildverständnisfunktionen werden bereits häufig von Facebook, Google, Twitter und Microsoft genutzt In naher Zukunft: Autonomes Fahren, medizinische Bildanalyse und Roboterwahrnehmung werden möglich Wir müssen Hardware (und Software) für eingebettete Anwendungen finden Für Digitalkameras, Mobilgeräte, Autos, Roboter und Spielzeug. . Von der Erfindung wirklich intelligenter Maschinen sind wir noch weit entfernt. Wir müssen logisches Denken mit Deep Learning integrieren. Wir brauchen ein gutes „episodisches“ (Kurzzeit-)Gedächtnis. Wir müssen gute theoretische Prinzipien finden, um unüberwachtes Lernen zu unterstützen. über: Neue Intelligenz |
Viele Menschen wissen immer noch nicht viel darüb...
Die Neuzulassungen von Tesla in China stiegen im ...
Es gibt zwar viele Möglichkeiten, Gewicht zu verl...
Heute ist ein ganz magischer Tag – der „ Welt-Müc...
199IT Originalkompilation Laut der National Retai...
Die Erforschung der Geheimnisse des Universums is...
Im Radio hören wir oft: FM 96,6 MHz, AM 927 kHz. ...
„Tragen Sie zur Emissionsreduzierung für blauen H...
Abnehmen ist eine Methode, die viele unserer Freu...
Tratsch „Die Einnahme von Tyrosinpräparaten kann ...
Joggen kann beim Abnehmen helfen und viele Mensch...
„Ich habe gehört, dass zu viel MSG nicht gesund i...
Heutzutage sitzen junge Menschen aufgrund ihrer b...
Heutzutage gibt es immer mehr fettleibige Mensche...
Wenn man von „Keramik“ spricht, denkt zweifellos ...