1. Die Geburt der Vision Das Leben auf der Erde hat in den Milliarden Jahren seit seiner Entstehung keine größeren Veränderungen erfahren. Sie lagen flach auf dem Grund des Urmeeres und waren weder in der Lage, sich selbstständig fortzubewegen, noch zu jagen oder Nahrung zu suchen. Erst vor etwa 500 Millionen Jahren begann die Evolution plötzlich explosionsartig voranzuschreiten. In den darauffolgenden zehn Millionen Jahren entwickelte sich eine Vielfalt unterschiedlicher Körperstrukturen, die fast alle heutigen Organismenarten umfasst. Sie verfügten außerdem über komplexe Verhaltensweisen wie Jagen, Lichtsuche und Schadensvermeidung. Obwohl es viele Gründe für die Explosion des Lebens im Kambrium gibt, ist einer der wichtigsten Gründe die Entstehung des Sehvermögens. Das Sehen ermöglicht einen Quantensprung in der Anpassungsfähigkeit von Organismen an ihre Umwelt und ist daher zur wichtigsten Wahrnehmungsfunktion geworden. Auf den ersten Blick klingt das Sehen wie eine Funktion der Augen, da wir unsere Augen immer verwenden, um Dinge zu sehen. Tatsächlich sind die Augen jedoch nur Sinnesorgane, die Lichtinformationen aus der Außenwelt nur passiv empfangen können. Diese Informationen müssen einer komplexen Dekodierung unterzogen werden, bevor sie im Gehirn verstanden werden können. Dadurch wissen wir, was um uns herum geschieht und wie wir reagieren sollten. Daher ist das Gehirn tatsächlich das wichtigste Sehorgan. Für Computer ist es nicht schwierig, die Funktion von „Augen“ zu simulieren, und eine Kamera kann dies problemlos tun. Es ist jedoch sehr schwierig, visuelle Informationen wirklich so zu verstehen, wie es die visuellen Bereiche des Gehirns tun. Bildquelle: pixabay Wenn wir Menschen jung sind, müssen wir in unserem Leben nur wenige Katzen sehen, um die visuellen Merkmale von Katzen sehr deutlich zu verstehen. Wenn wir das nächste Mal eine unbekannte Katze sehen, können wir sie auf den ersten Blick erkennen. Für uns ist es jedoch schwierig, solche Merkmale in eine Form zu bringen, die Computer verstehen können. Obwohl es sich bei den Katzen auf den Bildern beispielsweise allesamt um Katzen handelt, haben sie für den Computer keinerlei Ähnlichkeit. Obwohl herkömmliche visuelle Algorithmen eine große Anzahl von Regeln festlegen und versuchen, verschiedene Bildmerkmale zu extrahieren, sind sie nicht in der Lage, den Inhalt des Bildes zu verstehen. Dies geht so weit, dass sie nicht einmal Dinge tun können, die für Menschen einfach sind, wie etwa zu erkennen, ob es sich bei dem Objekt im Bild um eine Katze oder einen Hund handelt. 2. Die Leistungsfähigkeit neuronaler Netzwerkalgorithmen Um die Genauigkeit des Algorithmus bei der Klassifizierung von Bildern zu überprüfen. Im Jahr 2010 veröffentlichte Fei-Fei Li, ein damals an der Princeton University lehrender Informatiker, ImageNet, einen riesigen Bilddatensatz mit mehr als tausend Kategorien. Im Jahr 2010 konnten die fortschrittlichsten Algorithmen nur etwa 72 % der Bilder richtig identifizieren. Aber das Aufkommen des Deep Learning hat alles verändert. Im Jahr 2012 veröffentlichten Geoffrey Hinton von der Universität Toronto und zwei seiner Studenten das neuronale Netzwerk AlexNet. Dieses Netzwerk führte sofort zu einem großen Durchbruch bei ImageNet und erhöhte die Genauigkeit auf über 84 %. Einige Jahre später gewann Hinton den Turing Award und ein weiterer Autor des Artikels, Ilya Sutskever, wurde Mitglied des Gründungsteams von OpenAI, aber das ist eine andere Geschichte. Wie erkennen neuronale Netze Bilder? Schauen wir uns ein einfaches Beispiel an. Angenommen, wir möchten handgeschriebene Zahlen auf einem 28 x 28 großen Bild erkennen. Wir können die Pixel im Bild in eine Folge von 784 Zahlen strecken. Wir können diese Sequenz dann als Eingabe an das neuronale Netzwerk übergeben. Die Ausgabe des neuronalen Netzwerks umfasst 10 Neuronen und der Ausgabewert jedes Neurons stellt eine Zahl dar. Zu Beginn, nach der Eingabe der Bilddaten, ist das Ausgabeergebnis zufällig. Wenn wir dieses neuronale Netzwerk jedoch mit einer großen Menge an Trainingsdaten trainieren, das Netzwerk seine Parameter entsprechend den richtigen Ergebnissen ändern lassen und kontinuierliches Feedback geben, lernt das neuronale Netzwerk nach und nach, Zahlen richtig zu erkennen. Dieses einfache neuronale Netzwerk weist jedoch Probleme auf. 3. Das Auftreten neuer Probleme Das erste Problem besteht darin, dass es viele Parameter hat. Wenn wir zusätzlich zum Ein- und Ausgang nur 100 Neuronen als mittlere Schicht verwenden, gibt es 784*100+100*10 = 79400 Verbindungen. Allerdings sind die Bilder, die wir verarbeiten müssen, oft viel größer als 28 x 28 Pixel, was zu zu vielen Parametern im Modell führt und das Training erschwert. Das zweite Problem besteht darin, dass diese Methode die Verteilung der Pixel im Originalbild stört, was nicht dem Muster der menschlichen Bildbetrachtung entspricht. Wie lassen sich diese beiden Probleme lösen? Die Forscher beobachteten zwei Eigenschaften. Erstens ist es zum Identifizieren von Objekten in einem Bild nicht unbedingt erforderlich, jeden Pixel im Bild zu scannen, sondern es muss lediglich herausgefunden werden, ob im Schlüsselbereich des Bildes ein wichtiges Merkmal erscheint. Wenn wir beispielsweise ein Stück schwarz-weißes Fell sehen, können wir möglicherweise direkt feststellen, dass es sich bei dem Tier auf dem Bild um ein Zebra handelt. Zweitens ist die Position dieses Merkmals im Bild nicht entscheidend. Egal, wo auf einem Foto eine Katze erscheint, es ist eine Katze. Anstatt die Pixel zu verschieben, verwendeten die Forscher daher ein Werkzeug, das einem kleinen Fenster ähnelte, um es über das Bild zu bewegen und so lokale Merkmale an verschiedenen Stellen des Bildes zu erfassen. Diese kleinen Fenster können mithilfe einer Reihe von Parametern über das gesamte Bild gleiten, wodurch die Anzahl der Parameter reduziert und gleichzeitig verschiedene Bereiche des Bildes erfasst werden. Ein neuronales Netzwerk, das ein solches „kleines Fenster“ verwendet, wird auch als Convolutional Neural Network bezeichnet. AlexNet ist eigentlich ein einfaches faltendes neuronales Netzwerk. Anschließend wurde die neuronale Netzwerktechnologie kontinuierlich optimiert, die Anzahl der Neuronen und Netzwerkschichten weiter erhöht und die Leistung weiter verbessert. Einige Jahre später lag die Genauigkeit von ImageNet bei über 97 % und näherte sich bei diesem Datensatz zumindest dem menschlichen Niveau an. Neben der Bildklassifizierung gibt es in der Computer Vision jedoch noch viele weitere Aufgaben. Noch schwieriger als die Bildklassifizierung ist die Objekterkennung. Bei der Objekterkennungsaufgabe geht es nicht nur darum, die Objekte im Bild zu identifizieren, sondern auch, die Position der Objekte zu markieren. Manchmal enthalten Bilder mehr als einen Objekttyp. Die Objekterkennung wird beim autonomen Fahren häufig eingesetzt, da das autonome Fahrsystem in der Lage sein muss, verschiedene Arten von Objekten zu erkennen, beispielsweise andere Autos, Fußgänger, Ampeln und Schilder usw. Darüber hinaus benötigen wir Modelle, um Daten aus verschiedenen „Modalitäten“ zu verstehen und miteinander zu kombinieren. Beispielsweise kann ein Modell, das Text und Bilder kombiniert, Bilder auf der Grundlage von Text generieren. Neben der Verarbeitung vorhandener Bilder soll die Maschine auch neue Bilder und Videos generieren. Mittlerweile verfügen Institutionen wie OpenAI, Google und Baidu bereits über relativ ausgereifte Tools zur Bilderzeugung, die Technologie zur Videoerzeugung ist jedoch noch relativ primitiv und bietet viel Raum für Verbesserungen. Eine weitere offene Frage im Bereich der Computer Vision ist, ob es möglich ist, ein allgemeines Vision-Modell wie GPT-4 oder chatGPT zu entwickeln. Schließlich ist visuelles Verständnis ein integraler Bestandteil der Intelligenz, und große Sprachmodelle ohne visuelle Fähigkeiten können nicht jeden davon überzeugen, dass sie die volle Intelligenz verkörpern. Der Artikel wurde vom Science Popularization China-Starry Sky Project (Erstellung und Kultivierung) erstellt. Bei Nachdruck bitten wir um Quellenangabe. Autor: Guan Xinyu, populärwissenschaftlicher Autor Rezensent: Yu Yang, Leiter des Tencent Xuanwu Lab |
<<: Riecht Ihre Toilette nach faulen Eiern? Seien Sie vorsichtig!
>>: Kh-BD debütiert – steht dem russischen Bomber sein „zweiter Frühling“ bevor?
Am 18. November veröffentlichte NIO seinen Finanz...
Produziert von: Science Popularization China Auto...
Das Training des Deltamuskels ist ein Teil, der b...
Fett am Bauch zu haben ist etwas, das wir alle ha...
Dieser Artikel wurde von Liu Shaowei, stellvertre...
Von der Entwicklung der Internetzahlung bis hin z...
Vor Kurzem hat Tesla einen freiwilligen Rückruf f...
Autor: Huang Xianghong Duan Yuechu Im riesigen ko...
Sit-ups sind für uns eine gängige Übungsform. Die...
(Bild aus dem Internet) Warum wählen alle 10 Kilo...
Das Amt für Geologie und Mineralressourcen der Pr...
Berichten zufolge erlitt Sänger Eason Chan am 10....
Experte dieses Artikels: Chu Yuhao, PhD der Beiji...
Viele Männer machen körperliche Übungen, um Muske...
Ein Jahr nach der 516-Entity-Liste ist Huawei nic...