Durch ein Foto kann man alles wiedererkennen. Wie „versteht“ KI Bilder?

Durch ein Foto kann man alles wiedererkennen. Wie „versteht“ KI Bilder?

Willkommen bei der speziellen Winterferienkolumne „ Hightech-Unterricht für Kinder “ von Science Popularization China!

Künstliche Intelligenz ist eine der modernsten Technologien unserer Zeit und verändert unser Leben mit erstaunlicher Geschwindigkeit. Von intelligenten Sprachassistenten bis hin zu selbstfahrenden Autos, von KI-Malerei bis hin zu maschinellem Lernen eröffnet es uns eine Zukunft voller unendlicher Möglichkeiten. In dieser Kolumne werden Kindern anhand von Videos und Texten die Prinzipien, Anwendungen und tiefgreifenden Auswirkungen künstlicher Intelligenz auf die Gesellschaft auf leicht verständliche Weise erklärt.

Kommen Sie und beginnen Sie diese KI-Reise mit uns!

Nachfolgend die Textversion:

KI-Bilderkennung ist in unserem Leben allgegenwärtig.

Sehen Sie eine Pflanze, die Sie nicht erkennen? Machen Sie ein Foto und finden Sie es in wenigen Minuten heraus. Selbstfahrende Autos scheinen Augen zu haben und können problemlos feststellen, wo die Straße ist und wo die Bäume sind. Die Gesichtserkennungstechnologie ermöglicht es uns außerdem, durch Scannen unseres Gesichts zu bezahlen.

All dies ist untrennbar mit einer Technologie verbunden: dem Convolutional Neural Network. Diese Technologie ist wie die Augen der KI.

Um zu verstehen, wie die Augen einer KI funktionieren, müssen wir uns zunächst ansehen, wie die Augen von Tieren funktionieren.

Von Katzenaugen zu KI-Augen: Inspiration durch visuelle Neuronen

In den 1950er und 1960er Jahren untersuchten David Hubel und Torsten Wiesel das Sehvermögen von Katzen und fanden heraus, dass die für das Sehen im Gehirn der Katze verantwortlichen Neuronen durch unterschiedliche Dinge aktiviert werden, nachdem ein Bild in ihr Sichtfeld gelangt.

Zum besseren Verständnis sehen wir uns ein Beispiel an. Beispielsweise sind in einem Bild wie diesem einige Neuronen sehr an den Randlinien der Objekte im Bild interessiert und konzentrieren sich auf die Verarbeitung dieser Informationen, während andere Neuronen empfindlicher auf große Farbblöcke reagieren und diese Informationen besser verarbeiten können. Diese Nervenzellen arbeiten zusammen, um Organismen dabei zu helfen, eine Vielzahl komplexer Bilder zu erkennen.

Edgar Degas, Bei den Pferderennen auf dem Land, 1869

Für diese Forschung erhielten David und Torstein 1981 den Nobelpreis für Physiologie oder Medizin. Darüber hinaus war sie auch die Inspiration für einen sehr wichtigen Algorithmus auf dem Gebiet der künstlichen Intelligenz: das Convolutional Neural Network .

In den 1980er Jahren entwickelte der japanische Wissenschaftler Kunihiko Fukushima ein Modell namens Neocognitron zur Erkennung japanischer handgeschriebener Schriftzeichen. Es gibt verschiedene „Ebenen“ in Neocognitron, um unterschiedliche Informationen zu extrahieren und diese Informationen schließlich zu kombinieren, um die erkannten Zeichen zu beurteilen.

Dies inspirierte einen französischen Wissenschaftler namens Yann Lecun, der das erste Convolutional Neural Network entwarf und das auf dem Convolutional Neural Network basierende LeNet-Modell etablierte. Dieses Modell wurde damals von vielen Banken zur Erkennung handschriftlicher Zeichen verwendet. Sehen wir uns anhand eines einfachen Beispiels an, wie Convolutional Neural Networks funktionieren.

Convolutional Neural Networks: Die unbesungenen Helden der Bilderkennung

Im Vergleich zu neuronalen Netzwerken verfügen Convolutional Neural Networks bei der Bilderkennung über zwei zusätzliche Prozesse: Faltung und Aggregation.

Dieser Vorgang der Faltung wird von einem sogenannten Faltungskernel durchgeführt.

In den Augen eines Computers ist ein Bild eigentlich eine Matrix, die aus Pixeln besteht. Der Faltungskernel betrachtet nicht die Informationen jedes Pixels separat, sondern verarbeitet die Pixelinformationen eines bestimmten Bereichs, beispielsweise 3 × 3 oder 5 × 5, gleichzeitig. Auf diese Weise können die Informationen benachbarter Pixel umfassend berücksichtigt werden, um Merkmale höherer Ebene besser zu extrahieren.

Sie können sich den Faltungskern wie einen Beobachter vorstellen, der ein Bild durch ein Teleskop mit einem bestimmten Sichtfeld betrachtet und die gesehenen Informationen verarbeitet und aufzeichnet.

Darüber hinaus können wir Beobachter mit unterschiedlichen Fokussen einrichten, um unterschiedliche Informationsdimensionen aus dem Bild zu extrahieren. Beispielsweise konzentrieren sich einige Beobachter auf das Extrahieren von Farbinformationen, andere auf das Extrahieren von Kantenkonturinformationen von Objekten und wieder andere sind auf das Extrahieren von Informationen zu einer bestimmten Form spezialisiert. Schließlich werden diese Informationen kombiniert, um dem neuronalen Netzwerk zu helfen, bessere Urteile zu fällen.

Darüber hinaus verfügen Convolutional Neural Networks über einen weiteren wichtigen Schritt – die Aggregation (auch als Pooling bezeichnet).

Bilder sind oft sehr große Matrizen und durch Aggregation können die Informationen in einem Bereich zu einer einzigen Information komprimiert werden. Wenn wir für eine 16×16-Matrix die Konvergenzmethode verwenden können, um die Informationen des dunkelsten Rasters im 2×2-Raster zu extrahieren, können wir daraus eine 8×8-Matrix wie diese machen. Wenn die gleiche Konvergenz erneut durchgeführt wird, kann die 8×8-Matrix in eine 4×4-Matrix umgewandelt werden. Obwohl es nach der Konvergenz einige Änderungen im Bild geben wird, bleiben die grundlegenden Merkmale des gesamten Bildes erhalten.

Faltung und Konvergenz ermöglichen es Faltungsneuronalen Netzwerken, Bildinformationen sehr gut zu extrahieren, was die Effizienz des Bildlernens und der Bildverarbeitung erheblich verbessert.

Natürlich verwenden Convolutional Neural Networks denselben Backpropagation-Algorithmus wie neuronale Netzwerke und passen die Parameter im neuronalen Netzwerk kontinuierlich auf der Grundlage bekannter Ergebnisse an, um immer genauere Urteile zu fällen.

Wie verändert KI also die Ökologie einiger Branchen? Dies werden wir in den nächsten Folgen gemeinsam erkunden.

Planung und Produktion

Dieser Artikel ist ein Werk des Science Popularization China-Creation Cultivation Program

Produziert von: Abteilung für Wissenschaftspopularisierung der Chinesischen Vereinigung für Wissenschaft und Technologie

Hersteller: China Science and Technology Press Co., Ltd., Beijing Zhongke Xinghe Culture Media Co., Ltd.

Autor: Beijing Yunyuji Culture Communication Co., Ltd.

Gutachter: Qin Zengchang, Außerordentlicher Professor, Fakultät für Automatisierungswissenschaft und Elektrotechnik, Beihang-Universität

Planung von Fu Sijia

Herausgeber: Fu Sijia

Das Titelbild und die Bilder in diesem Artikel stammen aus der Copyright-Bibliothek

Nachdruck kann zu Urheberrechtsstreitigkeiten führen

<<:  vorsichtig! Die Steckdosen in den Waggons von Hochgeschwindigkeitszügen sind für Mobiltelefone wirklich schädlich.

>>:  Blumen blühen im Frühling … Moment, warum blühen diese Frühlingsblumen im Winter?

Artikel empfehlen

Warum baut mein Land das Beidou-Navigationssystem?

mein Land baut derzeit das Satellitennavigationssy...

Die Wirkung des täglichen Deltamuskeltrainings

Mit der kontinuierlichen Verbesserung des Lebenss...

Warum betrachten Genetiker Zwillinge als ein Geschenk Gottes?

Wenn Sie auf der Straße gehen und zwei Zwillinge ...

Es ist wieder Knisterzeit! Wie vermeidet man es, ein Außerirdischer zu sein?

Lufttrocknen Statische Elektrizität entsteht leis...

Was ist Quantum Dot TV

Der inländische Farbfernsehriese TCL hat vor Kurz...

Wie benutzt man das Bauchmuskelbrett?

Ich glaube, dass es für Angestellte, die den ganz...

Wie sieht die Vorbereitung vor dem Sport aus?

Ich glaube, die meisten Menschen wissen, dass wir...

Warum kommt es in Sichuan häufig zu Erdbeben?

Gestern ereignete sich im Kreis Luding, Präfektur...