Welche Technologie steckt hinter dem KI-Gemälde, das das Internet erobert? (Vorgesetzter)

Maschinen kreativ zu machen, war schon immer eines der höchsten Ideale der künstlichen Intelligenz. Daher werden Generierungsaufgaben zu einem Maßstab für die Kreativität von Maschinen. Zu diesen Generierungsaufgaben gehört das Generieren von Texten (Fragen und Antworten, Dialoge, Gedichte, Romane) sowie das Generieren von Bildern und Videos. In dieser Ausgabe stellen wir die Technologie hinter der KI-Malerei vor, die in letzter Zeit überall auf dem Bildschirm zu sehen war.

Bildquelle: pixabay

1. Die Geburt des Adversarial Network Model (GAN)

Bis vor wenigen Jahren schnitt die KI bei generativen Aufgaben schlecht ab. Sie wiederholen entweder streng nach Schablonen und Regeln oder können nur frei und fantasievoll Unsinn reden. Erst mit der Entstehung des Modells des generativen kontradiktorischen Netzwerks konnten wir es künstlicher Intelligenz ermöglichen, Kreativität zu erzeugen und gleichzeitig die Qualität dieser Kreativität zu kontrollieren. Die englische Abkürzung für Generative Adversarial Network ist GAN.

Es besteht aus einem Generator (G) und einem Adversarial (Klassifikator) (A). Der Generator muss sich kontinuierlich selbst trainieren, um realistische Bilder zu erhalten und den Klassifikator zu täuschen. während der Klassifikator sein Bestes geben sollte, um die generierten Bilder von den echten Bildern zu unterscheiden.

Ian Goodfellow, der Autor von GAN, verwendete in seinem Originalartikel das Beispiel eines hypothetischen Polizisten und eines Geldfälschers. Der Klassifizierer ist die Polizei und der Generator ist die Falschgeldfabrik. Anfangs konnte die Polizei echte und gefälschte Banknoten nur anhand der allgemeinen Muster unterscheiden, während die Fabriken für Falschgeld damit durchkamen, dass sie lediglich die Hauptmuster der Banknoten druckten. Um das Problem des Falschgeldes in den Griff zu bekommen, begann die Polizei, die Schattierung, Mikrotexte und Wasserzeichen auf Banknoten zu überprüfen. Infolgedessen mussten zahlreiche Fabriken für gefälschte Banknoten schließen, die nicht in der Lage waren, gefälschte Banknoten mit diesen Merkmalen herzustellen. Die verbleibenden Banknoten waren offensichtlich leichter zu fälschen und konnten realistischere Banknoten herstellen. Um diese gefälschten Banknoten weiterhin unterscheiden zu können, stellte die Polizei fest, dass das für diese gefälschten Banknoten verwendete Papier sich von dem echter Banknoten unterschied und sich auch anders anfühlte. Die Hersteller gefälschter Banknoten mussten sich also überlegen, wie sie die Proportionen der Verbindungen, die das Fruchtfleisch echter Banknoten imitierten, genauer mischen konnten, um Banknoten herzustellen, die sich genauso anfühlten. Auf diese Weise wurden die Fähigkeiten der Banknotenprüfgeräte immer besser, aber auch die Nachahmungsfähigkeiten der Maschinen zur Banknotenfälschung wurden immer besser.

2. „Lernen“ in der Konfrontation

Genauer gesagt sind der Generator und der Klassifikator in GAN zwei neuronale Netzwerke. Neuronale Netzwerke sind eine grundlegende Technologie im maschinellen Lernen. Man kann es als eine Art „Maschine“ verstehen: Nachdem es die zu verarbeitenden Daten aufgenommen hat, spuckt es die gewünschten Ergebnisse aus. Wenn wir feststellen möchten, ob ein Bild einen Hund oder eine Katze darstellt, ist das Ergebnis eine Zahl: 1 (für einen Hund) oder 0 (für eine Katze); Wenn wir künstliche Intelligenz zum Übersetzen verwenden möchten, ist die Eingabe Text in einer Sprache und die Ausgabe Text in einer anderen Sprache.

Untrainierte neuronale Netze können nur völlig unzuverlässige oder zufällige Ergebnisse ausgeben. Wenn Sie jedoch viele Daten finden, für die die richtige Ausgabe bekannt ist, können Sie das neuronale Netzwerk trainieren, um die richtige Antwort zu erhalten. Wir nennen diesen Prozess „Lernen“. Der Klassifikator von GAN verfügt über einen ähnlichen Mechanismus, der erkennen kann, ob ein Bild real oder generiert ist. Der Generator kann ein Bild basierend auf einer Zahl oder einem Vektor generieren.

Zu Beginn hat der Generator kein Ziel und kann nur zufällige Daten erzeugen, beispielsweise unscharfe Bilder oder sogar reines Rauschen. Der Klassifikator kann leicht trainiert werden, um diese schlechten Bilder von echten Bildern zu unterscheiden. An diesem Punkt muss der Generator sich selbst trainieren, um zu versuchen, den einfachen Klassifikator zu täuschen.

Der Vorgang wiederholt sich dann. Zunächst muss der Klassifikator lernen, die vom verbesserten Generator ausgegebenen Bilder zu identifizieren. Außerdem muss sich der Generator verbessern, um den verbesserten Klassifikator zu täuschen. Nach Zehntausenden oder sogar Hunderttausenden von Iterationen wird der Generator leistungsfähiger und erzeugt realistischere Bilder.

Obwohl das Prinzip relativ einfach ist, ist das Training eines GANs sehr schwierig. Im ursprünglichen GAN-Papier waren die generierten Bilder nicht von hoher Qualität. Doch dann führten zahlreiche Forschungsteams aus unterschiedlichen Richtungen Verbesserungen durch, die zu zahlreichen GAN-Varianten führten. Unter ihnen ist StyleGAN ziemlich berühmt, das äußerst realistische Gesichter erzeugen kann. Diese Gesichter unterscheiden sich von allen existierenden und werden vollständig von Computern erstellt.

Als Bilderzeugungsmodell weist GAN noch viele Mängel auf. Erstens ist das GAN-Training sehr instabil und manchmal stürzt das gesamte Modell während des Trainings ab. Zweitens erfordern unterschiedliche Szenarien das Training unterschiedlicher GAN-Modelle: Wenn Sie Bilder von Katzen generieren möchten, müssen Sie für das Training viele Katzenfotos finden. Wenn Sie Bilder von menschlichen Gesichtern erstellen möchten, müssen Sie einen Weg finden, eine große Anzahl von Bildern von menschlichen Gesichtern zu erhalten.

Allerdings gibt es unendlich viele Arten von Anforderungen und manche Szenarien können sehr komplex sein. Beispiel: „Ich möchte eine Katze generieren, die einen Hund jagt.“ Solche Anforderungen sind durch GAN nur schwer zu erfüllen. Mit anderen Worten: GAN kann Trainingsbilddaten nur speziell für eine bestimmte Szene verstehen, kann aber die menschliche Sprache nicht verstehen und kann daher die Bildgenerierung durch Text nicht steuern. Diese beiden Probleme werden durch das DALLE-Modell von OpenAI weitgehend gelöst. Dies erklären wir Ihnen im nächsten Video ausführlich.

Der Artikel wurde vom Science Popularization China-Starry Sky Project (Erstellung und Kultivierung) erstellt. Bei Nachdruck bitten wir um Quellenangabe.

Autor: Guan Xinyu, populärwissenschaftlicher Autor

Rezensent: Yu Yang, Leiter des Tencent Xuanwu Lab

<<: Obst: Warum sind Blumen bunt, aber ich bin so eintönig?

>>: Wenn die Sonne in den „Gewaltmodus“ schaltet, kann die Erde das einfach nicht „ertragen“ …

Freestyle-Skiing ist nicht so „frei“, aber Gu Ailing ist wirklich cool …

Artikel

Was ist der Unterschied zwischen Reis, der 2 Yuan pro Catty kostet, und Reis, der 20 Yuan pro Catty kostet? Stimmt es wirklich, dass teurer besser ist?

Artikel

Wie trainiert man den unteren großen Brustmuskel?

Diese 4 Gerichte, die über Nacht zubereitet werden, sind zu gefährlich. Es ist besser, sie wegzuwerfen, als sie zu essen! Leber- und Nierenschäden, Darmschäden...

Artikel

Schimmelige Lebensmittel sind nicht essbar. Warum kann man also Tofu mit Haaren essen?

Artikel

Welche schnellen und einfachen Möglichkeiten gibt es, Muskeln aufzubauen?

Artikel

Artikel empfehlen

Wie groß ist der Unterschied zwischen inländischen x86-CPUs und Intel? Weniger als die Hälfte der Leistung herkömmlicher Quad-Core-Produkte

Im Juni dieses Jahres sagte Wei Shaojun, Chefinge...

Nissan, Honda und Mitsubishi haben bereits begonnen, sich für mehr Wärme zusammenzuschließen. Unsere neuen Automobilhersteller sollten bald folgen können.

Unter großem Druck bereiten Nissan und Honda eine...

Bei dichtem Nebel kollidierten viele Fahrzeuge auf der Zhengxin-Brücke über den Gelben Fluss. Worauf sollten Sie beim Autofahren im Nebel achten?

Science Fiction Network berichtete am 28. Dezembe...

Der Ozean ist ein hervorragender Kohlenstofffänger! Kommen Sie und erfahren Sie mehr über marine Kohlenstoffsenken und helfen Sie, die „dualen Kohlenstoff“-Ziele zu erreichen!

Alles bekannte Leben auf der Erde basiert auf Koh...

Wie trainierst du deine Bauchmuskeln?

Was die Körperform angeht, glaube ich, dass sie d...

Chinas „erster Drache“ im Jahr des Drachen hat einen Namen: „Datai-Drache“!

Am 29. Februar erfuhren Reporter von Forschungste...

Lux Research: Der globale Produktionswert des industriellen Internets der Dinge wird im Jahr 2020 voraussichtlich 151 Milliarden US-Dollar erreichen

Das Internet der Dinge erfreut sich immer größere...

Welche Technologie steckt hinter dem KI-Gemälde, das das Internet erobert? (Vorgesetzter)

Freestyle-Skiing ist nicht so „frei“, aber Gu Ailing ist wirklich cool …

Was ist der Unterschied zwischen Reis, der 2 Yuan pro Catty kostet, und Reis, der 20 Yuan pro Catty kostet? Stimmt es wirklich, dass teurer besser ist?

Wie trainiert man den unteren großen Brustmuskel?

Hu Q&A: Ist die Erde der einzige Ort im Universum, an dem es schneit?

Welche Übungen gibt es, um die Unterleibsmuskulatur zu trainieren?

Meine Kopfhaut kribbelt! 47 davon! Es wurden verschiedene Krankheitserreger nachgewiesen, alle aus dem Ausland

So trainieren Sie durch Laufen

Diese 4 Gerichte, die über Nacht zubereitet werden, sind zu gefährlich. Es ist besser, sie wegzuwerfen, als sie zu essen! Leber- und Nierenschäden, Darmschäden...

Schimmelige Lebensmittel sind nicht essbar. Warum kann man also Tofu mit Haaren essen?

Welche schnellen und einfachen Möglichkeiten gibt es, Muskeln aufzubauen?

Artikel empfehlen

Wie groß ist der Unterschied zwischen inländischen x86-CPUs und Intel? Weniger als die Hälfte der Leistung herkömmlicher Quad-Core-Produkte

Kann Joggen Bauchfett reduzieren?

Eine Frau mit beiden Eigenschaften ist perfekt.

Wie trainiert man am besten seine Bauchmuskeln?

Befällt die Vogelgrippe speziell Geflügel? Kann es Menschen direkt infizieren?

Wissenschaftler untersuchen neue Technologie zur Aktivierung des menschlichen Auges: Fähigkeit, Infrarotlicht zu sehen

Nissan, Honda und Mitsubishi haben bereits begonnen, sich für mehr Wärme zusammenzuschließen. Unsere neuen Automobilhersteller sollten bald folgen können.

Was sind die wettbewerbsfähigen Aerobic-Training

Wer ist der „Mörder“ bei der Explosion der Daunenjacke? Es kann mehr als eine Wahrheit geben!

Acht Automarken riefen am Vorabend des 15. März plötzlich 770.000 Fahrzeuge zurück

Bei dichtem Nebel kollidierten viele Fahrzeuge auf der Zhengxin-Brücke über den Gelben Fluss. Worauf sollten Sie beim Autofahren im Nebel achten?

Der Ozean ist ein hervorragender Kohlenstofffänger! Kommen Sie und erfahren Sie mehr über marine Kohlenstoffsenken und helfen Sie, die „dualen Kohlenstoff“-Ziele zu erreichen!

Wie trainierst du deine Bauchmuskeln?

Chinas „erster Drache“ im Jahr des Drachen hat einen Namen: „Datai-Drache“!

Lux Research: Der globale Produktionswert des industriellen Internets der Dinge wird im Jahr 2020 voraussichtlich 151 Milliarden US-Dollar erreichen