Maschinen kreativ zu machen, war schon immer eines der höchsten Ideale der künstlichen Intelligenz. Daher werden Generierungsaufgaben zu einem Maßstab für die Kreativität von Maschinen. Zu diesen Generierungsaufgaben gehört das Generieren von Texten (Fragen und Antworten, Dialoge, Gedichte, Romane) sowie das Generieren von Bildern und Videos. In dieser Ausgabe stellen wir die Technologie hinter der KI-Malerei vor, die in letzter Zeit überall auf dem Bildschirm zu sehen war. Bildquelle: pixabay 1. Die Geburt des Adversarial Network Model (GAN) Bis vor wenigen Jahren schnitt die KI bei generativen Aufgaben schlecht ab. Sie wiederholen entweder streng nach Schablonen und Regeln oder können nur frei und fantasievoll Unsinn reden. Erst mit der Entstehung des Modells des generativen kontradiktorischen Netzwerks konnten wir es künstlicher Intelligenz ermöglichen, Kreativität zu erzeugen und gleichzeitig die Qualität dieser Kreativität zu kontrollieren. Die englische Abkürzung für Generative Adversarial Network ist GAN. Es besteht aus einem Generator (G) und einem Adversarial (Klassifikator) (A). Der Generator muss sich kontinuierlich selbst trainieren, um realistische Bilder zu erhalten und den Klassifikator zu täuschen. während der Klassifikator sein Bestes geben sollte, um die generierten Bilder von den echten Bildern zu unterscheiden. Ian Goodfellow, der Autor von GAN, verwendete in seinem Originalartikel das Beispiel eines hypothetischen Polizisten und eines Geldfälschers. Der Klassifizierer ist die Polizei und der Generator ist die Falschgeldfabrik. Anfangs konnte die Polizei echte und gefälschte Banknoten nur anhand der allgemeinen Muster unterscheiden, während die Fabriken für Falschgeld damit durchkamen, dass sie lediglich die Hauptmuster der Banknoten druckten. Um das Problem des Falschgeldes in den Griff zu bekommen, begann die Polizei, die Schattierung, Mikrotexte und Wasserzeichen auf Banknoten zu überprüfen. Infolgedessen mussten zahlreiche Fabriken für gefälschte Banknoten schließen, die nicht in der Lage waren, gefälschte Banknoten mit diesen Merkmalen herzustellen. Die verbleibenden Banknoten waren offensichtlich leichter zu fälschen und konnten realistischere Banknoten herstellen. Um diese gefälschten Banknoten weiterhin unterscheiden zu können, stellte die Polizei fest, dass das für diese gefälschten Banknoten verwendete Papier sich von dem echter Banknoten unterschied und sich auch anders anfühlte. Die Hersteller gefälschter Banknoten mussten sich also überlegen, wie sie die Proportionen der Verbindungen, die das Fruchtfleisch echter Banknoten imitierten, genauer mischen konnten, um Banknoten herzustellen, die sich genauso anfühlten. Auf diese Weise wurden die Fähigkeiten der Banknotenprüfgeräte immer besser, aber auch die Nachahmungsfähigkeiten der Maschinen zur Banknotenfälschung wurden immer besser. 2. „Lernen“ in der Konfrontation Genauer gesagt sind der Generator und der Klassifikator in GAN zwei neuronale Netzwerke. Neuronale Netzwerke sind eine grundlegende Technologie im maschinellen Lernen. Man kann es als eine Art „Maschine“ verstehen: Nachdem es die zu verarbeitenden Daten aufgenommen hat, spuckt es die gewünschten Ergebnisse aus. Wenn wir feststellen möchten, ob ein Bild einen Hund oder eine Katze darstellt, ist das Ergebnis eine Zahl: 1 (für einen Hund) oder 0 (für eine Katze); Wenn wir künstliche Intelligenz zum Übersetzen verwenden möchten, ist die Eingabe Text in einer Sprache und die Ausgabe Text in einer anderen Sprache. Untrainierte neuronale Netze können nur völlig unzuverlässige oder zufällige Ergebnisse ausgeben. Wenn Sie jedoch viele Daten finden, für die die richtige Ausgabe bekannt ist, können Sie das neuronale Netzwerk trainieren, um die richtige Antwort zu erhalten. Wir nennen diesen Prozess „Lernen“. Der Klassifikator von GAN verfügt über einen ähnlichen Mechanismus, der erkennen kann, ob ein Bild real oder generiert ist. Der Generator kann ein Bild basierend auf einer Zahl oder einem Vektor generieren. Zu Beginn hat der Generator kein Ziel und kann nur zufällige Daten erzeugen, beispielsweise unscharfe Bilder oder sogar reines Rauschen. Der Klassifikator kann leicht trainiert werden, um diese schlechten Bilder von echten Bildern zu unterscheiden. An diesem Punkt muss der Generator sich selbst trainieren, um zu versuchen, den einfachen Klassifikator zu täuschen. Der Vorgang wiederholt sich dann. Zunächst muss der Klassifikator lernen, die vom verbesserten Generator ausgegebenen Bilder zu identifizieren. Außerdem muss sich der Generator verbessern, um den verbesserten Klassifikator zu täuschen. Nach Zehntausenden oder sogar Hunderttausenden von Iterationen wird der Generator leistungsfähiger und erzeugt realistischere Bilder. Obwohl das Prinzip relativ einfach ist, ist das Training eines GANs sehr schwierig. Im ursprünglichen GAN-Papier waren die generierten Bilder nicht von hoher Qualität. Doch dann führten zahlreiche Forschungsteams aus unterschiedlichen Richtungen Verbesserungen durch, die zu zahlreichen GAN-Varianten führten. Unter ihnen ist StyleGAN ziemlich berühmt, das äußerst realistische Gesichter erzeugen kann. Diese Gesichter unterscheiden sich von allen existierenden und werden vollständig von Computern erstellt. Als Bilderzeugungsmodell weist GAN noch viele Mängel auf. Erstens ist das GAN-Training sehr instabil und manchmal stürzt das gesamte Modell während des Trainings ab. Zweitens erfordern unterschiedliche Szenarien das Training unterschiedlicher GAN-Modelle: Wenn Sie Bilder von Katzen generieren möchten, müssen Sie für das Training viele Katzenfotos finden. Wenn Sie Bilder von menschlichen Gesichtern erstellen möchten, müssen Sie einen Weg finden, eine große Anzahl von Bildern von menschlichen Gesichtern zu erhalten. Allerdings gibt es unendlich viele Arten von Anforderungen und manche Szenarien können sehr komplex sein. Beispiel: „Ich möchte eine Katze generieren, die einen Hund jagt.“ Solche Anforderungen sind durch GAN nur schwer zu erfüllen. Mit anderen Worten: GAN kann Trainingsbilddaten nur speziell für eine bestimmte Szene verstehen, kann aber die menschliche Sprache nicht verstehen und kann daher die Bildgenerierung durch Text nicht steuern. Diese beiden Probleme werden durch das DALLE-Modell von OpenAI weitgehend gelöst. Dies erklären wir Ihnen im nächsten Video ausführlich. Der Artikel wurde vom Science Popularization China-Starry Sky Project (Erstellung und Kultivierung) erstellt. Bei Nachdruck bitten wir um Quellenangabe. Autor: Guan Xinyu, populärwissenschaftlicher Autor Rezensent: Yu Yang, Leiter des Tencent Xuanwu Lab |
<<: Obst: Warum sind Blumen bunt, aber ich bin so eintönig?
>>: Wenn die Sonne in den „Gewaltmodus“ schaltet, kann die Erde das einfach nicht „ertragen“ …
Die gefiederten, sichelförmigen Krallen Gab es wi...
Autor: Zang Juxiang, Chefapotheker des Eastern Th...
Nachdem die TD-LTE-Lizenzen Ende 2013 offiziell ve...
Im Zeitalter von Industrie 4.0 werden aus der Per...
Freunde, die abnehmen, haben immer Angst, dass si...
Beim Thema Künstliche Intelligenz denken die meis...
Beim Muskeltraining ist die Hilfe von Fitnessgerä...
© Caravaggio/The Atlantic Leviathan Press: Persön...
Riesenvirus im grönländischen Eisschild entdeckt ...
Am 26. September wurde die Beijing International ...
Gut entwickelte Brustmuskeln zeigen den Charme ei...
Der solare Zeitraum der Großen Kälte fällt zwisch...
Laufen kann uns beim Abnehmen helfen und unseren ...
Leviathan Press: In der japanischen Kultur klingt...