KI zeichnet schnell und gut. Wie zeichnet sie also?

Willkommen bei der speziellen Winterferienkolumne „ Hightech-Unterricht für Kinder “ von Science Popularization China!

Künstliche Intelligenz ist eine der modernsten Technologien unserer Zeit und verändert unser Leben mit erstaunlicher Geschwindigkeit. Von intelligenten Sprachassistenten bis hin zu selbstfahrenden Autos, von KI-Malerei bis hin zu maschinellem Lernen eröffnet es uns eine Zukunft voller unendlicher Möglichkeiten. In dieser Kolumne werden Kindern anhand von Videos und Texten die Prinzipien, Anwendungen und tiefgreifenden Auswirkungen künstlicher Intelligenz auf die Gesellschaft auf leicht verständliche Weise erklärt.

Kommen Sie und beginnen Sie diese KI-Reise mit uns!

Dies ist ein kleines britisches Mädchen namens Susan, und dies ist ihr Vater, Adam. Auf dem Foto dieses Vaters und seiner Tochter ist eine Ähnlichkeit zu erkennen. Schauen Sie sich ihre Fotos genau an. Können Sie diese Gemeinsamkeit finden?

KI-generierte Bilder

Nun, enthüllen Sie die Antwort. Die Gemeinsamkeit dieser beiden Fotos besteht darin, dass sie von einer KI erstellt wurden. Es gibt keine Susan und Adam, Vater und Tochter. Ihre Identitäten sind erfunden.

Wenn Sie solche Fotos sehen, sind Sie vielleicht ein wenig überrascht. Denn egal, wie realistisch die Charaktere in Spielen und Animationsfilmen waren, man konnte früher immer noch auf den ersten Blick erkennen, dass es sich um KI-synthetisierte Porträts handelte. Aber jetzt sehen die Menschen auf diesen beiden Bildern fast wie echte Menschen aus.

Neben der Erstellung menschlicher Fotos kann KI auch Fotos in verschiedenen Stilen entsprechend unseren Anforderungen zeichnen. Lassen Sie uns in der heutigen Folge darüber sprechen, wie KI solche Bilder zeichnet.

Generative Adversarial Networks

Hinter KI-generierten Bildern steckt eine sehr wichtige Technologie – GAN.

GAN ist die Abkürzung für Generative Adversarial Networks, was so viel bedeutet wie generatives kontradiktorisches Netzwerk. Es wurde 2014 von Ian Goodfellow und seinen Kollegen vorgeschlagen. GAN klingt sehr hochtrabend, aber sein Prinzip ist eigentlich sehr einfach zu verstehen.

Angenommen, wir möchten ein GAN erstellen, das auf das Zeichnen von Gesichtsfotos spezialisiert ist. In diesem Netzwerk gibt es zwei wichtige Mitglieder, den Generator und den Diskriminator.

Die Aufgabe des Generators besteht darin, Portraitbilder zu erzeugen. Diese generierten Bilder werden mit Fotos von echten Menschen gemischt, damit der Diskriminator Urteile fällen kann. Der Diskriminator muss erkennen, welche vom Generator generiert wurden und welche echte Menschenfotos sind.

Wenn das vom Generator erzeugte Foto den Diskriminator täuscht, erhält der Generator eine Punktzahl, andernfalls erhält der Diskriminator eine Punktzahl.

Man kann sich vorstellen, dass die vom Generator generierten Fotos zunächst sehr einfach sind und man dies auf einen Blick erkennt, wenn man sie in echte Fotos einfügt.

Aber mit Tausenden von Trainingszyklen werden die vom Generator generierten Bilder echten menschlichen Fotos immer ähnlicher. Dabei muss der Diskriminator auch seine Erkennungsfähigkeit verbessern, um Punkte zu erzielen.

Um den immer geschickteren Diskriminator zu täuschen, muss der Generator seine Fähigkeiten ständig verbessern. Auf diese Weise kann KI nach zig Millionen Trainingseinheiten äußerst realistische Porträts zeichnen.

Natürlich können Benutzer GAN nicht nur Porträts zeichnen lassen, sondern auch Bilder in verschiedenen Stilen zeichnen.

Wenn GAN beispielsweise aufgefordert wird, Gemälde im Picasso-Stil zu generieren, muss sein Diskriminator nicht mehr beurteilen, ob das Bild einer echten Person ähnelt, sondern muss beurteilen, welche Bilder authentische Picasso-Werke und welche von der KI generierte Werke sind. Mit einem solchen Training können Bilder unterschiedlicher Stilrichtungen gezeichnet werden. Dies ist die Aufgabe des Style-GAN-Modells.

Neben GAN gibt es eine weitere Bilderzeugungstechnologie – Stable Diffusion. Das kürzlich beliebte MidJourney wurde mithilfe dieses Modells erstellt. Einfach ausgedrückt ist die stabile Diffusion ein Prozess, der das Rauschen aus einer Reihe ungeordneter, verrauschter Bilder Schritt für Schritt entfernen und schließlich das erwartete Bild erzeugen kann.

Natürlich verfügt auch die uns heute bekannte Bildgenerierungssoftware über eine sehr wichtige Funktion: Sie besteht darin, Bilder basierend auf in natürlicher Sprache beschriebenen Inhalten zu generieren.

Dieser Vorgang ist nicht einfach, aber glücklicherweise gibt es zwei Technologien, die ihn ermöglichen.

Die erste ist die Bilderkennungstechnologie. Ob autonomes Fahren oder die Suche nach Objekten in Bildern – in den letzten Jahrzehnten verließen sich alle auf KI, um den Inhalt von Bildern zu erkennen. Dabei haben Menschen die Inhalte einer Vielzahl von Bildern beschriftet und diese zum Trainieren einer KI genutzt, sodass diese vielfältige Dinge erkennen kann.

Eine weitere wichtige Technologie ist die natürliche Spracherkennung. In den letzten Jahrzehnten hat man versucht, KI dazu zu bringen, zu verstehen, was wir schreiben und was wir sagen. Dadurch kann die KI die Bedeutung des Textes, den wir ihr geben, besser verstehen.

Wenn Sie sagen „da ist eine Eule im Baum“, kann der Computer erkennen, dass Sie von einem Vogel sprechen, und nicht, dass auf dem Baum eine „Katze“ und ein „Kopf“ sowie ein „Adler“ sind.

Mit der zunehmenden Weiterentwicklung der Technologien zur Bilderkennung und natürlichen Sprachverarbeitung ist eine Technologie namens Cross-Modal Retrieval entstanden.

Modalität bezieht sich auf die Form, in der Daten vorliegen, beispielsweise als Text, Bilder, Videos usw. Beim modalübergreifenden Abrufen können Daten unterschiedlicher Modalitäten verknüpft werden, beispielsweise kann das Wort „Tasse“ in einem Text mit dem Bild einer Tasse in einem Foto verknüpft werden.

Mithilfe der Cross-Modal-Retrieval-Technologie kann KI die von uns eingegebenen Textinformationen in Bildinformationen umwandeln.

Heutzutage wird die auf GAN und stabiler Diffusion basierende KI-Bilderzeugungstechnologie häufig eingesetzt. Neben der Bilderzeugung bietet es äußerst vielfältige Anwendungsmöglichkeiten bei der Erzeugung von Musik, Videos und Text.

Schon seit Ende 2022 haben viele Unternehmen angekündigt, menschliche Maler durch KI-Maler zu ersetzen. Möglicherweise sehen wir in verschiedenen sozialen Medien auch KI-generierte Bilder und Videos.

Natürlich haben einige Leute Bedenken hinsichtlich KI-generierter Bilder und Videos geäußert. Schließlich sind die von ihnen erstellten Fotos und Videos so realistisch, dass manche Menschen mit bösen Absichten diese Fotos verwenden könnten, um Betrug zu begehen oder Gerüchte zu verbreiten.

Auch viele KI-Unternehmen haben dies berücksichtigt und begonnen, den von ihnen angebotenen KI-Diensten gewisse Beschränkungen aufzuerlegen. Viele Länder haben außerdem begonnen, über eine Verbesserung der Gesetze und Vorschriften für KI-generierte Inhalte nachzudenken.

Ich bin davon überzeugt, dass mit der Verbesserung der Vorschriften und der Weiterentwicklung der Technologie die Vorteile, die uns die KI-Technologie bietet, ihre Nachteile bei weitem überwiegen werden und dass die KI der Menschheit letztendlich bessere Dienste leisten wird.

Planung und Produktion

Dieser Artikel ist ein Werk des Science Popularization China-Creation Cultivation Program

Produziert von: Abteilung für Wissenschaftspopularisierung der Chinesischen Vereinigung für Wissenschaft und Technologie

Hersteller: China Science and Technology Press Co., Ltd., Beijing Zhongke Xinghe Culture Media Co., Ltd.

Autor: Beijing Yunyuji Culture Communication Co., Ltd.

Gutachter: Qin Zengchang, Außerordentlicher Professor, Fakultät für Automatisierungswissenschaft und Elektrotechnik, Beihang-Universität

Planung von Fu Sijia

Herausgeber: Fu Sijia

Korrekturgelesen von Xu Lailinlin

<<: In Tainan, Taiwan, ereignete sich ein Erdbeben der Stärke 6,2, und viele Orte in Fujian und Guangdong waren von den Erschütterungen betroffen! Nochmals zur Erinnerung: Erdbebenfrühwarnung ist wichtig!

>>: Das Jahresende rückt näher, also beachten Sie diese Tipps zur Lebensmittelaufbewahrung, wenn Sie sich mit Neujahrsvorräten eindecken!

Trinkbrei nährt den Magen? Je mehr Sie trinken, desto größer kann der Schaden sein, den Sie erleiden!

NIO-Finanzbericht: Der Umsatz von NIO betrug im dritten Quartal 2023 19,07 Milliarden Yuan, ein Anstieg von 46,6 % gegenüber dem Vorjahr

Artikel

Tragen Sie in letzter Zeit beim Ausgehen keine gelbe oder grüne Kleidung! ansonsten…

Artikel empfehlen

Wie trainiert man die acht Bauchmuskeln am effektivsten?

Ich glaube, dass ein Achterpack das Ziel ist, von...

Macht Sie das Leica- oder Zeiss-Logo überlegen? Die Zertifizierung von Handyobjektiven ist sehr kompliziert

Kürzlich erregte eine Neuigkeit große Aufmerksamke...

Xiaomi ist erneut in einen Sturm der Patentverletzung verwickelt: Liegt es daran, dass ein großer Baum den Wind anzieht oder daran, dass ein großes Geschäft Kunden schikaniert?

Wenn es um Innovation und Innovationsschutz geht, ...

Akademiker Huang Xuhua: Sein Leben lang verfolgte er den Traum von Atom-U-Booten, seine Leistungen werden für immer in die Geschichte eingehen

Am 6. Februar 2025 um 20:30 Uhr verstarb Huang Xu...

Welche Vorteile hat es, wenn eine Frau einen Handstand macht?

Heutzutage gibt es viele Möglichkeiten, Sport zu ...

Aston Martin Vantage AMR auf 300 Exemplare limitiert

Vor Kurzem hat Aston Martin offiziell die offizie...

Reihe „Leitfaden zur Lebensmittelsicherheit“ | In welchen Lebensmitteln kann sich Aflatoxin leicht „verstecken“? Erfahren Sie mehr in einem Artikel

Aspergillus flavus ist der am häufigsten vorkomme...

Die Verkäufe von Fahrzeugen mit neuartigem Antrieb und die Verkäufe im Ausland erreichten Rekordhöhen. SAIC Motor verkaufte im Jahr 2023 5,02 Millionen Fahrzeuge und belegte damit 18 Jahre in Folge den ersten Platz in China.

(Shanghai, 3. Januar 2024) Im Jahr 2023 verkaufte...

Wann ist die beste Zeit, um Yoga zu praktizieren?

Yoga erfreut sich bei den Menschen immer größerer...

Was ist effektives Aerobic-Training?

Sport zu treiben ist ein sehr guter Lebensstil. D...

KI zeichnet schnell und gut. Wie zeichnet sie also?

Trinkbrei nährt den Magen? Je mehr Sie trinken, desto größer kann der Schaden sein, den Sie erleiden!

Wie führt man Aerobic-Übungen effektiv durch?

Tut es weh, größer zu werden? Entdecken Sie die „kleinen Episoden“ im Wachstumsprozess von Kindern →

NIO-Finanzbericht: Der Umsatz von NIO betrug im dritten Quartal 2023 19,07 Milliarden Yuan, ein Anstieg von 46,6 % gegenüber dem Vorjahr

Tragen Sie in letzter Zeit beim Ausgehen keine gelbe oder grüne Kleidung! ansonsten…

Der Boden lebt! Dieser „Käfer“ hilft Pflanzen beim Wachsen

Auf Schutz achten! Starke Winde und Flugsand sind im Anmarsch und werden diese Gebiete beeinträchtigen →

Wird künstliche Intelligenz den Menschen wirklich ersetzen?

Welche einfachen Yogaübungen gibt es, um Bauchfett zu verlieren?

Bedeutet die Kennzeichnung „fettarm“ auf Snacks, dass diese gesund sind?

Artikel empfehlen

Wie trainiert man die acht Bauchmuskeln am effektivsten?

Macht Sie das Leica- oder Zeiss-Logo überlegen? Die Zertifizierung von Handyobjektiven ist sehr kompliziert

Xiaomi ist erneut in einen Sturm der Patentverletzung verwickelt: Liegt es daran, dass ein großer Baum den Wind anzieht oder daran, dass ein großes Geschäft Kunden schikaniert?

Akademiker Huang Xuhua: Sein Leben lang verfolgte er den Traum von Atom-U-Booten, seine Leistungen werden für immer in die Geschichte eingehen

Welche Vorteile hat es, wenn eine Frau einen Handstand macht?

Aston Martin Vantage AMR auf 300 Exemplare limitiert

Reihe „Leitfaden zur Lebensmittelsicherheit“ | In welchen Lebensmitteln kann sich Aflatoxin leicht „verstecken“? Erfahren Sie mehr in einem Artikel

Was ist Kreuzheben für das Fitnesstraining?

Warum leiden heutzutage immer mehr Menschen an Allergien? Das ist alles ihre Schuld!

Darf man abends um 20 oder 21 Uhr laufen gehen?

Normaler Urin hat tatsächlich einen angenehmen Geruch! Was könnte farbiger Urin bedeuten?

Welche Art von Übung ist Aerobic?

Die Verkäufe von Fahrzeugen mit neuartigem Antrieb und die Verkäufe im Ausland erreichten Rekordhöhen. SAIC Motor verkaufte im Jahr 2023 5,02 Millionen Fahrzeuge und belegte damit 18 Jahre in Folge den ersten Platz in China.

Wann ist die beste Zeit, um Yoga zu praktizieren?

Was ist effektives Aerobic-Training?