Willkommen bei der speziellen Winterferienkolumne „ Hightech-Unterricht für Kinder “ von Science Popularization China! Künstliche Intelligenz ist eine der modernsten Technologien unserer Zeit und verändert unser Leben mit erstaunlicher Geschwindigkeit. Von intelligenten Sprachassistenten bis hin zu selbstfahrenden Autos, von KI-Malerei bis hin zu maschinellem Lernen eröffnet es uns eine Zukunft voller unendlicher Möglichkeiten. In dieser Kolumne werden Kindern anhand von Videos und Texten die Prinzipien, Anwendungen und tiefgreifenden Auswirkungen künstlicher Intelligenz auf die Gesellschaft auf leicht verständliche Weise erklärt. Kommen Sie und beginnen Sie diese KI-Reise mit uns! Dies ist ein kleines britisches Mädchen namens Susan, und dies ist ihr Vater, Adam. Auf dem Foto dieses Vaters und seiner Tochter ist eine Ähnlichkeit zu erkennen. Schauen Sie sich ihre Fotos genau an. Können Sie diese Gemeinsamkeit finden? KI-generierte Bilder Nun, enthüllen Sie die Antwort. Die Gemeinsamkeit dieser beiden Fotos besteht darin, dass sie von einer KI erstellt wurden. Es gibt keine Susan und Adam, Vater und Tochter. Ihre Identitäten sind erfunden. Wenn Sie solche Fotos sehen, sind Sie vielleicht ein wenig überrascht. Denn egal, wie realistisch die Charaktere in Spielen und Animationsfilmen waren, man konnte früher immer noch auf den ersten Blick erkennen, dass es sich um KI-synthetisierte Porträts handelte. Aber jetzt sehen die Menschen auf diesen beiden Bildern fast wie echte Menschen aus. Neben der Erstellung menschlicher Fotos kann KI auch Fotos in verschiedenen Stilen entsprechend unseren Anforderungen zeichnen. Lassen Sie uns in der heutigen Folge darüber sprechen, wie KI solche Bilder zeichnet. Generative Adversarial Networks Hinter KI-generierten Bildern steckt eine sehr wichtige Technologie – GAN. GAN ist die Abkürzung für Generative Adversarial Networks, was so viel bedeutet wie generatives kontradiktorisches Netzwerk. Es wurde 2014 von Ian Goodfellow und seinen Kollegen vorgeschlagen. GAN klingt sehr hochtrabend, aber sein Prinzip ist eigentlich sehr einfach zu verstehen. Angenommen, wir möchten ein GAN erstellen, das auf das Zeichnen von Gesichtsfotos spezialisiert ist. In diesem Netzwerk gibt es zwei wichtige Mitglieder, den Generator und den Diskriminator. Die Aufgabe des Generators besteht darin, Portraitbilder zu erzeugen. Diese generierten Bilder werden mit Fotos von echten Menschen gemischt, damit der Diskriminator Urteile fällen kann. Der Diskriminator muss erkennen, welche vom Generator generiert wurden und welche echte Menschenfotos sind. Wenn das vom Generator erzeugte Foto den Diskriminator täuscht, erhält der Generator eine Punktzahl, andernfalls erhält der Diskriminator eine Punktzahl. Man kann sich vorstellen, dass die vom Generator generierten Fotos zunächst sehr einfach sind und man dies auf einen Blick erkennt, wenn man sie in echte Fotos einfügt. Aber mit Tausenden von Trainingszyklen werden die vom Generator generierten Bilder echten menschlichen Fotos immer ähnlicher. Dabei muss der Diskriminator auch seine Erkennungsfähigkeit verbessern, um Punkte zu erzielen. Um den immer geschickteren Diskriminator zu täuschen, muss der Generator seine Fähigkeiten ständig verbessern. Auf diese Weise kann KI nach zig Millionen Trainingseinheiten äußerst realistische Porträts zeichnen. Copyright-Bilder in der Galerie. Der Nachdruck und die Verwendung können zu Urheberrechtsstreitigkeiten führen. Natürlich können Benutzer GAN nicht nur Porträts zeichnen lassen, sondern auch Bilder in verschiedenen Stilen zeichnen. Wenn GAN beispielsweise aufgefordert wird, Gemälde im Picasso-Stil zu generieren, muss sein Diskriminator nicht mehr beurteilen, ob das Bild einer echten Person ähnelt, sondern muss beurteilen, welche Bilder authentische Picasso-Werke und welche von der KI generierte Werke sind. Mit einem solchen Training können Bilder unterschiedlicher Stilrichtungen gezeichnet werden. Dies ist die Aufgabe des Style-GAN-Modells. Neben GAN gibt es eine weitere Bilderzeugungstechnologie – Stable Diffusion. Das kürzlich beliebte MidJourney wurde mithilfe dieses Modells erstellt. Einfach ausgedrückt ist die stabile Diffusion ein Prozess, der das Rauschen aus einer Reihe ungeordneter, verrauschter Bilder Schritt für Schritt entfernen und schließlich das erwartete Bild erzeugen kann. Natürlich verfügt auch die uns heute bekannte Bildgenerierungssoftware über eine sehr wichtige Funktion: Sie besteht darin, Bilder basierend auf in natürlicher Sprache beschriebenen Inhalten zu generieren. Dieser Vorgang ist nicht einfach, aber glücklicherweise gibt es zwei Technologien, die ihn ermöglichen. Die erste ist die Bilderkennungstechnologie. Ob autonomes Fahren oder die Suche nach Objekten in Bildern – in den letzten Jahrzehnten verließen sich alle auf KI, um den Inhalt von Bildern zu erkennen. Dabei haben Menschen die Inhalte einer Vielzahl von Bildern beschriftet und diese zum Trainieren einer KI genutzt, sodass diese vielfältige Dinge erkennen kann. Eine weitere wichtige Technologie ist die natürliche Spracherkennung. In den letzten Jahrzehnten hat man versucht, KI dazu zu bringen, zu verstehen, was wir schreiben und was wir sagen. Dadurch kann die KI die Bedeutung des Textes, den wir ihr geben, besser verstehen. Wenn Sie sagen „da ist eine Eule im Baum“, kann der Computer erkennen, dass Sie von einem Vogel sprechen, und nicht, dass auf dem Baum eine „Katze“ und ein „Kopf“ sowie ein „Adler“ sind. Mit der zunehmenden Weiterentwicklung der Technologien zur Bilderkennung und natürlichen Sprachverarbeitung ist eine Technologie namens Cross-Modal Retrieval entstanden. Modalität bezieht sich auf die Form, in der Daten vorliegen, beispielsweise als Text, Bilder, Videos usw. Beim modalübergreifenden Abrufen können Daten unterschiedlicher Modalitäten verknüpft werden, beispielsweise kann das Wort „Tasse“ in einem Text mit dem Bild einer Tasse in einem Foto verknüpft werden. Mithilfe der Cross-Modal-Retrieval-Technologie kann KI die von uns eingegebenen Textinformationen in Bildinformationen umwandeln. Heutzutage wird die auf GAN und stabiler Diffusion basierende KI-Bilderzeugungstechnologie häufig eingesetzt. Neben der Bilderzeugung bietet es äußerst vielfältige Anwendungsmöglichkeiten bei der Erzeugung von Musik, Videos und Text. Schon seit Ende 2022 haben viele Unternehmen angekündigt, menschliche Maler durch KI-Maler zu ersetzen. Möglicherweise sehen wir in verschiedenen sozialen Medien auch KI-generierte Bilder und Videos. Natürlich haben einige Leute Bedenken hinsichtlich KI-generierter Bilder und Videos geäußert. Schließlich sind die von ihnen erstellten Fotos und Videos so realistisch, dass manche Menschen mit bösen Absichten diese Fotos verwenden könnten, um Betrug zu begehen oder Gerüchte zu verbreiten. Auch viele KI-Unternehmen haben dies berücksichtigt und begonnen, den von ihnen angebotenen KI-Diensten gewisse Beschränkungen aufzuerlegen. Viele Länder haben außerdem begonnen, über eine Verbesserung der Gesetze und Vorschriften für KI-generierte Inhalte nachzudenken. Ich bin davon überzeugt, dass mit der Verbesserung der Vorschriften und der Weiterentwicklung der Technologie die Vorteile, die uns die KI-Technologie bietet, ihre Nachteile bei weitem überwiegen werden und dass die KI der Menschheit letztendlich bessere Dienste leisten wird. Planung und Produktion Dieser Artikel ist ein Werk des Science Popularization China-Creation Cultivation Program Produziert von: Abteilung für Wissenschaftspopularisierung der Chinesischen Vereinigung für Wissenschaft und Technologie Hersteller: China Science and Technology Press Co., Ltd., Beijing Zhongke Xinghe Culture Media Co., Ltd. Autor: Beijing Yunyuji Culture Communication Co., Ltd. Gutachter: Qin Zengchang, Außerordentlicher Professor, Fakultät für Automatisierungswissenschaft und Elektrotechnik, Beihang-Universität Planung von Fu Sijia Herausgeber: Fu Sijia Korrekturgelesen von Xu Lailinlin |
Viele Menschen wissen, dass nach der Entbindung d...
BOE wird das iPhone erneut verpassen – aber mögli...
Ich glaube, dass viele Menschen regelmäßig beidar...
2017 war ein Jahr der Umstrukturierung für Chinas...
Von Stromausfällen aufgrund von Armut bis hin zu ...
Mit der Entwicklung der modernen Gesellschaft möc...
Ihr Browser unterstützt das Video-Tag nicht Das Q...
Mit der Zeit werden die weitläufigen und mehrdime...
Die Nieren sind sehr wichtige Organe im menschlic...
Es ist wieder die Zeit der Erweckung. Die Luft is...
Obwohl der „neutrale“ Trend in der Modewelt an Be...
199IT Originalkompilation Der Prognose von eMarke...
Welche sozialen Medien nutzen Fluggesellschaften:...
Wir alle kennen uns mit Sport aus und haben schon...
Alle zögerlichen Vertuschungen und selbstironisch...