Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Heutzutage verändern KI-Tools zur Videoerstellung Branchen wie Design, Marketing, Unterhaltung und Bildung, indem sie realistische Videoinhalte produzieren. Insbesondere bei Videomodellen wie Sora und Gen-3 müssen Sie nur wenige Zeilen Eingabetext eingeben, um realistische, kontinuierliche und qualitativ hochwertige Videoblöcke zu generieren.

Diese Technologie hat Kreativen auf der ganzen Welt zwar zahllose Möglichkeiten eröffnet, für die Öffentlichkeit ist sie jedoch auch mit zahlreichen Schäden und Risiken verbunden , insbesondere im Hinblick auf die Verbreitung falscher Informationen, Propaganda, Betrug und Phishing.
Daher ist die Frage, wie KI-generierte Videos genau identifiziert werden können, zu einem Thema geworden, das jeden interessieren sollte.

Vor Kurzem hat das Team von Professor Junfeng Yang an der Columbia University ein Videoerkennungstool namens DIVID (DIffusion-generated VIdeo Detector) entwickelt. Bei Videos, die von Modellen wie SORA, Gen-2 und Pika generiert wurden, erreichte die Erkennungsgenauigkeit 93,7 % .

Das Forschungspapier, das Open-Source-Code und einen Datensatz enthält, wurde letzten Monat auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle vorgestellt.

Wie ist DIVID entstanden?

Vorhandene Deepfake-Detektoren sind bei der Identifizierung von durch GANs generierten Samples gut, aber nicht robust genug bei der Erkennung von durch Diffusionsmodelle generierten Videos.

In dieser Arbeit verwendete das Forschungsteam ein neues Tool namens DIVID, um KI-generierte Videos zu erkennen. Berichten zufolge basiert DIVID auf der Arbeit, die das Team Anfang des Jahres veröffentlicht hat – Raidar, das von KI generierten Text erkennt, indem es den Text selbst analysiert, ohne auf die internen Operationen des großen Sprachmodells (LLM) zuzugreifen.

Raidar verwendet LLM, um einen gegebenen Text neu zu formulieren oder zu überarbeiten und misst dann die Anzahl der Änderungen, die das System an diesem Text vornimmt. Mehr Bearbeitungen bedeuten, dass der Text mit größerer Wahrscheinlichkeit von einem Menschen geschrieben wurde. weniger Bearbeitungen bedeuten, dass der Text eher maschinell erstellt wurde.

Sie haben DIVID nach dem gleichen Konzept entwickelt. DIVID funktioniert, indem das Video rekonstruiert und das neu rekonstruierte Video mit dem Originalvideo verglichen wird. Es verwendet DIRE-Werte, um durch Diffusion erzeugte Videos zu erkennen, da die Methode auf der Annahme basiert, dass die vom Diffusionsmodell erzeugten rekonstruierten Bilder einander sehr ähnlich sein sollten, da sie aus der Verteilung des Diffusionsprozesses entnommen werden. Wenn es erhebliche Änderungen gibt, wurde das Originalvideo wahrscheinlich von einem Menschen erstellt, andernfalls wahrscheinlich mithilfe von KI.

Abbildung | Der Erkennungsprozess von DIVID. In Schritt 1 verwendet das Forschungsteam zunächst ein Diffusionsmodell, um aus einer Sequenz von Videobildern eine rekonstruierte Version jedes Bildes zu generieren. Anschließend wird der DIRE-Wert durch Rekonstruktion des Frames und des entsprechenden Eingabeframes berechnet. In Schritt 2 wird der CNN+LSTM-Detektor basierend auf der DIRE-Wertesequenz und dem ursprünglichen RGB-Frame trainiert.

Das Framework basiert auf der Idee, dass KI-generierte Tools Inhalte basierend auf der statistischen Verteilung großer Datensätze erstellen, was zu „statistischen Mittelwerten“ von Inhalten wie Pixelintensitätsverteilung, Texturmustern und Rauscheigenschaften in Videobildern sowie kleinen Inkonsistenzen führt, die zwischen Bildern unnatürlich variieren, oder anomalen Mustern, die eher in durch Diffusion generierten Videos auftreten.

Abbildung | Erkennungsleistung im In-Domain-Testsatz. DIVID übertrifft die Basisarchitektur in Bezug auf Genauigkeit (Acc.) und durchschnittliche Präzision (AP). RGB repräsentiert die Pixelbildwerte im Originalvideo.

Im Gegensatz dazu weisen von Menschen erstellte Videos Individualität und Abweichungen von statistischen Normen auf. DIVID erreicht in seinem Benchmark-Datensatz eine Erkennungsgenauigkeit von bis zu 93,7 % bei Videos, die von Stable Vision Diffusion, Sora, Pika und Gen-2 generiert wurden.

Zukunftsaussichten

Derzeit ist DIVID ein Befehlszeilentool, das Videos analysiert und ausgibt, unabhängig davon, ob sie von KI oder Menschen generiert wurden, und ist nur für Entwickler verfügbar. Die Forscher weisen darauf hin , dass ihre Technik das Potenzial hat, als Plug-In in Zoom integriert zu werden, um Deepfake-Anrufe in Echtzeit zu erkennen . Das Team erwägt außerdem, eine Website oder ein Browser-Plugin zu entwickeln, um DIVID normalen Benutzern zur Verfügung zu stellen.

Die Forscher arbeiten derzeit daran, das Framework von DIVID zu verbessern, um verschiedene Arten synthetischer Videos aus Open-Source-Tools zur Videogenerierung verarbeiten zu können. Sie verwenden DIVID auch, um Videos zu sammeln und den DIVID-Datensatz zu erweitern.

„Unser Framework macht erhebliche Fortschritte bei der Erkennung von KI-generierten Inhalten“, sagte Dr. Yun-Yun Tsai, einer der Autoren des Papiers. „Es gibt zu viele Kriminelle, die KI zur Videogenerierung nutzen. Der Schlüssel liegt darin, ihnen das Handwerk zu legen und die Gesellschaft zu schützen.“

Referenzlinks:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<: Gewitter, Sturm oder Hagel sind im Anmarsch, bitte treffen Sie in diesen Gebieten Vorsichtsmaßnahmen →

>>: Was ist das „Piping“-Phänomen, das durch den Deichbruch des Dongting-Sees verursacht wird? Wie kann eine Notfallrettung durchgeführt werden?

Was ist „Blue Starfish“? Vorstellung der treibenden Sea Steam Interface Boje „Blue Star“

Fest der kalten Kleidung – Im Juli ist es sehr heiß und im September wird Kleidung verteilt. Bitte ziehen Sie sich bei kaltem Wetter wärmer an!

Artikel

Ist der Winter zum Schwimmen geeignet? Welche Vorteile bietet das Winterschwimmen?

Artikel

Vorteile von 30 Minuten Aerobic-Training

Artikel

Die Entwicklung japanischer Autohersteller in Großbritannien ist noch unklar. Toyotas Investition dient nur der Beschwichtigung

Ausländischen Medienberichten zufolge hat die Toy...

Wofür kämpften die Fünf Hegemonen der Frühlings- und Herbstperiode und die Sieben Helden der Zeit der Streitenden Reiche?

Dies ist eine Ära reich an Redewendungen und Ansp...

Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Was ist „Blue Starfish“? Vorstellung der treibenden Sea Steam Interface Boje „Blue Star“

200 Schläge pro Minute: Je mehr sich ein Mann bewegt, desto sexier wird er

Wie kann man im Sitzen am schnellsten an Beinen schlanker werden?

Wird das Auswaschen von Blutfetten Ihren Körper gesund machen?

Was ist der Unterschied zwischen aerobem Training und anaerobem Training?

Du liegst zwar da, aber dein Gehirn lernt immer noch mit 20-facher Geschwindigkeit

Welche schnellen Möglichkeiten gibt es, die Taille schlanker zu machen?

Fest der kalten Kleidung – Im Juli ist es sehr heiß und im September wird Kleidung verteilt. Bitte ziehen Sie sich bei kaltem Wetter wärmer an!

Ist der Winter zum Schwimmen geeignet? Welche Vorteile bietet das Winterschwimmen?

Vorteile von 30 Minuten Aerobic-Training

Artikel empfehlen

Ubers Kerngeschäft macht zwar immer noch Verluste, doch die Bewertung ist auf 120 Milliarden Dollar gestiegen.

Ist der „Wasserstoffballon“ mit Wasserstoff oder Helium gefüllt?

Welche Yoga-Art ist besser für Anfänger?

Welche Muskeln werden durch Liegestütze trainiert?

Die Entwicklung japanischer Autohersteller in Großbritannien ist noch unklar. Toyotas Investition dient nur der Beschwichtigung

Bewegung ist das Wichtigste fürs Leben. Bleiben Sie gesund

GSMA: Anwendungsfälle der vertikalen 5G-Industrie in China im Jahr 2022

Unter welchen Umständen kann man kein Yoga praktizieren?

15-Zoll neue MacBook Pro Laufpunkte: deutliche Leistungsverbesserung

Warum lieben Männer mittleren Alters das Angeln so sehr?

Wofür kämpften die Fünf Hegemonen der Frühlings- und Herbstperiode und die Sieben Helden der Zeit der Streitenden Reiche?

Kann Hula-Hoop die Brustgröße grundsätzlich vergrößern?

Ohne Preisparität – welche Auswirkungen wird dies auf die Hotelbranche haben?

Wenn eine Pastasorte in Ungnade fällt, steigt eine andere Pastasorte auf

Was ist die angemessene Intervallzeit für das Muskeltraining von Männern?