Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Heutzutage verändern KI-Tools zur Videoerstellung Branchen wie Design, Marketing, Unterhaltung und Bildung, indem sie realistische Videoinhalte produzieren. Insbesondere bei Videomodellen wie Sora und Gen-3 müssen Sie nur wenige Zeilen Eingabetext eingeben, um realistische, kontinuierliche und qualitativ hochwertige Videoblöcke zu generieren.

Diese Technologie hat Kreativen auf der ganzen Welt zwar zahllose Möglichkeiten eröffnet, für die Öffentlichkeit ist sie jedoch auch mit zahlreichen Schäden und Risiken verbunden , insbesondere im Hinblick auf die Verbreitung falscher Informationen, Propaganda, Betrug und Phishing.
Daher ist die Frage, wie KI-generierte Videos genau identifiziert werden können, zu einem Thema geworden, das jeden interessieren sollte.

Vor Kurzem hat das Team von Professor Junfeng Yang an der Columbia University ein Videoerkennungstool namens DIVID (DIffusion-generated VIdeo Detector) entwickelt. Bei Videos, die von Modellen wie SORA, Gen-2 und Pika generiert wurden, erreichte die Erkennungsgenauigkeit 93,7 % .

Das Forschungspapier, das Open-Source-Code und einen Datensatz enthält, wurde letzten Monat auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle vorgestellt.

Wie ist DIVID entstanden?

Vorhandene Deepfake-Detektoren sind bei der Identifizierung von durch GANs generierten Samples gut, aber nicht robust genug bei der Erkennung von durch Diffusionsmodelle generierten Videos.

In dieser Arbeit verwendete das Forschungsteam ein neues Tool namens DIVID, um KI-generierte Videos zu erkennen. Berichten zufolge basiert DIVID auf der Arbeit, die das Team Anfang des Jahres veröffentlicht hat – Raidar, das von KI generierten Text erkennt, indem es den Text selbst analysiert, ohne auf die internen Operationen des großen Sprachmodells (LLM) zuzugreifen.

Raidar verwendet LLM, um einen gegebenen Text neu zu formulieren oder zu überarbeiten und misst dann die Anzahl der Änderungen, die das System an diesem Text vornimmt. Mehr Bearbeitungen bedeuten, dass der Text mit größerer Wahrscheinlichkeit von einem Menschen geschrieben wurde. weniger Bearbeitungen bedeuten, dass der Text eher maschinell erstellt wurde.

Sie haben DIVID nach dem gleichen Konzept entwickelt. DIVID funktioniert, indem das Video rekonstruiert und das neu rekonstruierte Video mit dem Originalvideo verglichen wird. Es verwendet DIRE-Werte, um durch Diffusion erzeugte Videos zu erkennen, da die Methode auf der Annahme basiert, dass die vom Diffusionsmodell erzeugten rekonstruierten Bilder einander sehr ähnlich sein sollten, da sie aus der Verteilung des Diffusionsprozesses entnommen werden. Wenn es erhebliche Änderungen gibt, wurde das Originalvideo wahrscheinlich von einem Menschen erstellt, andernfalls wahrscheinlich mithilfe von KI.

Abbildung | Der Erkennungsprozess von DIVID. In Schritt 1 verwendet das Forschungsteam zunächst ein Diffusionsmodell, um aus einer Sequenz von Videobildern eine rekonstruierte Version jedes Bildes zu generieren. Anschließend wird der DIRE-Wert durch Rekonstruktion des Frames und des entsprechenden Eingabeframes berechnet. In Schritt 2 wird der CNN+LSTM-Detektor basierend auf der DIRE-Wertesequenz und dem ursprünglichen RGB-Frame trainiert.

Das Framework basiert auf der Idee, dass KI-generierte Tools Inhalte basierend auf der statistischen Verteilung großer Datensätze erstellen, was zu „statistischen Mittelwerten“ von Inhalten wie Pixelintensitätsverteilung, Texturmustern und Rauscheigenschaften in Videobildern sowie kleinen Inkonsistenzen führt, die zwischen Bildern unnatürlich variieren, oder anomalen Mustern, die eher in durch Diffusion generierten Videos auftreten.

Abbildung | Erkennungsleistung im In-Domain-Testsatz. DIVID übertrifft die Basisarchitektur in Bezug auf Genauigkeit (Acc.) und durchschnittliche Präzision (AP). RGB repräsentiert die Pixelbildwerte im Originalvideo.

Im Gegensatz dazu weisen von Menschen erstellte Videos Individualität und Abweichungen von statistischen Normen auf. DIVID erreicht in seinem Benchmark-Datensatz eine Erkennungsgenauigkeit von bis zu 93,7 % bei Videos, die von Stable Vision Diffusion, Sora, Pika und Gen-2 generiert wurden.

Zukunftsaussichten

Derzeit ist DIVID ein Befehlszeilentool, das Videos analysiert und ausgibt, unabhängig davon, ob sie von KI oder Menschen generiert wurden, und ist nur für Entwickler verfügbar. Die Forscher weisen darauf hin , dass ihre Technik das Potenzial hat, als Plug-In in Zoom integriert zu werden, um Deepfake-Anrufe in Echtzeit zu erkennen . Das Team erwägt außerdem, eine Website oder ein Browser-Plugin zu entwickeln, um DIVID normalen Benutzern zur Verfügung zu stellen.

Die Forscher arbeiten derzeit daran, das Framework von DIVID zu verbessern, um verschiedene Arten synthetischer Videos aus Open-Source-Tools zur Videogenerierung verarbeiten zu können. Sie verwenden DIVID auch, um Videos zu sammeln und den DIVID-Datensatz zu erweitern.

„Unser Framework macht erhebliche Fortschritte bei der Erkennung von KI-generierten Inhalten“, sagte Dr. Yun-Yun Tsai, einer der Autoren des Papiers. „Es gibt zu viele Kriminelle, die KI zur Videogenerierung nutzen. Der Schlüssel liegt darin, ihnen das Handwerk zu legen und die Gesellschaft zu schützen.“

Referenzlinks:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<:  Gewitter, Sturm oder Hagel sind im Anmarsch, bitte treffen Sie in diesen Gebieten Vorsichtsmaßnahmen →

>>:  Was ist das „Piping“-Phänomen, das durch den Deichbruch des Dongting-Sees verursacht wird? Wie kann eine Notfallrettung durchgeführt werden?

Artikel empfehlen

Machen Sie Kniebeugen mit Langhantelgewichten, machen Sie keine tiefen Kniebeugen

Langhanteltraining ist auch eine Art Fitnessgerät...

7 Heimübungen zur Linderung von Nacken- und Schulterermüdung

Die 7 Schritte sind einfach zu lernen und sehr ef...

So machen Sie Aerobic-Übungen zu Hause

Heutzutage bleiben immer mehr Menschen lieber zu ...

Hatten Sie jemals einen Traum im Traum? Was genau ist ein Traum im Traum?

Bildquelle: Tuchong Creative Hatten Sie jemals ei...

Worauf sollten Sie beim Schwimmen im Meer achten?

Das Wetter ist jetzt ziemlich heiß. Viele Mensche...

Die Frühlingsbrise weht, die Blumen lächeln, warum ist deine Nase so laut?

Der Frühling ist die schönste Jahreszeit, wenn al...

Erkennen Sie Geräusche mit einem scharfen Auge und zeichnen Sie sie auf!

Was ist Lärm? Was auch immer Sie denken, es ist s...

Wie trainieren Sie Ihre Oberschenkel und Ihr Gesäß?

Die Beine des Redakteurs sind relativ dick. Ich w...

Internet-TV ist Mainstream und traditionelle Strategien haben keine Zukunft

In der Vergangenheit war die Entwicklung der gesa...

Wie sollten Büroangestellte ihre Waden reduzieren?

Angesichts des zunehmenden Drucks des Lebens sind...

SUSE veröffentlicht Technologietrendprognosen für 2025

Autor: Vishal Ghariwala, CTO, SUSE Asia Pacific P...