Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Echte Szene oder KI-generiert? Die Adleraugen zum Erkennen von „Vincent-Videos“ sind da! Die Genauigkeitsrate liegt bei 93,7 %

Heutzutage verändern KI-Tools zur Videoerstellung Branchen wie Design, Marketing, Unterhaltung und Bildung, indem sie realistische Videoinhalte produzieren. Insbesondere bei Videomodellen wie Sora und Gen-3 müssen Sie nur wenige Zeilen Eingabetext eingeben, um realistische, kontinuierliche und qualitativ hochwertige Videoblöcke zu generieren.

Diese Technologie hat Kreativen auf der ganzen Welt zwar zahllose Möglichkeiten eröffnet, für die Öffentlichkeit ist sie jedoch auch mit zahlreichen Schäden und Risiken verbunden , insbesondere im Hinblick auf die Verbreitung falscher Informationen, Propaganda, Betrug und Phishing.
Daher ist die Frage, wie KI-generierte Videos genau identifiziert werden können, zu einem Thema geworden, das jeden interessieren sollte.

Vor Kurzem hat das Team von Professor Junfeng Yang an der Columbia University ein Videoerkennungstool namens DIVID (DIffusion-generated VIdeo Detector) entwickelt. Bei Videos, die von Modellen wie SORA, Gen-2 und Pika generiert wurden, erreichte die Erkennungsgenauigkeit 93,7 % .

Das Forschungspapier, das Open-Source-Code und einen Datensatz enthält, wurde letzten Monat auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Seattle vorgestellt.

Wie ist DIVID entstanden?

Vorhandene Deepfake-Detektoren sind bei der Identifizierung von durch GANs generierten Samples gut, aber nicht robust genug bei der Erkennung von durch Diffusionsmodelle generierten Videos.

In dieser Arbeit verwendete das Forschungsteam ein neues Tool namens DIVID, um KI-generierte Videos zu erkennen. Berichten zufolge basiert DIVID auf der Arbeit, die das Team Anfang des Jahres veröffentlicht hat – Raidar, das von KI generierten Text erkennt, indem es den Text selbst analysiert, ohne auf die internen Operationen des großen Sprachmodells (LLM) zuzugreifen.

Raidar verwendet LLM, um einen gegebenen Text neu zu formulieren oder zu überarbeiten und misst dann die Anzahl der Änderungen, die das System an diesem Text vornimmt. Mehr Bearbeitungen bedeuten, dass der Text mit größerer Wahrscheinlichkeit von einem Menschen geschrieben wurde. weniger Bearbeitungen bedeuten, dass der Text eher maschinell erstellt wurde.

Sie haben DIVID nach dem gleichen Konzept entwickelt. DIVID funktioniert, indem das Video rekonstruiert und das neu rekonstruierte Video mit dem Originalvideo verglichen wird. Es verwendet DIRE-Werte, um durch Diffusion erzeugte Videos zu erkennen, da die Methode auf der Annahme basiert, dass die vom Diffusionsmodell erzeugten rekonstruierten Bilder einander sehr ähnlich sein sollten, da sie aus der Verteilung des Diffusionsprozesses entnommen werden. Wenn es erhebliche Änderungen gibt, wurde das Originalvideo wahrscheinlich von einem Menschen erstellt, andernfalls wahrscheinlich mithilfe von KI.

Abbildung | Der Erkennungsprozess von DIVID. In Schritt 1 verwendet das Forschungsteam zunächst ein Diffusionsmodell, um aus einer Sequenz von Videobildern eine rekonstruierte Version jedes Bildes zu generieren. Anschließend wird der DIRE-Wert durch Rekonstruktion des Frames und des entsprechenden Eingabeframes berechnet. In Schritt 2 wird der CNN+LSTM-Detektor basierend auf der DIRE-Wertesequenz und dem ursprünglichen RGB-Frame trainiert.

Das Framework basiert auf der Idee, dass KI-generierte Tools Inhalte basierend auf der statistischen Verteilung großer Datensätze erstellen, was zu „statistischen Mittelwerten“ von Inhalten wie Pixelintensitätsverteilung, Texturmustern und Rauscheigenschaften in Videobildern sowie kleinen Inkonsistenzen führt, die zwischen Bildern unnatürlich variieren, oder anomalen Mustern, die eher in durch Diffusion generierten Videos auftreten.

Abbildung | Erkennungsleistung im In-Domain-Testsatz. DIVID übertrifft die Basisarchitektur in Bezug auf Genauigkeit (Acc.) und durchschnittliche Präzision (AP). RGB repräsentiert die Pixelbildwerte im Originalvideo.

Im Gegensatz dazu weisen von Menschen erstellte Videos Individualität und Abweichungen von statistischen Normen auf. DIVID erreicht in seinem Benchmark-Datensatz eine Erkennungsgenauigkeit von bis zu 93,7 % bei Videos, die von Stable Vision Diffusion, Sora, Pika und Gen-2 generiert wurden.

Zukunftsaussichten

Derzeit ist DIVID ein Befehlszeilentool, das Videos analysiert und ausgibt, unabhängig davon, ob sie von KI oder Menschen generiert wurden, und ist nur für Entwickler verfügbar. Die Forscher weisen darauf hin , dass ihre Technik das Potenzial hat, als Plug-In in Zoom integriert zu werden, um Deepfake-Anrufe in Echtzeit zu erkennen . Das Team erwägt außerdem, eine Website oder ein Browser-Plugin zu entwickeln, um DIVID normalen Benutzern zur Verfügung zu stellen.

Die Forscher arbeiten derzeit daran, das Framework von DIVID zu verbessern, um verschiedene Arten synthetischer Videos aus Open-Source-Tools zur Videogenerierung verarbeiten zu können. Sie verwenden DIVID auch, um Videos zu sammeln und den DIVID-Datensatz zu erweitern.

„Unser Framework macht erhebliche Fortschritte bei der Erkennung von KI-generierten Inhalten“, sagte Dr. Yun-Yun Tsai, einer der Autoren des Papiers. „Es gibt zu viele Kriminelle, die KI zur Videogenerierung nutzen. Der Schlüssel liegt darin, ihnen das Handwerk zu legen und die Gesellschaft zu schützen.“

Referenzlinks:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<:  Gewitter, Sturm oder Hagel sind im Anmarsch, bitte treffen Sie in diesen Gebieten Vorsichtsmaßnahmen →

>>:  Was ist das „Piping“-Phänomen, das durch den Deichbruch des Dongting-Sees verursacht wird? Wie kann eine Notfallrettung durchgeführt werden?

Artikel empfehlen

Wie viel Seilspringen sollten Sie machen, um Gewicht zu verlieren?

Seilspringen ist eine Aerobic-Übung, die Ihnen be...

Wie kann man Armmuskeln abbauen?

In der heutigen Gesellschaft streben viele Freund...

Mit leerem Magen kann man nicht schwimmen, Schwimmtipps

Schwimmen ist ein Ganzkörpertraining, das Ihnen n...

Welche Vorsichtsmaßnahmen sind für sicheres Schwimmen zu treffen?

Schwimmen ist eine der schönsten Sportarten. Es b...

Dells Transformation: eine Geschichte von „Schönheit und Einsamkeit“

Fahren Sie von Austin, der Hauptstadt von Texas, ...

Yoga-Lotushaltung und Vorteile

Apropos Yoga: Jeder sollte damit vertraut sein, o...

Welche Art von Übung kann Ihnen helfen, schnell Gewicht zu verlieren?

Abnehmen ist ein langsamer Prozess und es gibt ke...

So trainieren Sie die oberen Bauchmuskeln, drei gängige Bewegungen

Bauchmuskeltraining erfordert zwar langfristige A...

Was tun, wenn Sie nach dem Training Schmerzen im Körper verspüren?

Menschen, die nicht regelmäßig Sport treiben, lei...

Er verwandelte einen Ferrari in ein Elektroauto

Wenn man neben einem Ferrari steht, kann man, sol...