Menschen nutzten Licht, um KI zu „überlisten“, aber das Ergebnis war …

Menschen nutzten Licht, um KI zu „überlisten“, aber das Ergebnis war …

Wie wir alle wissen, ist künstliche Intelligenz (KI) mittlerweile sehr leistungsfähig. Dank hochleistungsfähiger Hardware und Software sowie den allgegenwärtigen Kameras als unseren Augen lässt sich leicht erkennen, ob es sich bei dem Tier auf einem Bild um eine Katze oder einen Hund handelt, und ein Ziel in einer Menschenmenge finden. Bei Aufgaben wie der Bildklassifizierung und -erkennung sowie der Bildzielerkennung liegt die Genauigkeitsrate bei nahezu „100 %“ und übertrifft in vielen Fällen sogar die von echten Menschen.

Durch Gesichtserkennung und Big Data können KI-Vision-Systeme nicht nur wissen „Wer sind Sie?“, sondern höchstwahrscheinlich auch erraten „Woher kommen Sie?“ und "Wo gehst du hin?". Über diese drei ultimativen philosophischen Fragen, die die Seele berühren, müssen Sie kein Wort verlieren, denn die KI hat bereits die Antworten.

Gibt es eine gute Möglichkeit, wenn eine Person nicht von den überwältigenden KI-Bildverarbeitungssystemen erkannt werden möchte?

Bedecken Sie Ihr Gesicht fest mit einer Kapuze oder Maske, zerstören Sie die Kamera oder ziehen Sie das Netzkabel des Computers heraus? Diese rücksichtslosen Praktiken werden die Dinge nur noch schlimmer machen und sich selbst bloßstellen. Der wahre Trick besteht darin, die Wahrheit zu verbergen, Dinge heimlich zu verschieben und die KI zu täuschen, ohne ein Geräusch zu machen. Doch lässt sich die KI, da sie immer intelligenter wird, immer noch so leicht täuschen? Tatsächlich ist es nicht nur möglich, KI zu täuschen, sondern es gibt auch viele Möglichkeiten, sie zu hacken.

Copyright-Bilder in der Galerie. Der Nachdruck und die Verwendung können zu Urheberrechtsstreitigkeiten führen.

Obwohl das aktuelle KI-System, das durch tiefe neuronale Netzwerkmodelle repräsentiert wird, viele Aufgaben hervorragend erfüllen kann, gleicht seine interne Struktur einer Blackbox und die Forscher haben seinen Mechanismus noch nicht vollständig verstanden. Ein derart komplexes System weist zwangsläufig verschiedene Schlupflöcher (Fehler) auf. Solange Sie einen davon finden und den entscheidenden Punkt treffen, können Sie der KI freien Lauf lassen. So wie das menschliche Auge verschiedene optische Täuschungen erzeugen kann, machen auch KI-Vision-Systeme oft Fehler.

Auch wenn ein KI-System normalerweise sehr gut funktioniert, kann es durch eine Täuschung völlig funktionsunfähig werden. Das KI-System ist wie ein Spitzenschüler mit instabiler Leistung. Es kann die schwierigsten Fragen in der Prüfung problemlos beantworten, kann aber auch unerklärliche Fehler auf niedrigem Niveau machen und kann die „einfachen Fragen“ nicht beantworten. Werden an einem Bild nur unwesentliche oder gar nicht wahrnehmbare Änderungen vorgenommen, die das KI-Vision-System zu Fehleinschätzungen verleiten, spricht man von einem Adversarial-Sample-Angriff.

Bei elektronischen Bildern auf Mobiltelefonen und Computern können Benutzer den Wert jedes Pixels beliebig ändern, wodurch sich das Erscheinungsbild des Bildinhalts ganz einfach vollständig ändern lässt. Die Schwierigkeit besteht darin, dass die vorgenommenen Änderungen einerseits möglichst subtil und nicht leicht erkennbar sein sollten und andererseits ausreichen sollten, um die Schwachstellen des KI-Systems auszulösen und es dazu zu verleiten, falsche Ergebnisse zu generieren.

Es gibt jedoch bereits viele Optimierungsalgorithmen, die keine Schwierigkeiten scheuen und solche Bilder erzeugen können, die als Adversarial Samples bezeichnet werden. Das Bild unten zeigt die verschiedenen seltsamen Verhaltensweisen des KI-Vision-Systems nach dem Auftreten elektronischer „Bildbetrugs“-Angriffe.

Abbildung 1: Nach dem Auftreten elektronischer „Image Spoofing“-Angriffe (Adversarial Sample) verhält sich das KI-Vision-System merkwürdig: Das ursprüngliche Pandabild bleibt nach dem Hinzufügen optimierter farbiger Schneeflocken für das menschliche Auge im Wesentlichen unverändert, aber das KI-System teilt Ihnen mit, dass es sich nicht um einen Panda, sondern um einen Gibbon handelt. die Alpen werden als Hunde angesehen und Kugelfische als Krabben, was zu ungeheuerlich ist; es kann nicht einmal die einfachsten handgeschriebenen Zahlen erkennen und besteht darauf, dass 4 9, 3 7 und 8 1 ist ... Das muss eine Menge Alkohol sein [1, 2, 3]

Es muss gesagt werden, dass die Sicht der KI nach einem Angriff durch gegnerische Samples wirklich nicht gut ist. Es „lügt mit offenen Augen“, die Bilderkennungsergebnisse sind völliger Unsinn und seine Leistung liegt weit unter dem Standard. Zusätzlich zur Ergebnisausgabe gibt das KI-System auch eine entsprechende Konfidenzstufe an, die angibt, wie sicher es ist, dass das Ergebnis richtig ist. Allerdings ist die Konfidenz dieser Fehleinschätzungsergebnisse recht hoch und liegt entweder bei 99 % oder 100 %. Es scheint, dass das KI-Vision-System zu diesem Zeitpunkt noch sehr „gewöhnlich“ ist. Seine Leistung ist offensichtlich sehr gewöhnlich, aber es ist immer noch so überzeugend.

Wenn magische Angriffe auf elektronische Bilder durchgeführt werden, dann sind physische Angriffe auf reale Objekte erforderlich. Eine einfachere Methode für einen physischen Angriff besteht darin , ein kleines Etikett auf ein Gesicht, ein Verkehrsschild oder ein anderes Objekt zu kleben und ein paar Linien darauf zu zeichnen. Natürlich sind die vorgenommenen Änderungen auch sorgfältig darauf ausgelegt, das KI-Vision-System zum Scheitern zu bringen.

Abbildung 2: Eine einfache Methode, das KI-Vision-System durch Anbringen kleiner Etiketten zu verwirren

Unterschätzen Sie diese Art von Streich nicht. Das Verkehrsschild „Stopp“ im Bild wird von der KI fälschlicherweise als „Geschwindigkeitsbegrenzung 45“ interpretiert. Wird ein selbstfahrendes Auto tatsächlich durch ein solches Schild getäuscht, kann es zu einem Verkehrsunfall kommen, der zur Zerstörung des Autos und zum Tod von Menschen führt. Diese Schwachstelle im KI-Vision-System verdient ernsthafte Aufmerksamkeit.

Abbildung 3: Wenn ein Mädchen eine spezielle Brille trägt, wird sie von der KI als ein anderes Mädchen erkannt

Generell gilt: Wenn das Aussehen einer Person von einem KI-Sehsystem erkannt werden kann, dann ist die Wahrscheinlichkeit hoch, dass sie auch dann noch erkannt wird, wenn sie eine Brille trägt. Dies ist jedoch möglicherweise nicht der Fall, wenn Sie die oben erwähnte spezielle „Brille“ tragen. Diese Art von gefälschter Brille hat keine Gläser, nur einen Rahmen. Auch die farbenfrohen Dekormuster der Rahmen sind sehr alternativ. Von außen betrachtet sehen sie aus wie ein zeitgenössisches Kunstwerk, sind aber tatsächlich „exklusiv angepasst“, basierend auf den Mängeln des KI-Modells, was dazu führen kann, dass sich das visuelle KI-System „wie zwei verschiedene Personen“ anfühlt.

Adversarial-Sample-Angriffe auf physische Objekte sind natürlich untrennbar mit optischen Mitteln verbunden. Die Verwendung eines Projektors zum Projizieren von Interferenzlichtmustern auf die Oberfläche eines Objekts ist eine einfache und effektive Methode. Die Verwendung allgegenwärtiger Schatten als Angriffsmethode wirkt natürlicher und verborgener. Es genügt, das blockierende Objekt an der entsprechenden Stelle zu platzieren, damit der Schatten wie gewünscht aussieht.

Abbildung 4: Optischer Angriff mit einem Projektor (links) und dem natürlichen Schatten eines Objekts (rechts)

Heutzutage werden die Kamerafunktionen von Smartphones immer fortschrittlicher und die aufgenommenen Fotos und Videos werden immer klarer. Auch mit einem Handy mit einfacher Ausstattung lassen sich grundsätzlich zufriedenstellende Fotos machen. Es besteht jedoch tatsächlich ein Unterschied zwischen der realen Welt, die von Digitalkameras originalgetreu aufgezeichnet wird, und dem menschlichen Auge. Nicht nur das KI-Softwaresystem selbst weist Schwachstellen auf, sondern auch die Kameras und Kameraobjektive, die als visuelle Eingabe für die KI dienen, weisen Schwachstellen auf. Durch die „Manipulation“ des Aufnahmevorgangs werden Objekte, die für das menschliche Auge normal erscheinen, auf dem Bildsensor in seltsame Fotos umgewandelt, wodurch das Urteil der KI irregeführt wird.

Der erste Trick, um eine Kamera zu täuschen, besteht darin, den Unterschied im Frequenzspektrum zwischen dem menschlichen Auge und dem Kamerasensor auszunutzen. Licht verschiedener Farben wie Rot, Orange, Gelb, Grün, Cyan, Blau und Violett wird als sichtbares Licht bezeichnet, da es im Sichtbereich des menschlichen Auges gesehen werden kann. Allerdings sind Infrarotlicht mit einer längeren Wellenlänge als rotes Licht und Ultraviolettlicht mit einer kürzeren Wellenlänge als violettes Licht für das menschliche Auge unsichtbar. Der Spektralbereich der Lichtsignale, der von Sensoren gewöhnlicher Mobiltelefone und Kameras empfangen werden kann, ähnelt in etwa dem des menschlichen Auges, ist aber nicht genau derselbe. Sie können häufig Infrarotstrahlen einer bestimmten Wellenlänge erkennen, die für das menschliche Auge unsichtbar sind.

Abbildung 5: Seltsames Infrarotlicht führt dazu, dass KI Personen immer falsch identifiziert: von der Kamera aufgenommene Bilder (erste Reihe) und Erkennungsergebnisse (zweite Reihe)

Einige Forscher verwendeten eine Infrarot-LED-Lampe, um verschiedene Lichtverteilungsmuster auf das Gesicht einer Person zu projizieren. Egal wie das Licht aufgenommen wurde, in den Augen der echten Betrachter war nichts Ungewöhnliches zu sehen. Allerdings war auf den aufgenommenen Fotos immer ein violetter Bereich im Gesicht zu sehen. Dies würde dazu führen, dass das KI-Gesichtserkennungssystem eine „Gesichtsblindheit“ entwickelt und dieselbe Person fälschlicherweise als mehrere verschiedene Personen identifiziert. Der normale QR-Code aus Papier, der für Online-Zahlungen verwendet wird, kann sich in den Augen einer Handykamera, nachdem er aus hundert Metern Entfernung von einem Infrarotlaser beleuchtet wurde, in einen völlig anderen QR-Code verwandeln und unbemerkt zum Eingang eines bösartigen Website-Links werden.

Abbildung 6: Unter einer Reihe schnell wechselnder Projektionsmuster bleibt das Gesicht für das menschliche Auge dasselbe, in den Augen der Kamera hat es jedoch einen völlig anderen „ungeschminkten“ Ausdruck.

Der zweite Trick besteht darin, den einzigartigen Farbfusionsmechanismus des menschlichen Auges auszunutzen. Wenn rotes und grünes Licht abwechselnd und schnell angezeigt werden, beispielsweise mit 60 Bildern pro Sekunde, kann das menschliche Auge sie aufgrund des schnellen Blinkens nur schwer unterscheiden und sieht nur das gelbe Licht, das durch die Verschmelzung von rotem und grünem Licht entsteht. Der Bildsensor hingegen ist anspruchsvoller und nimmt in jedem Moment entweder rotes oder grünes Licht auf, nicht das gemischte gelbe Licht. Der Projektor projiziert schnell und abwechselnd zwei Muster, die das Gesicht eines getarnten Ziels (wie beispielsweise Hillary) enthalten, auf ein echtes Gesicht. Was echte Betrachter sehen, ist ein gleichmäßiges Lichtmuster, das das Ergebnis der Neutralisierung der beiden projizierten Muster ist. Das Aussehen des Gesichts selbst scheint es nicht zu beeinträchtigen. Auf den mit einem Mobiltelefon oder einer Kamera aufgenommenen Fotos erscheint jedoch ein Gesicht, das durch das projizierte Muster stark verzerrt ist und als die Person im projizierten Muster identifiziert wird. Dies entspricht der Verwendung eines Projektors zum Auftragen von „starkem und leichtem Make-up“ auf das Gesicht einer Person, das Make-up ist jedoch undeutlich. Sofern nicht durch eine Kamera betrachtet, wird das Make-up automatisch entfernt.

Der dritte Trick besteht darin, die Schwächen des Rolling Shutters des Bildsensors auszunutzen. Die Netzhaut des menschlichen Auges entspricht dem Sensor einer Kamera. Beide dienen der Aufzeichnung von Bildlichtsignalen. Der Unterschied besteht jedoch darin, dass die Netzhaut das gesamte zweidimensionale Bild synchron aufzeichnet. Wenn Sie beispielsweise ein Gesicht betrachten, werden Ohren, Augen, Nase und Mund gleichzeitig gesehen. Bei vielen Kamerasensoren ist das jedoch nicht der Fall. Sie verwenden eine zeilenweise Scanmethode namens Rolling Shutter. Auch das Lichtsignal eines Einzelbildes wird zeilenweise separat aufgezeichnet. Aufgrund der unterschiedlichen Positionen werden Ohren, Augen, Nase und Mund nicht synchron aufgenommen, sondern es besteht ein geringer Zeitunterschied. Auf diese Weise wird, wenn das schnell zwischen Hell und Dunkel wechselnde Licht zufällig auf den Kamerasensor trifft und eine Linie eines Lichtsignals im Bild aufzeichnet, das Licht dunkel und eine schwarze Linie erscheint auf dem aufgenommenen Foto, und schließlich wird das ganze Bild wie ein Zebra aussehen. Für das menschliche Auge flackert das Licht so schnell, dass es völlig unmerklich ist und es im Bild keine schwarzen Linien gibt.

Abbildung 7: Der Rolling-Shutter-Effekt verursacht schwarze Linien oder farbige Streifen in Fotos, die von Kameras unter schnell blinkenden Lichtern aufgenommen werden.

Wenn wir jedoch drei verschiedene Lichtfarben – Rot, Grün und Blau – verwenden und den Ein- und Aus-Status jedes Lichts in jedem kurzen Moment genauer berechnen, erscheint auf dem Foto nicht mehr nur eine einfache schwarze Linie, sondern regenbogenartige bunte Streifen. Sowohl schwarze Linien als auch farbige Streifen können das KI-System verwirren und seine ordnungsgemäße Funktion beeinträchtigen.

Die Forscher nutzten nicht nur die Schwachstellen vorhandener Kamerasensoren aus, sondern versuchten auch eine proaktivere Angriffsmethode, etwa das Verstecken von Soldaten im Trojanischen Pferd, indem sie dem optischen Pfad des Bildgebungssystems einer normalen Kamera ein zusätzliches Verarbeitungsmodul hinzufügten. Dieses Modul kann das Lichtsignal des aufgenommenen Bildes optisch geringfügig verändern.

Konkret wird das Lichtsignal des Objektbildes üblicherweise direkt auf den Bildsensor projiziert, nachdem es das Kameraobjektiv passiert hat. Bei diesem ungewöhnlichen System wird jedoch zwischen Kameraobjektiv und Sensor ein zusätzliches Modul eingefügt. Das Modul umfasst zwei Linsen und einen räumlichen Lichtmodulator. Die erste Linse entspricht der Simulation der Fourier-Transformation des Bildes durch Lichtfeldausbreitung. Anschließend wird der räumliche Lichtmodulator verwendet, um die Phase des Transformationsergebnisses anzupassen und es dann durch eine andere Linse zu leiten, um eine inverse Fourier-Transformation durchzuführen.

Die von diesem Spezialmodul verarbeiteten Bilder unterscheiden sich geringfügig von denen einer normalen Kamera. „Der Teufel steckt im Detail“ und geschickt geplante kleine Änderungen an der Eingabe reichen aus, um den normalen Betrieb eines KI-Systems zu stören.

Abbildung 8: Ein Kamerasystem mit eingebettetem optischen Prozessor zur Erzeugung von gegnerischen Bildern.

Natürlich sind die Entwickler von KI-Vision-Systemen den verschiedenen Angriffen mit gegnerischen Samples nicht hilflos ausgeliefert. Die beiden stehen in einer Speer- und Schildbeziehung. Je schärfer der Speer, desto stärker ist der Schild.

In den letzten Jahren haben Forscher häufig weltweite Wettbewerbe zu gegnerischen KI-Angriffen und -Verteidigungsmustern abgehalten, bei denen die Teilnehmer in simulierten Szenarien gegeneinander antreten und zusammenkommen konnten, um ihre Fähigkeiten zu diskutieren. Ein chinesisches Sprichwort sagt: „Der Teufel ist einen Fuß hoch, aber die Straße ist drei Meter höher.“ Auch die Fähigkeit von KI-Vision-Systemen, Angriffen durch gegnerische Samples zu widerstehen, verbessert sich und wird durch das Schließen verschiedener Schlupflöcher immer perfekter.

Verweise

[1] IJ Goodfellow, J. Shlens und C. Szegedy, Erklären und Nutzen von Adversarial Examples, arXiv:1412.6572 (2014)

[2] Y. Dong, F. Liao, T. Pang, H. Su, J. Zhu, X. Hu und J. Li, Boosting Adversarial Attacks with Momentum, 2018 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR 2018), 9185-9193 (2018)

[3] H. Ye, X. Liu und C. Li, DSCAE: eine denoising Sparse Convolutional Autoencoder-Abwehr gegen gegnerische Beispiele, J. Ambient. Intell. Menschlicher Computer. 13, 1419–1429 (2022)

[4] J. Fang, Y. Jiang, C. Jiang, ZL Jiang, S.-M. Yiu und C. Liu, Hochmoderne optische physikalische Angriffe für Deep-Learning-Computer-Vision-Systeme, arXiv: 2303.12249 (2023)

[5] M. Sharif, S. Bhagavatula, L. Bauer und MK Reiter, Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition, In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS '16), 1528–1540 (2016)

[6] A. Gnanasambandam, AM Sherman und SH Chan, Optical Adversarial Attack, arXiv:2108.06247 (2021)

[7] Y. Zhong, X. Liu, D. Zhai, J. Jiang und X. Ji, Schatten können gefährlich sein: Heimlicher und effektiver Angriff auf die physische Welt durch natürliche Phänomene, 2022 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 15324-15333 (2022)

[8] Z. Zhou, D. Tang, X. Wang, W. Han, X. Liu und K. Zhang, Unsichtbare Maske: Praktische Angriffe auf die Gesichtserkennung mit Infrarot, arXiv:1803.04683 (2018)

[9] „Papier-QR-Codes können auch aus der Ferne manipuliert werden: spurlose Angriffe aus einer Entfernung von 100 Metern, die sie in Sekundenschnelle in bösartige Website-Eingänge verwandeln“, QuantumBit WeChat Official Account, https://mp.weixin.qq.com/s/mNB-4mAfFCtcNtvSUW3x5Q

[10] M. Shen, Z. Liao, L. Zhu, K. Xu und X. Du, VLA: ein praktischer Angriff auf Gesichtserkennungssysteme in der physischen Welt auf Basis sichtbaren Lichts, Proc. ACM-Interaktion. Mob. Tragbare, allgegenwärtige Technologie. 3(3), 103 (2019)

[11] Z. Chen, P. Lin, ZL Jiang, Z. Wei, S. Yuan und J. Fang, Ein auf Beleuchtungsmodulation basierender Angriff auf ein automatisiertes Gesichtserkennungssystem, In Informationssicherheit und Kryptologie: 16. Internationale Konferenz (Inscrypt 2020), 53–69 (2020)

[12] A. Sayles, A. Hooda, MK Gupta, R. Chatterjee und E. Fernandes, Unsichtbare Störungen: Physikalische Adversarial-Beispiele unter Ausnutzung des Rolling-Shutter-Effekts, 2021 IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 14661-14670 (2020)

[13] K. Kim, J. Kim, S. Song, J.-H. Choi, C. Joo und J.-S. Lee, Technische Pupillenfunktion für optische Angriffe, Optics Express 30(5), 6500-6518 (2022)

[14] Zhang Zihao, „Sind neuronale Netze zu leicht zu erraten? Wie konnte das Tsinghua-Team drei Meisterschaften im NIPS-Angriffs- und Verteidigungswettbewerb gewinnen?“ Offizieller WeChat-Account des Programmierers Good Things, https://mp.weixin.qq.com/s/k0dCmIhwMsqvsR_Fhhy93A

Planung und Produktion

Quelle: Light Science Forum/China Optics

Herausgeber: Zhong Yanping

<<:  Können wir die Erde wirklich verändern? Das Anthropozän könnte kommen

>>:  Changman | Wenn du i denkst, dann denke ich e, dann ist e e. Wie tief ist die Bindung, die zur Quantenverschränkung führt?

Artikel empfehlen

Kann ich jeden Tag laufen?

Der Herausgeber hat einen Klassenkameraden, der i...

Tatsächlich ist jeder „liebesgeil“?

Die Liebe ist etwas Süßes und etwas, wonach sich ...

Ist Ihnen die Meinung anderer wichtig?

© Das Good Men-Projekt Leviathan Press: „Sie werd...

Hat Hocken Einfluss auf das Höhenwachstum?

Es gibt viele Möglichkeiten, Sport zu treiben, un...

Welche Möglichkeiten gibt es, Sport zu treiben?

Trainieren ist nicht blind. Jeder sollte eine Tra...

So trainieren Sie Ihre Arme mit Hanteln

Hanteln sind für viele Bodybuilding-Fans ein beli...

Welche Techniken gibt es für einminütige Sit-ups?

Für manche Menschen sind Sit-ups eine sehr einfac...

Heute ist Laba-Fest. Der Laba-Knoblauch wird grün, ist er wirklich verdorben?

Heute ist der achte Tag des zwölften Mondmonats. ...

So trainieren Sie die Brustmuskulatur

Die Schönheit einer Frau erkennt man an der S-Kur...

Das Wetter wird plötzlich kalt, du solltest so nah beieinander sein

Im kalten Winter ist es warm, drinnen zu bleiben,...

Yoga-Methode zur Taillen- und Bauchstraffung

Bei Menschen, die viel sitzen und sich nicht bewe...