Der Verifizierungscode ist ein Sicherheitsmechanismus, der häufig auf Websites, in Anwendungen und anderen Systemen verwendet wird. Es bestätigt die Identität des Benutzers oder verhindert böswilliges Verhalten, wie etwa böswillige Registrierungen, Brute-Force-Passwortknacken usw., indem es den Benutzer auffordert, bestimmte Zeichen oder Zahlenkombinationen korrekt einzugeben. Verifizierungscodes können Angriffe und Missbrauch des Systems durch automatisierte Programme wie Hacker, Roboter und Skripte wirksam verhindern und so die Sicherheit der Benutzerdaten und die Privatsphäre gewährleisten. Darüber hinaus werden Verifizierungscodes häufig zur Verifizierung der Eindeutigkeit, zur Verifizierung spezifischer Berechtigungen und zur Verifizierung interaktiver Prozesse verwendet. Sentinels zum Schutz vor automatisierten Programmen, die Online-Dienste missbrauchen Der Begriff CAPTCHA ist eine Abkürzung des vollständigen Namens „Completely Automated Public Turing test to tell Computers and Humans Apart“, was so viel bedeutet wie „Vollständig automatischer Turing-Test zur Unterscheidung von Computern und Menschen“. Es wurde erstmals im Jahr 2000 von Luis von Ahn, Manuel Blum, Nicholas Hopper und John Langford von der Carnegie Mellon University vorgeschlagen. Es handelt sich um eine im Internet weit verbreitete Sicherheitstechnologie, um zwischen Computerprogrammen (wie Robotern) und echten menschlichen Benutzern zu unterscheiden. Ein typisches CAPTCHA ist ein Bild mit mehreren verzerrten Zeichen (siehe Abbildung 1), das normalerweise am unteren Rand eines Webformulars erscheint. Benutzer werden aufgefordert, diese Tilde-Zeichen einzugeben, um zu „beweisen“, dass sie ein Mensch sind. Computerprogramme konnten damals verzerrten Text nicht auf die gleiche Weise lesen wie Menschen. Daher dienten CAPTCHAs als Wächter gegen automatisierte Programme, die Online-Dienste missbrauchen könnten. Aufgrund ihrer Wirksamkeit als Sicherheitsmaßnahme werden CAPTCHAs zum Schutz vieler Arten von Websites verwendet, darunter kostenlose E-Mail-Anbieter, Ticket-Sites, soziale Netzwerke, Wikis und Blogs. So können CAPTCHAs beispielsweise dazu eingesetzt werden, Schwarzhändler daran zu hindern, mithilfe von Computerprogrammen gezielt große Mengen Konzertkarten zu kaufen und diese zu hohen Preisen weiterzuverkaufen. Kostenlose E-Mail-Anbieter wie Gmail und Yahoo Mail verwenden CAPTCHA, um zu verhindern, dass böswillige Konten böswillige Konten registrieren und Spam versenden. Abbildung 1 CAPTCHA-Beispiel (Bildquelle [1]) Wenn Sie jemals einen Bestätigungscode wie den in Abbildung 2 ausgefüllt haben, dann herzlichen Glückwunsch und vielen Dank, denn Sie haben etwas Sinnvolles für die Menschheit getan, ohne es zu wissen. Abbildung 2 reCAPTCHA-Schnittstelle (Bildquelle [1]) Die Geschichte beginnt mit einer fantastischen Idee: Nach Schätzungen des Teams um Luis von Ahn geben weltweit täglich (Stand 2008) mehr als 100 Millionen Menschen Verifizierungscodes ein. Während das Erkennen und Eingeben der verzerrten Zeichen jedes Mal nur wenige Sekunden dauert, summiert sich der Zeitaufwand insgesamt auf Hunderttausende Stunden pro Tag. Obwohl CAPTCHAs sehr wirksam dabei sind, den Missbrauch von Online-Diensten im großen Stil zu verhindern, ist der Aufwand, den jeder Einzelne für die Lösung eines CAPTCHAs aufwendet, vergeblich. Aufgrund des enormen Zeitverlusts begann das Team von Luis von Ahn darüber nachzudenken, ob es eine Möglichkeit gäbe, diese fragmentierte Zeit zu nutzen. Angesichts einer so wunderbaren Idee fanden sie tatsächlich die Antwort: die Digitalisierung alter Papierbücher. Damals erregten großangelegte Digitalisierungsprojekte für alte Papierbücher (wie das Google Books-Projekt und das gemeinnützige Internet Archive) die Aufmerksamkeit des Teams von Luis von Ahn. Die Digitalisierung alter Papierbücher ist von großer Bedeutung, da sie nicht nur zur Bewahrung menschlichen Wissens beiträgt, sondern auch den Zugriff auf Informationen, deren Abruf und Analyse erleichtert. Damals wurden alte Papierbücher digitalisiert, indem man sie direkt einscannte, um Bilder zu erzeugen, und diese dann mithilfe einer Software zur optischen Zeichenerkennung (OCR) in Textdateien umwandelte. Bei alten Büchern mit verblasster Tinte und vergilbtem Papier kann OCR nur 80 % der Wörter erkennen [1]. Im Gegensatz dazu sind Menschen bei der Transkription solcher Druckmaterialien genauer und erreichen auf der Grundlage von Transkription und Korrekturlesen eine Genauigkeit von über 99 % auf Wortebene [1]. Leider ist die manuelle Transkription teuer. Da die manuelle Transkription alter Bücher teuer ist und die automatische OCR-Erkennung nicht ideal ist, dachte sich das Team von Luis von Ahn: Warum lassen wir die Benutzer nicht die von gescannten Büchern generierten Bilder erkennen? Es stellt sich noch eine weitere Frage: Wie kann man feststellen, ob es sich bei der Person, die den Bestätigungscode eingibt, um eine echte Person oder um ein Schadprogramm handelt? Mit diesen Ideen und Zielen im Hinterkopf ersetzte das Team von Luis von Ahn die ursprünglich zufällig generierten Bilder durch gescannte Bilder auf Basis des Standard-CAPTCHA, führte eine Zwei-Wort-Verifizierung ein und entwickelte ein neues Verifizierungscode-System: reCAPTCHA. reCAPTCHA-Zwei-Wort-Verifizierungsmethode Das reCAPTCHA-Verifizierungscodesystem besteht aus zwei Wörtern, die beide aus gescannten Bildern alter Bücher und Klassiker stammen. Der Benutzer wird aufgefordert, zwei Wörter zu identifizieren und einzugeben und kann nach der Überprüfung mit den nachfolgenden Vorgängen fortfahren. Abbildung 3 reCAPTCHA-Schnittstelle (Bildquelle [1]) Wie oben gezeigt, gibt reCAPTCHA dem Benutzer zwei Wörter, eines ist ein „unbekanntes“ Wort („Morgen“), für das der Computer die Antwort nicht erkennen kann, und das andere ist ein „Kontrollwort“ („übersieht“), für das die Antwort bekannt ist. Jedes Wort, dessen Analyseergebnisse aus zwei verschiedenen OCR-Programmen inkonsistent sind oder das im Wörterbuch nicht gefunden werden kann, wird als „verdächtiges“ Wort markiert. Die „verdächtigen“ Wörter werden den Benutzern zunächst als „unbekannte“ Wörter zugesandt, wobei die Antwort jedes Benutzers als eine Stimme zählt und das OCR-Erkennungsergebnis als halbe Stimme zählt. Wenn drei identische Antworten erscheinen und sich von beiden OCR-Ergebnissen unterscheiden, wird das „unbekannte“ Wort zu einem „Kontrollwort“ und dem Benutzer zufällig angezeigt. Wenn die Antworten der Benutzer stark voneinander abweichen, senden Sie es weiterhin als „unbekanntes“ Wort an weitere Benutzer. Abbildung 4: Funktionsweise von reCAPTCHA Jedes „unbekannte“ Wort wurde zusammen mit einem anderen „Kontrollwort“ in zufälliger Reihenfolge in ein Bild eingefügt und die beiden Wörter wurden zusätzlich verzerrt, um sicherzustellen, dass das automatisierte Programm sie nicht entziffern konnte. Um die Wahrscheinlichkeit zu verringern, dass das automatisierte Programm die richtige Antwort zufällig errät, wurden die Häufigkeiten der Kontrollwörter normalisiert, sodass beispielsweise das häufigere Wort „heute“ und das weniger häufige Wort „gekürzt“ mit der gleichen Wahrscheinlichkeit angeboten wurden. Wenn ein Benutzer ein „unbekanntes“ Wort und ein „Kontrollwort“ eingibt und das „Kontrollwort“ richtig geschrieben werden kann, wird davon ausgegangen, dass es sich bei dem Benutzer um eine reale Person handelt. Gleichzeitig gilt ein „unbekanntes“ Wort als korrekt erkannt, sofern es 2,5 oder mehr Stimmen erhält. Durch den großflächigen Einsatz des Systems und das Sammeln und Analysieren der Erkennungsergebnisse erreichte das reCAPTCHA-System eine Genauigkeit von 99,1 % auf Wortebene [1], während die Genauigkeit der Standard-OCR nur 83,5 % betrug [1]. Die Genauigkeitsrate von 99,1 % entspricht dem Industriestandard für akzeptable Genauigkeitsgarantien von „über 99 %“ für Transkriptionstechnologie. Nachdem das System ein Jahr lang lief, hatten Menschen mehr als 1,2 Milliarden CAPTCHAs gelöst, was der korrekten Entschlüsselung von mehr als 440 Millionen verdächtigen Wörtern entspricht. Angenommen, jedes Buch hat 100.000 Wörter (400 Seiten mit je 250 Wörtern pro Seite), dann bedeutet dies, dass über 17.600 Bücher manuell transkribiert werden müssen (wobei etwa 25 % der Wörter in jedem Buch vom Algorithmus als verdächtig markiert werden). Die Popularität des Systems nahm weiter zu: Im Jahr 2008 überstieg die Transkriptionsrate 4 Millionen verdächtige Wörter pro Tag, was etwa 160 Büchern pro Tag entspricht. Um diese Geschwindigkeit mit der herkömmlichen manuellen Transkription zu erreichen, wäre ein Team von mehr als 1.500 Personen erforderlich, die 40 Stunden pro Woche an der Entzifferung der Wörter arbeiten (bei einem Durchschnitt von 60 Wörtern pro Minute) [1]. Denn das Wort „Kontrollwort“ ist ein Wort, das beide OCR-Programme nicht erkennen können. Daher stellt jedes Programm, das diese Wörter mit sehr hoher Wahrscheinlichkeit erkennen kann, eine Verbesserung des OCR-Programms dar und stellt auch einen Fortschritt in der OCR-Technologie dar. reCAPTCHA wurde im September 2009 von Google übernommen. Seit der Übernahme von reCAPTCHA durch Google wurde das Bestätigungscodesystem weiterentwickelt und verbessert. Google hat es in seine Produkte und Dienste integriert, darunter Gmail, Google Search, Google Forms und mehr. reCAPTCHA wird nicht nur verwendet, um zu überprüfen, ob der Benutzer ein Mensch ist, sondern auch für Datentraining und maschinelles Lernen, um die Bilderkennung und Automatisierungstechnologie zu verbessern. Bei der Entwicklung von reCAPTCHA hat Google neue Algorithmen und Technologien eingeführt, um die Erkennung von Robotern und bösartigem Verhalten zu verbessern. Beispielsweise hat es sich vom klassischen CAPTCHA (Eingabe unleserlichen Textes) zu No-CAPTCHA-ReCAPTCHA weiterentwickelt (keine manuelle Eingabe erforderlich, die Verifizierung erfolgt durch Analyse des Benutzerverhaltens, wobei der Kern ein Verifizierungssystem ist, das keine CAPTCHA-Eingabe erfordert. Benutzer müssen lediglich ein Kontrollkästchen „Ich bin kein Roboter“ anklicken) und weiter zu Invisible reCAPTCHA weiterentwickelt (wenn das Risiko des Benutzers als gering eingeschätzt wird, wird der Verifizierungsprozess im Hintergrund ausgeführt und es wird keine CAPTCHA-Schnittstelle angezeigt). Diese Verbesserungen sollen ein besseres Benutzererlebnis und einen stärkeren Anti-Bot-Schutz bieten. Zukunftsaussichten Zukünftige CAPTCHA-Technologien werden intelligenter, nicht aufdringlich, mehrstufig, sicher und zuverlässig sein, um ein besseres Benutzererlebnis zu bieten und Websites vor Robotern und bösartigem Verhalten zu schützen. Gleichzeitig muss die Verifizierungscode-Technologie kontinuierlich weiterentwickelt und optimiert werden, um sich an die sich schnell entwickelnden Netzwerkbedrohungen und Benutzeranforderungen anzupassen. Quellen: [1] Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham und Manuel Blum. reCAPTCHA: Menschliche Zeichenerkennung über Web-Sicherheitsmaßnahmen. Science, 12. September 2008. Seiten 1465–1468. Autor: Cheng Xinyan Einheit: China Mobile Smart Home Operation Center |
<<: Wissenschaft und Technologie schaffen Magie: Neue Erfolge in der Hybridreis-Saatgutproduktion
1. Achten Sie vor und nach dem Fitness Beim Train...
Am 27. September (Eastern Time) reichte die US-Bö...
Alle Frauen wünschen sich eine gute Figur. Ein kn...
Eine 35-jährige Geschichte reicht aus, um für jed...
Gestern (der 4.) war der 8. Geburtstag des Riesen...
In letzter Zeit ist das Thema „Zu schnelles Essen...
Heutzutage ist es dank erheblicher Fortschritte b...
In der heutigen Zeit ist das Streben nach Schönhe...
Vom 10. bis 16. Juli findet dieses Jahr die 33. N...
Am 20. Dezember wurden die Gebiete Yantai und Wei...
Menschen, die kein Verständnis für Sport haben, d...
Da die Menschen immer mehr auf ihre Gesundheitsvo...
Die Wirkung des Double Eleven Carnival, einer von...
Der Herbst ist endlich da und bringt Kühle mit si...
Kürzlich wurde die Nachricht, dass bei einem 19-j...