Angenommen, Sie setzen sich mit einem Freund zum Schachspielen zusammen, aber Ihr Freund ist kein normaler Mensch. Stattdessen handelt es sich um ein Computerprogramm, das die Spielregeln nicht kennt. Sicher ist jedoch, dass es ein Ziel gibt: zu gewinnen. Da der Freund die Regeln nicht kennt, wird er die Spielsteine zunächst zufällig bewegen. Einige dieser Züge sind völlig sinnlos und Sie werden leicht gewinnen. Aber nehmen wir an, dass Ihnen das Schachspielen mit diesem Freund so viel Spaß macht, dass Sie beschließen, für den Rest Ihres Lebens (oder sogar für das Leben nach dem Tod, wenn Sie daran glauben) nichts anderes zu tun, als Schach zu spielen. Dieser digitale Freund wird letztendlich gewinnen, weil er nach und nach die Erfolgsmethoden lernt, die er braucht, um Sie zu besiegen. Dieses Szenario mag weit hergeholt erscheinen, aber es sollte Ihnen ein grundlegendes Verständnis dafür vermitteln, wie Reinforcement Learning (RL) als Bereich des maschinellen Lernens (ML) funktioniert. Wie intelligent ist bestärkendes Lernen? Künstliche Intelligenz weist viele Eigenschaften auf, darunter Wissenserwerb, den Wunsch nach Intelligenzerweiterung und intuitives Denken. Als jedoch der Schachmeister Garri Kasparow gegen einen IBM-Computer namens Deep Blue verlor, wurde unsere menschliche Intelligenz weithin in Frage gestellt. Weltuntergangsszenarien, die eine Zukunft beschreiben, in der Roboter über die Menschheit herrschen, haben nicht nur die Aufmerksamkeit der Öffentlichkeit erregt, sondern auch das allgemeine Bewusstsein erobert. Deep Blue war jedoch kein gewöhnlicher Gegner. Gegen dieses Programm Schach zu spielen ist, als würde man gegen einen tausendjährigen Mann spielen, der sein ganzes Leben lang ununterbrochen Schach gespielt hat. Daher beherrscht Deep Blue eine bestimmte Partie Schach, versteht aber keine anderen intellektuellen Aktivitäten wie das Spielen von Musikinstrumenten, das Schreiben von Büchern, das Durchführen wissenschaftlicher Experimente, die Erziehung von Kindern und das Reparieren von Autos. Oxylabs hat absolut nicht die Absicht, die großartigen Leistungen von Deep Blues Meisterwerk zu schmälern. Was wir sagen ist, dass wir bei der Überlegung, ob Computer die menschliche Intelligenz übertreffen können, sorgfältig vorgehen müssen, beginnend mit einem detaillierten Verständnis des RL-Mechanismus. So funktioniert bestärkendes Lernen Wie bereits erwähnt, ist RL eine Teilmenge von ML, die sich auf das Konzept konzentriert, wie intelligente Agenten in einer Umgebung agieren sollten, um kumulative Belohnungen zu maximieren. Einfach ausgedrückt werden RL-Roboteragenten mit einem Belohnungs- und Strafmechanismus trainiert, bei dem sie für richtige Aktionen belohnt und für falsche bestraft werden. RL-Roboter „denken“ nicht über die beste Vorgehensweise nach, sondern führen einfach alle möglichen Schritte aus, die ihre Erfolgschancen maximieren. Nachteile des Reinforcement Learning Der Hauptnachteil des bestärkenden Lernens besteht darin, dass es viele Ressourcen erfordert, um das Ziel zu erreichen. Der Erfolg von RL in Go ist ein gutes Beispiel dafür. Go ist ein beliebtes Spiel für zwei Spieler, bei dem es darum geht, mit runden Spielsteinen möglichst viel Gebiet auf dem Brett zu besetzen und dabei selbst keine Gebiete zu verlieren. AlphaGo Master ist ein Computerprogramm, das menschliche Spieler beim Go-Spiel schlägt. Sein Erfolg ist untrennbar mit den enormen Investitionen verbunden, darunter viele Ingenieure, Tausende von Jahren Schacherfahrung sowie 256 GPUs und 128.000 CPU-Kerne, was atemberaubende Zahlen sind. Es erfordert viel Arbeit, zu lernen, wie man das Spiel gewinnt. Dies wirft die Frage auf, ob es rational ist, eine KI zu entwickeln, die nicht intuitiv denken kann. Sollte die KI-Forschung nicht die menschliche Intelligenz nachahmen? Eine für RL sprechende Ansicht besteht darin, dass man von KI-Agenten nicht erwarten sollte, dass sie sich wie Menschen verhalten, dass ihre Nützlichkeit bei der Lösung komplexer Probleme jedoch eine Weiterentwicklung wert ist. Ein Argument gegen RL ist andererseits, dass sich die KI-Forschung darauf konzentrieren sollte, Maschinen Dinge zu ermöglichen, die derzeit nur Menschen und Tiere tun können. Aus dieser Perspektive ist der Vergleich zwischen KI und menschlicher Intelligenz treffend. Quantenbestärkendes Lernen Es gibt ein aufstrebendes Feld des bestärkenden Lernens, das einige der oben genannten Probleme zu lösen verspricht. Um die Rechenleistung zu beschleunigen, wurden Untersuchungen zum Quanten-Verstärkungslernen (QRL) durchgeführt. QRL soll das Lernen vor allem durch die Optimierung der Explorations- (Finden einer Strategie) und Exploitationsphasen (Auswählen der besten Strategie) beschleunigen. Zu den aktuellen Anwendungen und Befürwortern des Quantencomputings zählen die Verbesserung von Datenbanksuchen, die Zerlegung großer Zahlen in Primzahlen usw. Obwohl QRL noch keinen Durchbruch darstellt, wird erwartet, dass es einige der größten Herausforderungen des konventionellen bestärkenden Lernens bewältigt. Der Business Case für RL Wie ich bereits sagte, habe ich absolut nicht die Absicht, die Bedeutung der RL-Forschung und -Entwicklung herunterzuspielen. Tatsächlich hat Oxylabs an der Entwicklung von RL-Modellen gearbeitet, um die Ressourcenzuweisung beim Web Scraping zu optimieren. Hier sind einige reale Anwendungsfälle für RL, Auszüge aus einem McKinsey-Bericht, der aktuelle Anwendungsfälle in verschiedenen Branchen hervorhebt: • Optimieren Sie Silizium- und Chipdesigns, optimieren Sie Herstellungsprozesse und steigern Sie die Erträge in der Halbleiterindustrie. • Steigern Sie die Erträge, optimieren Sie die Logistik, um Abfall und Kosten zu reduzieren, und verbessern Sie die Rentabilität der Landwirtschaft. • Beschleunigen Sie die Markteinführungszeit für neue Systeme in der Luft- und Raumfahrt- sowie Verteidigungsindustrie. • Optimieren Sie Designprozesse und steigern Sie die Fertigungserträge in der Automobilindustrie. • Steigern Sie den Umsatz, verbessern Sie das Kundenerlebnis und bieten Sie Kunden im Finanzdienstleistungssektor durch Echtzeit-Handels- und Preisstrategien eine erweiterte Personalisierung. • Optimieren Sie das Minendesign, verwalten Sie die Stromerzeugung und wenden Sie eine umfassende Logistikplanung an, um den Betrieb zu optimieren, die Kosten zu senken und die Bergbauproduktion zu steigern. • Steigern Sie die Produktion durch Echtzeitüberwachung und Präzisionsbohrungen, optimieren Sie Tankerrouten und unterstützen Sie die vorausschauende Wartung, um Geräteausfälle und Ausfallzeiten in der Öl- und Gasindustrie zu verhindern. • Beschleunigen Sie die Entwicklung neuer Medikamente, optimieren Sie Forschungsprozesse, automatisieren Sie die Produktion und optimieren Sie biologische Methoden in der Pharmaindustrie. • Optimieren Sie Lieferketten, ermöglichen Sie erweiterte Bestandsmodellierung und bieten Sie Einzelhandelskunden erweiterte Personalisierung. • Optimieren und verwalten Sie Netzwerke und wenden Sie Kundenpersonalisierung in der Telekommunikationsbranche an. • Routenoptimierung, Netzwerkplanung, Lagerbetrieb in Transport und Logistik. • Verwenden Sie Agenten der neuen Generation, um Daten von Websites zu extrahieren. Verstärkungslernen neu denken Bestärkendes Lernen ist möglicherweise nicht leistungsstark genug, wird aber bei weitem nicht überbewertet. Darüber hinaus nehmen mit der zunehmenden RL-Forschung und -Entwicklung auch die potenziellen Anwendungsfälle in nahezu allen Wirtschaftssektoren zu. Die großflächige Einführung hängt von vielen Faktoren ab, darunter der optimale Algorithmusentwurf, die Konfiguration der Lernumgebung und die Verfügbarkeit von Rechenleistung. Oxylabs hat sich der Nutzung von KI und ML zur Optimierung des Web Scrapings verschrieben, also dem Prozess der Datenextraktion von Websites, um spezielle Erkenntnisse zu gewinnen. Autor: Aleksandras Sulzenko, Produktmanager bei Oxylabs.io Als Gewinner des Qingyun-Plans von Toutiao und des Bai+-Plans von Baijiahao, des Baidu-Digitalautors des Jahres 2019, des beliebtesten Autors von Baijiahao im Technologiebereich, des Sogou-Autors für Technologie und Kultur 2019 und des einflussreichsten Schöpfers des Baijiahao-Vierteljahrs 2021 hat er viele Auszeichnungen gewonnen, darunter den Sohu Best Industry Media Person 2013, den dritten Platz beim China New Media Entrepreneurship Competition Beijing 2015, den Guangmang Experience Award 2015, den dritten Platz im Finale des China New Media Entrepreneurship Competition 2015 und den Baidu Dynamic Annual Powerful Celebrity 2018. |
>>: Details zum A9-Prozessor des iPhone 6S enthüllt! Apfelwahnsinn
Methoden zur Gewichtsabnahme sind schon seit lang...
Wenn die Pflaumenregenzeit endet und der Sommer b...
Den neuesten Einzelhandelsumsatzdaten der Automot...
Viele junge Menschen trainieren nur nebenbei und ...
Haben Sie im heißen Sommer bemerkt, dass sich an ...
Es gibt eine kleine Frucht auf der Welt, die Saur...
Mit der Entwicklung der Gesellschaft sind viele F...
„Schlaffördernde Aromatherapie kann Schlaflosigke...
Obwohl es ein Android-System ist, unterscheidet si...
Tai Chi hat eine lange Geschichte. Im Fernsehen w...
Ich glaube, dass sich jedes Kind mit einem solche...
Die Mode hat sich im Laufe der Jahre verändert. V...
Bewegung ist der beste Helfer beim Abnehmen, aber...
Badminton zu spielen ist eine sehr gute Möglichke...