Dongpo-Schweinefleisch, gebratenes Gemüse mit Pilzen, gedämpfter Karausche, Garnelen und Tofu … kochen Sie einen Tisch voller Gerichte, machen Sie ein Foto, werfen Sie es der KI zu und fragen Sie sie: Welches Lebensmittel auf dem Bild hat den höchsten Proteingehalt? Welches Gericht sollten Menschen mit hohem Harnsäurespiegel nicht zu viel essen? Die KI dachte einige Sekunden lang intensiv nach, tippte den gesamten Denkprozess ab und kreiste schließlich die Antwort auf dem Bild ein. Dies ist ein großes multimodales Modell, das das Denken gelernt hat und in Zukunft ein kleines Anwendungsszenario im täglichen Leben sein wird. Zuvor befand sich diese Art von KI, die „Augen“ hat und gut schlussfolgern kann, noch in der Vorstellungsphase. Doch vor Kurzem hat eine Gruppe von Post-95-Studenten des Hangzhou Om AI Lab die Trainingsmethode von DeepSeek-R1 erfolgreich vom reinen Textfeld in das visuelle Sprachfeld migriert und so mehr Vorstellungsraum für große multimodale Modelle geschaffen. Sie haben das Projekt mit dem Namen VLM-R1 außerdem als Open Source freigegeben und auf GitHub, der weltweit größten Code-Hosting-Plattform, veröffentlicht. Nach nur einer Woche online erhielt es 2,7.000 Sterne von Entwicklern aus verschiedenen Ländern und wurde am 21. Februar in die Hot-Trend-Liste aufgenommen. Diese Leistung ist in dieser Open-Source-Community herausragend. Sterndatenkurve von VLM-R1, nachdem es eine Woche lang auf GitHub gestartet war Am 21. Februar wurde es auf der Hot-Trend-Liste von GitHub aufgeführt Der Leiter dieses F&E-Teams ist ein Angehöriger der Post-90er-Generation, Dr. Zhao Tiancheng, der Gründer von Om AI Lab. Er ist außerdem Direktor und Doktorvater des Om Artificial Intelligence Center des Binjiang Research Institute der Zhejiang-Universität. Die Methode, die DeepSeek-R1-Argumentation lehrt Umsetzung in die Bildverarbeitung Die Einzigartigkeit des DeepSeek-R1-Modells liegt darin, dass DeepSeek die gemeinsamen Schritte zur Modellbegründung angepasst hat. Bisher verließen sich Modelle normalerweise auf „überwachtes Feintuning“ (SFT, Supervised Fine-Tuning), um ihre Denkfähigkeiten zu verbessern. Einfach ausgedrückt geht es darum, ein großes Modell, das bereits viel gelernt hat, anhand einiger spezifischer, gekennzeichneter Daten zu lehren, wie es eine Aufgabe besser erledigen kann. Es ist, als ob Sie bereits wissen, wie man kocht, aber wenn es um die Sichuan-Küche oder die Anhui-Küche geht, müssen Sie die Kochkünste dennoch durch spezielle Übung meistern. DeepSeek-R1 überspringt diesen Schritt während des Trainingsprozesses direkt und tritt in die Phase des „bestärkenden Lernens“ ein, wobei untersucht wird, wie sich große Modelle durch reines bestärkendes Lernen ohne überwachte Daten weiterentwickeln können. Diese innovative Methode des bestärkenden Lernens hat einen Fachbegriff namens Group Relative Policy Optimization (GRPO). GRPO hat DeepSeek-R1 dabei geholfen, logisches Denken zu erlernen. Kann es also auch dazu beitragen, dass KI-Modelle bei allgemeinen Computer-Vision-Aufgaben bessere Leistungen erbringen? Nach wiederholten Experimenten lautet die Antwort des Forschungs- und Entwicklungsteams von Om AI Lab: Ja. Sie trainierten das Open-Source-Modell zum visuellen Verständnis von Tongyi, Qwen2.5-VL, in einer visuellen Lokalisierungsaufgabe. Auf dieser Grundlage wurden die R1-Methode und die SFT-Methode zum Vergleich herangezogen. Die aktuelle Schlussfolgerung ist, dass die R1-Methode in verschiedenen komplexen Szenarien eine stabil hohe Leistung aufrechterhalten kann. Dies ist in der praktischen Anwendung von entscheidender Bedeutung. Wie das Street-View-Foto unten zeigt, besteht die Aufgabe der KI darin, Objekte auf dem Foto zu lokalisieren, die für Sehbehinderte eine Gefahr darstellen könnten. In der Szene mit dem Bürgersteig am Straßenrand können Menschen an Hindernisse für Sehbehinderte denken, normalerweise Steinsäulen, Bushaltestellen, Fußgänger usw. Dies sind die „Daten“, die im Voraus markiert werden können. Aber auf diesem Bild gibt es eine ziemlich besondere Situation – Schritte. Den Experimenten des Teams um Zhao Tiancheng zufolge kann das mit der R1-Methode trainierte KI-Modell erfolgreich schlussfolgern, dass die Schritte in diesem Szenario eine Gefahr für Sehbehinderte darstellen. „Für Menschen ist das eine logische Schlussfolgerung, die ganz einfach ist. Für herkömmliche Computervisionsmodelle ist das jedoch sehr schwierig“, erklärt Zhao Tiancheng. Wie auf dem Bild unten zu sehen, stehen Yamswurzeln, Omelett, Edamame, grünes Gemüse, Kaffee und Orangen auf dem Tisch. Lassen Sie die KI im Bild das Lebensmittel mit dem höchsten Vitamin C-Gehalt finden. Das mit der R1-Methode trainierte KI-Modell hat sich schnell auf die Orange konzentriert und seinen Denkprozess daran gekoppelt. „Früher gab es einem die Antwort direkt, ohne einem zu sagen, wie man das Problem löst, und die Fehlerquote war hoch. Beispielsweise konnte es nur vier oder fünf von zehn Fragen richtig beantworten, während diejenigen, die mit der R1-Methode trainiert wurden, sieben oder acht Fragen richtig beantworten konnten.“ Darüber hinaus gibt es im Bereich des maschinellen Lernens eine sehr häufige Situation: Wenn das Modell mit Aufgabe A trainiert wird, verschlechtert sich mit zunehmender Anzahl der Trainingsschritte (der Anzahl der vom Trainingsmodell durchgeführten Iterationen) seine Leistung bei Aufgabe B, die A nicht so ähnlich ist (die rote Kurve in der Abbildung). „Es ist ein bisschen so, als würde man einen Knopf drücken und ein anderer erscheint.“ Daher mussten wir in der Vergangenheit bei der Ausführung mehrerer Aufgaben das Verhältnis zwischen den Aufgaben sorgfältig kontrollieren.“ Das mit der R1-Methode trainierte KI-Modell (grüne Kurve in der Abbildung) zeigt diesen Trend jedoch nicht, was bedeutet, dass die R1-Methode dem Modell helfen kann, visuelle Inhalte wirklich zu „lernen“, anstatt sie einfach auswendig zu lernen. Die grüne Kurve wird mit der R1-Methode trainiert und die rote Kurve mit der traditionellen SFT-Methode. Trainieren eines visuellen Sprachmodells Eine neue Idee „Das Experiment begann während der Frühlingsfestferien. Glücklicherweise konnten wir in der Anfangsphase bereits viel Erfahrung sammeln und die Infrastruktur ist größtenteils bereits fertig. Sobald wir eine Idee haben, können wir schnell Experimente durchführen und die Ergebnisse überprüfen.“ Das 10-köpfige Team umfasst F&E-Mitarbeiter des Instituts und Doktoranden unter der Leitung von Zhao Tiancheng. Am 15. Februar veröffentlichte Zhao Tiancheng die experimentellen Ergebnisse von VLM-R1 auf sozialen Plattformen im Ausland, machte sie als Open Source verfügbar und lud sie auf GitHub hoch. Bis zum 22. Februar hat es 2,7.000 Sterne von Entwicklern aus der ganzen Welt erhalten. Es kamen Fragen aller Art herein: Wie lange dauert das Training, wie groß ist der minimale Videospeicher, können Sie uns mehr über Ihren Denkprozess zum Modell erzählen … Obwohl die zugrunde liegende Logik dieselbe ist, handelt es sich bei Vision, Mathematik und Code um völlig unterschiedliche Modalitäten. Wie gestaltet man im visuellen Bereich und bringt es zum Laufen? Das Team hat tatsächlich viele Versuche und Fehler durchlaufen, bevor es die aktuelle, relativ effektive Kombination gefunden hat. Zhao Tiancheng gab zu, dass die aktuelle Version nur als Version 0.1 angesehen werden kann und noch lange nicht ausgereift ist. „Es gibt einige Probleme, die durch weitere Experimente gelöst werden müssen.“ Seiner Meinung nach liegt eine der größten Bedeutungen der Experimente dieser Zeit darin, dass sie einige neue Ideen für die Ausbildung und Industrie multimodaler Modelle lieferten. Es beweist die Vielseitigkeit der R1-Methode: „Sie liefert nicht nur im Textbereich gute Ergebnisse, sondern kann auch zu einem neuen Trend im Training visueller Sprachmodelle führen.“ „Seien Sie ein Anführer, der es wagt, Es ist wichtiger, als dem Trend anderer zu folgen.“ Lianhui Technology, die Muttergesellschaft hinter Om AI Lab, hat ihren Sitz im Hangzhou Binjiang Internet Industrial Park, der einst die Wiege des Aufstiegs von Alibaba und NetEase war und von wo aus Internet- und Internet-of-Things-Technologien in unseren Alltag Einzug gehalten haben. Künstliche Intelligenz ist derzeit der Protagonist und dieses Unternehmen engagiert sich für die Anwendung und Implementierung intelligenter Agentenplattformen auf Basis künstlicher Intelligenz. Am 21. Februar stellte das von Zhao Tiancheng geleitete Om AI Lab auf der Global Developer Conference (GDC) 2025 in Shanghai erstmals VLM-R1 vor, ein multimodales Modell zum visuellen Verständnis auf Basis von R1-Verstärkungslernen, sowie Open Agent Leaderboard, eine Open-Source-Plattform zur Bewertung intelligenter Agenten mit großen Sprachmodellen. Zhao Tiancheng (Foto von Chen Zhongqiu) Im August letzten Jahres sagte Zhao Tiancheng in einem Interview, er habe sich immer an die Worte seines Mentors erinnert, als er an der Carnegie Mellon University (CMU) in den USA studierte: „Sei ein Anführer, kein Mitläufer.“ Es ist viel wichtiger, ein Anführer zu sein, der es wagt, etwas zu versuchen, als anderen an der Spitze des Trends zu folgen. (Quelle: Chao News) |
Wenn wir derzeit die begehrteste Zutat unter Fein...
„Bunte Lichter leuchten gemeinsam und die Freude ...
Laut Statistiken des Ministeriums für öffentliche...
Sprinten ist nur einer der vielen Leichtathletikw...
In „Nezha“, einem Filmhit während des diesjährige...
Lassen Sie uns heute über das Altern sprechen. De...
Drei Jahre nach der Einführung der Xbox One hat d...
Das Online-Spiel „World of Warcraft“ trägt die Ju...
Die Lithiumbatterieindustrie meines Landes hat ei...
Im Jahr 2024 wuchs der Markt für gebrauchte Smart...
Phlebitis ist eine Gefäßerkrankung, bei der sich ...
Um 2014 gab es Gerüchte, dass die nationale Anwen...
Gutachter dieses Artikels: Chen Haixu, stellvertr...
Laut den US Automotive News äußerte der nächste US...
Teilnehmer nehmen Partnerschaften und Strategie e...