Neue DeepSeek-App! Was diese Menschen nach den 90ern in Hangzhou taten, wurde zu einem heißen Thema

Neue DeepSeek-App! Was diese Menschen nach den 90ern in Hangzhou taten, wurde zu einem heißen Thema

Dongpo-Schweinefleisch, gebratenes Gemüse mit Pilzen, gedämpfter Karausche, Garnelen und Tofu … kochen Sie einen Tisch voller Gerichte, machen Sie ein Foto, werfen Sie es der KI zu und fragen Sie sie: Welches Lebensmittel auf dem Bild hat den höchsten Proteingehalt? Welches Gericht sollten Menschen mit hohem Harnsäurespiegel nicht zu viel essen?

Die KI dachte einige Sekunden lang intensiv nach, tippte den gesamten Denkprozess ab und kreiste schließlich die Antwort auf dem Bild ein.

Dies ist ein großes multimodales Modell, das das Denken gelernt hat und in Zukunft ein kleines Anwendungsszenario im täglichen Leben sein wird. Zuvor befand sich diese Art von KI, die „Augen“ hat und gut schlussfolgern kann, noch in der Vorstellungsphase. Doch vor Kurzem hat eine Gruppe von Post-95-Studenten des Hangzhou Om AI Lab die Trainingsmethode von DeepSeek-R1 erfolgreich vom reinen Textfeld in das visuelle Sprachfeld migriert und so mehr Vorstellungsraum für große multimodale Modelle geschaffen.

Sie haben das Projekt mit dem Namen VLM-R1 außerdem als Open Source freigegeben und auf GitHub, der weltweit größten Code-Hosting-Plattform, veröffentlicht. Nach nur einer Woche online erhielt es 2,7.000 Sterne von Entwicklern aus verschiedenen Ländern und wurde am 21. Februar in die Hot-Trend-Liste aufgenommen. Diese Leistung ist in dieser Open-Source-Community herausragend.

Sterndatenkurve von VLM-R1, nachdem es eine Woche lang auf GitHub gestartet war

Am 21. Februar wurde es auf der Hot-Trend-Liste von GitHub aufgeführt

Der Leiter dieses F&E-Teams ist ein Angehöriger der Post-90er-Generation, Dr. Zhao Tiancheng, der Gründer von Om AI Lab. Er ist außerdem Direktor und Doktorvater des Om Artificial Intelligence Center des Binjiang Research Institute der Zhejiang-Universität.

Die Methode, die DeepSeek-R1-Argumentation lehrt

Umsetzung in die Bildverarbeitung

Die Einzigartigkeit des DeepSeek-R1-Modells liegt darin, dass DeepSeek die gemeinsamen Schritte zur Modellbegründung angepasst hat. Bisher verließen sich Modelle normalerweise auf „überwachtes Feintuning“ (SFT, Supervised Fine-Tuning), um ihre Denkfähigkeiten zu verbessern. Einfach ausgedrückt geht es darum, ein großes Modell, das bereits viel gelernt hat, anhand einiger spezifischer, gekennzeichneter Daten zu lehren, wie es eine Aufgabe besser erledigen kann. Es ist, als ob Sie bereits wissen, wie man kocht, aber wenn es um die Sichuan-Küche oder die Anhui-Küche geht, müssen Sie die Kochkünste dennoch durch spezielle Übung meistern.

DeepSeek-R1 überspringt diesen Schritt während des Trainingsprozesses direkt und tritt in die Phase des „bestärkenden Lernens“ ein, wobei untersucht wird, wie sich große Modelle durch reines bestärkendes Lernen ohne überwachte Daten weiterentwickeln können. Diese innovative Methode des bestärkenden Lernens hat einen Fachbegriff namens Group Relative Policy Optimization (GRPO).

GRPO hat DeepSeek-R1 dabei geholfen, logisches Denken zu erlernen. Kann es also auch dazu beitragen, dass KI-Modelle bei allgemeinen Computer-Vision-Aufgaben bessere Leistungen erbringen?

Nach wiederholten Experimenten lautet die Antwort des Forschungs- und Entwicklungsteams von Om AI Lab: Ja.

Sie trainierten das Open-Source-Modell zum visuellen Verständnis von Tongyi, Qwen2.5-VL, in einer visuellen Lokalisierungsaufgabe. Auf dieser Grundlage wurden die R1-Methode und die SFT-Methode zum Vergleich herangezogen. Die aktuelle Schlussfolgerung ist, dass die R1-Methode in verschiedenen komplexen Szenarien eine stabil hohe Leistung aufrechterhalten kann. Dies ist in der praktischen Anwendung von entscheidender Bedeutung.

Wie das Street-View-Foto unten zeigt, besteht die Aufgabe der KI darin, Objekte auf dem Foto zu lokalisieren, die für Sehbehinderte eine Gefahr darstellen könnten.

In der Szene mit dem Bürgersteig am Straßenrand können Menschen an Hindernisse für Sehbehinderte denken, normalerweise Steinsäulen, Bushaltestellen, Fußgänger usw. Dies sind die „Daten“, die im Voraus markiert werden können. Aber auf diesem Bild gibt es eine ziemlich besondere Situation – Schritte.

Den Experimenten des Teams um Zhao Tiancheng zufolge kann das mit der R1-Methode trainierte KI-Modell erfolgreich schlussfolgern, dass die Schritte in diesem Szenario eine Gefahr für Sehbehinderte darstellen.

„Für Menschen ist das eine logische Schlussfolgerung, die ganz einfach ist. Für herkömmliche Computervisionsmodelle ist das jedoch sehr schwierig“, erklärt Zhao Tiancheng.

Wie auf dem Bild unten zu sehen, stehen Yamswurzeln, Omelett, Edamame, grünes Gemüse, Kaffee und Orangen auf dem Tisch. Lassen Sie die KI im Bild das Lebensmittel mit dem höchsten Vitamin C-Gehalt finden.

Das mit der R1-Methode trainierte KI-Modell hat sich schnell auf die Orange konzentriert und seinen Denkprozess daran gekoppelt. „Früher gab es einem die Antwort direkt, ohne einem zu sagen, wie man das Problem löst, und die Fehlerquote war hoch. Beispielsweise konnte es nur vier oder fünf von zehn Fragen richtig beantworten, während diejenigen, die mit der R1-Methode trainiert wurden, sieben oder acht Fragen richtig beantworten konnten.“

Darüber hinaus gibt es im Bereich des maschinellen Lernens eine sehr häufige Situation: Wenn das Modell mit Aufgabe A trainiert wird, verschlechtert sich mit zunehmender Anzahl der Trainingsschritte (der Anzahl der vom Trainingsmodell durchgeführten Iterationen) seine Leistung bei Aufgabe B, die A nicht so ähnlich ist (die rote Kurve in der Abbildung). „Es ist ein bisschen so, als würde man einen Knopf drücken und ein anderer erscheint.“ Daher mussten wir in der Vergangenheit bei der Ausführung mehrerer Aufgaben das Verhältnis zwischen den Aufgaben sorgfältig kontrollieren.“ Das mit der R1-Methode trainierte KI-Modell (grüne Kurve in der Abbildung) zeigt diesen Trend jedoch nicht, was bedeutet, dass die R1-Methode dem Modell helfen kann, visuelle Inhalte wirklich zu „lernen“, anstatt sie einfach auswendig zu lernen.

Die grüne Kurve wird mit der R1-Methode trainiert und die rote Kurve mit der traditionellen SFT-Methode.

Trainieren eines visuellen Sprachmodells

Eine neue Idee

„Das Experiment begann während der Frühlingsfestferien. Glücklicherweise konnten wir in der Anfangsphase bereits viel Erfahrung sammeln und die Infrastruktur ist größtenteils bereits fertig. Sobald wir eine Idee haben, können wir schnell Experimente durchführen und die Ergebnisse überprüfen.“ Das 10-köpfige Team umfasst F&E-Mitarbeiter des Instituts und Doktoranden unter der Leitung von Zhao Tiancheng.

Am 15. Februar veröffentlichte Zhao Tiancheng die experimentellen Ergebnisse von VLM-R1 auf sozialen Plattformen im Ausland, machte sie als Open Source verfügbar und lud sie auf GitHub hoch. Bis zum 22. Februar hat es 2,7.000 Sterne von Entwicklern aus der ganzen Welt erhalten.

Es kamen Fragen aller Art herein: Wie lange dauert das Training, wie groß ist der minimale Videospeicher, können Sie uns mehr über Ihren Denkprozess zum Modell erzählen …

Obwohl die zugrunde liegende Logik dieselbe ist, handelt es sich bei Vision, Mathematik und Code um völlig unterschiedliche Modalitäten. Wie gestaltet man im visuellen Bereich und bringt es zum Laufen? Das Team hat tatsächlich viele Versuche und Fehler durchlaufen, bevor es die aktuelle, relativ effektive Kombination gefunden hat. Zhao Tiancheng gab zu, dass die aktuelle Version nur als Version 0.1 angesehen werden kann und noch lange nicht ausgereift ist. „Es gibt einige Probleme, die durch weitere Experimente gelöst werden müssen.“

Seiner Meinung nach liegt eine der größten Bedeutungen der Experimente dieser Zeit darin, dass sie einige neue Ideen für die Ausbildung und Industrie multimodaler Modelle lieferten. Es beweist die Vielseitigkeit der R1-Methode: „Sie liefert nicht nur im Textbereich gute Ergebnisse, sondern kann auch zu einem neuen Trend im Training visueller Sprachmodelle führen.“

„Seien Sie ein Anführer, der es wagt,

Es ist wichtiger, als dem Trend anderer zu folgen.“

Lianhui Technology, die Muttergesellschaft hinter Om AI Lab, hat ihren Sitz im Hangzhou Binjiang Internet Industrial Park, der einst die Wiege des Aufstiegs von Alibaba und NetEase war und von wo aus Internet- und Internet-of-Things-Technologien in unseren Alltag Einzug gehalten haben. Künstliche Intelligenz ist derzeit der Protagonist und dieses Unternehmen engagiert sich für die Anwendung und Implementierung intelligenter Agentenplattformen auf Basis künstlicher Intelligenz.

Am 21. Februar stellte das von Zhao Tiancheng geleitete Om AI Lab auf der Global Developer Conference (GDC) 2025 in Shanghai erstmals VLM-R1 vor, ein multimodales Modell zum visuellen Verständnis auf Basis von R1-Verstärkungslernen, sowie Open Agent Leaderboard, eine Open-Source-Plattform zur Bewertung intelligenter Agenten mit großen Sprachmodellen.

Zhao Tiancheng (Foto von Chen Zhongqiu)

Im August letzten Jahres sagte Zhao Tiancheng in einem Interview, er habe sich immer an die Worte seines Mentors erinnert, als er an der Carnegie Mellon University (CMU) in den USA studierte: „Sei ein Anführer, kein Mitläufer.“ Es ist viel wichtiger, ein Anführer zu sein, der es wagt, etwas zu versuchen, als anderen an der Spitze des Trends zu folgen.

(Quelle: Chao News)

<<:  State Post Bureau: Von Januar bis Februar 2023 belief sich das Zustellvolumen der Postbranche auf 21,0 Milliarden Sendungen, ein Anstieg von 3,0 % gegenüber dem Vorjahr

>>:  Beseitigen Sie den „Nicht-Mythos“ in Mythen! Ist die Haifischflosse des Hai-Generals in „Nezha 2“ wirklich lecker?

Artikel empfehlen

Köstlicher Matsutake, ist das eine geschützte Art?

Wenn wir derzeit die begehrteste Zutat unter Fein...

Was sind die technischen Voraussetzungen für den Sprint?

Sprinten ist nur einer der vielen Leichtathletikw...

Hat der „Teufelsjunge“ Nezha ADHS? Nachdem ich das gelesen habe, verstehe ich alles!

In „Nezha“, einem Filmhit während des diesjährige...

Kanonenfutter für das Scorpio-Projekt? Microsoft Xbox One S Unboxing

Drei Jahre nach der Einführung der Xbox One hat d...

Dank diesem Jungen gibt es Vanilleeis

Das Online-Spiel „World of Warcraft“ trägt die Ju...

Möge dieser Batterie auch in Zukunft eine glänzende Zukunft bevorstehen.

Die Lithiumbatterieindustrie meines Landes hat ei...

Kann ich Sport treiben, wenn ich eine Venenentzündung habe?

Phlebitis ist eine Gefäßerkrankung, bei der sich ...

Logisches Paradoxon: Wer bezahlt für die freie Internetwirtschaft?

Um 2014 gab es Gerüchte, dass die nationale Anwen...

Warum schnarchen Frauen mit zunehmendem Alter häufiger?

Gutachter dieses Artikels: Chen Haixu, stellvertr...

Warum fühlen sich die amerikanischen Autohersteller nach Trumps Amtsantritt unwohl?

Laut den US Automotive News äußerte der nächste US...

Entwicklung und disruptive Innovation des 5G-Privatnetzwerkmarktes: Q1 2022

Teilnehmer nehmen Partnerschaften und Strategie e...