Neue DeepSeek-App! Was diese Menschen nach den 90ern in Hangzhou taten, wurde zu einem heißen Thema

Dongpo-Schweinefleisch, gebratenes Gemüse mit Pilzen, gedämpfter Karausche, Garnelen und Tofu … kochen Sie einen Tisch voller Gerichte, machen Sie ein Foto, werfen Sie es der KI zu und fragen Sie sie: Welches Lebensmittel auf dem Bild hat den höchsten Proteingehalt? Welches Gericht sollten Menschen mit hohem Harnsäurespiegel nicht zu viel essen?

Die KI dachte einige Sekunden lang intensiv nach, tippte den gesamten Denkprozess ab und kreiste schließlich die Antwort auf dem Bild ein.

Dies ist ein großes multimodales Modell, das das Denken gelernt hat und in Zukunft ein kleines Anwendungsszenario im täglichen Leben sein wird. Zuvor befand sich diese Art von KI, die „Augen“ hat und gut schlussfolgern kann, noch in der Vorstellungsphase. Doch vor Kurzem hat eine Gruppe von Post-95-Studenten des Hangzhou Om AI Lab die Trainingsmethode von DeepSeek-R1 erfolgreich vom reinen Textfeld in das visuelle Sprachfeld migriert und so mehr Vorstellungsraum für große multimodale Modelle geschaffen.

Sie haben das Projekt mit dem Namen VLM-R1 außerdem als Open Source freigegeben und auf GitHub, der weltweit größten Code-Hosting-Plattform, veröffentlicht. Nach nur einer Woche online erhielt es 2,7.000 Sterne von Entwicklern aus verschiedenen Ländern und wurde am 21. Februar in die Hot-Trend-Liste aufgenommen. Diese Leistung ist in dieser Open-Source-Community herausragend.

Sterndatenkurve von VLM-R1, nachdem es eine Woche lang auf GitHub gestartet war

Am 21. Februar wurde es auf der Hot-Trend-Liste von GitHub aufgeführt

Der Leiter dieses F&E-Teams ist ein Angehöriger der Post-90er-Generation, Dr. Zhao Tiancheng, der Gründer von Om AI Lab. Er ist außerdem Direktor und Doktorvater des Om Artificial Intelligence Center des Binjiang Research Institute der Zhejiang-Universität.

Die Methode, die DeepSeek-R1-Argumentation lehrt

Umsetzung in die Bildverarbeitung

Die Einzigartigkeit des DeepSeek-R1-Modells liegt darin, dass DeepSeek die gemeinsamen Schritte zur Modellbegründung angepasst hat. Bisher verließen sich Modelle normalerweise auf „überwachtes Feintuning“ (SFT, Supervised Fine-Tuning), um ihre Denkfähigkeiten zu verbessern. Einfach ausgedrückt geht es darum, ein großes Modell, das bereits viel gelernt hat, anhand einiger spezifischer, gekennzeichneter Daten zu lehren, wie es eine Aufgabe besser erledigen kann. Es ist, als ob Sie bereits wissen, wie man kocht, aber wenn es um die Sichuan-Küche oder die Anhui-Küche geht, müssen Sie die Kochkünste dennoch durch spezielle Übung meistern.

DeepSeek-R1 überspringt diesen Schritt während des Trainingsprozesses direkt und tritt in die Phase des „bestärkenden Lernens“ ein, wobei untersucht wird, wie sich große Modelle durch reines bestärkendes Lernen ohne überwachte Daten weiterentwickeln können. Diese innovative Methode des bestärkenden Lernens hat einen Fachbegriff namens Group Relative Policy Optimization (GRPO).

GRPO hat DeepSeek-R1 dabei geholfen, logisches Denken zu erlernen. Kann es also auch dazu beitragen, dass KI-Modelle bei allgemeinen Computer-Vision-Aufgaben bessere Leistungen erbringen?

Nach wiederholten Experimenten lautet die Antwort des Forschungs- und Entwicklungsteams von Om AI Lab: Ja.

Sie trainierten das Open-Source-Modell zum visuellen Verständnis von Tongyi, Qwen2.5-VL, in einer visuellen Lokalisierungsaufgabe. Auf dieser Grundlage wurden die R1-Methode und die SFT-Methode zum Vergleich herangezogen. Die aktuelle Schlussfolgerung ist, dass die R1-Methode in verschiedenen komplexen Szenarien eine stabil hohe Leistung aufrechterhalten kann. Dies ist in der praktischen Anwendung von entscheidender Bedeutung.

Wie das Street-View-Foto unten zeigt, besteht die Aufgabe der KI darin, Objekte auf dem Foto zu lokalisieren, die für Sehbehinderte eine Gefahr darstellen könnten.

In der Szene mit dem Bürgersteig am Straßenrand können Menschen an Hindernisse für Sehbehinderte denken, normalerweise Steinsäulen, Bushaltestellen, Fußgänger usw. Dies sind die „Daten“, die im Voraus markiert werden können. Aber auf diesem Bild gibt es eine ziemlich besondere Situation – Schritte.

Den Experimenten des Teams um Zhao Tiancheng zufolge kann das mit der R1-Methode trainierte KI-Modell erfolgreich schlussfolgern, dass die Schritte in diesem Szenario eine Gefahr für Sehbehinderte darstellen.

„Für Menschen ist das eine logische Schlussfolgerung, die ganz einfach ist. Für herkömmliche Computervisionsmodelle ist das jedoch sehr schwierig“, erklärt Zhao Tiancheng.

Wie auf dem Bild unten zu sehen, stehen Yamswurzeln, Omelett, Edamame, grünes Gemüse, Kaffee und Orangen auf dem Tisch. Lassen Sie die KI im Bild das Lebensmittel mit dem höchsten Vitamin C-Gehalt finden.

Das mit der R1-Methode trainierte KI-Modell hat sich schnell auf die Orange konzentriert und seinen Denkprozess daran gekoppelt. „Früher gab es einem die Antwort direkt, ohne einem zu sagen, wie man das Problem löst, und die Fehlerquote war hoch. Beispielsweise konnte es nur vier oder fünf von zehn Fragen richtig beantworten, während diejenigen, die mit der R1-Methode trainiert wurden, sieben oder acht Fragen richtig beantworten konnten.“

Darüber hinaus gibt es im Bereich des maschinellen Lernens eine sehr häufige Situation: Wenn das Modell mit Aufgabe A trainiert wird, verschlechtert sich mit zunehmender Anzahl der Trainingsschritte (der Anzahl der vom Trainingsmodell durchgeführten Iterationen) seine Leistung bei Aufgabe B, die A nicht so ähnlich ist (die rote Kurve in der Abbildung). „Es ist ein bisschen so, als würde man einen Knopf drücken und ein anderer erscheint.“ Daher mussten wir in der Vergangenheit bei der Ausführung mehrerer Aufgaben das Verhältnis zwischen den Aufgaben sorgfältig kontrollieren.“ Das mit der R1-Methode trainierte KI-Modell (grüne Kurve in der Abbildung) zeigt diesen Trend jedoch nicht, was bedeutet, dass die R1-Methode dem Modell helfen kann, visuelle Inhalte wirklich zu „lernen“, anstatt sie einfach auswendig zu lernen.

Die grüne Kurve wird mit der R1-Methode trainiert und die rote Kurve mit der traditionellen SFT-Methode.

Trainieren eines visuellen Sprachmodells

Eine neue Idee

„Das Experiment begann während der Frühlingsfestferien. Glücklicherweise konnten wir in der Anfangsphase bereits viel Erfahrung sammeln und die Infrastruktur ist größtenteils bereits fertig. Sobald wir eine Idee haben, können wir schnell Experimente durchführen und die Ergebnisse überprüfen.“ Das 10-köpfige Team umfasst F&E-Mitarbeiter des Instituts und Doktoranden unter der Leitung von Zhao Tiancheng.

Am 15. Februar veröffentlichte Zhao Tiancheng die experimentellen Ergebnisse von VLM-R1 auf sozialen Plattformen im Ausland, machte sie als Open Source verfügbar und lud sie auf GitHub hoch. Bis zum 22. Februar hat es 2,7.000 Sterne von Entwicklern aus der ganzen Welt erhalten.

Es kamen Fragen aller Art herein: Wie lange dauert das Training, wie groß ist der minimale Videospeicher, können Sie uns mehr über Ihren Denkprozess zum Modell erzählen …

Obwohl die zugrunde liegende Logik dieselbe ist, handelt es sich bei Vision, Mathematik und Code um völlig unterschiedliche Modalitäten. Wie gestaltet man im visuellen Bereich und bringt es zum Laufen? Das Team hat tatsächlich viele Versuche und Fehler durchlaufen, bevor es die aktuelle, relativ effektive Kombination gefunden hat. Zhao Tiancheng gab zu, dass die aktuelle Version nur als Version 0.1 angesehen werden kann und noch lange nicht ausgereift ist. „Es gibt einige Probleme, die durch weitere Experimente gelöst werden müssen.“

Seiner Meinung nach liegt eine der größten Bedeutungen der Experimente dieser Zeit darin, dass sie einige neue Ideen für die Ausbildung und Industrie multimodaler Modelle lieferten. Es beweist die Vielseitigkeit der R1-Methode: „Sie liefert nicht nur im Textbereich gute Ergebnisse, sondern kann auch zu einem neuen Trend im Training visueller Sprachmodelle führen.“

„Seien Sie ein Anführer, der es wagt,

Es ist wichtiger, als dem Trend anderer zu folgen.“

Lianhui Technology, die Muttergesellschaft hinter Om AI Lab, hat ihren Sitz im Hangzhou Binjiang Internet Industrial Park, der einst die Wiege des Aufstiegs von Alibaba und NetEase war und von wo aus Internet- und Internet-of-Things-Technologien in unseren Alltag Einzug gehalten haben. Künstliche Intelligenz ist derzeit der Protagonist und dieses Unternehmen engagiert sich für die Anwendung und Implementierung intelligenter Agentenplattformen auf Basis künstlicher Intelligenz.

Am 21. Februar stellte das von Zhao Tiancheng geleitete Om AI Lab auf der Global Developer Conference (GDC) 2025 in Shanghai erstmals VLM-R1 vor, ein multimodales Modell zum visuellen Verständnis auf Basis von R1-Verstärkungslernen, sowie Open Agent Leaderboard, eine Open-Source-Plattform zur Bewertung intelligenter Agenten mit großen Sprachmodellen.

Zhao Tiancheng (Foto von Chen Zhongqiu)

Im August letzten Jahres sagte Zhao Tiancheng in einem Interview, er habe sich immer an die Worte seines Mentors erinnert, als er an der Carnegie Mellon University (CMU) in den USA studierte: „Sei ein Anführer, kein Mitläufer.“ Es ist viel wichtiger, ein Anführer zu sein, der es wagt, etwas zu versuchen, als anderen an der Spitze des Trends zu folgen.

(Quelle: Chao News)

<<: State Post Bureau: Von Januar bis Februar 2023 belief sich das Zustellvolumen der Postbranche auf 21,0 Milliarden Sendungen, ein Anstieg von 3,0 % gegenüber dem Vorjahr

>>: Beseitigen Sie den „Nicht-Mythos“ in Mythen! Ist die Haifischflosse des Hai-Generals in „Nezha 2“ wirklich lecker?

Ford Motor: Die US-Verkäufe werden 2022 voraussichtlich um 12 % sinken, und die Produktion wurde um 100.000 Fahrzeuge reduziert

Artikel

Kann intelligente Technologie Autos besser machen?

Artikel empfehlen

Die zehn größten Verkehrstunnel der Welt und des Westens in China

1 Der längste Autobahntunnel der Welt mit zwei Öf...

Starkes Schwitzen beim Essen... Wie wirkt sich die Ernährung auf die Körpertemperatur aus?

Zhang Yu Warum schwitzen wir beim Essen oft stark...

China Passenger Car Association: Der Einzelhandelsabsatz von Personenkraftwagen mit neuer Energie erreichte im Juli 2022 486.000 Einheiten, ein Anstieg von 117,3 % gegenüber dem Vorjahr

Einzelhandel: Im Juli 2022 erreichten die Einzelh...

Meine Erinnerung an die Aufnahmeprüfung fürs College | Wer hat gesagt, dass „unnütze Bücher“ nutzlos sind? Er bewarb sich aufgrund populärwissenschaftlicher Bücher für Astronomie.

Interviewgast: Li Ran, Forscher am Nationalen Ast...

Warum ärgert es uns nicht, dass die iOS-Upgraderate von Apple so hoch ist?

Der 17. September ist ein wichtiger Tag für iPhon...

Warum investiert CATL in Automobilunternehmen? Der Trend zur Upstream- und Downstream-Integration der Industriekette für Fahrzeuge mit neuer Energie verstärkt sich

Ereignis: (1) Medienberichten wie 36Kr zufolge ha...

Menschen, die soziale Medien häufiger nutzen, leiden häufiger unter Depressionen und Angstzuständen

Wie eine neue Studie zeigt, kann die Anzahl Ihrer...

Elektrotechnik-Auto-News: Kann der Volkswagen Tiguan trotz seines tristen Innenraums und seines überhöhten Preises noch an die Leistungen seines Vorgängers, des Tiguan L, anknüpfen?

Ob in den Köpfen der Verbraucher oder in den mona...

Neue DeepSeek-App! Was diese Menschen nach den 90ern in Hangzhou taten, wurde zu einem heißen Thema

Ford Motor: Die US-Verkäufe werden 2022 voraussichtlich um 12 % sinken, und die Produktion wurde um 100.000 Fahrzeuge reduziert

Kann intelligente Technologie Autos besser machen?

Großes Modell treibt Service-Upgrades, die Erkundung und Praxis von Jetour Auto voran

Welche Übung kann das Laufen ersetzen?

Die Rentabilität der Batteriehersteller hat sich verbessert, vor allem aufgrund der Preissenkung der Rohstoffe

Der „Kämpfer“ unter den Vegetariern! Wie ernährt man sich flexibel vegetarisch?

SMMT: Britische Nutzfahrzeugproduktion soll im ersten Halbjahr 2023 um 16 % wachsen

Ich nehme ab, aber es geht nicht bergab … Wie gehe ich mit dem Gewichtsverlust-Plateau um?

Erinnerung an das Wissen zur Campus-Sicherheit zum Beginn des Schuljahres, bitte überprüfen Sie ~

Angesichts dieser Zahlenreihe reicht die menschliche Rechenleistung möglicherweise nicht aus

Artikel empfehlen

Die zehn größten Verkehrstunnel der Welt und des Westens in China

Starkes Schwitzen beim Essen... Wie wirkt sich die Ernährung auf die Körpertemperatur aus?

China Passenger Car Association: Der Einzelhandelsabsatz von Personenkraftwagen mit neuer Energie erreichte im Juli 2022 486.000 Einheiten, ein Anstieg von 117,3 % gegenüber dem Vorjahr

Welche Übungen sind gut für die Halswirbelsäule?

Ist es gut, nach dem abendlichen Training etwas zu essen?

Kann ich bei E-Commerce-Unternehmen hochwertiges DIY-Hosting zu einem günstigen Preis kaufen? Erstaunliche Gewinne

Wissen Sie, wie hart Wissenschaftler daran gearbeitet haben, Außerirdische zu finden?

Meine Erinnerung an die Aufnahmeprüfung fürs College | Wer hat gesagt, dass „unnütze Bücher“ nutzlos sind? Er bewarb sich aufgrund populärwissenschaftlicher Bücher für Astronomie.

Warum ärgert es uns nicht, dass die iOS-Upgraderate von Apple so hoch ist?

Warum investiert CATL in Automobilunternehmen? Der Trend zur Upstream- und Downstream-Integration der Industriekette für Fahrzeuge mit neuer Energie verstärkt sich

Menschen, die soziale Medien häufiger nutzen, leiden häufiger unter Depressionen und Angstzuständen

Elektrotechnik-Auto-News: Kann der Volkswagen Tiguan trotz seines tristen Innenraums und seines überhöhten Preises noch an die Leistungen seines Vorgängers, des Tiguan L, anknüpfen?

Ist der Krieg der Vier Königreiche im Internetfernsehen ein großer Erfolg?

Wie führt man aerobe Schlankheits- und Bodybuildingübungen durch? Worauf muss ich achten?

iPhone 7 Plus Dual-Kamera-Leck: Keine optische Bildstabilisierung