Jedes Foto kann eine 3D-Welt erzeugen, in der Sie umherwandern können. Es klingt wie die Fantasie eines Science-Fiction-Autors, doch mit der Entwicklung der KI-Technologie ist es zu einer Realität geworden, die in greifbare Nähe rückt. Am 3. Dezember gab Fei-Fei Li, Professorin an der Stanford University, bekannt, dass ihr World Labs-Team ein KI-System auf den Markt gebracht habe, das aus einem einzigen Bild eine 3D-Welt generieren kann. Sie nannten das System „Large World Model“ (LWM) und bezeichneten sich selbst als ein KI-Unternehmen für räumliche Intelligenz. Sobald das Modell auf den Markt kam, erregte es die Aufmerksamkeit von Internetnutzern auf der ganzen Welt. Einige Leute sagten, dass die echte Version von Inception da ist! Screenshot der offiziellen Website von World Labs In der geöffneten Live-Demo können Nutzer die von World Labs geschaffene Welt direkt im Browser steuern und erleben. Wenn Sie beispielsweise ein Foto einer Museumsszene eingeben, hilft Ihnen die KI dabei, sich den Eingang und Ausgang, die angrenzende Ausstellungshalle und die Exponate vorzustellen. Wenn Sie das weltberühmte Gemälde „Outdoor Cafe at Night“ betreten, können Sie in das Gemälde hineingehen und die gesamte Umgebung der Nachbarschaft spüren … Worin besteht also der Unterschied beim Large World Model? Was sind die konkreten Anwendungsszenarien? Welche Auswirkungen wird es auf die Entwicklung der KI haben? Ein Bild, 3D-Welt generieren „Es ist immer noch eine ziemliche Überraschung. Sora selbst hatte zuvor ein wenig den ‚Flair‘ einer simulierten Welt, aber das ‚Großweltmodell‘ ist ein anderer technischer Ansatz, und die Branche insgesamt ist der Meinung, dass es die Erwartungen übertroffen hat“, sagte Ma Qianli, Präsident des China AIGC Industry Alliance Research Institute und Mitbegründer von Unbounded AI. Das „große Weltmodell“ kann einfach als ein Werkzeug für künstliche Intelligenz zur Gestaltung einer virtuellen Welt betrachtet werden: Benutzer müssen lediglich ein Bild hochladen, und das System kann basierend auf den Umgebungsinformationen im Bild automatisch eine virtuelle 3D-Welt im entsprechenden Bereich generieren. Darüber hinaus können Benutzer diese 3D-Welt ganz einfach mit der Maus oder Tastatur direkt auf der Webseite durchsuchen. Darüber hinaus ist die generierte 3D-Welt interaktiv. Benutzer können die Kamera frei bewegen, um diese 3D-Welt wie bei einem Spiel zu erkunden. Operationen wie Tiefenschärfe und Zoom sind alle möglich. „Interaktivität bedeutet eigentlich, der KI Befehle über die Tastatur oder die Mausbewegung zu geben. Sie rendert und generiert dann basierend auf den Befehlen die entsprechende Szene in Echtzeit. Zuvor waren die 3D-Szenen, die jeder sah, alle von Menschen vorgefertigt“, erklärt Zhu Linchao, Doktorvater an der Zhejiang-Universität. Das Erstaunliche an diesem „großen Weltmodell“ ist, dass es den Grundregeln der dreidimensionalen geometrischen Physik folgt und ein echtes Gefühl von Tiefe und Raum vermittelt. Nach Ansicht von Ma Qianli bedeutet die Einhaltung der Grundregeln der dreidimensionalen geometrischen Physik, dass das KI-Modell nach dem Training mit einer großen Menge an 3D-Daten ein umfassendes Verständnis des Bildinhalts erreicht hat, was widerspiegelt, dass die KI die reale Welt besser verstanden hat. Allerdings sagte Zhu Linchao auch, dass das „Großweltmodell“ hinsichtlich der Einhaltung der physikalischen Regeln der realen Welt noch weit von der praktischen Anwendung entfernt sei. Obwohl behauptet wird, einige physikalische Mechanismen einzuführen, wurden die technischen Details zur Erzeugung grundlegender physikalischer Prinzipien nicht offengelegt. In einigen Szenen treten auch Rendering-Fehler auf, beispielsweise wenn verschiedene Objekte unnatürlich verschmelzen und zu einer Masse aus Farbblöcken werden. Es wird jedoch davon ausgegangen, dass World Labs sagte, dass es sich dabei lediglich um „erste Vorschauen“ handele und dass man hart daran arbeite, den Maßstab und Realismus der generierten Welt zu erhöhen und neue Wege der Interaktion zu erkunden. Das Weltgenerationsmodell verfügt über ein breites Spektrum an Anwendungsszenarien World Labs ist im Bereich der 3D-Generation nicht der erste, der den Schritt wagt. Zuvor hatten bereits viele Unternehmen wie NVIDIA und Meta entsprechende Technologien der physischen KI und der 3D-Welt aktiv eingesetzt, und es herrscht ein harter Wettbewerb auf dem Markt. Auch im Land haben sich viele Unternehmen angeschlossen. Am Beispiel von Unbounded AI wird für das Produkt „Magic Mirror“ des Unternehmens ebenfalls KI zur Generierung von 3D-Produkten verwendet. Sobald der Benutzer ein Foto in den Browser eingibt, kann der „Magic Mirror“ basierend auf der Person auf dem Foto ein entsprechendes 3D-Modell generieren, aus dem schließlich eine Figur hergestellt werden kann. Die Innovation von Werkzeugen und die Umsetzung von Anwendungsszenarien sind Themen, die den meisten Menschen Sorgen bereiten. World Labs gab in seinem offiziellen Blog bekannt, dass das Unternehmen plant, Tools zu entwickeln, die für Fachleute wie Künstler, Designer, Entwickler, Filmemacher und Ingenieure nützlich sind. Ermöglicht jedem, sich seine eigene Welt vorzustellen und zu erschaffen, und erweitert das Potenzial der generativen KI von 2D-Bildern und -Videos auf 3D-Welten. „Das Aufkommen von KI-Modellen wie dem ‚Large World Model‘ könnte in Zukunft den digitalen Raum in der VR-Welt füllen.“ Ma Qianli erklärte, dass die Baukosten für den digitalen Raum in VR sehr hoch und der Entwicklungszyklus relativ langsam sei. Das Aufkommen solcher Tools wird die Modellierungskosten des digitalen Raums senken und es ermöglichen, schnell und bedarfsgerecht Szenen aus der virtuellen Welt zu erstellen, was bedeutet, dass das Metaversum den Menschen immer näher kommt. Justin Johnson, Doktorand von Li Feifei und Mitbegründer von World Labs, wies in den sozialen Medien darauf hin, dass wir mit der Weiterentwicklung dieser Technologie in Zukunft möglicherweise keine Bildschirme unterschiedlicher Größe mehr benötigen, wie sie bei Mobiltelefonen und Tablets üblich sind. Wenn man virtuelle Inhalte nahtlos mit der physischen Welt verschmelzen könne, werde man weniger Bildschirme brauchen, sagt er. Das Zeitalter der räumlichen Intelligenz ist angebrochen Vor zwei Jahren wurde ChatGPT mit einem Paukenschlag eingeführt und seitdem ist die generative KI auf Hochtouren gelaufen, von der Verarbeitung zweidimensionaler Bilder und Texte bis hin zum Verständnis der dreidimensionalen Welt. Von kultureller Intelligenz bis hin zu räumlicher Intelligenz erkennt generative KI die physische Welt des Menschen mit extrem hoher Geschwindigkeit. Die Entstehung des „Großen Weltmodells“ ist auch eine praktische Demonstration räumlicher Intelligenz. Fei-Fei Li definiert räumliche Intelligenz wie folgt: Räumliche Intelligenz ist die Fähigkeit von Maschinen, in dreidimensionalem Raum und Zeit wahrzunehmen, zu schlussfolgern und zu handeln. Ihrer Meinung nach ist räumliche Intelligenz die nächste technologische Grenzrichtung im Bereich der KI. Im September dieses Jahres sagte Fei-Fei Li in einem Interview mit den Medien, dass räumliche Intelligenz ihr nächster Nordstern sei und dass die Technologie den Entwicklungsprozess der KI verändern werde. Sie glaubt, dass räumliche Intelligenz genauso wichtig ist wie sprachliche Intelligenz und in mancher Hinsicht vielleicht sogar älter und grundlegender ist. Die Entwicklung der KI wird sich nicht auf die Verarbeitung flacher Bilder oder Texte beschränken, sondern sich in Richtung eines Verständnisses der dreidimensionalen Welt bewegen, was eine natürliche Erweiterung der Entwicklung der Intelligenz darstellt. Welchen Einfluss wird also die von World Labs entwickelte KI für räumliche Intelligenz auf die zukünftige Entwicklung der KI haben? Zhu Linchao sagte, dass Menschen sich bei der Verarbeitung von Informationen hauptsächlich auf visuelle Informationen verlassen. Das Aufkommen eines so großen Modells kann dazu führen, dass mehr Menschen auf visuelle Modelle achten, einschließlich der Frage, wie eine bessere 3D-Umgebung erstellt und physikalisch konsistente Bewegungen erreicht werden können. Diese könnten mehr Menschen für dieses Feld gewinnen. „Die aktuellen Investitionen in KI sind zu groß und die Richtung ist sehr wichtig. Sobald sich eine solche KI-Technologie bewährt hat, werden die Unternehmen es wagen, auf die Strecke zu gehen und so die Entwicklung der Branche voranzutreiben.“ Sagte Ma Qianli. Durch die Generierung dreidimensionaler Weltmodelle aus einem einzigen Bild erhalten wir heute ein erstes Verständnis von räumlicher Intelligenz. Vielleicht wird es in Zukunft noch mehr große Modelle geben. Durch die kontinuierliche Optimierung der KI-Algorithmen und die Modernisierung der Hardwareausstattung wird die räumliche Intelligenz die bestehenden technologischen Grenzen weiter durchbrechen und könnte zu einer wichtigen treibenden Kraft für die Veränderung des menschlichen Lebensstils werden. Stellen Sie sich kühn vor: Wenn die Zeitdimension hinzugefügt wird und das Training erfolgreich ist, kann KI vielleicht wirklich die Vergangenheit und die Gegenwart kennen und die Zukunft vorhersagen? |
>>: „Goodbye Love 4“-Gäste sind ängstlich – diese Studie verrät, wie das Gehirn funktioniert
Das gesellschaftliche Tempo nimmt zu, der Lebensd...
Wenn Sie abnehmen möchten, müssen Sie Sport treib...
Mit der weiteren Beschleunigung des sozialen Temp...
Wenn das Wetter wärmer wird Die unerträgliche „Fl...
Fußball ist uns nicht fremd, vor allem, weil wir ...
Dieser Artikel wurde von Tao Ning, PhD, Associate...
Bewegung ist eine gute Lebensgewohnheit, um gesun...
Ohrlochstechen ist seit der Antike eine gängige P...
Dieser Artikel wurde von Zhu Hongjian, Chefarzt d...
Shaolin hat eine lange Geschichte. Shaolins Fähig...
Matthias Qingke, CEO der Schaeffler-Technologiesp...
Habe ein Paar gerade lange Beine Es sollte der Tr...
Die inländische, maßgebliche Navigationswebsite f...
Viele sportbegeisterte Menschen wissen sicher ber...
Liebe Leser und Freunde, hallo zusammen! Heute sp...