KI wie einen Menschen behandeln? Falsch!

[Anmerkung des Herausgebers] Wissenschaftler und Unternehmer trainieren Systeme künstlicher Intelligenz (KI) nach der Denkweise des Menschen, in der Hoffnung, dass Maschinen wie Menschen lernen und reale Probleme für Menschen lösen können.

Will Whitney, ein Forscher bei Google DeepMind, ist jedoch der Ansicht, dass die Behandlung des Modells als Person unsere Vorstellungen von der Interaktion mit dem Modell stark einschränkt und uns daran hindert, das volle Potenzial großer Modelle auszuschöpfen. In einem Artikel mit dem Titel „Computing inside an AI“ analysierte Whitney die Mängel des „Modells als Person“ und schlug das Konzept des „Modells als Computer“ vor.

Er verglich die Unterschiede zwischen den beiden am Beispiel der Erstellung einer Website: Unter der Metapher „Modell als Person“ wird das große Modell als Auftragnehmer oder Mitarbeiter betrachtet, der Stil, Inhalt und Funktionen der Website anhand einer langen Liste immer anspruchsvollerer Anforderungen ständig „modifiziert“, und die Kommunikationskosten sind hoch; Während die Interaktionsmethode von „Modell als Computer“ anders ist, erstellt das große Modell die Website nicht direkt, sondern bietet eine „generative Benutzeroberfläche“, die in Echtzeit interagiert und bei Bedarf generiert wird, sodass Sie effektiver kommunizieren und in kürzerer Zeit mehr Kontrolle über das Endprodukt haben.

Einige der Ansichten lauten wie folgt:

„Modell ist Person“ schafft Distanz zwischen dem Benutzer und dem Modell, genau wie die Kommunikationslücke zwischen zwei Menschen, die verringert, aber nie vollständig überbrückt werden kann. Angesichts des Kommunikationsaufwands sind Model-as-Human-Systeme am nützlichsten, wenn sie eine ganze Arbeit selbstständig erledigen können. Ein gutes Tool sagt den Menschen, wofür es verwendet werden kann, und das geht schneller, als Anfragen in Worten zu formulieren. Unter der Metapher „Modell als Computer“ wäre „Computeranwendung“ eine Möglichkeit, wie sich das Modell uns offenbaren kann, wodurch Sie in kürzerer Zeit mehr Kontrolle über das Endprodukt erhalten. Generative Benutzeroberflächen haben das Potenzial, Betriebssysteme vollständig zu ersetzen, indem sie Schnittstellen und Fenster je nach Bedarf im laufenden Betrieb generieren und verwalten.

Academic Headlines hat einige Interviewinhalte zusammengefasst, ohne die Hauptbedeutung des Originaltextes zu verändern. Der Inhalt ist wie folgt:

Seit der Einführung von ChatGPT hat die Erforschung des Feldes der künstlichen Intelligenz (KI) durch die Branche in zwei Richtungen einen Höhepunkt erreicht.

Die erste Richtung ist die technische Fähigkeit. Wie groß kann das Modell sein, das wir trainieren? Wie gut beantwortet es SAT-Fragen (Scholastic Assessment Test)? Wie effektiv bedienen wir es?

Die zweite Richtung ist Interaktionsdesign. Wie kommunizieren wir mit dem Modell? Wie können wir es nutzen, um nützliche Arbeit zu leisten? Welche Metapher verwenden wir, um darüber nachzudenken?

Die erste Richtung hat große Aufmerksamkeit und große Investitionen erfahren, und das ist auch sinnvoll: Fortschritte bei den technologischen Möglichkeiten sind die Grundlage für alle möglichen Anwendungen. Allerdings ist die zweite Richtung für das Fachgebiet ebenso entscheidend und birgt große Unbekannte. Das Zeitalter der großen Modelle liegt erst wenige Jahre zurück. Wie wahrscheinlich ist es, dass wir bereits herausgefunden haben, wie wir sie am besten nutzen können?

Ich schlage ein neues Interaktionsparadigma vor, in dem das Modell die Rolle einer Computeranwendung (z. B. Telefonanwendung) spielt: Es stellt eine grafische Benutzeroberfläche bereit, interpretiert Benutzereingaben und aktualisiert seinen Status. In diesem Modell ist künstliche Intelligenz nicht länger ein „intelligenter Agent“, der Computer im Auftrag von Menschen verwendet, sondern kann uns eine reichhaltigere und leistungsfähigere Computerumgebung bieten.

Interaktive Metapher

Im Mittelpunkt der Interaktion stehen Metaphern, die die Erwartungen der Benutzer an das System steuern. In den frühen Computertechnologien wurden Metaphern wie „Desktop“, „Schreibmaschine“, „Tabellenkalkulation“ und „Brief“ in digitale Entsprechungen übersetzt, sodass die Benutzer über ihre Aktionen nachdenken konnten. Sie können Dinge auf Ihren Schreibtisch legen und später darauf zurückkommen. Sie benötigen eine Adresse, um einen Brief zu senden. Mit der Weiterentwicklung unseres kulturellen Wissens über diese Geräte verschwand der Bedarf an diesen speziellen Metaphern und mit ihnen auch die skeuomorphen Schnittstellendesigns, die sie verstärkten. Wie der Mülleimer oder der Bleistift ist der Computer heute eine Metapher.

Heute ist die vorherrschende Metapher für große Models die des Models als Person. Dies ist eine wirkungsvolle Metapher, da die Menschen über ein breites Spektrum an Fähigkeiten verfügen und wir eine starke Intuition hinsichtlich dieser Fähigkeiten haben. Das bedeutet, dass wir mit dem Modell sprechen und ihm Fragen stellen können. das Modell kann mit uns zusammenarbeiten, um ein Dokument oder einen Codeabschnitt fertigzustellen; wir können ihm eine Aufgabe geben und es diese alleine erledigen lassen.

Wenn wir uns das Modell jedoch als Person vorstellen, schränkt das unsere Vorstellungen von der Interaktion mit ihm stark ein. Interaktionen zwischen Menschen verlaufen von Natur aus langsam und linear und werden durch die Bandbreite der Sprache und die Art des Sprecherwechsels begrenzt. Wir alle kennen Situationen, in denen es schwierig ist, in einem Gespräch komplexe Ideen zu vermitteln und Informationen verloren gehen. Wenn wir Präzision anstreben, greifen wir auf Tools zurück, die direkte Manipulation und visuelle Schnittstellen mit hoher Bandbreite verwenden, um Diagramme zu erstellen, Code zu schreiben und CAD-Modelle zu entwerfen. Da wir unsere Modelle als Menschen konzipieren, verwenden wir sie in langsamen Gesprächen, obwohl sie durchaus in der Lage sind, schnelle, direkte Eingaben zu akzeptieren und visuelle Ergebnisse zu produzieren. Die Metaphern, die wir verwenden, schränken die Erfahrungen ein, die wir machen, und die Mentalität „Modelle sind Menschen“ hält uns davon ab, das volle Potenzial großer Modelle auszuschöpfen.

Für viele Anwendungsfälle, insbesondere Produktionsarbeiten, glaube ich an eine andere Metapher: „Modell als Computer“.

KI als Computer nutzen

Unter der Metapher „Das Modell ist der Computer“ werden wir mit dem großen Modell auf der Grundlage unserer Intuition über Computeranwendungen (sei es ein Desktop, Tablet, Telefon usw.) interagieren. Beachten Sie, dass dies nicht bedeutet, dass das Modell zu einer herkömmlichen Anwendung wird. Eine „Computeranwendung“ wäre eine Möglichkeit, wie sich uns das Modell offenbart. Das Modell wird nicht mehr wie ein „Mensch“, sondern wie ein „Computer“ sein.

Und um es wie einen Computer auszuführen, muss eine grafische Benutzeroberfläche generiert werden. Anstelle des charmanten, telegrafischen, linearen Textstroms, den ChatGPT bietet, generiert das „Modell-als-Computer“-System etwas, das einer modernen Anwendungsschnittstelle ähnelt: Schaltflächen, Schieberegler, Registerkarten, Bilder, Zeichnungen und alles andere. Dies löst die Hauptbeschränkung der „Model-as-Human“-Chat-Schnittstelle:

Auffindbarkeit. Ein gutes Werkzeug sagt dem Menschen, wofür es verwendet werden kann. Wenn die einzige Schnittstelle ein leeres Textfeld ist, liegt es in der Verantwortung des Benutzers, herauszufinden, was zu tun ist, und die Grenzen des Systems zu verstehen. Die Seitenleiste „Bearbeiten“ in Lightroom ist eine großartige Möglichkeit, die Fotobearbeitung zu erlernen, da sie Ihnen nicht nur zeigt, was das Programm mit Ihren Fotos machen kann, sondern auch, was Sie möglicherweise tun möchten. Ebenso eröffnet die „Modell als Computer“-Schnittstelle von DALL-E neue Möglichkeiten für Ihre Bildgenerierung. Wenn Sie ein Bild im Skizzenstil anfordern, können Optionsfelder für das Zeichenmedium (Bleistift, Marker, Pastell usw.), ein Schieberegler für den Detaillierungsgrad der Skizze, ein Wechsel zwischen Farbe und Schwarzweiß sowie einige grafische Schaltflächen zum Auswählen der Perspektive (2D, isomorph, Zweipunktperspektive usw.) generiert werden. Effizienz. Die direkte Bedienung ist schneller als das Schreiben der Anfrage als Text. Um beim Lightroom-Beispiel zu bleiben: Wenn Sie ein Foto bearbeiten würden, wäre es undenkbar, jemandem zu sagen, welchen Schieberegler er um wie viel verschieben soll. Sie werden den ganzen Tag damit verbringen, eine niedrigere Belichtung und eine höhere Lebendigkeit zu fordern, nur um zu sehen, wie es funktioniert. In der Metapher „Modell als Computer“ können Modelle Werkzeuge erstellen, mit denen Sie Ihre Ideen effektiver ausdrücken und so Aufgaben schneller erledigen können. Im Fall von DALL-E können Sie den Raum der generierten Skizzen in Echtzeit erkunden, indem Sie auf diese Optionen klicken und diese Schieberegler ziehen. Im Gegensatz zu herkömmlichen Anwendungen wird diese grafische Benutzeroberfläche bei Bedarf vom Modell generiert. Dies bedeutet, dass jeder Teil der Benutzeroberfläche, den Sie sehen, für das, was Sie gerade tun, relevant ist, einschließlich des spezifischen Inhalts Ihrer Arbeit (das Motiv dieses Gemäldes, der Ton dieses Textes). Dies bedeutet auch, dass Sie einfach danach fragen können, wenn Sie mehr oder eine andere Schnittstelle wünschen. Sie können DALL-E bitten, einige bearbeitbare Voreinstellungen für seine Einstellungen zu erstellen, die von berühmten Skizzenkünstlern inspiriert sind. Wenn Sie auf die DaVinci-Vorgabe klicken, werden die Schieberegler auf eine sehr detaillierte perspektivische Zeichnung mit schwarzer Tinte eingestellt. Wenn Sie auf Charles Schulz klicken, wählen Sie einen 2D-Comicstrip mit wenigen Details und in Technofarben aus.

Das sich verändernde Fahrrad des Denkens

„Das Modell ist die Person“ hat die seltsame Tendenz, eine Distanz zwischen dem Benutzer und dem Modell zu schaffen, die einer Kommunikationslücke zwischen zwei Menschen gleicht, die zwar verringert, aber nie vollständig überbrückt werden kann. Da die Kommunikation mit Sprache schwierig und aufwendig ist, neigen Menschen dazu, Aufgaben in große, möglichst unabhängige Abschnitte aufzuteilen. Model-as-Human-Schnittstellen folgen diesem Muster: Es lohnt sich selten, dem Modell zu sagen, dass es einer Funktion eine return-Anweisung hinzufügen soll, wenn es schneller ist, diese selbst zu schreiben. Angesichts des Kommunikationsaufwands sind Model-as-Human-Systeme am nützlichsten, wenn sie eine ganze Arbeit selbstständig erledigen können. Sie erledigen Dinge für Sie.

Dies steht in krassem Gegensatz zu unserer Art der Interaktion mit Computern oder anderen Werkzeugen. Werkzeuge erzeugen visuelles Feedback in Echtzeit und werden durch direkte Manipulation gesteuert. Der Kommunikationsaufwand dieser Tools ist minimal, sodass es nicht erforderlich ist, einen separaten Arbeitsblock anzugeben. Es ist sinnvoller, einen Menschen ständig auf dem Laufenden zu halten, der das Werkzeug steuert. Wie Siebenmeilenstiefel ermöglichen Ihnen Werkzeuge, mit jedem Schritt weiterzukommen, aber die Arbeit erledigen immer noch Sie. Sie ermöglichen es Ihnen, Aufgaben schneller zu erledigen.

Stellen Sie sich die Aufgabe vor, eine Website mithilfe eines großen Modells zu erstellen. Mithilfe der aktuellen Schnittstelle können Sie das Modell als Auftragnehmer oder Mitarbeiter behandeln. Sie können so viel wie möglich über das Aussehen, den Inhalt und die Funktionalität der gewünschten Website aufschreiben. Das Modell generiert eine vorläufige Version, Sie führen es aus und erhalten anschließend Feedback. Sie werden sagen: „Machen Sie das Logo größer“, „Platzieren Sie das erste Heldenbild in der Mitte“, „In der Kopfzeile sollte eine Anmeldeschaltfläche vorhanden sein.“ Sie senden eine lange Liste mit zunehmend kleinlichen Forderungen, um alles genau so zu bekommen, wie Sie es möchten.

Die Interaktionsmethode „Modell als Computer“ sieht anders aus: Das Modell erstellt die Website nicht direkt, sondern generiert eine Schnittstelle, mit der Sie die Website erstellen können. Jede Eingabe des Benutzers in die Schnittstelle mobilisiert das große Modell hinter der Schnittstelle. Wenn Sie Ihre Anforderungen beschreiben, wird möglicherweise eine Benutzeroberfläche mit einer Seitenleiste und einem Vorschaufenster generiert. Zunächst enthält die Seitenleiste nur einige Layout-Skizzen, die Sie als Ausgangspunkt auswählen können. Sie können auf jede Skizze klicken und das Modell schreibt das HTML der Webseite unter Verwendung dieses Layouts und zeigt es im Vorschaufenster an. Nachdem Sie nun über eine funktionierende Seite verfügen, werden in der Seitenleiste zusätzliche Optionen hinzugefügt, die sich auf die gesamte Seite auswirken, z. B. Schriftartpaarung und Farbschema. Die Vorschau ist wie ein WYSIWYG-Editor, mit dem Sie Elemente greifen und verschieben, ihre Inhalte bearbeiten usw. können. All dies wird durch das Modell ermöglicht, das diese Aktionen des Benutzers erkennt und die Seite basierend auf den vom Benutzer vorgenommenen Änderungen neu schreibt. Da Mockups eine Schnittstelle generieren, die Ihnen dabei hilft, effektiver zu kommunizieren, haben Sie in kürzerer Zeit mehr Kontrolle über das Endprodukt.

„Modell ist Computer“ ermutigt uns, das Modell als interaktives Echtzeit-Tool zu behandeln und nicht als einen Mitarbeiter, der Aufgaben zuweist. Es ist weniger ein Ersatz für einen Praktikanten oder Berater als vielmehr ein vielseitiges Fahrrad für den Geist, das immer auf Sie und das Gelände, das Sie durchqueren möchten, zugeschnitten ist.

Ein neues Paradigma in der Computertechnik?

Modelle, die auf Anfrage Schnittstellen generieren können, sind ein völlig neues Gebiet in der Computertechnik. Sie könnten ein völlig neues Paradigma darstellen, indem sie bestehende Anwendungsmodelle umgehen. Wenn Endbenutzer die Möglichkeit erhalten, Anwendungen sofort zu erstellen und zu ändern, ändert sich die Art und Weise, wie wir mit Computern interagieren, grundlegend. Modelle werden monolithische, statische Anwendungen ersetzen, die von Entwicklern erstellt werden, und Anwendungen generieren, die auf Benutzer und ihre unmittelbaren Bedürfnisse zugeschnitten sind. Das Modell ersetzt die im Code implementierte Geschäftslogik, interpretiert die Benutzereingaben und aktualisiert die Benutzeroberfläche. Diese generative Benutzeroberfläche kann das Betriebssystem sogar vollständig ersetzen, indem sie Schnittstellen und Fenster je nach Bedarf im laufenden Betrieb generiert und verwaltet.

Anfangs waren generative Benutzeroberflächen ein „Spielzeug“, das nur für kreative Erkundungen und einige andere Nischenanwendungen wirklich nützlich war. Schließlich möchte niemand eine E-Mail-App, die gelegentlich versehentlich E-Mails an Ihren Ex sendet und Sie über den Status Ihres Posteingangs belügt. Aber mit der Zeit werden diese Modelle besser. Auch wenn sie immer weiter in den Bereich völlig neuer Erfahrungen vordringen, werden sie allmählich zuverlässig genug, um als echte Arbeit eingesetzt zu werden.

Die Anfänge dieser Zukunft zeichnen sich bereits ab. Vor einigen Jahren zeigte Jonas Degrave, dass ChatGPT eine Linux-Befehlszeile auf sehr realistische Weise emulieren kann. Ebenso verwendet websim.ai LLM, um Websites bei Bedarf zu generieren, während Sie sie durchsuchen. Oasis, GameNGen und DIAMOND trainieren aktionskonditionierte Videomodelle anhand eines einzelnen Videospiels, sodass Sie Spiele wie Doom in einem großen Modell spielen können. Und Genie 2 generiert spielbare Videospiele basierend auf Textanweisungen. Generative Benutzeroberflächen sind vielleicht immer noch eine verrückte Idee, aber nicht so verrückt.

Wie es aussehen wird, darüber sind noch viele Fragen zu klären. Wo werden generative Benutzeroberflächen zuerst ins Spiel kommen? Wie können wir die Erfahrungen, die wir durch die Arbeit mit Modellen gewinnen, weitergeben, wenn diese nur im Kontext des größeren Modells existieren? Sind wir bereit, das zu tun? Welche neuen Erfahrungen wird es geben? Wie wird das alles in der Praxis funktionieren? Soll das Modell die Benutzeroberfläche als Code generieren oder direkt Rohpixel generieren?

Die Antworten darauf kenne ich noch nicht. Um das herauszufinden, müssen wir experimentieren!

Originallink: https://willwhitney.com/computing-inside-ai.html

Übersetzung: Li Wenjing

Dieser Artikel gibt lediglich die Ansichten des Autors wieder und stellt nicht die Position von Academic Headlines dar.

<<: Ein berühmter Schauspieler starb im Badezimmer, vermutlich an einem „Hitzschock“. Was ist ein Hitzeschock? Wie kann man es vermeiden?

>>: Gigya: Der Stand der Social-Media-Logins und ihre Auswirkungen auf den E-Commerce (Infografik)

China Automobile Dealers Association: Der Lagerbestandswarnindex der Autohändler lag im November 2020 bei 60,5 %

Die „2019 China Automobile Product Quality Performance Study“ analysiert eingehend die allgemeine Qualitätsleistung und Trends inländischer Mainstream-Automobilprodukte

Artikel

An einem Schluck Wasser ersticken ≈ einen Tropfen Urin trinken? Warum muss ich sofort pinkeln, wenn ich ins Schwimmbad steige?

Artikel

Herzlichen Glückwunsch, Sie werden JD Truck vs. LeEco Auto nicht sehen können: Eine detaillierte Erklärung der chinesischen Markensucht in Transformers 5

Von „Transformers 4“, einer Marken-„Frühlingsfest...

TCL L55C1-CUD Ein Bild erklärt Ihnen in Sekundenschnelle das Wohnzimmer-Entertainmentgerät der nächsten Generation

In der heutigen Welt scheinen gebogene Dinge imme...

Eine Gebühr von 1 Cent ist keine langfristige Lösung. Millionen von Dollar investiert mit wenig Gewinn. Die Effizienz von Ladestationen wird zu einem neuen Thema in der Branche

Mit der rasanten Verbreitung von Elektrofahrzeuge...

Geely tritt plötzlich auf die Bremse: Die Verkäufe im Dezember brechen um 39 % ein und der Marktwert schwindet innerhalb von 5 Tagen um 32 Milliarden HK-Dollar

Ist der Wendepunkt erreicht? Was ist mit Geely pa...

KI wie einen Menschen behandeln? Falsch!

China Automobile Dealers Association: Der Lagerbestandswarnindex der Autohändler lag im November 2020 bei 60,5 %

Google, Audi und Volvo einigen sich auf die Einführung eines neuen Android-Systems in Autos im nächsten Jahr

Smart Home: Der Kampf um Standards wird überall Leichen hinterlassen

Der Unterschied zwischen Kniebeugen und tiefen Kniebeugen

Geely kooperiert mit Smart Eye bei der Entwicklung hochwertiger Sicherheitssysteme für Autos

Woher wissen Wissenschaftler das Alter von Fossilien und das Alter der Erde? Dank einer revolutionären Erfindung

„Die eigene Mutter nicht einmal wiedererkennen“, das ist möglich!

Wird es am 6. Mai eine Antwort auf die Frage der grenzenlosen Mobiltelefone geben?

Die „2019 China Automobile Product Quality Performance Study“ analysiert eingehend die allgemeine Qualitätsleistung und Trends inländischer Mainstream-Automobilprodukte

An einem Schluck Wasser ersticken ≈ einen Tropfen Urin trinken? Warum muss ich sofort pinkeln, wenn ich ins Schwimmbad steige?

Artikel empfehlen

Welt-Schlaganfall-Tag | Schlaganfall richtig verstehen, und plötzlicher Tod ist nicht mehr „unvorhersehbar“

Wie kann man die Oberschenkelmuskulatur trainieren?

Welche Methoden des körperlichen Trainings gibt es für die Leichtathletik?

Wie sind die Übungspläne?

Wie trainiert man die Handkraft?

SVB: Bericht zu Investitions- und Exit-Trends im Gesundheitswesen der Silicon Valley Bank im Jahr 2021

Herzlichen Glückwunsch, Sie werden JD Truck vs. LeEco Auto nicht sehen können: Eine detaillierte Erklärung der chinesischen Markensucht in Transformers 5

TCL L55C1-CUD Ein Bild erklärt Ihnen in Sekundenschnelle das Wohnzimmer-Entertainmentgerät der nächsten Generation

Eine Gebühr von 1 Cent ist keine langfristige Lösung. Millionen von Dollar investiert mit wenig Gewinn. Die Effizienz von Ladestationen wird zu einem neuen Thema in der Branche

Geely tritt plötzlich auf die Bremse: Die Verkäufe im Dezember brechen um 39 % ein und der Marktwert schwindet innerhalb von 5 Tagen um 32 Milliarden HK-Dollar

Wie spielt man Badminton?

Es ist wirklich schön, nachts den tiefsten Genuss zu bekommen

So trainieren Sie gegen Schulterschmerzen

Laufen ist eine aerobe Übung. Wie läuft man?

Erleben Sie Dayus Hochwasserschutz! Der Feng-Fluss, der Geburtsort des Buches der Lieder