Derzeit wird die Technologie der künstlichen Intelligenz in allen Aspekten unseres täglichen Lebens eingesetzt, beispielsweise bei der Gesichtserkennung, der Spracherkennung, bei virtuellen digitalen Menschen usw. Ein häufiges Problem besteht jedoch darin, dass Forscher, wenn sie ein maschinelles Lernmodell für die Ausführung einer bestimmten Aufgabe (z. B. Bildklassifizierung) trainieren möchten, oft auf eine große Menge an Trainingsdaten zurückgreifen müssen, diese Daten (dieser Datensatz) jedoch nicht immer leicht zu beschaffen sind. Wenn Forscher beispielsweise ein Computervisionsmodell für ein selbstfahrendes Auto trainieren, enthalten die realen Daten möglicherweise keine Beispiele einer Person und ihres Hundes, die auf der Autobahn laufen. Sobald das Modell auf dieses Problem stößt, weiß es nicht, was zu tun ist, was zu unnötigen Konsequenzen führen kann. Darüber hinaus kann die Generierung von Datensätzen unter Verwendung vorhandener Daten Millionen von Dollar kosten. Darüber hinaus enthalten selbst die besten Datensätze oft Verzerrungen, die sich negativ auf die Modellleistung auswirken. Da es so teuer ist, einen Datensatz zu erhalten und zu verwenden, ist es möglich, künstlich synthetisierte Daten für das Training zu verwenden und gleichzeitig die Modellleistung sicherzustellen? Kürzlich zeigte eine Studie eines Forschungsteams des Massachusetts Institute of Technology (MIT), dass ein mit synthetischen Daten trainiertes maschinelles Lernmodell zur Bildklassifizierung mit einem mit realen Daten trainierten Modell vergleichbar oder sogar besser sein kann. Das zugehörige Forschungspapier trägt den Titel „Generative models as a data source for multiview representation learning“ und wurde als Konferenzpapier auf der ICLR 2022 veröffentlicht. Nicht verloren für echte Daten Dieses spezielle Modell des maschinellen Lernens wird als generatives Modell bezeichnet. Im Vergleich zu Datensätzen ist für die Speicherung und Freigabe wesentlich weniger Speicherplatz erforderlich. Zudem werden dabei nicht nur einige Probleme im Zusammenhang mit Datenschutz und Nutzungsrechten umgangen, sondern es treten auch keine der Vorurteile und rassistischen oder geschlechtsspezifischen Probleme auf, die bei herkömmlichen Datensätzen bestehen. Dem Artikel zufolge erhält das generative Modell während des Trainingsprozesses zunächst Millionen von Bildern, die bestimmte Objekte (wie Autos oder Katzen) enthalten, lernt dann das Aussehen von Autos oder Katzen und generiert schließlich ähnliche Objekte. Einfach ausgedrückt verwendeten die Forscher ein vortrainiertes generatives Modell, um basierend auf den Bildern im Trainingsdatensatz des Modells einen großen Strom einzigartiger, realistischer Bilder auszugeben. (Quelle: Pixabay) Die Forscher sagen, dass ein generatives Modell, sobald es mit realen Daten trainiert wurde, synthetische Daten generieren kann, die von realen Daten kaum zu unterscheiden sind. Darüber hinaus kann das generative Modell auf Basis der Trainingsdaten weiter ausgebaut werden. Wenn ein generatives Modell anhand von Autobildern trainiert wird, kann es sich „vorstellen“, wie ein Auto in verschiedenen Situationen aussieht, und dann Bilder von Autos in unterschiedlichen Farben, Größen und Zuständen ausgeben. Einer der vielen Vorteile generativer Modelle besteht darin, dass sie theoretisch eine unendliche Anzahl von Stichproben erstellen können. Auf dieser Grundlage versuchten die Forscher herauszufinden, wie sich die Anzahl der Stichproben auf die Modellleistung auswirkt. Die Ergebnisse zeigen, dass in einigen Fällen eine größere Anzahl einzigartiger Proben zu zusätzlichen Verbesserungen führt. Und ihrer Meinung nach ist das Coolste an generativen Modellen, dass wir sie in Online-Repositories finden und verwenden können und eine gute Leistung erzielen, ohne in das Modell einzugreifen. Generative Modelle haben jedoch auch einige Nachteile. Beispielsweise können generative Modelle in manchen Fällen Quelldaten offenlegen und dadurch ein Risiko für den Datenschutz darstellen. Wenn sie nicht ordnungsgemäß geprüft werden, können sie Verzerrungen in den Datensätzen verstärken, mit denen sie trainiert wurden. Ist generative KI der Trend? Der Mangel an effektiven Daten und die Stichprobenverzerrung sind zu den größten Engpässen bei der Entwicklung des maschinellen Lernens geworden. Um dieses Problem zu lösen, ist die generative KI in den letzten Jahren zu einem der wichtigsten Themen im Bereich der künstlichen Intelligenz geworden und weckt in der Branche große Erwartungen. Ende letzten Jahres veröffentlichte Gartner die wichtigen strategischen Technologietrends für 2022 und bezeichnete generative KI als „eine der überzeugendsten und leistungsstärksten Technologien der künstlichen Intelligenz“. Laut Gartner wird erwartet, dass generative KI bis 2025 10 % aller generierten Daten ausmachen wird; heute liegt der Anteil bei weniger als 1 %. Abbildung|Gartners wichtige strategische Technologietrends im Jahr 2022 (Quelle: Offizielle Gartner-Website) Im Jahr 2020 wurde generative KI erstmals im von Gartner veröffentlichten „Hype Cycle for Artificial Intelligence, 2020“ als neuer Technologie-Hotspot vorgeschlagen. Im neuesten Bericht „Hype Cycle for Artificial Intelligence, 2021“ wird generative KI als eine Technologie dargestellt, die in 2–5 Jahren ausgereift sein wird. (Quelle: Gartner Hype Cycle für Künstliche Intelligenz, 2021) Der Durchbruch der generativen KI besteht darin, dass sie aus vorhandenen Daten (Bildern, Texten usw.) lernen und neue, ähnliche Originaldaten generieren kann. Mit anderen Worten: Es kann nicht nur Urteile fällen, sondern auch kreativ sein und für die automatische Programmierung, die Arzneimittelentwicklung, die bildende Kunst, die soziale Interaktion, kommerzielle Dienste usw. verwendet werden. Generative KI kann jedoch auch für Betrug, Schwindel, politische Gerüchte, Identitätsbetrug usw. missbraucht werden, wie etwa Deepfakes, die oft verschiedene negative Nachrichten generieren. Die Frage ist also: Wenn wir über ein ausreichend gutes generatives Modell verfügen, brauchen wir dann immer noch einen echten Datensatz? Originallink: https://openreview.net/pdf?id=qhAeZjs7dCL https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315 https://www.gartner.com/en/documents/4004183 Akademische Schlagzeilen |
<<: Was genau ist das mysteriöse Wesen „Wasseraffe“?
>>: Welt-Autismus-Tag: Fürsorge für „Kinder der Sterne“
Heutzutage fällt es vielen Menschen immer schwere...
Da die kabellosen Bluetooth-Ohrhörer Apple AirPod...
John Landgrafs Argument kam wie ein Blitz aus hei...
Vor kurzem ist im Internet eine große Debatte zum...
Bauchmuskeltraining ist der wichtigste Teil unser...
Heutzutage gilt Schlankheit für fast jeden als Sc...
Aufgrund der nordwärts gerichteten Bewegung der R...
In der ersten Folge des erfolgreichen Suspense-Dr...
Die jüngsten Preissenkungen einheimischer Luxusma...
Joggen ist eine gängige Trainingsmethode zum Abne...
Mit dem nahenden September werden die Nachrichten...
Das Zentrale Meteorologische Observatorium gab am...
Mit zunehmendem Alter lässt die körperliche Fitne...
Möchten Sie Bizeps aufbauen? Heute zeige ich Ihne...
Freunde, die anderswo hart arbeiten, bringen ihre...