Warum haben „3 Agenten“ kein Trinkwasser? Wissenschaftler entdecken 14 Gründe für das Scheitern

2025 ist das Jahr der Agentenexplosion.

Aufgrund ihrer Fähigkeit, komplexe Aufgaben mit mehreren Schritten zu bewältigen und in Echtzeit mit unterschiedlichen Umgebungen zu interagieren, gelten Agentensysteme , die auf großen Sprachmodellen (LLMs) basieren, insbesondere Multi-Agentensysteme (MAS), als sehr geeignet zur Lösung realer Probleme . Daher werden sie zunehmend in verschiedenen Bereichen eingesetzt, beispielsweise in der Softwareentwicklung, der Arzneimittelforschung, der wissenschaftlichen Simulation und allgemeinen Agentensystemen.

Im Vergleich zu Einzelagentensystemen oder sogar einfacheren Basissystemen sind Multiagentensysteme bei der Behandlung realer Probleme jedoch fehleranfälliger . Wie in der folgenden Abbildung dargestellt, kann die Ausfallrate von AppWorld bis zu 86,7 % betragen.

Abbildung | Ausfallraten von 5 häufig verwendeten Multi-Agenten-LLM-Systemen unter Verwendung von GPT-4o und Claude-3

Warum ist das so? Ein Forschungsteam der University of California, Berkeley und der Intesa Sanpaolo Bank of Italy hat die Antwort:

Sie führten die erste umfassende Studie zu den Herausforderungen durch, vor denen Multiagentensysteme stehen, und identifizierten 14 einzigartige Fehlermodi , die sie in drei Kategorien einteilten: (1) Spezifikations- und Systemdesignfehler; (2) Fehlausrichtung zwischen Agenten; und (3) Aufgabenüberprüfung und -beendigung.

Das zugehörige Forschungspapier mit dem Titel „Why Do Multi-Agent LLM Systems Fail?“ wurde auf der Preprint-Website arXiv veröffentlicht.

Link zum Artikel: https://arxiv.org/abs/2503.13657

Insbesondere schlugen sie die erste empirisch fundierte Fehlertaxonomie für Multi-Agenten-Systeme (MASFT ) vor, die einen strukturierten Rahmen für das Verständnis und die Minderung von Fehlern in Multi-Agenten-Systemen bietet.

Gleichzeitig entwickelten sie auch eine skalierbare „LLM-as-a-Judge“-Bewertungspipeline zur Analyse der Leistung neuer Multiagentensysteme und zur Diagnose von Fehlermodi.

Darüber hinaus führten sie Interventionsstudien zu Agentenspezifikationen, Dialogmanagement und Verifizierungsstrategien durch. Obwohl die Aufgabenerledigungsrate um 14 % stieg, konnte das Problem der Fehler bei Multi-Agenten-Systemen immer noch nicht vollständig gelöst werden , was die Notwendigkeit einer strukturellen Neugestaltung von Multi-Agenten-Systemen unterstreicht.

Darüber hinaus haben sie ihre Forschungsergebnisse als Open Source veröffentlicht , darunter:

Mehr als 150 kommentierte Konversationsspuren von Multi-Agenten-Systemen;

Skalierbare LLM-as-a-Judge-Bewertungspipeline und LLM-Anmerkungen für über 150 Trajektorien;

Detaillierte Expertenkommentare zu 15 ausgewählten Flugbahnen.

Bis zu 14 Fehlermodi

Bei dieser Arbeit verwendete das Forschungsteam die Grounded Theory, eine qualitative Forschungsmethode , die Theorien direkt aus empirischen Daten aufbaut, anstatt vordefinierte Hypothesen zu testen , wodurch die Identifizierung von Fehlermodi ermöglicht wird, die auf natürliche Weise entstehen.

Sie sammelten und analysierten wiederholt die Ausführungsspuren von Multiagentensystemen durch theoretische Stichprobenziehung, offene Kodierung, kontinuierliche Vergleichsanalyse, Memos und Theoriebildung. Nachdem sie die Ablaufverfolgungsaufzeichnungen des Multi-Agenten-Systems erhalten und die vorläufigen Ergebnisse besprochen hatten, leiteten sie MASFT ab, indem sie die beobachteten Fehlermodi sammelten.

Abbildung ｜Systematische Untersuchung des Methodenflusses von Multi-Agenten-Systemen

Um eine automatische Fehleridentifizierung zu erreichen, entwickelten sie einen LLM-basierten Annotator und überprüften dessen Zuverlässigkeit.

Anschließend führten sie eine Übereinstimmungsstudie zwischen den Annotatoren durch und passten die Ausfallarten und Fehlerklassen iterativ an, indem sie Definitionen hinzufügten, entfernten, zusammenführten, aufteilten oder änderten, bis ein Konsens erreicht war . Dieser Prozess spiegelt einen Lernansatz wider, bei dem die Taxonomie kontinuierlich verfeinert wird, bis Stabilität erreicht ist, wobei der Kappa-Koeffizient verwendet wird, um die Übereinstimmung zwischen den Annotatoren zu messen.

Abbildung ｜Methode zur Klassifizierung des Fehlermodus eines Multi-Agenten-Systems

Letztendlich umfasst MASFT drei allgemeine Fehlerkategorien: Spezifikations- und Systemdesignfehler; Fehlausrichtung zwischen Agenten; und Aufgabenüberprüfung und -beendigung , wobei 14 feinkörnige Fehlermodi identifiziert werden, die bei der Ausführung von Multiagentensystemen auftreten können.

MASFT unterteilt die Ausführung eines Multiagentensystems außerdem in drei Phasen: vor der Ausführung, während der Ausführung und nach der Ausführung, und identifiziert die Ausführungsphase des Multiagentensystems, in der jeder feinkörnige Fehlermodus auftreten kann.

Abbildung ｜ Korrelationsmatrix der Fehlerkategorien im Multiagentensystem

Darüber hinaus stellten sie fest, dass Multi-Agenten-Systeme mit ähnlichen Problemen konfrontiert sind wie komplexe menschliche Organisationen und dass ihre Fehlermodi mit den in menschlichen Organisationen beobachteten häufigen Fehlermodi übereinstimmen . „Nicht um Klärung zu bitten“ untergräbt den „Respekt vor Fachwissen“ und „Fehlausrichtung der Agenten“ spiegelt die Notwendigkeit wider, hierarchische Unterscheidungen zu stärken und die Rollenverteilung zu koordinieren.

Die Effektivität der Multi-Agenten-Zusammenarbeit muss noch verbessert werden

Für alle oben genannten Fehlerkategorien schlug das Forschungsteam taktische und strukturelle Strategien vor.

Taktische Strategien umfassen direkte Änderungen, die auf bestimmte Fehlermodi abzielen, wie etwa die Verbesserung von Eingabeaufforderungen, der Topologie des Agentennetzwerks und des Dialogmanagements. Zwei Fallstudien zeigen jedoch, dass die Wirksamkeit dieser Ansätze nicht einheitlich ist.

Strukturelle Strategien , d. h. ganzheitlichere Ansätze, die sich auf das gesamte System auswirken: starke Verifizierung, verbesserte Kommunikationsprotokolle, Quantifizierung von Unsicherheiten sowie Speicher- und Zustandsverwaltung. Diese Strategien erfordern eingehendere Forschung und sorgfältige Umsetzung und bleiben Forschungsthemen, die auch in Zukunft untersucht werden müssen.

Abbildung ｜Lösungsstrategie und Fehlerklassifizierung des Multiagentensystems

Das Forschungsteam hat diese strategischen Ansätze in zwei Fallstudien angewendet.

Im ersten Fall verwendeten sie die Implementierung des MathChat -Szenarios in AG2 als Grundlage, in dem ein studentischer Agent mit einem Assistenzagenten zusammenarbeitet, der Python-Code ausführen kann, um ein Problem zu lösen.

Für das Benchmarking wählten sie zufällig 200 Übungen aus dem GSM-Plus-Datensatz aus. Die erste Strategie besteht darin, die ursprüngliche Eingabeaufforderung so zu verbessern, dass sie eine klare Struktur und einen neuen Abschnitt zur Überprüfung aufweist. Die zweite Strategie besteht darin, die Agentenkonfiguration zu einem spezialisierteren System mit drei verschiedenen Rollen zu verfeinern: einem Problemlöser , der Probleme ohne Werkzeuge mithilfe eines Gedankenkettenansatzes löst; ein Coder , der Python-Code schreibt und ausführt, um zur endgültigen Antwort zu gelangen; und einen Prüfer , der die Diskussion überprüft und die Lösung kritisch bewertet, indem er entweder die Antwort bestätigt oder eine weitere Diskussion anregt.

In diesem Fall kann nur der Prüfer das Gespräch beenden, sobald eine Lösung gefunden wurde.

Im zweiten Fall simuliert ChatDev ein Softwareunternehmen mit mehreren Agenten, in dem verschiedene Agenten unterschiedliche Rollen haben, z. B. CEO, CTO, Softwareentwickler und Prüfer, die versuchen, bei der Lösung einer Softwaregenerierungsaufgabe zusammenzuarbeiten.

Sie führten zwei unterschiedliche Interventionen durch. Das erste bestand darin, die Eingabeaufforderungen für bestimmte Rollen zu verbessern, um Hierarchie und Rollenkonsistenz durchzusetzen. Der zweite Versuch beinhaltete eine grundlegende Änderung der Topologie des Frameworks, indem die Stoppstruktur des Frameworks von einem gerichteten azyklischen Graphen (DAG) in einen zyklischen Graphen geändert wurde.

Jetzt wird der Prozess erst beendet, wenn der CTO-Agent bestätigt, dass alle Überprüfungen ordnungsgemäß durchgeführt wurden, und es wird eine maximale Iterationsfrist festgelegt, um Endlosschleifen zu vermeiden. Dieser Ansatz ermöglicht iterative Verbesserungen und eine umfassendere Qualitätssicherung.

Abbildung | Leistungsgenauigkeit verschiedener Lösungen

Das Forschungsteam ist der Ansicht, dass viele der „offensichtlichen“ Lösungen tatsächlich ernsthafte Einschränkungen aufweisen und dass die skizzierten strukturellen Strategien erforderlich sind, um beständigere Verbesserungen zu erreichen.

Angesichts der Informationsredundanz und Konflikte bei der aktuellen Multi-Agenten-Koordination und der verstärkten Modellabweichung bei der Zusammenarbeit müssen zukünftige Multi-Agenten-Systeme eine schnelle Reaktion, Echtzeitüberprüfung und dynamische Koordination erreichen, um die Effektivität der Teamzusammenarbeit zu verbessern .

„LLM-basierte Multiagenten haben noch immer ein gewisses Potenzial in Bereichen wie der verteilten wissenschaftlichen Forschungszusammenarbeit und Notfallreaktionssystemen.“

Autor: Yu Ke

<<: Warum ist Wacholderpollen so beliebt? Die wissenschaftliche Wahrheit hinter dem Top-Stream „Rauchen“

>>: Der „Hinter-den-Kulissen-Promoter“ der beschleunigten Expansion des Universums zieht sich langsam zurück …

Wie trainiert man die explosive Kraft der oberen Gliedmaßen?

Artikel

So trainieren Sie die explosive Kraft der Arme

Artikel

Der „dicke Hals“ der Sketch-Queen sorgte bei der Frühlingsfest-Gala für hitzige Diskussionen! Wie geht es Ihrer Schilddrüse? Bitte bewahren Sie diesen lebensrettenden Leitfaden auf!

Artikel

Eine achtköpfige Familie hatte dieselbe Art von Krebs! Ärzte erinnern: 4 Krebsarten sind anfällig für "Familienaggagement", also seien Sie vorsichtig

Artikel

Kann Joggen wirklich beim Abnehmen helfen?

Artikel empfehlen

Wie joggt man richtig?

Heutzutage achten viele Menschen immer mehr auf i...

Warum schwitze ich nach dem Training stark?

Der Sommer ist da. Morgens und abends sieht man i...

Welche Funken werden durch die Kollision von „Internet + Roboter“ entstehen? Wasu Robotics nutzt eine Big-Data-Cloud-Plattform, um das „Gehirn“ der intelligenten Fertigung zu vernetzen

Die von Foshan Huasu Robotics Co., Ltd. auf der 3...

Künstliches „Photosynthesewunder“: Wie verändern „künstliche Blätter“ die Zukunft der Energie- und Chemieindustrie?

Autor Duan Yuechu Seit Milliarden von Jahren betr...

4680-Batterie kann in 10 Minuten vollständig aufgeladen werden. Ist Tesla der größte Gewinner? GAC, das bereits mit der Massenproduktion begonnen hat, ist unzufrieden

Am 2. September gab das israelische Batterie-Star...

Warum haben „3 Agenten“ kein Trinkwasser? Wissenschaftler entdecken 14 Gründe für das Scheitern

Wie trainiert man die explosive Kraft der oberen Gliedmaßen?

So trainieren Sie die explosive Kraft der Arme

Der „dicke Hals“ der Sketch-Queen sorgte bei der Frühlingsfest-Gala für hitzige Diskussionen! Wie geht es Ihrer Schilddrüse? Bitte bewahren Sie diesen lebensrettenden Leitfaden auf!

Kann Laufen das Gesicht dünner machen?

Verringert Sport die sexuelle Funktion?

Woher wissen Hähne, wie spät es ist und warum krähen sie jeden Tag pünktlich?

Eine achtköpfige Familie hatte dieselbe Art von Krebs! Ärzte erinnern: 4 Krebsarten sind anfällig für "Familienaggagement", also seien Sie vorsichtig

Kann Joggen wirklich beim Abnehmen helfen?

Warum sind Frauen anfälliger für Verstopfung als Männer? 5 Möglichkeiten, Ihnen zu helfen!

Schmerzen im Hinterkopf beim Laufen

Artikel empfehlen

Wie joggt man richtig?

Warum schwitze ich nach dem Training stark?

Welche Funken werden durch die Kollision von „Internet + Roboter“ entstehen? Wasu Robotics nutzt eine Big-Data-Cloud-Plattform, um das „Gehirn“ der intelligenten Fertigung zu vernetzen

Künstliches „Photosynthesewunder“: Wie verändern „künstliche Blätter“ die Zukunft der Energie- und Chemieindustrie?

4680-Batterie kann in 10 Minuten vollständig aufgeladen werden. Ist Tesla der größte Gewinner? GAC, das bereits mit der Massenproduktion begonnen hat, ist unzufrieden

Lego essen, Blut trinken... Um Forschung zu betreiben, haben Wissenschaftler tatsächlich „Gift an sich selbst getestet“

Die Batterie ist schon wieder fast leer! Gibt es ein Heilmittel für Ihre Batterie-Angst?

Amap: Nationaler Reisebericht 2018 für die Goldene Woche

Kann ich während meiner Menstruation joggen?

Sie können die Ergebnisse der Blutuntersuchung nicht verstehen? Es genügt, diese vier Kernpunkte zu verstehen

Welche Gesundheits- und Fitnesspläne gibt es?

Schatten der Kindheit: Wenn du ein weißes Haar ausreißt, wachsen zehn nach! Ist das wahr?

Der wahre Faktor, der die Lebensdauer von SSDs beeinflusst: Schreibverstärkung

So trainieren Sie schlaffe Brustmuskeln

So trainieren Sie den Trizeps