2025 ist das Jahr der Agentenexplosion. Aufgrund ihrer Fähigkeit, komplexe Aufgaben mit mehreren Schritten zu bewältigen und in Echtzeit mit unterschiedlichen Umgebungen zu interagieren, gelten Agentensysteme , die auf großen Sprachmodellen (LLMs) basieren, insbesondere Multi-Agentensysteme (MAS), als sehr geeignet zur Lösung realer Probleme . Daher werden sie zunehmend in verschiedenen Bereichen eingesetzt, beispielsweise in der Softwareentwicklung, der Arzneimittelforschung, der wissenschaftlichen Simulation und allgemeinen Agentensystemen. Im Vergleich zu Einzelagentensystemen oder sogar einfacheren Basissystemen sind Multiagentensysteme bei der Behandlung realer Probleme jedoch fehleranfälliger . Wie in der folgenden Abbildung dargestellt, kann die Ausfallrate von AppWorld bis zu 86,7 % betragen. Abbildung | Ausfallraten von 5 häufig verwendeten Multi-Agenten-LLM-Systemen unter Verwendung von GPT-4o und Claude-3 Warum ist das so? Ein Forschungsteam der University of California, Berkeley und der Intesa Sanpaolo Bank of Italy hat die Antwort: Sie führten die erste umfassende Studie zu den Herausforderungen durch, vor denen Multiagentensysteme stehen, und identifizierten 14 einzigartige Fehlermodi , die sie in drei Kategorien einteilten: (1) Spezifikations- und Systemdesignfehler; (2) Fehlausrichtung zwischen Agenten; und (3) Aufgabenüberprüfung und -beendigung. Das zugehörige Forschungspapier mit dem Titel „Why Do Multi-Agent LLM Systems Fail?“ wurde auf der Preprint-Website arXiv veröffentlicht. Link zum Artikel: https://arxiv.org/abs/2503.13657 Insbesondere schlugen sie die erste empirisch fundierte Fehlertaxonomie für Multi-Agenten-Systeme (MASFT ) vor, die einen strukturierten Rahmen für das Verständnis und die Minderung von Fehlern in Multi-Agenten-Systemen bietet. Gleichzeitig entwickelten sie auch eine skalierbare „LLM-as-a-Judge“-Bewertungspipeline zur Analyse der Leistung neuer Multiagentensysteme und zur Diagnose von Fehlermodi. Darüber hinaus führten sie Interventionsstudien zu Agentenspezifikationen, Dialogmanagement und Verifizierungsstrategien durch. Obwohl die Aufgabenerledigungsrate um 14 % stieg, konnte das Problem der Fehler bei Multi-Agenten-Systemen immer noch nicht vollständig gelöst werden , was die Notwendigkeit einer strukturellen Neugestaltung von Multi-Agenten-Systemen unterstreicht. Darüber hinaus haben sie ihre Forschungsergebnisse als Open Source veröffentlicht , darunter: Mehr als 150 kommentierte Konversationsspuren von Multi-Agenten-Systemen; Skalierbare LLM-as-a-Judge-Bewertungspipeline und LLM-Anmerkungen für über 150 Trajektorien; Detaillierte Expertenkommentare zu 15 ausgewählten Flugbahnen. Bis zu 14 Fehlermodi Bei dieser Arbeit verwendete das Forschungsteam die Grounded Theory, eine qualitative Forschungsmethode , die Theorien direkt aus empirischen Daten aufbaut, anstatt vordefinierte Hypothesen zu testen , wodurch die Identifizierung von Fehlermodi ermöglicht wird, die auf natürliche Weise entstehen. Sie sammelten und analysierten wiederholt die Ausführungsspuren von Multiagentensystemen durch theoretische Stichprobenziehung, offene Kodierung, kontinuierliche Vergleichsanalyse, Memos und Theoriebildung. Nachdem sie die Ablaufverfolgungsaufzeichnungen des Multi-Agenten-Systems erhalten und die vorläufigen Ergebnisse besprochen hatten, leiteten sie MASFT ab, indem sie die beobachteten Fehlermodi sammelten. Abbildung |Systematische Untersuchung des Methodenflusses von Multi-Agenten-Systemen Um eine automatische Fehleridentifizierung zu erreichen, entwickelten sie einen LLM-basierten Annotator und überprüften dessen Zuverlässigkeit. Anschließend führten sie eine Übereinstimmungsstudie zwischen den Annotatoren durch und passten die Ausfallarten und Fehlerklassen iterativ an, indem sie Definitionen hinzufügten, entfernten, zusammenführten, aufteilten oder änderten, bis ein Konsens erreicht war . Dieser Prozess spiegelt einen Lernansatz wider, bei dem die Taxonomie kontinuierlich verfeinert wird, bis Stabilität erreicht ist, wobei der Kappa-Koeffizient verwendet wird, um die Übereinstimmung zwischen den Annotatoren zu messen. Abbildung |Methode zur Klassifizierung des Fehlermodus eines Multi-Agenten-Systems Letztendlich umfasst MASFT drei allgemeine Fehlerkategorien: Spezifikations- und Systemdesignfehler; Fehlausrichtung zwischen Agenten; und Aufgabenüberprüfung und -beendigung , wobei 14 feinkörnige Fehlermodi identifiziert werden, die bei der Ausführung von Multiagentensystemen auftreten können. MASFT unterteilt die Ausführung eines Multiagentensystems außerdem in drei Phasen: vor der Ausführung, während der Ausführung und nach der Ausführung, und identifiziert die Ausführungsphase des Multiagentensystems, in der jeder feinkörnige Fehlermodus auftreten kann. Abbildung | Korrelationsmatrix der Fehlerkategorien im Multiagentensystem Darüber hinaus stellten sie fest, dass Multi-Agenten-Systeme mit ähnlichen Problemen konfrontiert sind wie komplexe menschliche Organisationen und dass ihre Fehlermodi mit den in menschlichen Organisationen beobachteten häufigen Fehlermodi übereinstimmen . „Nicht um Klärung zu bitten“ untergräbt den „Respekt vor Fachwissen“ und „Fehlausrichtung der Agenten“ spiegelt die Notwendigkeit wider, hierarchische Unterscheidungen zu stärken und die Rollenverteilung zu koordinieren. Die Effektivität der Multi-Agenten-Zusammenarbeit muss noch verbessert werden Für alle oben genannten Fehlerkategorien schlug das Forschungsteam taktische und strukturelle Strategien vor. Taktische Strategien umfassen direkte Änderungen, die auf bestimmte Fehlermodi abzielen, wie etwa die Verbesserung von Eingabeaufforderungen, der Topologie des Agentennetzwerks und des Dialogmanagements. Zwei Fallstudien zeigen jedoch, dass die Wirksamkeit dieser Ansätze nicht einheitlich ist. Strukturelle Strategien , d. h. ganzheitlichere Ansätze, die sich auf das gesamte System auswirken: starke Verifizierung, verbesserte Kommunikationsprotokolle, Quantifizierung von Unsicherheiten sowie Speicher- und Zustandsverwaltung. Diese Strategien erfordern eingehendere Forschung und sorgfältige Umsetzung und bleiben Forschungsthemen, die auch in Zukunft untersucht werden müssen. Abbildung |Lösungsstrategie und Fehlerklassifizierung des Multiagentensystems Das Forschungsteam hat diese strategischen Ansätze in zwei Fallstudien angewendet. Im ersten Fall verwendeten sie die Implementierung des MathChat -Szenarios in AG2 als Grundlage, in dem ein studentischer Agent mit einem Assistenzagenten zusammenarbeitet, der Python-Code ausführen kann, um ein Problem zu lösen. Für das Benchmarking wählten sie zufällig 200 Übungen aus dem GSM-Plus-Datensatz aus. Die erste Strategie besteht darin, die ursprüngliche Eingabeaufforderung so zu verbessern, dass sie eine klare Struktur und einen neuen Abschnitt zur Überprüfung aufweist. Die zweite Strategie besteht darin, die Agentenkonfiguration zu einem spezialisierteren System mit drei verschiedenen Rollen zu verfeinern: einem Problemlöser , der Probleme ohne Werkzeuge mithilfe eines Gedankenkettenansatzes löst; ein Coder , der Python-Code schreibt und ausführt, um zur endgültigen Antwort zu gelangen; und einen Prüfer , der die Diskussion überprüft und die Lösung kritisch bewertet, indem er entweder die Antwort bestätigt oder eine weitere Diskussion anregt. In diesem Fall kann nur der Prüfer das Gespräch beenden, sobald eine Lösung gefunden wurde. Im zweiten Fall simuliert ChatDev ein Softwareunternehmen mit mehreren Agenten, in dem verschiedene Agenten unterschiedliche Rollen haben, z. B. CEO, CTO, Softwareentwickler und Prüfer, die versuchen, bei der Lösung einer Softwaregenerierungsaufgabe zusammenzuarbeiten. Sie führten zwei unterschiedliche Interventionen durch. Das erste bestand darin, die Eingabeaufforderungen für bestimmte Rollen zu verbessern, um Hierarchie und Rollenkonsistenz durchzusetzen. Der zweite Versuch beinhaltete eine grundlegende Änderung der Topologie des Frameworks, indem die Stoppstruktur des Frameworks von einem gerichteten azyklischen Graphen (DAG) in einen zyklischen Graphen geändert wurde. Jetzt wird der Prozess erst beendet, wenn der CTO-Agent bestätigt, dass alle Überprüfungen ordnungsgemäß durchgeführt wurden, und es wird eine maximale Iterationsfrist festgelegt, um Endlosschleifen zu vermeiden. Dieser Ansatz ermöglicht iterative Verbesserungen und eine umfassendere Qualitätssicherung. Abbildung | Leistungsgenauigkeit verschiedener Lösungen Das Forschungsteam ist der Ansicht, dass viele der „offensichtlichen“ Lösungen tatsächlich ernsthafte Einschränkungen aufweisen und dass die skizzierten strukturellen Strategien erforderlich sind, um beständigere Verbesserungen zu erreichen. Angesichts der Informationsredundanz und Konflikte bei der aktuellen Multi-Agenten-Koordination und der verstärkten Modellabweichung bei der Zusammenarbeit müssen zukünftige Multi-Agenten-Systeme eine schnelle Reaktion, Echtzeitüberprüfung und dynamische Koordination erreichen, um die Effektivität der Teamzusammenarbeit zu verbessern . „LLM-basierte Multiagenten haben noch immer ein gewisses Potenzial in Bereichen wie der verteilten wissenschaftlichen Forschungszusammenarbeit und Notfallreaktionssystemen.“ Autor: Yu Ke |
Im Leben entscheiden sich viele Menschen für Spor...
In der modernen Gesellschaft legen nicht nur Frau...
Starke Muskeln aufzubauen ist der Traum vieler Ju...
Fitness ist eine besonders wichtige Sache in unse...
Vor nicht allzu langer Zeit erregte ein Video, da...
Da sich der Lebensstandard weiter verbessert, hab...
Ausländische Medien berichteten kürzlich, dass zw...
Fitness ist nicht nur gut für die körperliche Ges...
Laufen ist eine der beliebtesten Sportarten. Viel...
Trotz der durch die globale Pandemie in den letzt...
Heutzutage legen die Menschen viel Wert auf ihre ...
Chinas Position auf dem globalen Fernsehmarkt war...
Freunde, die gerne Fitness betreiben, werden ein ...
Durch Abnehmen behalten Sie nicht nur Ihre Figur,...
Die russischen Nachrichtenagentur Sputnik News be...