Die Erkennungsrate liegt bei knapp 90 %! KI-Roboter: Tumor, wo kannst du dich verstecken?

Die Erkennungsrate liegt bei knapp 90 %! KI-Roboter: Tumor, wo kannst du dich verstecken?

Verfasst von: Tian Xiaoting

Krebs ist mittlerweile eine der häufigsten Todesursachen in der Weltbevölkerung. Jedes Jahr sterben Millionen Menschen an Krebs. Nach Angaben der Weltgesundheitsorganisation kann ein Drittel aller Krebserkrankungen durch Früherkennung und frühzeitige Behandlung geheilt werden.

Allerdings war die Krebserkennung im medizinischen Bereich schon immer eine große Herausforderung, insbesondere in der pathologischen Analyse. Die genaue Identifizierung und Diagnose von Tumoren ist für die Behandlung der Patienten von entscheidender Bedeutung, doch herkömmliche pathologische Untersuchungen beruhen in hohem Maße auf der Erfahrung und dem Fachwissen von Experten.

Mit der Entwicklung großer Modelle wie GPT-4 hat sich die Forschung zur Verwendung künstlicher Intelligenz (KI) zur Unterstützung der pathologischen Diagnose allmählich entwickelt, viele KI-Systeme haben jedoch in praktischen Anwendungen immer noch Probleme mit unzureichender Leistung und mangelnder Interaktivität .

Kürzlich haben ein Forschungsteam der Harvard Medical School und seine Mitarbeiter einen allgemeinen KI-Assistenten mit visueller Sprache für die menschliche Pathologie entwickelt – PathChat . Das System kann Krankheiten anhand von Biopsieobjektträgern in fast 90 % der Fälle korrekt identifizieren und übertrifft damit allgemeine KI-Modelle und professionelle medizinische Modelle, die derzeit auf dem Markt sind, wie beispielsweise GPT-4V.

Die zugehörige Forschungsarbeit mit dem Titel „A Multimodal Generative AI Copilot for Human Pathology“ wurde in der wissenschaftlichen Zeitschrift Nature veröffentlicht.

Es ist erwähnenswert, dass diese bahnbrechende Technologie nicht nur Tumore identifizieren, sondern auch mit Benutzern interagieren kann und so neue Werkzeuge und Perspektiven für die Diagnose und Erforschung von Pathologien bietet.

PathChat: KI-Assistent zur multimodalen Pathologieerkennung

Im Laufe der Jahre hat die computergestützte Pathologie große Fortschritte in den Bereichen der pathologischen Morphologiedatenanalyse, der molekularen Detektionsdatenanalyse usw. gemacht. Dieses Teilforschungsfeld, das durch die Schnittstelle zwischen Pathologie und Technologien wie KI und Computer Vision gebildet wird, entwickelt sich allmählich zu einem Forschungsschwerpunkt im Bereich der medizinischen Bildanalyse.

Die Computerpathologie verwendet Bildverarbeitung und KI-Technologie, um KI-basierte Computerpathologiemodelle zu erstellen, histopathologische Bilder zu erhalten und vorläufige Beurteilungen des morphologischen Erscheinungsbilds histopathologischer Bilder durchzuführen, um mithilfe automatischer Bildanalysetechnologie eine Zusatzdiagnose, quantitative Auswertung und Entscheidungsfindung zu erreichen.

Angesichts des explosionsartigen Wachstums generativer KI-Technologien, die durch ChatGPT repräsentiert werden, werden multimodale Großsprachenmodelle (MLLMs) derzeit zunehmend in der computergestützten Pathologieforschung und der klinischen Pathologiepraxis eingesetzt. Im spezialisierteren Teilgebiet der anatomischen Pathologie befindet sich die Forschung zur Entwicklung eines allgemeinen, multimodalen KI-Assistenten für die Pathologie jedoch noch in einem frühen Stadium.

In dieser Arbeit entwickelte das Forschungsteam PathChat, einen multimodalen generativen KI-Assistenten speziell für die humanpathologische Forschung. Sie haben durch selbstüberwachtes Lernen mehr als 100 Millionen Zellgewebe-Bildfragmente aus mehr als 1 Million Schnitten vorab trainiert und diese mit einem SOTA Pure Vision Encoder UNI kombiniert, um ein MLLM zu generieren, das visuelle und natürliche Spracheingaben verarbeiten kann. Nach der Feinabstimmung eines Datensatzes mit mehr als 450.000 Anweisungen erstellten sie PathChat.

Abbildung|Anweisung zur Feinabstimmung des Datensatzes und der PathChat-Konstruktion. (Quelle: Dieses Dokument)

Die Studie ergab, dass PathChat nicht nur multimodale Eingaben verarbeiten kann, sondern auch genaue Antworten auf komplexe pathologiebezogene Anfragen liefern kann und in fast 90 % der Fälle Krankheiten anhand von Biopsieobjektträgern richtig identifiziert.

Übertrifft GPT-4V mit einer Genauigkeitsrate von fast 90 %

Um die Erkennungsleistung von PathChat zu testen, verglich das Forschungsteam PathChat mit dem Open-Source-Modell LLaVA, dem für den biomedizinischen Bereich angepassten LLaVA-Med und GPT-4V.

Sie entwarfen ein PathQABench-Vergleichsexperiment und verglichen die Erkennungsleistung von PathChat mit LLaVA, LLaVA-Med und GPT4V, indem sie pathologische Fälle von verschiedenen Organstellen und Praktiken analysierten.

Abbildung | Multiple-Choice-Bewertung von PathChat. (Quelle: Dieses Dokument)

Die Ergebnisse zeigten, dass die diagnostische Genauigkeit von PathChat ohne Bereitstellung eines klinischen Kontexts deutlich besser war als die von LLaVA 1.5 und LLaVA-Med. Bei der ausschließlichen Auswertung von Bildern lag die Genauigkeit von PathChat bei allen kombinierten Benchmarks bei 78,1 %, also 52,4 % höher als bei LLaVA 1.5 und 63,8 % höher als bei LLaVA-Med.

Nach Bereitstellung des klinischen Kontexts verbesserte sich die Genauigkeit von PathChat weiter auf 89,5 % , was 39,0 % höher ist als bei LLaVA 1.5 und 60,9 % höher als bei LLaVA-Med.

Durch Vergleichsexperimente wurde festgestellt, dass PathChat viele Vorhersagefähigkeiten aus den visuellen Merkmalen des Bildes gewinnen kann, anstatt sich ausschließlich auf den klinischen Hintergrund zu verlassen. Es sind lediglich nicht-visuelle Informationen erforderlich, die durch die normale natürliche Sprache bereitgestellt werden, um multimodale Informationen effektiv und flexibel für eine genaue Diagnose histologischer Bilder zu nutzen.

Um die Genauigkeit der Antworten jedes Modells auf offene Fragen objektiv zu bewerten, rekrutierte das Forschungsteam sieben Pathologen, um ein Bewertungsteam zu bilden. Durch den Vergleich der Antworten der vier Modelle auf 260 offene Fragen analysierten sie die Genauigkeit der Modellerkennung.

Abbildung | Auswertung der öffentlichen Reaktionen auf PathChat und Reader Research durch ein Gremium aus sieben Pathologen. (Quelle: Dieses Dokument)

Bei den offenen Fragen, bei denen die sieben Experten einen Konsens erzielen konnten, lag die Gesamtgenauigkeit von PathChat bei 78,7 %, was 26,4 %, 48,9 % bzw. 48,1 % höher war als bei GPT-4V, LLaVA 1.5 und LLaVA-Med. Im Allgemeinen zeigt PathChat im Vergleich zu den anderen drei Modellen eine bessere Leistung .

Die Forscher sagten, dass PathChat subtile morphologische Details in pathologischen Gewebebildern analysieren und beschreiben kann und neben der Bildeingabe auch Fragen beantworten kann, die Hintergrundwissen in Pathologie und allgemeiner Biomedizin erfordern, und dass es voraussichtlich zu einem wichtigen Hilfsmittel für Pathologen und Forscher wird.

Obwohl PathChat in Experimenten gute Ergebnisse erzielt, gibt es in der praktischen Anwendung noch einige Herausforderungen. Beispielsweise, wie sichergestellt werden kann, dass das Modell ungültige Abfragen erkennen und fehlerhafte Ausgaben vermeiden kann, wie es mit den neuesten medizinischen Erkenntnissen auf dem neuesten Stand gehalten werden kann usw. Darüber hinaus stammen die Trainingsdaten von PathChat hauptsächlich aus historischen Daten, was dazu führen kann, dass sie eher den „wissenschaftlichen Konsens der Vergangenheit“ als die neuesten Informationen widerspiegeln.

Die Forscher sagen, dass zukünftige Forschungen die Fähigkeiten von PathChat weiter verbessern könnten, einschließlich der Unterstützung ganzer Gigapixel-WSIs oder mehrerer WSI-Eingaben sowie der Integration der Unterstützung für spezifischere Aufgaben, wie etwa das genaue Zählen oder Lokalisieren von Objekten. Darüber hinaus kann die Integration von PathChat mit Tools wie digitalen Diabetrachtern oder elektronischen Patientenakten ebenfalls von Vorteil sein, um seinen Nutzen in der klinischen Praxis zu verbessern.

Vor Kurzem wurde das multimodale generative künstliche Intelligenzmodell PathChat 2 veröffentlicht. Es kann pathologische Bilder und Texte analysieren, abwechselnd mehrere hochauflösende Bilder und Texte in einem interaktiven Folienbetrachter anzeigen und so eine umfassendere Beurteilung jedes Konsultationsfalls ermöglichen.

Im Vergleich zu PathChat 1 weist es eine deutlich verbesserte Leistung bei der Differentialdiagnose und morphologischen Beschreibung auf und ist auch besser bei der Anweisungsverfolgung und der Durchführung verschiedener Aufgaben wie der Beantwortung offener Fragen und der Zusammenfassung von Berichten.

Quellen:

https://www.nature.com/articles/s41586-024-07618-3

https://www.modella.ai/intro.html

<<:  Blitze für Strom sorgen lassen? Blitze versorgen die Welt nur neun Tage im Jahr mit Strom.

>>:  Dringende Erinnerung! Beim Öffnen eines Lieferfachs während eines Gewitters besteht die Gefahr eines Stromschlags!

Artikel empfehlen

Was ist der Grund für die enormen Verluste von Meitu?

Meitu, das Unternehmen, das mit seiner App Meitu ...

Wie wäre es mit Tai Chi als Trainingsmethode für Menschen mittleren Alters?

Tai Chi ist ein traditionelles chinesisches Kung ...

YouGov: 6 von 10 Singapurern haben über soziale Medien eingekauft

199IT Originalkompilation Die neueste Umfrage von...

Welche Fitnessgeräte gibt es zum Abnehmen?

Fitness und Gewichtsverlust sind der aktuelle Tre...

Eine Thermoskanne ist im Winter ein Muss. Wie kauft man eine sichere?

Jetzt, wo das Wetter kälter wird, verwenden viele...

Wird der Trend zum Flashen von ROMs von Drittanbietern wieder auftauchen?

Wer den frühen „Flashing“-Trend bei Android-Telefo...

Welche Übungen sind für Patienten mit einer Fettleber geeignet?

Mit der Verbesserung der Lebensqualität leiden vi...