Ein KI-generiertes Bild einer KI, die in der Intensivstation über einen Patienten wacht. Bildrechte: TU Wien

Wissen-News Medizin und KI: ChatGPT erreicht eine Diagnose-Genauigkeit von etwa 72 Prozent

23. August 2023, 08:21 Uhr

Ein Forschungsteam hat ChatGPT bei klinischen Fragen getestet und wollte wissen, wie hoch die Diagnose-Genauigkeit der KI liegt. Besonders beim Treffen von endgültigen Diagnosen schnitt das Tool gut ab, bei Fragen zur medikamentösen Behandlung weniger gut.

Ein Team des gemeinnützigen, integrierten Gesundheitssystems Mass General Brigham (USA) hat ChatGPT für medizinische Untersuchungen getestet. Es sollte bei der klinischen Erstellung von möglichen Diagnosen bis hin zu endgültigen Diagnosen und Entscheidungen zum Versorgungsmanagement helfen.

Der Chatbot mit künstlicher Intelligenz schnitt sowohl in der Primärversorgung als auch in der Notaufnahme in allen medizinischen Fachbereichen gleich gut ab: Er erreichte eine Diagnose-Genauigkeit von etwa 72 Prozent. Damit würde der Chatbot auf dem Leistungslevel eines Absolventen (beispielsweise eines Assistenzarztes) der medizinischen Fakultät liegen – wobei dies nur eine Einschätzung des Forschungsteams ist und es keine wirklichen Vergleichsdaten dazu gibt. Die dazugehörigen Ergebnisse wurden im Journal of Medical Internet Research veröffentlicht.

ChatGPT als Hilfstool in Medizinfragen

Für die Studie wurden nacheinander Teile von 36 standardisierten und veröffentlichten klinischen Vignetten in ChatGPT eingefügt. Das Tool wurde zunächst gebeten, eine Reihe möglicher oder differenzierter Diagnosen auf der Grundlage der anfänglichen Informationen des Patienten zu erstellen. Dazu gehörten Daten zum Alter, Geschlecht und Symptomen, und ob es sich um einen Notfall handelte.

ChatGPT erhielt dann zusätzliche Informationen, wurde gebeten, Entscheidungen über die Behandlung zu treffen und eine endgültige Diagnose zu erstellen - was einer Simulation des gesamten Prozesses bei einem echten Patienten entsprach. Insgesamt wies ChatGPT eine Genauigkeit von etwa 72 Prozent auf.

Am besten schnitt es bei der Erstellung einer endgültigen Diagnose ab (77 Prozent Genauigkeit) und am schlechtesten bei der Erstellung von Differenzialdiagnosen (60 Prozent Genauigkeit). Bei klinischen Managemententscheidungen wie bei der Frage zur medikamentösen Behandlung der Patienten nach der korrekten Diagnose lag die Genauigkeit bei nur 68 Prozent. Die Antworten von ChatGPT wiesen keine geschlechtsspezifischen Unterschiede auf; die Gesamtleistung war sowohl in der Primär- als auch in der Notfallversorgung stabil.