27.05.2024 | Künstliche Intelligenz | Originalien
ChatGPT und die deutsche Facharztprüfung für Augenheilkunde: eine Evaluierung
verfasst von:
Dr. med. Rémi Yaïci, FEBO, M. Cieplucha, R. Bock, F. Moayed, N. E. Bechrakis, P. Berens, N. Feltgen, D. Friedburg, M. Gräf, R. Guthoff, E. M. Hoffmann, H. Hoerauf, C. Hintschich, T. Kohnen, E. M. Messmer, M. M. Nentwich, U. Pleyer, U. Schaudig, B. Seitz, G. Geerling, M. Roth
Erschienen in:
Die Ophthalmologie
|
Ausgabe 7/2024
Einloggen, um Zugang zu erhalten
Zusammenfassung
Fragestellung
In den letzten Jahren nimmt die künstliche Intelligenz (KI) als neues Segment der Informatik auch in der Medizin eine immer größere Bedeutung ein. Ziel dieses Projekts war es zu untersuchen, ob die aktuelle Version von ChatGPT (ChatGPT 4.0) in der Lage ist, offene Fragen zu beantworten, die im Rahmen einer deutschen Facharztprüfung in der Augenheilkunde gestellt werden könnten.
Methoden
Aus dem Lehrbuch „1000 Fragen Augenheilkunde“ (2. Auflage, 2014) wurden nach Ausschluss bildbasierter Fragen jeweils 10 Fragen aus 15 verschiedenen Kapiteln/Themenschwerpunkten ausgewählt. ChatGPT wurde mittels eines sog. Prompt instruiert, die Rolle eines Facharztes für Augenheilkunde einzunehmen und sich im Umfang der Antworten auf das Wesentliche zu konzentrieren. Die Bewertung eines Themengebietes erfolgte durch einen in der Subspezialität langjährig erfahrenen Ophthalmologen, welcher die Antworten hinsichtlich Richtigkeit, Themenrelevanz und innerer Kohärenz beurteilte und die Gesamtleistung mit einer Schulnote bewertete.
Ergebnisse
ChatGPT hätte die Facharztprüfung in 12 von 15 Themengebieten bestanden. Allerdings war die Gesamtleistung auf nur 53,3 % vollständig korrekte Antworten beschränkt. Während die Korrektheit der Ergebnisse in den unterschiedlichen Themengebieten sehr variabel war („Uveitis“ und „Linse/Katarakt“ 100 %; „Optik und Refraktion“ 20 %), hatten die Antworten stets eine hohe thematische Passgenauigkeit (70 %) und innere Kohärenz (71 %).
Schlussfolgerung
Die Tatsache, dass ChatGPT 4.0 in 12 von 15 Themengebieten die Facharztprüfung bestanden hätte, ist vor dem Hintergrund bemerkenswert, dass diese KI nicht spezifisch für medizinische Fragestellungen trainiert wurde. Allerdings offenbart sich eine erhebliche Leistungsvarianz zwischen den Themengebieten mit zum Teil gravierenden Mängeln, die einen sicheren Einsatz in der klinischen Praxis derzeit ausschließt.