Forschung & Umfragen

Studie untersucht KI in der zahnmedizinischen Ausbildung

Künstliche Intelligenz hält zunehmend Einzug in Ausbildung und Studium – auch in der Medizin. Eine Studie aus Großbritannien hat deshalb untersucht, wie leistungsfähig große Sprachmodelle tatsächlich sind, wenn sie mit echten Prüfungsfragen aus der zahnmedizinischen Ausbildung konfrontiert werden.
Von Öffentlichkeitsarbeit (pd)
Erstellt am 10.03.2026
Quelle: British Dental Journal
Künstliche Intelligenz in der Zahnmedizin © AdriaVidal – stock.adobe.com

KI-Modelle im Test mit echten Prüfungen

Für die Untersuchung wurden insgesamt mehr als 400 Prüfungsaufgaben aus realen britischen Studiengängen herangezogen, darunter Programme für den Bachelor of Dental Surgery sowie für Dental Hygiene and Therapy. Die drei getesteten Sprachmodelle ChatGPT-4o, Grok2 und Gemini mussten 340 Multiple-Choice-Fragen, 80 Kurzantwortaufgaben sowie drei strukturierte mündliche Prüfungen bearbeiten.

Darüber hinaus erhielten sie eine zusätzliche Aufgabe: Die Systeme sollten selbst 140 neue Prüfungsfragen formulieren. Ziel war es herauszufinden, ob KI-Modelle nicht nur Prüfungen bestehen können, sondern auch in der Lage sind, geeignete Prüfungsaufgaben zu erstellen.

Bestehen möglich – aber Schwächen bei der Erstellung von Fragen

Insgesamt konnten alle getesteten Systeme die Prüfungen bestehen. Bei den Multiple-Choice-Aufgaben zeigten sich keine wesentlichen Leistungsunterschiede zwischen den Modellen. Bei den Kurzantwortfragen schnitten ChatGPT-4o und Grok2 besser ab als Gemini, das insbesondere bei Aufgaben aus den britischen Curricula geringere Ergebnisse erzielte.

Deutlich schwieriger wurde es für die KI jedoch, als sie selbst Prüfungsfragen entwickeln sollte. Zwar gelang es grundsätzlich, Aufgaben zu generieren, doch die Qualität ließ häufig zu wünschen übrig. Die Forschenden stellten unter anderem unklare Formulierungen, veraltete Fachbegriffe sowie didaktische Schwächen fest. Teilweise enthielten die Fragen doppelte Verneinungen, unpassende Antwortmöglichkeiten oder Bewertungsschemata, die eher an Lehrbuchtexte als an strukturierte Prüfungsleitfäden erinnerten.

Besonders bei Aufgaben mit höherem Anspruch hatten die Modelle Schwierigkeiten. Viele der generierten Fragen blieben auf einem eher oberflächlichen Niveau und erreichten selten die für Prüfungen wichtige Ebene der klinischen Anwendung. In Bereichen wie Parodontologie oder Materialkunde wurden zahlreiche Aufgaben als ungeeignet bewertet.

KI kann unterstützen – aber nicht prüfen

Nach Einschätzung der Autoren zeigt die Studie, dass große Sprachmodelle zwar bei der Beantwortung von Prüfungsfragen mithalten können. Für die Entwicklung hochwertiger Prüfungsaufgaben reichen ihre Fähigkeiten derzeit jedoch noch nicht aus. Die Systeme können demnach beim Lernen unterstützen, ersetzen aber nicht die fachliche und didaktische Expertise menschlicher Lehrender.

Mehr erfahren

KI auf dem Prüfstand

Zur Studie “Performance of large language models (ChatGPT-4o, Grok2 and Gemini) in UK dentistry and dental hygiene and therapy assessments” gelangen Sie über den untenstehenden Link