KI-Modelle im Test mit echten Prüfungen
Für die Untersuchung wurden insgesamt mehr als 400 Prüfungsaufgaben aus realen britischen Studiengängen herangezogen, darunter Programme für den Bachelor of Dental Surgery sowie für Dental Hygiene and Therapy. Die drei getesteten Sprachmodelle ChatGPT-4o, Grok2 und Gemini mussten 340 Multiple-Choice-Fragen, 80 Kurzantwortaufgaben sowie drei strukturierte mündliche Prüfungen bearbeiten.
Darüber hinaus erhielten sie eine zusätzliche Aufgabe: Die Systeme sollten selbst 140 neue Prüfungsfragen formulieren. Ziel war es herauszufinden, ob KI-Modelle nicht nur Prüfungen bestehen können, sondern auch in der Lage sind, geeignete Prüfungsaufgaben zu erstellen.
Bestehen möglich – aber Schwächen bei der Erstellung von Fragen
Insgesamt konnten alle getesteten Systeme die Prüfungen bestehen. Bei den Multiple-Choice-Aufgaben zeigten sich keine wesentlichen Leistungsunterschiede zwischen den Modellen. Bei den Kurzantwortfragen schnitten ChatGPT-4o und Grok2 besser ab als Gemini, das insbesondere bei Aufgaben aus den britischen Curricula geringere Ergebnisse erzielte.
Deutlich schwieriger wurde es für die KI jedoch, als sie selbst Prüfungsfragen entwickeln sollte. Zwar gelang es grundsätzlich, Aufgaben zu generieren, doch die Qualität ließ häufig zu wünschen übrig. Die Forschenden stellten unter anderem unklare Formulierungen, veraltete Fachbegriffe sowie didaktische Schwächen fest. Teilweise enthielten die Fragen doppelte Verneinungen, unpassende Antwortmöglichkeiten oder Bewertungsschemata, die eher an Lehrbuchtexte als an strukturierte Prüfungsleitfäden erinnerten.
Besonders bei Aufgaben mit höherem Anspruch hatten die Modelle Schwierigkeiten. Viele der generierten Fragen blieben auf einem eher oberflächlichen Niveau und erreichten selten die für Prüfungen wichtige Ebene der klinischen Anwendung. In Bereichen wie Parodontologie oder Materialkunde wurden zahlreiche Aufgaben als ungeeignet bewertet.
KI kann unterstützen – aber nicht prüfen
Nach Einschätzung der Autoren zeigt die Studie, dass große Sprachmodelle zwar bei der Beantwortung von Prüfungsfragen mithalten können. Für die Entwicklung hochwertiger Prüfungsaufgaben reichen ihre Fähigkeiten derzeit jedoch noch nicht aus. Die Systeme können demnach beim Lernen unterstützen, ersetzen aber nicht die fachliche und didaktische Expertise menschlicher Lehrender.
Mehr erfahren
KI auf dem Prüfstand
Zur Studie “Performance of large language models (ChatGPT-4o, Grok2 and Gemini) in UK dentistry and dental hygiene and therapy assessments” gelangen Sie über den untenstehenden Link