Generative KI im Praxiseinsatz: Wie konsistent bewertet GPT-4 Studierende?

Veröffentlicht am 14. August 202314. August 2023 von Matthias Kindt

Kann man davon ausgehen, dass GPT-4 eine Antwort immer gleich bewertet? Wir planten den Einsatz eines Sprachmodells zur Bewertung von schriftlichen Antworten im Rahmen einer großen Veranstaltung an der Uni Passau↓. Im Vorfeld haben wir zahlreiche Prompts und Einstellungen getestet. Konkret ging es uns darum, festzustellen, ob GPT-4 mit einem optimierten Prompt in der Lage ist, konsistente Bewertungen über verschiedene Iterationen, Zeiträume und stilistische Variationen hinweg zu liefern. Die Bewertungen enthielten ausformuliertes Feedback mit Hinweisen zur Verbesserung sowie numerische Ratings für den Inhalt und den Stil der Antwort. Die Bewertungskriterien wurden im Prompt vorgegeben. Insgesamt zeigt sich, dass KI-Modelle wie GPT-4 das Potenzial haben, eine konsistente Bewertung von Antworten zu liefern.

Dabei wurde folgendes Vorgehen gewählt: Es gab acht Sets an Fragestellungen sowie Musterlösungen. Zu jeder dieser Fragestellung wurden 14 verschiedene Antworten erstellt. Das Grundgerüst des Prompts, also der Anweisung an das Sprachmodell, wurde für jede Fragestellung angepasst, in dem die Fragestellung sowie die Musterlösung eingefügt wurden. Anschließend wurden zwölf Bewertungsrunden zu unterschiedlichen Zeitpunkten durchgeführt. Jede Bewertung durch das Sprachmodell wurde als separater Rater gewertet. Die Bewertung wurde erstellt, in dem das Sprachmodell über die Schnittstelle aufgerufen wurde und den Prompt sowie die Antwort erhielt. Ein weiteres Training oder Fine-Tuning des Sprachmodells hat nicht stattgefunden. Neben der Optimierung des Prompts wurden die Systemeinstellungen entsprechend angepasst, um GPT-4 in ein möglichst deterministisches Verhalten zu zwingen.

Die Werte für die Interrater Reliabilität lagen für diesen Versuchsaufbau je nach Zeitraum zwischen 0,94 und 0,99. Dieser hohe Wert zeigt, dass GPT-4 in der Lage ist, über Wiederholungen hinweg konsistente Bewertungen zu generieren, sofern ein klarer Prompt gegeben ist. Eine weitere Beobachtung zeigt, dass auch bei einer Umformulierung der zu bewertenden Antworten die Inhaltsbewertungen konstant blieben, auch wenn der Stil drastisch verändert wurde. Dazu wurden die Antworten inhaltlich auf einem ähnlichen Niveau beibehalten, während sie stilistisch in der Tonalität eines US-amerikanischen Rappers angepasst wurden. Das Ergebnis deutet darauf hin, dass GPT-4 zwischen den Bewertungskriterien Inhalt und Stil unterscheiden kann.

*Die hier vorgestellte Studie diente zur Validierung der Zuverlässigkeit eines Prompts, der in einer umfangreichen Feldstudie im Rahmen einer größeren Veranstaltung an der Uni Passau eingesetzt wurde. Die Ergebnisse der Feldstudie werden derzeit noch ausgewertet. Das BMBF-geförderte Projekt DeepWrite beschäftigt sich mit dem Einsatz von generativer KI zur Vermittlung von Argumentationskompetenz in den Fachbereichen Jura und Wirtschaft.