„LLMentor“: Automatisiertes KI-Feedback bei Einreichungen von Exposés

In einem gemeinsamen Forschungspapier haben Beteiligte der TU Darmstadt und des hessian.ai mit Forschenden der City University of New York (CUNY) den Fokus auf eine automatisierte Korrektur mithilfe von Sprachmodellen im Rahmen von Exposés gelegt. Das KI-Assistenzsystem „LLMentor“ soll Lehrende entlasten und konsistentes Feedback ermöglichen, ohne die wichtigen Entscheidungen wie eine Notenvergabe an die KI abzugeben.

Zur großen PDF-Ansicht

Zum PDF auf arXiv

Zum Beitrag der TU Darmstadt

Das oben eingebundene PDF zeigt das offizielle Paper, das über die Forschungsplattform arXiv veröffentlicht wurde und jederzeit frei einsehbar ist. Im Zentrum der Untersuchung steht die Frage, inwiefern es möglich ist, ein KI-System wie ein Sprachmodell im Rahmen von Entwürfen für wissenschaftliche Abschlussarbeiten (Exposés) wie Bachelor- oder Masterarbeiten einzubinden, um bei einer möglichst konsistenten KI-Feedbackmethode die Prüferinnen & Prüfer nachhaltig zu entlasten.

Das Erlernen des wissenschaftlichen Schreibens braucht präzises Feedback – eine besondere Herausforderung in sehr großen Lehrveranstaltungen mit vielen Teilnehmenden. Im Fachbereich Informatik der TU Darmstadt unterstützt deshalb erstmals das KI-Assistenzsystem „LLMentor“ die Bewertung studentischer Exposés und Peer-Reviews für die Abschlussarbeiten. Quelle: TU Darmstadt

Als KI-Systeme wurden ausschließlich offene Sprachmodelle verwendet. Hierbei handelt es sich um Qwen3 (80B), Llama 3.3 (70B) und die beiden offenen Modelle von OpenAI GPT-OSS (120B) und GPT-OSS-(20B). Die Modelle lassen sich kostenlos auf Plattformen wie Hugging Face oder GitHub herunterladen.
 
Bildquelle: Team Exposia

Die obere Abbildung zeigt den Prozess der Bewertung eines Exposés mit den im Vorfeld festgelegten Bewertungskriterien für ein Exposé (36) und dem Peer-Feedback (24) von Kommilitonen. An diesen Kriterien orientieren sich sowohl menschliche Prüfer als auch die verwendeten Sprachmodelle. Ein optimales Prompting wäre hier durchaus wichtig, damit ein LLM wie Qwen oder Llama auch bestmöglich auf Grundlage genau dieser Kriterien die KI-Bewertung vornehmen kann.

Die wissenschaftliche Grundlage bildet der Datensatz Exposía, den Zyska vom UKP Lab parallel öffentlich bereitgestellt hat. Exposía dokumentiert den gesamten Kursprozess vom Exposé-Entwurf über Kommentare und Reviews bis zur überarbeiteten finalen Version und macht damit systematische Auswertungen möglich. Quelle: TU Darmstadt

Screenshot aus ChatGPT

Im Zentrum der Berechnungen steht der QWA-Wert. Dieser steht für Quadratic Weighted Agreement und bemisst die Übereinstimmung. Ein große Übereinstimmung von Mensch und KI kann als positiv gewertet werden und daher wäre zum Beispiel ein QWA von 0,9 als positiv und ein QWA von ca. 0,6 eher als negativ anzusehen. Schließlich soll sich ein Sprachmodell bei der automatisierten Bewertung am Menschen und „unseren“ Kriterien orientieren. Theoretisch wäre es jedoch möglich, dass ein LLM-Human-QWA bei 0,5 liegt und das LLM trotzdem eine gute Bewertung durchgeführt hat, die womöglich einen ganz anderen Weg fernab von einer optimierten menschlichen Festlegung gefunden hat. Aber KI soll sich in dem Forschungspapier (noch) am Menschen orientieren und nicht umgekehrt 😉

„LLMentor“ ist dabei keine automatische Benotungsmaschine, sondern eine Entscheidungsunterstützung: Auf Basis transparenter Bewertungsraster macht das System Vorschläge, etwa eine vorläufige Punktzahl je Kriterium, kurze Begründungen und Formulierungsimpulse für Feedback. Quelle: TU Darmstadt

Bildquelle: Team Exposia

Die obere Abbildung aus dem Exposia-Paper zeigt diese Übereinstimmungen im Rahmen eines Exposés bei zunehmender Komplexität, also dem Expertise-Level. Je tiefgründiger solch ein Exposé verfasst ist, desto schwieriger wird insgesamt die Bewertung, sowohl für den menschlichen Prüfer als auch für die KI. Am besten schneidet hierbei das LLM Llama 3.3 (70B) ab, da es sich fast identisch zur Human-Human-Linie verhält. Qwen3 (80B) verliert stärker an Übereinstimmung, je höher das Expertise-Level ansteigt und die beiden Sprachmodelle GPT-OSS wirken im Verhalten etwas „verwirrt“.

Eingebunden ist „LLMentor“ in das bereits etablierte CARE-Framework, das in der Veranstaltung schon vor dem Einsatz von KI genutzt wurde. CARE ist die zentrale Kursplattform, über die der gesamte Prozess organisiert wird: Studierende reichen dort ihre Exposés ein, geben Peer-Reviews ab und erhalten Rückmeldungen, während das Lehrteam über dieselbe Umgebung Korrekturen, Bewertungen und Feedback koordiniert. Quelle: TU Darmstadt

Also ließe sich durchaus schlussfolgern, dass Llama aufgrund der Untersuchungen die Kriterien zur Bewertung eines Exposés am besten umgesetzt hat und dem menschlichen Prüfern sehr nahekommt. Die beiden GPT-OSS-Modelle wären eher weniger gut geeignet, da sie kaum konstant über drei Expertise-Level hinweg mit menschlichen Prüfern übereinstimmen.

Bildquelle: Team Exposia

Neben Exposés hatten die beteiligten Forschenden aus Darmstadt ebenfalls die Fähigkeiten von Language Models hinsichtlich der Bewertung von Peer-Reviewing, also der Bewertung über Kommentare von „Gleichrangigen“ (Studierenden), überprüft. Hier verlaufen die Geraden konstanter. Llama & Qwen schneiden mit QWA-Werten von ca. 0,9 sehr gut ab bzw. liegen stabil nah an menschlichen Prüfern. Die beiden OSS-Modelle zeigen vor allem bei steigender Komplexität weniger Übereinstimmung, bei QWA-Werten um die 0,65 – 0,7.

Vereinfacht gesagt zeigt der Vergleich mit menschlichen Bewertungen: Besonders gut funktioniert KI bei eher eindeutigen, formalen Kriterien. Bei inhaltlich anspruchsvollen Kriterien sinkt die Übereinstimmung. Das ist zugleich der Bereich, in dem auch Menschen häufiger unterschiedlich bewerten. Quelle: TU Darmstadt

Screenshot aus ChatGPT

Zum Abschluss hatte ich noch ChatGPT „kontaktiert“ bezüglich der Annahme, dass es beim einen dauerhaften Einsatz im Hochschulbereich wohl klare Empfehlungen seitens geeigneter Sprachmodelle geben könnte, auch mit erprobten Prompts, die Lehrende dann einfach per Copy & Paste einfügen. Gäbe es keine klaren Empfehlungen und jemand führt solche Bewertungsverfahren wie hier im Beispiel mit GPT-OSS-Modellen durch und jemand anders mit Llama, dann ist es eher wahrscheinlich, dass die Ergebnisse zum Teil stark variieren könnten. Aber dies ist an dieser Stelle recht zurückhaltend formuliert, denn dies sind Richtwerte im Rahmen eines Forschungsprojektes.

Es bräuchte aus meiner Sicht mehrere solcher sinnvoller Projekte, um daraus dann den Durchschnitt zu ziehen und so LLMs & Prompting-Techniken für den Einsatz von KI-Feedback im Rahmen von Exposés klar empfehlen zu können. Aber der Anfang ist gemacht! Super!

Die Analyse des PDFs wurde mit Unterstützung von ChatGPT und einer anschließenden Prüfung über Gemini durchgeführt


Autor

matthias kindt

Matthias Kindt auf Linkedin