Studie „HalluHard“: Durch Web Search die Halluzinationsrate von Sprachmodelle halbieren

Die Studie HalluHard: A Hard Multi-Turn Hallucination Benchmark wurde von Forschenden der schweizerischen EPFL Lausanne und unter Beteiligung des ELLIS Institute Tübingen durchgeführt und analysiert das Halluzinieren von Sprachmodellen hinsichtlich einer geringeren Fehlerquote durch die LLM-Nutzung von Web Search.

Zur Webpräsenz von HalluHard

Kurz zusammengefasst lässt sich dies am Beispiel von Claude-Opus-4.5 zeigen. Wird die Websuche aktiviert, so kann sich die Halluzination von ca. 60 % auf 30 % Fehlerquote verringern. Auch GPT-5.2-Thinking zeigt ein ähnliches Verhalten. Das obere Beitragsbild stellt diesen Zusammenhang dar. Als Annahme bei HalluHard gilt, dass eine Halluzination auftritt, falls ein LLM eine Behauptung ohne Quellenbezug oder mit fehlerhaftem Quellenverweis ausgibt. Auch bei einem korrekten Output mit fehlenden Quellen wird von einer Halluzination gesprochen. 

Woran liegt das? War die Websuche vor einiger Zeit nicht eher unzuverlässig? Absolut, aber dies hat sich nun geändert. Wichtig ist hierbei zu verstehen, dass der Vergleich zwischen einem fertig trainierten LLM ohne Web-Zugang und genau diesem LLM mit angeschlossener Websuche als Tool erfolgt ist.

Weitere Ergebnisse: Je größer die Modelle hinsichtlich der trainierten Parameter, desto weniger wird halluziniert, also GPT-5.2-Thinking (groß) vs GPT-5-nano (klein)

Je länger die Konversation, desto höher die Halluzinationsrate. Also Gespräche mit der KI lieber kurz halten und einen neuen Chat starten.

Bei Nischenwissen ist die Halluzination am größten. Ein Sprachmodell verfügt in seinem Trainingssatz nur über Fragmente und rät daher mehr. Ist Web Search aktiviert, dann ändert sich dieses Verhalten, da nun externes & passendes Wissen verfügbar ist.

 

Die obere Abbildung von „Team HalluHard“ zeigt die drei Turns mit der „Starter-Querstion“, zwei weiteren Fragen und insgesamt drei Antworten eines der Sprachmodelle mit jeweils einer akademischen Zitation. So sollte es im Optimalfall sein, also korrekter Output und passende Quelle dazu.

Das Forschungspapier HalluHard kann gerne jederzeit auf der Plattform arXiv eingesehen werden, um noch weitere Details aus der interessanten Studie zu erfahren. Generell ist die Halluzination eines der größten Probleme überhaupt im Umgang mit KI-Systemen wie Chatbots und es wäre natürlich sehr sinnvoll, falls Forschende die Halluzinationsrate kontinuierlich senken könnten. Mal schauen 😉


Autor

matthias kindt

Matthias Kindt auf Linkedin