AI Voice Agent mit ElevenLabs erstellen & veröffentlichen
Ein Professor aus New York ärgerte sich über das „KI-Schummeln“ seiner Studierenden bei wissenschaftlichen Arbeiten und hat daraufhin sehr gekonnt den Spieß umgedreht, die schriftlichen Prüfungen ausgesetzt und stattdessen mündliche Prüfungen mit einem ElevenLabs Voice Agent gestartet. Es stellte sich heraus, dass so einige Studis ihre Arbeiten gar nicht erklären konnten. Ein super Use Case! Aber wie genau hat Professor Panis Ipeirotis dies denn genau gemacht?
Zum Linkedin Post geht es hier
Zum Blogbeitrag des Professors
Der obere Screenshot zeigt den fertigen Voice Agent in ElevenLabs mit dem Studierende ganz einfach über ihren Stimminput kommunizieren können. Jedoch benötigt es hierfür die ID und den passenden Namen. Da ich kein Studierender von Herrn Ipeirotis bin, kann ich natürlich die mündliche Prüfung nicht starten. Aber so einen Agent kann man über ElevenLabs mit ein paar Einstellungen komplett kostenfrei erstellen und frei zugänglich machen. Den System-Prompt des KI-Prüfers gibt es auf GitHub.
Das Top-Audio-Tool gewährt jedem Nutzer monatlich ein freies Kontingent an Credits, das sich automatisch wieder auffüllt. Um dies zu überprüfen, klickt man einfach rechts oben (Desktop) auf das eigene Konto und im Anschluss in der Auswahl auf „Subscription“. Ich nutze selber den Free Plan und dafür erhalte ich monatlich 10 000 Credits, die ganz gut fürs Testen von neuen Funktionen ausreichen.
Die obere Abbildung zeigt die Startseite der „Creative Platform“, auf der sich zum Beispiel KI-Stimmen generieren und eigene Stimmen klonen lassen. Wir möchten aber einen Agenten erstellen und klicken dafür links oben in der Ecke auf das gleichnamige Feld und wechseln zur „Agent Platform“. Nun links im Menü auf „Agent“ und schon kann es losgehen mit dem ersten AI Voice Agent und allen Settings dazu. Der untere Screenshot zeigt schon den fertigen Agenten „KI & Bildung“, den ich rechts oben über den Button „New Agent“ gestartet habe.
Es gibt bei ElevenLabs die Auswahlmöglichkeiten zwischen einem „Blank Agent“, also einem KI-Assistenten, den ich selbständig ohne Vorgaben konfigurieren kann oder ich entscheide mich für einen „Personal Assistent“ und „Business Agent“. Ich hatte mich für Ersteren entschieden.
Im Anschluss wird dem Agenten noch ein passender Name wie „KI & Bildung“ gegeben. Zusätzlich ist es notwendig, die Chat-Funktion auszustellen, da ansonsten zu Beginn keine Kommunikation über Audio, also die Stimme, möglich ist. Hat man dies vergessen umzustellen, so geht dies oben im Menü über „Advanced“ und Deaktivieren des „Enable chat mode“. Falls gewünscht, lässt sich dies jederzeit switchen.
Danach unten rechts auf „Create Agent“ klicken und schon lassen sich vielfältige Einstellungen rund um unseren Voice Agent von ElevenLabs setzen. Es empfiehlt sich, erst einmal in Ruhe zu gucken und oben die Reiter durchzuklicken, falls die eine oder andere sinnvolle Funktion mit dabei ist, die man für den eigenen Audio-Assistenten verwenden kann. Bei einem Klick auf „Agent“ kommt man wieder zurück zu den wesentlichen Settings rund um den System-Prompt und die Stimmauswahl.
ElevenLabs ist ein sehr „mächtiges“ Tool, denn User können hier wirklich viel einstellen, aber ich habe es in diesem Blogbeitrag bewusst recht einfach gehalten. Gelingt der Einstieg, so kann man Schritt für Schritt den KI-Assistenten erweitern bzw. gezielt mit Tools ergänzen. Meinen ersten Agent habe ich auf Use Cases in den Naturwissenschaften spezialisiert. Nutzt für mehr Übersichtlichkeit auch gerne den Vollbildmodus. Dazu einen Klick auf die Pfeile rechts oben im Kästchen.
System-Prompt:***Du unterstützt beim Einsatz von künstlicher Intelligenz in der Lehre. Du bist auf sinnvolle Use Cases von KI-Tools in den Naturwissenschaften spezialisiert.***
Wird der KI-Assistent von einem Studenten gestartet, so fängt dieser auch immer zuerst mit folgender erster Frage an, um die Konversation sinnvoll zu beginnen.
First Message: Welches Fachgebiet unterrichtest du?
Aus meiner Sicht lohnt es sich, solch einen Voice-Agent zu spezialisieren, aber dies ist natürlich alles Geschmackssache. Es gibt generell vielfältige Einstellungsmöglichkeiten, die sich jederzeit wieder ändern lassen.
Der obere Screenshot zeigt die Stimmauswahl mit Typ, Sprache und ganz unten den Sprachmodellen, auf denen die KI dann basiert. Aktuell ist dies auf Gemini 2.5 Flash eingestellt, aber man kann dies auch problemlos auf den Modellen von OpenAI und Claude laufen lassen.
Eine weitere grundlegende Einstellung ist die Wissensgrundlage, die vom Sprachmodell bevorzugt genutzt wird und einen zuverlässigeren KI-Output ermöglicht. Hier ließen sich zum Beispiel ganze Skripte oder Klausuraufgaben als PDF hochladen, die dann vom KI-Prüfer abgefragt werden können, mit anschließender Bewertung und Notenvergabe, auch wenn dies datenschutzrechtlich natürlich immer geprüft werden muss, da die Server von ElevenLabs bekanntermaßen in den USA und nicht innerhalb der Europäischen Union (EU) stehen.
Zur Vorschau unseres KI-Assistenten gibt es oben in der Navigation den Button „Preview“, der jederzeit genutzt werden darf, um zu überprüfen, ob die Kommunikation zufriedenstellend läuft. Falls bei einem Tool vorhanden, würde ich solch einen Vorschau-Modus stets verwenden, sonst kann es sein, dass man nach der Veröffentlichung Fehler entdeckt und dann hektisch wird bzw. versucht, zu schnell etwas anzupassen. Das muss nicht sein 😉
Da der Chat-Modus deaktiviert ist, wird direkt der Audio-Modus angezeigt und ein simpler Button-Klick auf „Call AI Agent“ reicht nun aus, um die Kommunikation zu starten. Diese fängt sofort mit der „First Message“ an, die vorhin festgelegt wurde. Man könnte auch eine Begrüßung oder Ähnliches zur Auflockerung festlegen.
Ja, der Agent ist gut eingestellt und es reicht ein Klick auf „Publish“ zur Veröffentlichung. Da „KI & Bildung“ auch für andere Personen frei zugänglich gemacht werden soll, benötigt es einen teilbaren Link, den man oben über einen Klick auf den Pfeil neben „Publish“ erhält. Diesen fix in den Browser einfügen und schon sieht das Interface wie zu Beginn bei unserem Professor aus. Bei jedem Gespräch über ElevenLabs fallen Credits an. Bitte beachtet dies!
Übrigens, oben rechts lässt sich jederzeit in den Chat-Modus switchen und dann wieder zurück in den Voice-Mode. Dies kann man flexibel handhaben. Es lässt sich gut erkennen, dass die KI mich immer tiefer in ein Gespräch verwickelt, um möglichst einen optimalen Output bzw. eine treffsichere Empfehlung zu generieren und zwar wie im Beispiel-Chat zur Quantenphysik und den Einsatzmöglichkeiten von KI-Anwendungen. Gerne mal testen!
Zum Autor
















