Unmute: Kyutai Labs vereint Speech-to-Text (STT) und Text-to-Speech (TTS) in einem Tool (open source)
✅ Freie Nutzung von Text & Abbildungen für Premium-User
Unmute ist ein offenes KI-Dialogsystem, das vom französischen Open-Science-Lab Kyutai entwickelt wird und allen Usern über Plattformen wie GitHub offen zur Verfügung steht. Es ist eine Kombination aus Speech-to-Text, Text-to-Speech und einem angeschlossenen Sprachmodell. In einer Demo lässt sich Unmute auch ohne Anmeldung kurz testen. Generell steht Kyutai aus Paris für „AI Voice First“. Es gibt kein „normales“ Chatangebot mit Textinput und Textoutput, sondern stets mit Audio-Bezug.
Und so funktioniert die „Pipeline“:
- STT-Tool wandelt Sprache in Text um
- Sprachmodell versteht den Text und generiert auf dieser Grundlage eine Antwort
- TTS-Tool gibt die Antwort als Audio aus
Die obere Abbildung zeigt die Startoberfläche des KI-Dialogsystems, die sehr einfach gehalten ist. Unten links lässt sich ein Charakter einstellen, der die KI-Stimme festlegt. Zusätzlich kann man rechts daneben über das Feld „Instructions“ einen Systemprompt definieren. Soll die Stimme zusätzlich humorvoll oder doch eher professionell kommunizieren? Dies lässt sich über einen kurzen Text und jederzeit anpassen.
Klicke ich rechts oben auf den Text „More Info“, so öffnet sich ein Fenster mit mehr Informationen, zu den einzelnen Anwendungen. Unmute (Demo) nutzt Kyutai STT, Kyutai TTS und GPT OSS 120B. Es ist also eine Kombination aus den eigens trainierten Audio-Grundlagenmodellen von Kyutai, die open source zugänglich sind und dem offenen Sprachmodell von OpenAI bzw. der großen Version (120B). Man kann auch GPT OSS gegen ein anderes LLM wie Mistral Large oder Qwen austauschen. Es macht nicht nur aus datenschutzrechtlichen Gründen durchaus Sinn im Open-Source-Bereich zu bleiben.
Für meinen Dialog mit der KI habe ich den Systemprompt so gestaltet, dass der Audio-Output in einer verständlichen Weise und mit etwas Humor ausgegeben wird. Dieser Stil gefällt mir generell ganz gut, aber selbstverständlich ist dies alles Geschmackssache 😉 Im oberen Screenshot sind die Instruktionen auf der rechten Seite dargestellt. Als Charakter wird links in der Auswahl über einen simplen Button-Klick „Expanation“ festgelegt.
Da nun alles eingestellt ist, reicht ein Klick auf das Play-Symbol im Zentrum des linken großen, grünen Kreises oder rechts unten auf das Feld „connect“ und schon startet Unmute die Unterhaltung und fordert dich zum Mensch-KI-Dialog auf. Es kann theoretisch jedes Thema besprochen werden. Auch Unterbrechungen sind möglich.
Die Unterhaltung über Unmute habe ich nach Beendigung rechts unten über „disconnect“ gestoppt und im Anschluss wird links daneben das Feld „download recording“ aktiviert. Über einen Button-Klick kann ich nun den gesamten Gesprächsverlauf als Video herunterladen. Der Download erfolgt im webm-Format, das sich aber problemlos über ein Online-Tool etc. in ein MP4 wandeln ließe. Das war’s.
Die obere Abbildung zeigt Unmute auf GitHub und der untere Screenshot präsentiert Kyutai auf Hugging Face mit diversen offenen Anwendungen im Rahmen von Text-to-Speech und Speech-to-Text. Dazu gehört auch ein Pocket-TTS, bei dem es sich um ein kleines Grundlagenmodell handelt, das auch lokal auf eigenen Geräten verwendet werden kann.
Zum Abschluss noch ein kleines Fazit zum Open-Science-Lab Kyuatai. Das offene Projekt aus Paris verfolgt eine klare „AI Voice First“-Strategie und stellt die eigenen Anwendungen stets open source zur Verfügung. Kyutai ist nicht irgendein Projekt, sondern hat schon vor einiger Zeit 300 Millionen Euro eingesammelt und mit Gradium ein Spin-off an den Start gebracht, das sich auf „Real-Time-Text-to-Speech“ spezialisiert. Neben Mistral AI (Paris) ist dies ein weiterer sehr interessanter KI-Anbieter aus Frankreich mit eigens trainierten Modellen (from scratch). Next?
Autor











