Voxtral TTS: Mistral veröffentlicht Text-to-Speech-Tool (open source)
✅ Freie Nutzung von Text & Abbildungen für Premium-User
Mistral AI hat mit Voxtral TTS ein offenes Text-to-Speech-Tool veröffentlicht, das sich kostenlos über das AI Studio testen lässt und auf Hugging Face für alle Beteiligten zum Download bereitsteht. Das Startup aus Paris stellt somit eine weitere nützliche Anwendung vor und erweitert gezielt das eigene KI-Angebot. Next?
Der obere Screenshot zeigt das AI Studio und den Bereich Text-2-Speech, der sich links im Menü über „Audio“ und „Text zu Sprache“ auswählen lässt. Die Nutzung läuft über die Mistral API und ist in einem begrenzten Umfang komplett kostenlos. Es bedarf keinerlei weiterer Einstellungen.
Um eine Stimme auszuwählen, die den Text vorträgt, nutze ich rechts den Abschnitt „Stimme auswählen“ scrolle zu Jane herunter und entscheide mich für den „Confident-Stil“. Es gibt unterschiedliche Stil-Richtungen, die sich verwenden lassen, abhängig vom jeweiligen Use Case.
Anschließend wechselt man auf die linke Seite und fügt entweder einen Text per Copy & Paste ein oder lässt diesen innerhalb des AI Studio über das Sprachmodell Mistral generieren. Ich habe den simplen Prompt ***differences between GenAI and AGI*** eingegeben und den Vorgang über den orangen Button „Text generieren“ bestätigt.
Nun wird der fertige Text angezeigt. Ich habe diesen bewusst in Englisch erstellen lassen, da das Tool über die Settings offiziell die Sprachen Englisch (UK/USA) und Französisch unterstützt. Es ließen sich auch Outputs auf Deutsch mit Audio erstellen, aber die KI-Stimme liest dann nicht ganz fehlerfrei vor und hat i.d.R. einen englischen Akzent.
Voxtral befindet sich aktuell in der Beta-Phase und es kann gut sein, dass die Anwendung in naher Zukunft ebenfalls die deutsche Sprache gut wiedergeben kann.
Um eine KI-Stimme zu erzeugen, reicht ein Klick oben rechts auf den Button „Sprache generieren“. Dies dauert nur wenige Sekunden und schon lässt sich zum Beispiel die Stimme Jane mit einem selbstbewussten Tonfall abspielen. Möchte man die eigene Stimme klonen und verwenden, so läuft dies über einen kostenpflichtigen Plan.
Die obere Abbildung zeigt das zuletzt ausgesprochene Wort, das mit einer Markierung in einem orangen Farbton hervorgehoben wird. Der bereits vorgelesene Text färbt sich automatisch grau. So behält man als User die Übersicht und weiß, an welcher Stelle sich die KI aktuell befindet.
Beispielhafter Output (Englisch)
Unten rechts an der Leiste zum Abspielen des Audios lässt sich über einen Klick auf das Icon mit „1,00″ die Vorlese-Geschwindigkeit anpassen, falls es zu lange dauert oder eben umgekehrt. Und links direkt daneben dann der Button zum Herunterladen als MP3. Das war es eigentlich auch schon mit den Grundfunktionen von Voxtral TTS im AI Studio von Mistral AI.
Voxtral TTS im arXiv-Paper erklärt
Offizielles Erklärvideo von Mistral
Autor













