Invincible Voice: Du klickst und die KI spricht für dich

✅ Freie Nutzung von Text & Abbildungen für Premium-User

Kyutai ist ein Open-Science-Lab aus Paris, das sich auf Audio-Anwendungen spezialisiert hat und mit Invincible Voice ein frei zugängliches Tool anbietet, das sich an Personen mit ALS richtet. ALS ist eine Nervenkrankheit, die eine fortschreitende Muskelschwäche als Folge hat, wodurch erhebliche Sprachschwierigkeiten auftreten können. Invincible Voice nutzt Speech-to-Text und Text-to-Speech und versucht, die Sprachbarrieren im Rahmen eines KI-Dialogsystems zu reduzieren. Die Anwendung basiert auf offenen Komponenten der Tool-Pipeline Unmute.

Für die Nutzung ist eine kurze Anmeldung bei Kyutai notwendig und dann kann es auch schon losgehen. Bevor ich auf den Button „Chat beginnen“ klicke, wähle ich rechts oben „Einstellungen ändern“ aus. Invincible Voice bietet so einige Einstellungsmöglichkeiten für eine gute Kommunikation. Insgesamt lohnt es sich, die Settings genauer durchzugehen, bevor man startet. Die Entwickler des französischen Startups haben sich tiefergehende Gedanken gemacht, wie man ein solch spezialisiertes Tool bestmöglich verwenden könnte.

Der obere Screenshot zeigt die vielfältigen Settings, die sich rechts unten über „Konfiguration speichern“ jederzeit anpassen ließen. Rechts oben über „Schließen“ geht es dann wieder zurück zum Interface bzw. dem KI-Dialogsystem. Man kann problemlos hin und her switchen und einfach mal testen, ob alles so weit optimal eingestellt ist oder Korrekturbedarf besteht.

Auf der linken Seite ist es möglich, eine Sprache festzulegen und einen eigenen Systemprompt zu setzen, der die Art und Weise festlegt, wie die KI kommunizieren soll. Also eher locker, höflich, ernst oder Ähnliches. Generell kann es durchaus sinnvoll sein bei Invincible Voice, regelmäßig den Stil anzupassen, denn dieser könnte womöglich den Dialog zwischen den beiden Gesprächspartnern oder auch weiteren Beteiligten vereinfachen. Zusätzlich ließe sich über den Upload einer Audiodatei die eigene Stimme klonen

Auf der rechten Seite der Einstellungen kann man Schlüsselwörter festlegen, die sich während des Gesprächs einfach per Cursor anklicken und im Rahmen einer Nachricht über Audiostimme vortragen lassen. Ebenfalls können User Dokumente anlegen, wie im Beispiel mit „KI & Bildung 1 & 2″, um diese in eine Diskussion zu integrieren.

Sind die Settings eingestellt und das Fenster geschlossen, so wird über Invincible Voice die Konversation mit einen Button-Klick auf „Chatten beginnen“ gestartet. Der obere Screenshot zeigt die Startoberfläche mit leerem Chat auf der linken Seite. Dort wird der gesamte Chatverlauf dargestellt. Rechts gibt es unter anderem die Möglichkeit, Keywords anzuklicken, die im Anschluss rechts unten im Feld mit der Bezeichnung „Geben Sie Ihre Nachricht hier ein“ auftauchen. Mit einem Klick auf den Button „Senden“ wird der Textinput anschließend als Audio vorgetragen und links im Chatverlauf angezeigt.

Ich habe die Unterhaltung mit meiner Stimme und dem Input „Was hältst du von dieser Technik“ begonnen. Dies wird direkt in den Chat transkribiert, also von Audio in Text übertragen. Zusätzlich schlägt die KI, also das Sprachmodell, auf der Grundlage meines Inputs vier potenzielle Antworten für den Gesprächspartner (mit ALS) vor, aus denen er oder sie die für sich passende Antwort per Mausklick auswählen kann. Diese taucht dann unter meinem Gesprächsaufhänger auf usw. So ließe sich ein kompletter Chat starten, der historisch jederzeit einsehbar wäre.

Die Antwortmöglichkeiten werden immer wieder aufs Neue generiert, sobald ich über meine Stimme vom Tool Invincible Voice erfasst werde. Das läuft automatisch so weiter und vereinfacht die Kommunikation. Das Tool nutzt eine Kombination aus „Alter Schule“ mit dem Klicken von Schlüsselwörtern und moderner Technik wie einem LLM, das sich auf den Gesprächspartner einstellen kann, um einen optimalen KI-Dialog zu führen. Ein spannendes Projekt!

Die obere Abbildung zeigt noch einen zusätzlichen Voice-Input von mir und zwei KI-generierte Antworten, die mir das Tool vorgeschlagen hat. Im unteren YouTube-Video stellt das französische Open-Science-Lab Kyutai die Anwendung in der Praxis vor.

Autor

matthias kindt

Matthias Kindt auf Linkedin