Cartesia: Hochwertige KI-Stimmen im Playground erstellen

Cartesia ist ein hochwertiges Audio-Tool, um unter anderem Textinput von einer KI-Stimme in unterschiedlichen Sprachen vorlesen zu lassen oder das Klonen der eigenen Stimme zu ermöglichen. Generell kann man aktuell den Konkurrenten von ElevenLabs gut kostenfrei testen und zwar innerhalb des Playgrounds.

Der obere Screenshot zeigt nach einem Login die StartoberflĂ€che des Playgrounds. Links können die Arbeitsprozesse wie „Text 2 Speech“ oder „Instant Clone“ ausgewĂ€hlt werden. In der „Library“ befinden sich alle KI-Stimmen, sowohl die vorhandenen als auch die neu hinzugefĂŒgten, die sich dann jederzeit ĂŒber ein Drop-Down-MenĂŒ nutzen lassen.

Auf der rechten Seite kann man die gewĂŒnschte Stimme in der geeigneten Sprache auswĂ€hlen und zudem Einstellungen hinsichtlich der Redegeschwindigkeit oder des Kommunikationsstils vornehmen. Das Top-Modell von Cartesia ist aktuell Sonic 3. Es ließen sich ebenfalls die Ă€lteren Versionen verwenden.

Sucht man rechts ĂŒber das Drop-Down-MenĂŒ nach einer deutschsprachigen Stimme wie „Lena“, dann öffnet sich, wie in der oberen Abbildung dargestellt, ein neues Fenster mit einer Suchleiste und rechts daneben mit den Filtereinstellungen. Dort bitte draufklicken und „German“ oder Ähnliches auswĂ€hlen. Im Anschluss sind alle verfĂŒgbaren Stimmen sichtbar. Ich hatte mich fĂŒr die KI-Stimme „Viktoria“ entschieden und folgenden Text in das nicht ĂŒbersehbare (zentrale) Textfeld eingegeben.

Prompt: 

***Die 121. Ausgabe von KI & Bildung stellt das Top-Bildmodell Nano Banana Pro vor, das von Google entwickelt wird und mit dem Thinking-Modell Gemini 3 Pro interagiert. Durch dieses Zusammenspiel entstehen hochwertige Abbildungen wie zum Beispiel moderne Infografiken mit deutschem Text. Ja, Fehler können auch bei Nano Banana Pro vorkommen, aber insgesamt werden Bild-KIs immer zuverlÀssiger, insbesondere wenn es um die korrekte Ausgabe von Text geht. Next?**

Zum Newsletter

Die Stimmgenerierung erfolgt instant, also sofort und ohne Verzögerung. Nicht selten mĂŒssen User etwas warten, bis die ErzĂ€hlstimme fertig generiert ist. Bei Cartesia lĂ€uft dieser Prozess sehr schnell und gleichzeitig werden hochwertige Audios ausgegeben. Gerne kurz reinhören.

Da mir die KI-Stimme Viktoria gut gefĂ€llt und ich diese gerne auch in einer anderen Sprache ohne Akzent hören möchte, wird Viktoria nun „lokalisiert“ und zwar links ĂŒber den Punkt „Localize Voice“. Es kann sein, dass dieser Vorgang bei anderen Tools eine andere Bezeichnung hat, wie „duplizieren“ oder Weiteres, aber es geht definitiv darum, eine Stimme in weitere Sprachen zu ĂŒbertragen und genau das tun wir jetzt,

Der obere Screenshot zeigt die deutschsprachige Viktoria und darunter wird diese nun auf „französisch“ gesetzt. DafĂŒr einfach „Language“ und „Acent“ auswĂ€hlen und danach auf der rechten Seite der neuen Stimme einen passenden Namen geben. Ich habe mich fĂŒr „Viktoria – French“ entschieden. Nun einen Klick rechts oben auf „Localize“ und in KĂŒrze ist eine weitere KI-Stimme in der Bibliothek hinzugekommen. Dies könnte man theoretisch auch mit der eigenen Stimme bzw. dem eigenem Klon vornehmen, aber dies möchte ich in diesem Beitrag nicht vormachen. Schlussendlich muss jeder selbst entscheiden, ob dies fĂŒr sie/ihn ok ist. Auch dieser Vorgang wĂ€re recht simpel.

Den anfĂ€nglichen deutschen Prompt habe ich 1:1 ĂŒbersetzt und der französischsprachigen KI-Stimme im Vorschau-Modus (Preview) so auf Französisch zur VerfĂŒgung gestellt. Ist die „Viktoria – French“ noch nicht optimal eingestellt, dann einfach oben rechts den Button „Edit“ betĂ€tigen und die Einstellungen Ă€ndern.

Prompt:

***Le 121e numĂ©ro de KI & Bildung prĂ©sente le modĂšle d’image de pointe Nano Banana Pro, dĂ©veloppĂ© par Google, qui interagit avec le modĂšle de rĂ©flexion Gemini 3 Pro. GrĂące Ă  cette interaction, il est possible de crĂ©er des images de haute qualitĂ©, comme par exemple des infographies modernes en texte allemand. Oui, des erreurs peuvent Ă©galement se produire avec Nano Banana Pro, mais dans l’ensemble, les IA gĂ©nĂ©ratrices d’images deviennent de plus en plus fiables, notamment en ce qui concerne la production correcte de texte. Et ensuite ?***

GefĂ€llt mir die AI Voice, dann wieder links auf „Text 2 Speech“ klicken und auf der rechten Seite im MenĂŒ nach „Viktoria – French“ suchen und diese auswĂ€hlen. Hierbei lohnt es sich, den Reiter „My Voices“ zu verwenden, da im Anschluss ausschließlich die KI-generierten Stimmen angezeigt werden, die man selbst im Playground generiert hat. Dies spart Zeit bei der Suche.

Im unteren Screenshot ist die französische Viktoria aktiv und gleichzeitig wurde ein französischer Text in den zentralen Arbeitsbereich reinkopiert. Hier endet nun schon der kostenlose Plan von Cartesia, denn die lokalisierte KI-Stimme lĂ€sst sich im Playground zwar anhören, aber nicht herunterladen. HierfĂŒr benötigt es ein Upgrade, das ich an dieser Stelle nicht vornehmen möchte, da ich mir auch im Rahmen des kostenlosen Plans ein sehr gutes Bild von der LeistungsfĂ€higkeit von Cartesia machen konnte. Also gerne kurz testen.

Ein Beitrag erstellt von

matthias kindt

Matthias Kindt auf Linkedin

 

Cartesia von den Digitalen Profis auf YouTube erklÀrt

Ähnliche BeitrĂ€ge