Cartesia: Hochwertige KI-Stimmen im Playground erstellen
Cartesia ist ein hochwertiges Audio-Tool, um unter anderem Textinput von einer KI-Stimme in unterschiedlichen Sprachen vorlesen zu lassen oder das Klonen der eigenen Stimme zu ermöglichen. Generell kann man aktuell den Konkurrenten von ElevenLabs gut kostenfrei testen und zwar innerhalb des Playgrounds.

Der obere Screenshot zeigt nach einem Login die Startoberfläche des Playgrounds. Links können die Arbeitsprozesse wie „Text 2 Speech“ oder „Instant Clone“ ausgewählt werden. In der „Library“ befinden sich alle KI-Stimmen, sowohl die vorhandenen als auch die neu hinzugefügten, die sich dann jederzeit über ein Drop-Down-Menü nutzen lassen.
Auf der rechten Seite kann man die gewünschte Stimme in der geeigneten Sprache auswählen und zudem Einstellungen hinsichtlich der Redegeschwindigkeit oder des Kommunikationsstils vornehmen. Das Top-Modell von Cartesia ist aktuell Sonic 3. Es ließen sich ebenfalls die älteren Versionen verwenden.
Sucht man rechts über das Drop-Down-Menü nach einer deutschsprachigen Stimme wie „Lena“, dann öffnet sich, wie in der oberen Abbildung dargestellt, ein neues Fenster mit einer Suchleiste und rechts daneben mit den Filtereinstellungen. Dort bitte draufklicken und „German“ oder Ähnliches auswählen. Im Anschluss sind alle verfügbaren Stimmen sichtbar. Ich hatte mich für die KI-Stimme „Viktoria“ entschieden und folgenden Text in das nicht übersehbare (zentrale) Textfeld eingegeben.
Prompt:
Die Stimmgenerierung erfolgt instant, also sofort und ohne Verzögerung. Nicht selten müssen User etwas warten, bis die Erzählstimme fertig generiert ist. Bei Cartesia läuft dieser Prozess sehr schnell und gleichzeitig werden hochwertige Audios ausgegeben. Gerne kurz reinhören.
Da mir die KI-Stimme Viktoria gut gefällt und ich diese gerne auch in einer anderen Sprache ohne Akzent hören möchte, wird Viktoria nun „lokalisiert“ und zwar links über den Punkt „Localize Voice“. Es kann sein, dass dieser Vorgang bei anderen Tools eine andere Bezeichnung hat, wie „duplizieren“ oder Weiteres, aber es geht definitiv darum, eine Stimme in weitere Sprachen zu übertragen und genau das tun wir jetzt,
Der obere Screenshot zeigt die deutschsprachige Viktoria und darunter wird diese nun auf „französisch“ gesetzt. Dafür einfach „Language“ und „Acent“ auswählen und danach auf der rechten Seite der neuen Stimme einen passenden Namen geben. Ich habe mich für „Viktoria – French“ entschieden. Nun einen Klick rechts oben auf „Localize“ und in Kürze ist eine weitere KI-Stimme in der Bibliothek hinzugekommen. Dies könnte man theoretisch auch mit der eigenen Stimme bzw. dem eigenem Klon vornehmen, aber dies möchte ich in diesem Beitrag nicht vormachen. Schlussendlich muss jeder selbst entscheiden, ob dies für sie/ihn ok ist. Auch dieser Vorgang wäre recht simpel.
Den anfänglichen deutschen Prompt habe ich 1:1 übersetzt und der französischsprachigen KI-Stimme im Vorschau-Modus (Preview) so auf Französisch zur Verfügung gestellt. Ist die „Viktoria – French“ noch nicht optimal eingestellt, dann einfach oben rechts den Button „Edit“ betätigen und die Einstellungen ändern.
Prompt:
***Le 121e numéro de KI & Bildung présente le modèle d’image de pointe Nano Banana Pro, développé par Google, qui interagit avec le modèle de réflexion Gemini 3 Pro. Grâce à cette interaction, il est possible de créer des images de haute qualité, comme par exemple des infographies modernes en texte allemand. Oui, des erreurs peuvent également se produire avec Nano Banana Pro, mais dans l’ensemble, les IA génératrices d’images deviennent de plus en plus fiables, notamment en ce qui concerne la production correcte de texte. Et ensuite ?***
Gefällt mir die AI Voice, dann wieder links auf „Text 2 Speech“ klicken und auf der rechten Seite im Menü nach „Viktoria – French“ suchen und diese auswählen. Hierbei lohnt es sich, den Reiter „My Voices“ zu verwenden, da im Anschluss ausschließlich die KI-generierten Stimmen angezeigt werden, die man selbst im Playground generiert hat. Dies spart Zeit bei der Suche.
Im unteren Screenshot ist die französische Viktoria aktiv und gleichzeitig wurde ein französischer Text in den zentralen Arbeitsbereich reinkopiert. Hier endet nun schon der kostenlose Plan von Cartesia, denn die lokalisierte KI-Stimme lässt sich im Playground zwar anhören, aber nicht herunterladen. Hierfür benötigt es ein Upgrade, das ich an dieser Stelle nicht vornehmen möchte, da ich mir auch im Rahmen des kostenlosen Plans ein sehr gutes Bild von der Leistungsfähigkeit von Cartesia machen konnte. Also gerne kurz testen.
Ein Beitrag erstellt von










