Cartesia: Hochwertige KI-Stimmen im Playground erstellen
Cartesia ist ein hochwertiges Audio-Tool, um unter anderem Textinput von einer KI-Stimme in unterschiedlichen Sprachen vorlesen zu lassen oder das Klonen der eigenen Stimme zu ermöglichen. Generell kann man aktuell den Konkurrenten von ElevenLabs gut kostenfrei testen und zwar innerhalb des Playgrounds.

Der obere Screenshot zeigt nach einem Login die StartoberflĂ€che des Playgrounds. Links können die Arbeitsprozesse wie âText 2 Speech“ oder âInstant Clone“ ausgewĂ€hlt werden. In der âLibrary“ befinden sich alle KI-Stimmen, sowohl die vorhandenen als auch die neu hinzugefĂŒgten, die sich dann jederzeit ĂŒber ein Drop-Down-MenĂŒ nutzen lassen.
Auf der rechten Seite kann man die gewĂŒnschte Stimme in der geeigneten Sprache auswĂ€hlen und zudem Einstellungen hinsichtlich der Redegeschwindigkeit oder des Kommunikationsstils vornehmen. Das Top-Modell von Cartesia ist aktuell Sonic 3. Es lieĂen sich ebenfalls die Ă€lteren Versionen verwenden.
Sucht man rechts ĂŒber das Drop-Down-MenĂŒ nach einer deutschsprachigen Stimme wie âLena“, dann öffnet sich, wie in der oberen Abbildung dargestellt, ein neues Fenster mit einer Suchleiste und rechts daneben mit den Filtereinstellungen. Dort bitte draufklicken und âGerman“ oder Ăhnliches auswĂ€hlen. Im Anschluss sind alle verfĂŒgbaren Stimmen sichtbar. Ich hatte mich fĂŒr die KI-Stimme âViktoria“ entschieden und folgenden Text in das nicht ĂŒbersehbare (zentrale) Textfeld eingegeben.
Prompt:Â
Die Stimmgenerierung erfolgt instant, also sofort und ohne Verzögerung. Nicht selten mĂŒssen User etwas warten, bis die ErzĂ€hlstimme fertig generiert ist. Bei Cartesia lĂ€uft dieser Prozess sehr schnell und gleichzeitig werden hochwertige Audios ausgegeben. Gerne kurz reinhören.
Da mir die KI-Stimme Viktoria gut gefĂ€llt und ich diese gerne auch in einer anderen Sprache ohne Akzent hören möchte, wird Viktoria nun âlokalisiert“ und zwar links ĂŒber den Punkt âLocalize Voice“. Es kann sein, dass dieser Vorgang bei anderen Tools eine andere Bezeichnung hat, wie âduplizieren“ oder Weiteres, aber es geht definitiv darum, eine Stimme in weitere Sprachen zu ĂŒbertragen und genau das tun wir jetzt,
Der obere Screenshot zeigt die deutschsprachige Viktoria und darunter wird diese nun auf âfranzösisch“ gesetzt. DafĂŒr einfach âLanguage“ und âAcent“ auswĂ€hlen und danach auf der rechten Seite der neuen Stimme einen passenden Namen geben. Ich habe mich fĂŒr âViktoria – French“ entschieden. Nun einen Klick rechts oben auf âLocalize“ und in KĂŒrze ist eine weitere KI-Stimme in der Bibliothek hinzugekommen. Dies könnte man theoretisch auch mit der eigenen Stimme bzw. dem eigenem Klon vornehmen, aber dies möchte ich in diesem Beitrag nicht vormachen. Schlussendlich muss jeder selbst entscheiden, ob dies fĂŒr sie/ihn ok ist. Auch dieser Vorgang wĂ€re recht simpel.
Den anfĂ€nglichen deutschen Prompt habe ich 1:1 ĂŒbersetzt und der französischsprachigen KI-Stimme im Vorschau-Modus (Preview) so auf Französisch zur VerfĂŒgung gestellt. Ist die âViktoria – French“ noch nicht optimal eingestellt, dann einfach oben rechts den Button âEdit“ betĂ€tigen und die Einstellungen Ă€ndern.
Prompt:
***Le 121e numĂ©ro de KI & Bildung prĂ©sente le modĂšle d’image de pointe Nano Banana Pro, dĂ©veloppĂ© par Google, qui interagit avec le modĂšle de rĂ©flexion Gemini 3 Pro. GrĂące Ă cette interaction, il est possible de crĂ©er des images de haute qualitĂ©, comme par exemple des infographies modernes en texte allemand. Oui, des erreurs peuvent Ă©galement se produire avec Nano Banana Pro, mais dans l’ensemble, les IA gĂ©nĂ©ratrices dâimages deviennent de plus en plus fiables, notamment en ce qui concerne la production correcte de texte. Et ensuite ?***
GefĂ€llt mir die AI Voice, dann wieder links auf âText 2 Speech“ klicken und auf der rechten Seite im MenĂŒ nach âViktoria – French“ suchen und diese auswĂ€hlen. Hierbei lohnt es sich, den Reiter âMy Voices“ zu verwenden, da im Anschluss ausschlieĂlich die KI-generierten Stimmen angezeigt werden, die man selbst im Playground generiert hat. Dies spart Zeit bei der Suche.
Im unteren Screenshot ist die französische Viktoria aktiv und gleichzeitig wurde ein französischer Text in den zentralen Arbeitsbereich reinkopiert. Hier endet nun schon der kostenlose Plan von Cartesia, denn die lokalisierte KI-Stimme lĂ€sst sich im Playground zwar anhören, aber nicht herunterladen. HierfĂŒr benötigt es ein Upgrade, das ich an dieser Stelle nicht vornehmen möchte, da ich mir auch im Rahmen des kostenlosen Plans ein sehr gutes Bild von der LeistungsfĂ€higkeit von Cartesia machen konnte. Also gerne kurz testen.
Ein Beitrag erstellt von
Â









