MAI-Voice-2: Microsofts neues Text-to-Speech-Tool im Playground verfügbar

Microsoft hat mit MAI-Voice-2 eine Text-to-Speech-Anwendung veröffentlicht, die kostenlos im Playground zur Verfügung steht. Hierzu einfach einen Text in die Promptleiste hineinkopieren, anschließend eine Stimme und eine Emotion wählen und in Kürze kann ich eine ausdrucksstarke KI-Erzählstimme abspielen, die sich auch herunterladen lässt.

Der obere Screenshot zeigt den Playground und das Tool MAI-Voice-2, das ich links über das Menü auswählen kann. Das Handling ist insgesamt sehr einfach, etwa im Vergleich zu komplexen Audio-Anwendungen wie ElevenLabs. Den unten im Code-Block eingefügten Prompt habe ich für die erste Audio-Generierung mit der Stimme „Mia“ und der Emotion „Excited“ verwendet.
PROMPT: Die Entwicklung Künstlicher Intelligenz hat in den letzten Jahren eine rasante Dynamik angenommen und verändert grundlegend, wie wir arbeiten, kommunizieren und kreativ tätig sind. Von leistungsstarken Sprachmodellen bis hin zu bildgenerativen Systemen ermöglicht KI heute die Automatisierung komplexer Aufgaben und die Generierung völlig neuer Inhalte. Während diese technologischen Fortschritte enorme Effizienzgewinne und innovative Möglichkeiten versprechen, bringen sie gleichzeitig wichtige Fragen zur Ethik, Datensicherheit und der Zukunft des Arbeitsmarktes mit sich.

Das fertige Audio mit der Stimme „Mia“ ist insgesamt 33 Sekunden lang und basiert auf einem vorab KI-generierten Text. Die maximale Länge für solches Audio hier im Playground liegt bei 1 Minute. Neben Englisch werden auch weitere Sprachen wie Deutsch unterstützt. Den Output finde ich sehr gelungen. Es war der erste Versuch.

Die untere Abbildung zeigt das bereitgestellte Audio. Rechts unten über die drei Punkte lässt sich der gesamte Prompt kopieren und für einen weiteren Versuch verwenden. Zusätzlich kann ich die KI-Erzählstimme als MP3 herunterladen und wie hier im Beispiel in meine WordPress-Mediathek wieder hochladen, um den Upload in einem Blogbeitrag zu integrieren.

Mit „Klaus“ erstelle ich im Anschluss eine weitere KI-Stimme, die denselben Text in der Emotion „Surprised“ vorträgt. Hierzu unten an der Promptleiste die geeigneten Settings setzen und mit Enter bestätigen. Alle Outputs können im Playground jederzeit wieder abgespielt werden.

Abschließend noch der Hinweis auf die Erstellung eines neuen Chats im Rahmen des Text-2-Speech-Tools. Hierzu auf der linken Seite kurz die Maus auf MAI-Voice-2 parken und rechts daneben auf das Plus-Icon klicken. Viel Erfolg!




