Audio Expressions: Hochwertige AI Voices im Copilot erstellen
Im Copilot von Microsoft können User aktuell ohne Anmeldung hochwertige KI-Stimmen generieren, die dann zum Download bereitstehen. Es gibt vielfältige Settings, vom Storytelling, über eine sachliche News-Berichterstattung bis hin zum süffisanten Vampire-Style. Es lohnt sich, dies kurz kostenfrei zu testen. Das Feature nennt sich Copilot Audio Expressions. und ist noch als experimentelle KI-Initiative gekennzeichnet.
Und so kann es gehen:
1) Auf die Webseite von Copilot Labs navigieren (ohne Anmeldung)
2) Dort Copilot Audio Expressions auswählen
3) Einen Textinput auf Englisch in das zugehörige Feld einfügen
4) An der Promptleiste Modus, Sprache und Formatvorlage festlegen
5) Audio generieren, anhören und als MP3 herunterladen
Die untere Abbildung zeigt die Webseite von Copilot Labs mit den neuen KI-Stimmen, aber auch andere Anwendungen wie z.B. Copilot 3D oder Erscheinungsbild. Dies lässt sich alles kurz durchtesten.
Nachdem man sich über die experimentelle KI-Umgebung Copilot Labs zu den Audio Expressions geklickt hat, wird ein Fenster mit Promptleiste, Textfeld und den Einstellungen bezüglich der Stimmen angezeigt. Links unter dem Textfeld wird der Modus dargestellt mit der Auswahl von „Skript“ für eine unaufgeregte Wiedergabe des Inhalts, „Geschichte“ für ein mehrstimmiges Storytelling in unterschiedlichen Stimmlagen sowie „Emotional“, um den Text möglichst emotional vorzutragen, etwa hinsichtlich der Betonung von Wörtern etc.
Generell empfiehlt es sich, hier ein wenig auszuprobieren, denn es gibt vielfältige Kombinationsmöglichkeiten. Aktuell ist die Erstellung kostenfrei und auch längere Passagen wie eine Minute Output und mehr lassen sich problemlos generieren. Das Maximum von Kontextinput und Längenoutput habe ich nicht getestet. Gerne Bescheid geben.
Im folgenden Beispiel habe ich ausschließlich einen Prompt verwendet und darauf basierend dann drei unterschiedliche Audios erstellt. Wichtig: Aktuell ist wie so häufig in der Anfangsphase bei US-Anwendungen ausschließlich englischer Output möglich, ganz egal, ob ihr nun deutschen Text mit entsprechendem Hinweis einfügt.
Textinput (Prompt):
Generative AI (GenAI) and Artificial General Intelligence (AGI) are often mentioned in the same breath, yet they represent two very different stages of artificial intelligence.
GenAI describes today’s systems, such as large language models, image generators, or code assistants. These models create new content by learning patterns from massive datasets. They excel at producing fluent text, realistic images, or functional code, but they remain specialized. Their “intelligence” is narrow: they cannot truly understand context, intentions, or the world beyond the data they were trained on. GenAI is practical, widely used in business, education, and creativity, but it operates within clear boundaries.
AGI, by contrast, is a concept of future AI that would match or even surpass human general intelligence. An AGI system would be capable of learning any task, transferring knowledge across domains, and reasoning in flexible, adaptive ways. Unlike GenAI, it wouldn’t just generate based on statistical patterns but could apply understanding, abstraction, and problem-solving in a human-like manner.
The key difference lies in scope: GenAI is powerful but limited to specific applications, while AGI represents the vision of machines that think, learn, and adapt as broadly as humans do. GenAI is a reality today; AGI remains a long-term research goal and a subject of ongoing debate about feasibility, safety, and ethics.
Der untere Screenshot zeigt den eingefügten Prompt mit der Thematik „AGI vs GenAI“ und nach der Auswahl der Settings und dem Klicken auf den Button „Generieren“ ist das Audio sehr zügig fertiggestellt und wird direkt im Browser abgespielt.
Beispiel 1 (normal)
Modus: Skript
Sprache: Grove
Formatvorlage: Curiosity
Beispiel 2 (Storytelling)
Wenn ich denselben Text kombiniere mit dem Modus Geschichte, dann erzählt die Stimme, wie in diesem Fall Acacia eine ganze Story drumherum und verändert gezielt die Stimmlage. Sehr cool, aber hört gerne selbst rein. Übrigens, eine Formatvorlage kann hier nicht eingestellt werden.
Beispiel 3 (Wooow)
Als drittes Beispiel habe ich den Modus Emotional mit der Stimme Rain und der Formatvorlage Joy kombiniert, und heraus kam eine schier begeisternde AI Voice, die dieses recht technische Thema dann ganz anders aufbereitet. Eine tolle Alternative, aber womöglich auch „etwas“ übertrieben.
Fazit
Die Audio Expressions im Microsoft Copilot sind ein toller Vorgeschmack, wie Nutzer KI-Stimmen einsetzen könnten, um eine bestimmte Thematik ganz gezielt von einer Künstlichen Intelligenz erzählen zu lassen, ganz egal, ob eher neutral und sachlich oder eben hochemotional und süffisant. Vor allem für das Storytelling sind solche KI-Stimmen sehr interessant, um ein eher „trockenes Thema“ ganz neu zu präsentieren. Auch die Kombination mit Bild und Video würde gut passen. Theoretisch ergeben sich viele sinnvolle Use Cases.
Autor des Beitrags





