VASA-1 von Microsoft: Lippensynchrone Avatare in Echtzeit mittels Bild- und Audioupload erzeugen

Veröffentlicht am 19. April 202422. April 2024 von Matthias Kindt

Der US-Konzern Microsoft hat über seine Forschungsabteilung “Microsoft Research Asia” die Anwendung VASA-1 vorgestellt, mit der sich über einen Bild-Upload etwa eines Porträts und einer Audiodatei mit Stimme ein hochwertiger Avatar mit passender Kopfbewegung und Mimik als Video (MP4) erzeugen lässt. Das Tool ist nicht frei zugänglich und dient wohl vor allem zu Demonstrationszwecken, um auch den Stand dieser Technologie zu zeigen.

Kurze Zusammenfassung von Microsoft. TL;DR = „too long; didn’t read“

TL;DR: single portrait photo + speech audio = hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements, generated in real time.

Quelle: Microsoft Research

Folgendes Video wurde auf der Grundlage eines Bildes (siehe links unten) und eines MP3 (Stimme) generiert und dauert fast eine ganze Minute an, ohne dass die “KI-Avatarin” verzieht bzw. unmenschliche Bewegungen macht, wie etwa das zu starke Drehen des Kopfes. Die englischsprachige Frau wird in dem Kurzvideo vor allem hinsichtlich ihrer Emotionen wirklich gut dargestellt. Sie wirkt zu Beginn etwas aufgeregt, dann gerührt und auch mit Tränen im Gesicht. Ebenso die Stimmlage dazu verändert sich passend. Bei erhöhter Aufregung macht sie “große Augen”. Dieser Vorgang wirkt stark menschenähnlich und zeigt, wie sehr sich auch die Mimik im Gesicht mittels Tools auf der Grundlage Künstlicher Intelligenz wie VASA-1 darstellen lässt.

“Perfekt” zur Erzeugung von Deepfakes geeignet! Hat die Person dies wirklich so gesagt? Echt jetzt? Nöö!

Neben den zahlreichen Chancen solcher optimierten Avatare, etwa im Bereich der Wissenschaftskommunikation, lassen sich diese jedoch auch ganz hervorragend im Rahmen von sogenannten Deepfakes verwenden, also der bewusst fehlerhaften Darstellung von Medieninhalten wie z.B. in einem Video. Ich lade das Bild von US-Präsident Joe Biden und zusätzlich noch dessen geklonte Stimme hoch und zack spricht das stärkste Oberhaupt unserer westlichen Demokratien in den höchsten Tönen von China und Russland hinsichtlich deren Einhaltung der dortigen Menschenrechte. Natürlich gibt es noch so einiges zu diskutieren im Umgang solcher Avatar-Tools, die es in Zukunft mit Sicherheit auch auf der Grundlage von Open Source gibt, also ohne potenzielle Einschränkungen, wie bei kommerziellen und geschlossener Programmen von Unternehmen wie Microsoft und Co.

Quelle: Microsoft Research

Das obere Video zeigt eindrucksvoll, wie einfach die Handhabe von VASA-1 zum Beispiel per Switch mit anderem Profilbild, aber der gleichen Stimme ist. Auch “Normalbürger” könnten so Avatare en Masse KI-generieren und über Social Media verbreiten. Da VASA-1 ein erster Prototyp von Microsoft ist, darf ruhig schon einmal spekuliert werden, wie denn VASA-X in den nächsten Jahren dann aussehen wird. Sind dann noch Unterschiede zum Original und Fake erkennbar? Wohl kaum!

Our research focuses on generating visual affective skills for virtual AI avatars, aiming for positive applications. It is not intended to create content that is used to mislead or deceive. However, like other related content generation techniques, it could still potentially be misused for impersonating humans. We are opposed to any behavior to create misleading or harmful contents of real persons, and are interested in applying our technique for advancing forgery detection. Currently, the videos generated by this method still contain identifiable artifacts, and the numerical analysis shows that there’s still a gap to achieve the authenticity of real videos. Quelle: Microsoft Research

In den technischen Details ist zu lesen, dass solch ein Avatar auch problemlos auf einem Desktop-PC erstellt werden kann.

Our method generates video frames of 512×512 size at 45fps in the offline batch processing mode, and can support up to 40fps in the online streaming mode with a preceding latency of only 170ms , evaluated on a desktop PC with a single NVIDIA RTX 4090 GPU. Quelle: Microsoft Research

Fazit: Ja, aber…

Ja, eine menschenähnliche Generierung von KI-Avataren, um beispielsweise wissenschaftliche Inhalte optimal auch im Rahmen von “Walking Avatars” zu präsentieren, macht mehr als Sinn. Warum nicht mehrere Avatare auf der Grundlage des beliebten Moderators Dirk Steffens (Terra X) erstellen, falls dieser in Rente geht, aber man selber die Inhaltsvermittlung (Wisskomm) richtig gut verstanden hat.

Jedoch sind natürlich Fake-Videos ein riesengroßes Problem. Welchen Inhalten kann ich überhaupt noch trauen, lassen sich solche KI-Avatare “stempeln”, also mit gezielten Markierungen versehen? Fest steht wohl: Verbieten lassen sich die “AI Buddys” mit Sicherheit nicht, also bedarf es mal wieder kreativen Lösungen und einer passenden Rechtsprechung.