Seamless Expressive Translation: Meta veröffentlicht Tool für lippensynchrone Übersetzung in Videos

Mit Seamless Expressive Translation hat Meta nun auf Open-Source-Basis eine Anwendung für lippensynchrone Übersetzungen veröffentlicht und stellt allen Usern eine knappe Demo zur Verfügung. Diese lässt sich sehr einfach händeln. Über die Kamera etwa am Laptop nimmt man sich kurz in Deutsch auf und wählt als Output z.B. die Sprache Französisch. In Kürze ist das passende Pendant zum Original entstanden und man kann sich nun selber in einer Fremdsprache zuhören, ohne auch nur eine Vokabel zu kennen. Das Tool folgt auf die vor einiger Zeit publizierte  multimodale Audio-Anwendung SeamlessM4T. Hier geht’s zum offiziellen Meta-Blogbeitrag.

Im folgenden Video von Meta wird demonstriert, wie eine Person zwischen zwei verschiedenen Sprachen switchen kann. Auch ein passender Untertitel zum Output wird direkt mitangezeigt. Super! In der Demo lässt sich zwischen 4 Sprachen auswählen, In der offiziellen Version sind die weitaus mehr, wie dies bei SeamlessM4T ebenfalls der Fall ist. Generell beschränkt Meta seine Demo-Versionen hinsichtlich der Funktionen. Dies minimiert gleichzeitig den Traffic 😉

Vier Sprachen sind in der Demo verfügbar

Neben der Sprachauswahl lassen sich in der umfassenden Version auch Vocal Style sowie Emotion und Tone einstellen. Soll meine übersetzte Fassung eher traurig oder fröhlich klingen. Solche Feinheiten sind in diesem Bereich festzulegen. Man merkt, dass die Programme bezüglich der Funktionalität variabler werden. Übrigens, ein kommerzielles Konkurrenzprodukt zur lippensynchronen Übersetzung wäre HeyGen, das schon zu begeistern wusste und erfolgreich im Markt etabliert ist.

screen seamless expressive
User können individuelle Einstellungen bezüglich Vocal Style oder Emotion & Tone einrichten

Wie bei seinem großen Sprachmodell Llama stellt Meta auch das Übersetzungstool allen Nutzern über die Entwickler-Plattform GitHub zur Verfügung. So können zum Beispiel auch Hochschulen diese Anwendung kostenfrei auf ihren Uni-Servern einbinden und so ihren Studierenden und Lehrenden langfristig kostenlos zur Verfügung stellen. Vor allem in Zeiten von Migration und geforderter Integration können sich solche Translation-Programme auf der Grundlage von Künstlicher Intelligenz als äußerst nützlich erweisen, solange diese auch zuverlässig und zügig funktionieren. Diese KI-Tools auszuprobieren, sollte aus meiner Sicht heutzutage Standard sein. Falls sie nicht gut von den Hochschulbeteiligten angenommen werden, dann lassen sich diese ganz einfach wieder vom Hochschulserver deinstallieren. </Delete>

seamless
Der Code ist auf GitHub frei verfügbar

Im unteren Screenshot (Quelle Meta) ist sichtbar, welche Bestandteile zur Kommunikations-Anwendung Seamless Communication gehören. Seamless Expressive erweitert diese nun gezielt und es könnten noch weitere folgen. 

seamless
Seamless Expressive erweitert die Kommunikations-Anwendung Seamless Communication

 

Einsatzmöglichkeiten im Bildungsbereich erstellt von ChatGPT-4

Output Start (Copy & Paste)

Für den Schulunterricht und die Hochschullehre bietet diese Technologie mehrere Vorteile:

  1. Sprachlernunterricht: Lehrkräfte können authentische Videos in der Zielsprache verwenden, die für Schüler und Studierende in ihrer Muttersprache übersetzt und lippensynchronisiert sind. Dies erleichtert das Verständnis und erhält gleichzeitig die Authentizität der originalen Sprache und Kultur.

  2. Inklusion und Barrierefreiheit: Für Schüler und Studierende, die eine andere Erstsprache haben, kann die lippensynchrone Übersetzung helfen, den Unterrichtsinhalt besser zu verstehen. Dies ist besonders hilfreich in multikulturellen Klassenräumen.

  3. Internationale Zusammenarbeit: In der Hochschullehre können Vorträge oder Lehrmaterialien, die in einer Sprache erstellt wurden, leicht in andere Sprachen übersetzt werden, wodurch die Zusammenarbeit mit internationalen Institutionen erleichtert wird.

  4. Vielseitige Unterrichtsgestaltung: Lehrkräfte können bestehende Bildungsvideos in verschiedenen Sprachen für ihren Unterricht nutzen, ohne dass die Qualität der Übersetzung oder die Synchronität der Lippenbewegungen darunter leidet.

Um diese Technologie effektiv einzusetzen, sollten Lehrkräfte jedoch auf eine klare Aussprache und eine gute Abstimmung von Bild und Text achten, um die Wirksamkeit der Lernvideos zu maximieren. Insgesamt bietet die lippensynchrone Übersetzung von Videos eine innovative Möglichkeit, den Unterricht dynamischer, inklusiver und internationaler zu gestalten.

Output Ende

 

Und wer hat es verfasst? Autor 👇

Ähnliche Beiträge