SeamlessM4T: Meta präsentiert Open-Source-Übersetzungstool mit fast 100 Sprachen
Ein Beitrag von Matthias Kindt
Insbesondere in Zeiten von globaler Vernetzung und stetiger Migration sind Tools, die sich auf Übersetzungen spezialisieren, gefragter denn je. Auch die Künstliche Intelligenz ist mittlerweile aus solchen Anwendungen kaum mehr wegzudenken und sorgt für eine höhere Effizienz bei der Erkennung von Text & Sprache. Nun hat Meta mit SeamlessM4T ein KI-Tool vorgestellt, dass mit bis zu 100 Sprachen umgehen soll, ganz egal ob Speech-to-Text oder Text-to-Speech. Der Code ist für alle frei zugänglich auf GitHub unter Seamless Communication verfügbar.
Wie im obigen Screenshot von Meta sichtbar, kann die Anwendung mit allen Varianten der Spracherkennung umgehen, die sich wie folgt gliedert:
- Automatische Spracherkennung für fast 100 Sprachen
- Sprach-zu-Text-Übersetzung für fast 100 Eingabe- und Ausgabesprachen
- Sprach-zu-Sprache-Übersetzung, die fast 100 Eingabesprachen und 35 (+ Englisch) Ausgabesprachen unterstützt
- Text-zu-Text-Übersetzung für fast 100 Sprachen
- Text-zu-Sprache-Übersetzung, die fast 100 Eingabesprachen und 35 (+ Englisch) Ausgabesprachen unterstützt
Mehr dazu gibt es auf dem offiziellen Blogbeitrag von Meta nachzulesen. Auch die technische Umsetzung, also wie das Modell arbeitet, wird in dem Artikel gut beschrieben.
Im Video wird die Demo von Meta anhand eines Beispiels erläutert und ebenfalls die Möglichkeiten der Anwendung über Huggingface.co deutlich gemacht. Das Tool ist multimodal, dass heißt, User können neben einer klassischen Spracheingabe per Mikrofone auch eine Audiodatei per Uploadfunktion hochladen und diese dann den Wünschen nach bearbeiten. Über huggingface.co lassen sich Audiodateien hochladen und kostenfrei bearbeiten, über die Demo ist dies leider nicht möglich, auch die maximale Aufnahmezeit ist auf 15 Sekunden begrenzt.
Im obigen Screenshot ist die Auswahl an Sprachen bei der Demo von SeamlesseM4T zu sehen. Nutzer können maximal 3 Sprachen gleichzeitig wählen, die dann simultan in Text & Sprache generiert werden. Insgesamt sind Funktionen sehr einfach und das Design wirklich sehr ansprechend gehalten!
Im Screenshot ist unten rechts die Möglichkeit des Audio-Uploads sichtbar. Auch das Switchen zum Mikrofone funktioniert bei Huggingface.co einwandfrei. Da die Anwendung kostenfrei ist, kann es sein, dass die Übersetzung je nach Traffic eventuell die eine oder andere Sekunde länger dauert. Dies sei dem Gratis-Tool verziehen 😉 Übrigens bietet die Plattform haufenweise nützliche KI-Tools, die kostenlos für alle User zum Testen zur Verfügung stehen. Wer das Open-Source-Skript selber auf dem Rechner oder Server laufen lassen möchte, der oder die findet den Code frei zugänglich auf GitHub wieder. Facebook Research (Meta) lädt dort viele Programme hoch, die jeder kostenlos verwenden und natürlich auch anpassen darf.
Einsatzmöglichkeiten in Lehre & Unterricht
Kostenfreie KI-Übersetzungstools wie SeamlessM4T lassen sich in Schulen & Hochschulen doch ganz hervorragend einsetzen und das nicht nur in den thematisch passenden Fächern rund um die Sprachen. Insbesondere im Schulunterricht sind solche Anwendungen nicht erst mit der zunehmenden Migration und der zwangsläufig damit verbundenen Sprachprobleme mehr als willkommen. Vor allem in Tablet-Klassen, wo jeder Schüler über solch ein Gerät verfügt bzw. damit arbeiten darf, kann sich die Verständigung untereinander trotz fehlender Sprachkenntnisse erheblich verbessern. Eine Förderung der Integration wäre eine Folge. Ebenfalls dürfte die Motivation von Schülern etwa aus Fluchtgebieten steigen, da doch in so einer Lage jedes Hilfsmittel recht ist, um sich mit den Mitschülern verständlich machen zu können.
Natürlich kann ebenfalls die Lehre an Hochschulen von solchen Translatern stark profitieren. Sprachen ließen sich insgesamt besser erlernen und untersuchen. Im Handumdrehen von Mandarine auf Deutsch wechseln, hört sich doch klasse an. Es muss ja nicht immer das gemeinsame Englisch sein. Eventuell würde in Zukunft ein kleiner Knopf im Ohr ausreichen und beide Gesprächsparteien könnten sich fließend in ihrer eigenen Muttersprache unterhalten, ohne dass einer der beiden über Kompetenzen in der jeweils anderen Sprache verfügt. Ist dies wikrlich so weit weg bzw. Zukunftsmusik? Wohl eher nicht!