Meta’s Audiobox: Per Text-Prompt Stimmen und Geräusche erzeugen & Stimmen klonen

Veröffentlicht am 5. Februar 20245. Februar 2024 von Matthias Kindt

Meta hat mit Audiobox einen Audiomaker publiziert, mit dem User per Text-Prompt Stimmen und Geräusche erstellen können. Es gibt eine offizielle Demo dazu, die recht umfangreich ist, mit der Möglichkeit eines Downloads der KI-Outputs.

1) Capabilities: Hier könnt Ihr zum Beispiel Eure Stimme live aufnehmen und diese dann klonen lassen, also wird Eure Stimme automatisch mittels Text-Input übertragen. Dies ging bei mir zwar nur auf Englisch, aber trotzdem richtig gut. Dazu einfach kurz den Text einmalig vorlesen und im Anschluss wird Eure Stimme erfasst. Ab dann reicht Text aus, um weiteres Audio von Euch zu erzeugen. Außerdem lassen sich mit Audiobox auch andere Stimmen generieren und es können Geräusche erstellt werden. Alles frei downloadbar.

2) Audiobox Maker: Hier lassen sich ganze Storys erzählen, also verschiedene Stimmen und Geräusche in nur einem Audio abspielen/kombinieren. Dies sieht so ein wenig wie im Rahmen einer Musikmaker-Software aus, wo verschiedene Tonspuren per Maus zu verschieben sind. Sehr cool! Alles lässt sich kostenfrei herunterladen und nutzen!

Das folgende Audio (WAV) ist die offizielle Datei von Meta, die im Rahmen des “Audiobox Makers” zum Download bereitsteht.

Fazit

Audiobox von Meta ist eine tolle Ansammlung aus Audiotools, die aber leider nicht als Open Source zur Verfügung stehen, wie dies etwa bei Anwendungen wie Seamless Communication der Fall ist. Jedoch lässt sich schon an der recht umfangreichen Demo erkennen, wie zügig User aus simplen Text-Prompts Stimmen und Geräusche generieren und auch ihre eigenen Stimmen via Audio-Upload klonen können. Die Einfachheit dieser Tools bzw. der Umgang mit diesen überzeugt mich persönlich am meisten. So geht KI!