NotebookLlama: Meta veröffentlicht Open-Source-Alternative zu Google
Meta hat mit NotebookLlama auf GitHub eine offene Alternative zu der sehr beliebten Anwendung NotebookLM von Google veröffentlicht. Diese wandelt ein PDF in einen Podcast mit zwei KI-Hosts, die die Thematik dann anregend diskutieren.
Die obere Abbildung, die von Meta auf GitHub publiziert wurde, zeigt, dass NotebookLlama insgesamt mit drei unterschiedlichen Sprachmodellen der Llama-Familie ausgeführt werden kann. Hinzu kommen noch die Audio-Tools Parler und SUNO, um Stimmen und Geräusche zu erzeugen, alles auf Open-Source-Basis.
Hier die offizielle Anleitung:
Here is step by step thought (pun intended) for the task:
- Step 1: Pre-process PDF: Use
Llama-3.2-1B-Instruct
to pre-process the PDF and save it in a.txt
file. - Step 2: Transcript Writer: Use
Llama-3.1-70B-Instruct
model to write a podcast transcript from the text - Step 3: Dramatic Re-Writer: Use
Llama-3.1-8B-Instruct
model to make the transcript more dramatic - Step 4: Text-To-Speech Workflow: Use
parler-tts/parler-tts-mini-v1
andbark/suno
to generate a conversational podcast
Unterschiedliche Llama-Modelle im Einsatz
Die Umwandlung von PDF in eine Textdatei übernimmt z.B. Llama-3.2-1B-Instruct und das Schreiben eines spannenden Skriptes das Model Llama-3.1-8B-Instruct. Zum Schluss kommen die Audio-Tools Parler und SUNO hinzu und zack, der KI-Podcast ist fertig und kann angehört werden, wohl bevorzugt in englischer Sprache, wie dies auch schon bei NotebnookLM der Fall ist. Jedoch ließ sich dies durch einen anfänglichen Prompt wie “Generiere einen Podcast ausschließlich für ein deutsches Publikum” hinsichtlich der Sprache anpassen. Mindestens ein US-Akzent wird wohl bleiben.
Fazit
Metas offenes NotebookLlama ist eine gute Alternative zum geschlossenen NotebookLM von Google, wenn es um die Umwandlung von PDFs in KI-Podcasts geht, auch wenn Google hier definitiv die Nase vorne hat. NotebookLlama wirkt rein von Konstrukt her bezüglich der verwendeten Sprachmodelle hinsichtlich Text und Audio schon ein wenig kompliziert, aber punktet mit dem Datenschutz, da das Tool auch über die eigenen Rechenkapazitäten laufen kann.