NotebookLlama: Meta veröffentlicht Open-Source-Alternative zu Google

Meta hat mit NotebookLlama auf GitHub eine offene Alternative zu der sehr beliebten Anwendung NotebookLM von Google veröffentlicht. Diese wandelt ein PDF in einen Podcast mit zwei KI-Hosts, die die Thematik dann anregend diskutieren.

notebookllama
Erläuterungen der einzelnen Schritte – Quelle: Meta on GitHub

Die obere Abbildung, die von Meta auf GitHub publiziert wurde, zeigt, dass NotebookLlama insgesamt mit drei unterschiedlichen Sprachmodellen der Llama-Familie ausgeführt werden kann. Hinzu kommen noch die Audio-Tools Parler und SUNO, um Stimmen und Geräusche zu erzeugen, alles auf Open-Source-Basis.

Hier die offizielle Anleitung:

Here is step by step thought (pun intended) for the task:

  • Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF and save it in a .txt file.
  • Step 2: Transcript Writer: Use Llama-3.1-70B-Instruct model to write a podcast transcript from the text
  • Step 3: Dramatic Re-Writer: Use Llama-3.1-8B-Instruct model to make the transcript more dramatic
  • Step 4: Text-To-Speech Workflow: Use parler-tts/parler-tts-mini-v1 and bark/suno to generate a conversational podcast

Unterschiedliche Llama-Modelle im Einsatz

Die Umwandlung von PDF in eine Textdatei übernimmt z.B. Llama-3.2-1B-Instruct und das Schreiben eines spannenden Skriptes das Model Llama-3.1-8B-Instruct. Zum Schluss kommen die Audio-Tools Parler und SUNO hinzu und zack, der KI-Podcast ist fertig und kann angehört werden, wohl bevorzugt in englischer Sprache, wie dies auch schon bei NotebnookLM der Fall ist. Jedoch ließ sich dies durch einen anfänglichen Prompt wie “Generiere einen Podcast ausschließlich für ein deutsches Publikum” hinsichtlich der Sprache anpassen. Mindestens ein US-Akzent wird wohl bleiben.

notebookllama
Code von NotebookLlama auf GitHub verfügbar

Fazit 

Metas offenes NotebookLlama ist eine gute Alternative zum geschlossenen NotebookLM von Google, wenn es um die Umwandlung von PDFs in KI-Podcasts geht, auch wenn Google hier definitiv die Nase vorne hat. NotebookLlama wirkt rein von Konstrukt her bezüglich der verwendeten Sprachmodelle hinsichtlich Text und Audio schon ein wenig kompliziert, aber punktet mit dem Datenschutz, da das Tool auch über die eigenen Rechenkapazitäten laufen kann.

Ein Beitrag erstellt von

Ähnliche Beiträge