PDF2Audio: Open-Source-KI zur Wandlung von PDF in Podcasts und Zusammenfassungen

Nachdem Google vor Kurzem sehr eindrucksvoll über das Tool NotebookLM die Funktion Audio Overview vorgestellt hat, mit dem sich aus einem PDF oder einer URL ein interessanter englischsprachiger Podcast KI-generieren lässt, können User nun die Open-Source-KI PDF2Audio nutzen, um PDFs in deutschsprachige Podcasts und weitere Sprachen zu transformieren. Auch Zusammenfassungen und Vorträge können User erstellen.

pdf2
Startoberfläche von PDF2Audio: PDF-Upload und Settings setzen

Podcasts nun auch in deutscher Sprache mit vielfältigen Settings

Die offene Anwendung PDF2Audio wurde vom MIT Laboratory for Atomistic and Molecular Mechanics (LAMM) entwickelt und über GitHub und HuggingFace allen Usern frei zugänglich gemacht. Das Tool wurde von einem Team rund um Professor Marcus Buehler vom Massachusetts Institute of Technology, also der Technischen Hochschule aus den USA mit Standort Cambridge entwickelt. Siehe hierzu auch LAMM auf HuggingFace.
 
Podcast über GPT-4o kostenlos auf Deutsch erzeugt
Podcast über GPT-4 Turbo kostenlos auf Englisch erzeugt

Das erste Audio ließ sich in deutscher Sprache über den Space von HuggingFace und die Anwendung GPT-4o generieren und zwar mit Kosten von ca. 0,10 $ für die Nutzung von GPT & dem Audiomodell TTS (beide OpenAI). Als Upload diente ein Blogbeitrag auf Unidigital.news zu Flux LoRa, den ich in ein PDF umgewandelt habe. Die beiden KI-Hosts diskutieren das Thema recht unaufgeregt und sachlich korrekt in knapp 7 Minuten. Auch ein Transkript zur Sendung wird mit ausgegeben. Der zweite Podcast wurde auf Englisch erzeugt. Aber wie funktioniert das denn eigentlich?

Schritt für Schritt Anleitung

So geht es:

1) PDF hochladen (ohne Anmeldung)

2) Format wie Podcast (Deutsch) oder Summary wählen

3) Sprachmodell als Grundlage der PDF-Verarbeitung wählen. Modelle von OpenAI wie GPT-4o verfügbar. Hierfür muss ein API Key von OpenAI API in das zugehörige Feld kopiert werden. Bei Euch fallen dann also “kleine Kosten” an. Auch die Eintragung von API zu lokalen Open-Source-LLMs wie Llama & Co ist möglich. Hier gibt es den OpenAI API Key, den Ihr dort erstellen und auch wieder löschen könnt: https://platform.openai.com/api-keys

4) Einstellungen, etwa zur Durchführung des Podcasts setzen. Wie soll diskutiert werden? Gibt es Themenschwerpunkte oder Ähnliches? Wie soll der Podcast strukturell aufgebaut sein? Auch Stimmeinstellungen der KI-Hosts sind vorhanden. Vielfältige Möglichkeiten vorhanden.

5) Button “Generate” klicken, kurz warten und bei Fertigstellung auch gerne als MP3 herunterladen und vorführen.

OpenAI API Key generieren & Code über GitHub nutzen

Der untere Screenshot zeigt die Oberfläche zum Generieren eines API Keys von OpenAI, damit die Anwendung PDF2Audio auf den Servern von HuggingFace mit den Sprachmodellen von OpenAI verbunden werden kann. API Keys sollten regelmäßig gelöscht und erneuert werden, um sich u.a. vor Hackerangriffen und den “gedeckelten” Folgekosten zu schützen. Das Löschen solch eines Verschlüsselungscodes geht sehr fix! Es können auch mehrere API Keys gleichzeitig erstellt werden. Jeder Prompt über eine OpenAI API verursacht Kosten, die im Backend bei OpenAI über den Reiter “Usage” jederzeit einsehbar sind.

api key
API Key über OpenAI erstellen, damit die Verbindung zu GPT & Co steht

Im Gegensatz zu Audio Overview von Google können Nutzer den Code von PDF2Audio via GitHub frei verwenden und lokal auf der eigenen Hardware installieren und etwa Beteiligten an Schulen & Hochschulen im Rahmen eines Lernprozesses anbieten. Es entfielen also teure Lizenzgebühren und datenschutzkonform scheint die Lösung dann auch zu sein. Gerne mal ausprobieren.

pdf
Code auf GitHub herunterladen

Ein Beitrag erstellt von

Ähnliche Beiträge