PDF2Audio: Open-Source-KI zur Wandlung von PDF in Podcasts und Zusammenfassungen
Nachdem Google vor Kurzem sehr eindrucksvoll über das Tool NotebookLM die Funktion Audio Overview vorgestellt hat, mit dem sich aus einem PDF oder einer URL ein interessanter englischsprachiger Podcast KI-generieren lässt, können User nun die Open-Source-KI PDF2Audio nutzen, um PDFs in deutschsprachige Podcasts und weitere Sprachen zu transformieren. Auch Zusammenfassungen und Vorträge können User erstellen.
Podcasts nun auch in deutscher Sprache mit vielfältigen Settings
Das erste Audio ließ sich in deutscher Sprache über den Space von HuggingFace und die Anwendung GPT-4o generieren und zwar mit Kosten von ca. 0,10 $ für die Nutzung von GPT & dem Audiomodell TTS (beide OpenAI). Als Upload diente ein Blogbeitrag auf Unidigital.news zu Flux LoRa, den ich in ein PDF umgewandelt habe. Die beiden KI-Hosts diskutieren das Thema recht unaufgeregt und sachlich korrekt in knapp 7 Minuten. Auch ein Transkript zur Sendung wird mit ausgegeben. Der zweite Podcast wurde auf Englisch erzeugt. Aber wie funktioniert das denn eigentlich?
Schritt für Schritt Anleitung
So geht es:
1) PDF hochladen (ohne Anmeldung)
2) Format wie Podcast (Deutsch) oder Summary wählen
3) Sprachmodell als Grundlage der PDF-Verarbeitung wählen. Modelle von OpenAI wie GPT-4o verfügbar. Hierfür muss ein API Key von OpenAI API in das zugehörige Feld kopiert werden. Bei Euch fallen dann also “kleine Kosten” an. Auch die Eintragung von API zu lokalen Open-Source-LLMs wie Llama & Co ist möglich. Hier gibt es den OpenAI API Key, den Ihr dort erstellen und auch wieder löschen könnt: https://platform.openai.com/api-keys
4) Einstellungen, etwa zur Durchführung des Podcasts setzen. Wie soll diskutiert werden? Gibt es Themenschwerpunkte oder Ähnliches? Wie soll der Podcast strukturell aufgebaut sein? Auch Stimmeinstellungen der KI-Hosts sind vorhanden. Vielfältige Möglichkeiten vorhanden.
5) Button “Generate” klicken, kurz warten und bei Fertigstellung auch gerne als MP3 herunterladen und vorführen.
OpenAI API Key generieren & Code über GitHub nutzen
Der untere Screenshot zeigt die Oberfläche zum Generieren eines API Keys von OpenAI, damit die Anwendung PDF2Audio auf den Servern von HuggingFace mit den Sprachmodellen von OpenAI verbunden werden kann. API Keys sollten regelmäßig gelöscht und erneuert werden, um sich u.a. vor Hackerangriffen und den “gedeckelten” Folgekosten zu schützen. Das Löschen solch eines Verschlüsselungscodes geht sehr fix! Es können auch mehrere API Keys gleichzeitig erstellt werden. Jeder Prompt über eine OpenAI API verursacht Kosten, die im Backend bei OpenAI über den Reiter “Usage” jederzeit einsehbar sind.
Im Gegensatz zu Audio Overview von Google können Nutzer den Code von PDF2Audio via GitHub frei verwenden und lokal auf der eigenen Hardware installieren und etwa Beteiligten an Schulen & Hochschulen im Rahmen eines Lernprozesses anbieten. Es entfielen also teure Lizenzgebühren und datenschutzkonform scheint die Lösung dann auch zu sein. Gerne mal ausprobieren.