Effizienter Umgang mit PDFs im Gemini-Chat
Ein PDF auf einen Chatbot hochladen, dieses zum Beispiel in Stichpunkten zusammenfassen lassen und stets über die direkte Quelleneinsicht überprüfen, ob denn die Outputs von ChatGPT, Mistral, Gemini & Co wirklich stimmen, das ist ein beliebter Use Case und kann im Rahmen einer Recherche viel Zeit sparen. In diesem Beitrag wird der Gemini-Chat verwendet.

Auf der Startseite des Gemin-Chats einfach an der Promptleiste auf das „Plus“ klicken und über die Upload-Funktion dann ein PDF hochladen. Achtet darauf, dass Ihr die Rechte an der Publikation habt. Im Beispiel habe ich den Blogbeitrag zum datenschutzfreundlichen Chatbot Lumo hier auf „Unidigital“ über die Drucken-Funktion in ein PDF gewandelt. Ja, ich darf das 😉
Nach erfolgreichem Upload taucht, wie oben in der Abbildung dargestellt, das PDF auf und nun kann man rechts über das Menü mit der aktuellen Bezeichnung „Fast“ ein Sprachmodell wählen. Da ich nur den Free Plan nutze, der aber für solche Aufgaben vollkommen ausreicht, macht es Sinn, das Fast-Modell von Googles Gemini zu verwenden und nicht den Thinkling-Modus, der mehr Rechenkapazität und auch Zeit benötigt. Für eine PDF-Zusammenfassung benutze ich eigentlich immer das kleinere LLM.
Prompt: ***Fasse das PDF in Stichpunkten zusammen***
Gemini hat, wie im oberen Screenshot sichtbar, den Output wie gewünscht in Stichpunkten generiert, alles sehr übersichtlich gehalten. PDFs lassen sich in dieser Form gut analysieren. Hinter jedem Bullet-Point bzw. am Ende des Satzes tauchen kleine Hyperlink-Icons auf, die auf die verwendete Quelle (PDF) extern verlinken. Klickt man ganz unten auf den Button „Quellen„, so öffnet sich rechts eine Sidebar mit allen Quellen und einzelnen Passagen. Man kann natürlich auch 2, 3 oder mehr PDFs hochladen, aber in diesem Beispiel halte ich es einfach.
Eine tolle Funktion im Gemini-Chat ist die Möglichkeit, das gesamte PDF hier im Chat zu öffnen, um dieses via Scrollen durchzugehen, um zu checken, ob denn der KI-Output korrekt wiedergegeben wurde. Dies sollte eine Standard-Vorgehensweise sein, insbesondere bei den wichtigen Punkten.
Um das PDF wieder zu schließen, reicht ein Klick auf der rechten Seite links oben auf das Kreuz. Auch die Sidebar mit den Quellen lässt sich so problemlos entfernen und man kehrt im Handumdrehen zum normalen Chatfenster zurück und kann so übersichtlicher arbeiten.
Um ein passendes Erklärvideo zu Lumo direkt hier im Gemini-Chat abzuspielen, bin ich auf das „Thinking-Modell“ gewechselt und habe den Prompt ***Suche ein geeignetes Erklärvideo zu Lumo heraus*** eingegeben. Das Modell denkt dann ein wenig nach, geht die Medien von YouTube durch und präsentiert zwei Videos. YouTube gehört ebenfalls zu Google und daher ist diese Integration nicht sehr verwunderlich.
Generell ist zu beobachten, dass die Chatangebote immer funktionaler werden und man als User weniger hin und her wechseln muss, um zum Beispiel auf einer anderen Plattform ein Video zu suchen. Dies spart Zeit. Gerne mal testen.
Autor








