Handgeschriebenen Text mit automatisierter KI-Bewertung in ein PDF umwandeln

✅ Freie Nutzung von Text & Abbildungen & Video für Premium-User

Sprachmodelle können über ihre Vision-Fähigkeit handgeschriebenen Text erfassen, in Computerschrift transkribieren und anschließend in einem PDF zum Download bereitstellen. Hier kommt auch die Technik OCR (Optical Character Recognition) zum Einsatz Im Beispiel wird der Gemini-Chat mit dem Pro-Modell von Googles Top-KI verwendet.

Zum offenen Chat (Teil 1)

Zum offenen Chat (Teil 2)

Der untere Screenshot zeigt den Beispieltext, den ich über ChatGPT Images 2.0 im „Thinking-Modus“ generiert habe. Im Text sollte kurz das Chatangebot „Le Chat“ des französischen KI-Startups Mistral AI beschrieben werden. Ich halte die Thematik bewusst einfach, um den Prozess insgesamt besser kontrollieren zu können. Im Fokus stehen die Zuverlässigkeit der Textübertragung und eine anschließende Bewertung seitens Gemini.

 

Nachdem ich das Bild in ChatGPT heruntergeladen habe, nutze ich im Gemini-Chat die Upload-Funktion und nun taucht die Abbildung mit handgeschriebenem Text im Kontextfenster auf. Wichtig ist hierbei, rechts unten über das Drop-Down-Menü auf das Pro-Modell von Gemini zu wechseln, denn nur dieses gibt aktuell das Format PDF im Chat aus.

Prompt: ***Bei dem Upload handelt es sich um einen abfotografierten Text. Wandle diesen in ein PDF mit Computerschrift um und stelle mir die Datei als Download bereit.***

Abschließend wird ein geeigneter Prompt formuliert, um den Text in Computerschrift in ein PDF zu transkribieren. Rechts unten mit Enter bestätigen und danach fängt Gemini an, die Aufgabe auszuführen. Dies geht sehr schnell.

Im Gemini-Chat wird der Prozess übersichtlich dargestellt, oben mit dem anklickbaren Bild-Upload, darunter der formulierte Prompt und zum Schluss die KI-generierte Datei als PDF. Dies war von mir der erste Versuch und aus meinen Erfahrungen klappt dies mittlerweile zuverlässig, ohne solch einen Vorgang x-mal durchführen zu müssen.

Die obere Abbildung zeigt den gesamten „Gedankenprozess“ von Gemini, das ausgegebene PDF mit der Bezeichnung „Transkription_Le_Chat“ und weiter unten den übertragenen Text im Chat, um diesen dort direkt kontrollieren zu können. Ich habe den Content überprüft und der Output stimmt zu 100 %. Gemini arbeitet hier zuverlässig, kann aber auch Fehler machen! Es muss wirklich immer kontrolliert werden! Da führt kein Weg dran vorbei!

Die KI-generierten Formate wie ein PDF oder auch DOCX können direkt im Chat in einem Vollbildmodus geöffnet und heruntergeladen werden. Links oben über das „Kreuz“ geht es wieder zurück zum Chatverlauf und rechts oben über das „Download-Icon“ lässt sich das Dokument auf den eigenen Rechner herunterladen.

Die Transkription von Text aus einem Bild in ein PDF hat wie oben dargestelt erfolgreich geklappt und nun wird der Vorgang um eine automatisierte KI-Bewertung seitens des Top-Sprachmodells Gemini erweitert. Dazu habe ich den Prompt ergänzt.

Prompt: ***Bei dem Upload handelt es sich um einen abfotografierten Text. Wandle diesen in ein PDF mit Computerschrift um und stelle mir die Datei als Download bereit.

Auf der zweiten Seite im PDF bewertest du den Schreibstil des Textes und gibst in Stichpunkten Verbesserungsvorschläge an.***

Auch für diesen Vorgang muss das Pro-Modell aktiv sein, damit, wie unten im Screenshot dargestellt, auch ein PDF als Download bereitgestellt wird. Ich nutze den kostenfreien Plan vom Gemini-Chat und über diesen kann das Pro-Modell in einem begrenzten Umfang verwendet werden. Es kann also sein, dass man wenige Stunden warten muss, bis das freie Kontingent wieder verfügbar ist.

Der untere Screenshot zeigt die zweite Seite im PDF mit den Verbesserungsvorschlägen hinsichtlich des Schreibstils. Gemini hat den Text ausführlich analysiert und gibt mir ein geordnetes, kritisches Feedback. Als „Schwäche“ wird angeführt, dass der Satzbau „insgesamt sehr simpel gehalten“ ist. Dies muss ich jetzt erstmal „sacken lassen“ 😉

Aber wenn man sich die Analyse genauer durchliest, dann hat das Sprachmodell durchaus einige gute Punkte präsentiert, die ich verbessern sollte. Ja, für diesen kleinen Text sind einfach zu viele Wortwiederholungen von „Le Chat“ enthalten. Dies wirkt ein wenig werblich. Generell gefällt mir der Output gut, also auf Seite 1 die Transkription, die genauso wie im ersten Beispiel aussieht und auf Seite 2 im PDF eine kritische Bewertung des Stils. Auch designtechnisch wird dies ansprechend präsentiert.

Zum Schluss noch der Hinweis, dass man das Transkript mit Bewertung auch als Word-Dokument erhält, wenn dies im Prompt angepasst wird. So ließen sich dann mögliche Fehler im Transkript korrigieren und zusätzlich noch eine ganz eigene (menschliche) Bewertung vornehmen. Es bieten sich da viele Möglichkeiten. Viel Erfolg!


Autor

matthias kindt

Matthias Kindt auf Linkedin