Mistral OCR 3: Optische Zeichenerkennung auf Top-Niveau
Optical Character Recognition bedeutet auf Deutsch so viel wie „optische Zeichenerkennung“. Ein Sprachmodell schaut sich nach einem User-Upload ein Bild oder auch PDF genauer an und erkennt dabei Text, Ziffern und Zeichen. Man muss also nicht jedes einzelne Dokument Wort für Wort oder Zahl für Zahl durchgehen und dies manuell in Computertext übertragen, sondern den Großteil der Arbeit übernimmt nun „Kollege KI“.
Der obere Screenshot von Mistral zeigt auf der linken Seite ein Originaldokument, das nach einem Upload auf der rechten Seite in gut lesbaren Text übertragen wurde. Nun besteht die Aufgabe darin, zu überprüfen, ob denn alles 1:1 korrekt erfasst wurde. Gibt es Fehler oder fehlen Bestandteile des Originals, dann kann ein Nutzer dies einfach korrigieren oder hinzufügen. Dies spart Zeit!
Neben handgeschriebenem Text, der „solo“ und auch gemeinsam mit gedrucktem Text etwa in Anträgen erkannt wird, lassen sich über OCR ebenfalls ganze Tabellen übermitteln und nachträglich anpassen. Häufig befinden sich Tabellen in PDFs, die als Bild gespeichert sind und dort nicht einfach über ein Markieren herauskopiert werden können. Da hilft nur die „optische Zeichenerkennung“ mit einem LLM wie Mistral, das über „Vision-Fähigkeiten“ verfügt.
Für all diejenigen, die Mistral OCR 3 gerne testen möchten, steht der AI Playground zur Verfügung. Links in der Navigation ist der Menüpunkt „Document AI“ gelistet und dort klickt man dann drauf. Ich habe mit dem „Experiment“ einen kostenlosen Plan gewählt, der auch in einem bestimmten Umfang eine kostenlose API-Nutzung (free API tier) beinhaltet.
Die untere Abbildung zeigt die „OCR-Spielwiese“ und den Upload-Button für ein Bild oder PDF. Ich habe einen Bild-Upload (PNG) vorgenommen, den ich über einen Screenshot von Mistrals Blogbeitrag erstellt habe. Es handelt sich also um ein Bild, aus dem ich gerne die Zahlen bzw. Tabelleneinträge 1:1 in ein anderes Format umwandeln möchte.
Nach einem Upload erscheint die Tabelle auf der rechten Seite als Bild (PNG) im Interface. Es ließen sich in Mistral OCR 3 einige Einstellungen treffen, aber da ich es bei solchen Tests gerne einfach halte, genügt mir direkt der Klick rechts oben auf „Ausführen„.
Im Anschluss wird der Datensatz auf die linke Seite übertragen und es fällt sofort auf, dass ich diese Zahlen mit der Maus markieren kann. Dies war so vorher nicht möglich, da es sich um ein Bild handelte. Nun könnte ich theoretisch alles simpel per copy & paste woanders einfügen.
Da mir das bloße Markieren nicht ausreicht, nehme ich gleich einen ganzen Download der Tabelle vor. Hierzu rechts oben auf „Download“ navigieren. Dieser wird nun als Zip-Datei bereitgestellt und beinhaltet u.a. ein md-Format, also Markdown.
Da ich sehr gerne meinen Texteditor verwende, habe ich den Datensatz dort geöffnet. Der obere Screenshot zeigt den überlagernden Texteditor, den ich beliebig bearbeiten kann. Natürlich würde es mehr Sinn machen, solche Tabellen in geeignete Programme einzufügen und dies könnt Ihr dann gerne selber einmal testen. Viel Spaß!
Zum Abschluss gibt es noch oben eine direkte Verlinkung zum offiziellen YouTube-Erklärvideo des französischen Top-KI-Startup Mistral und über die untere Abbildung kommt ihr zu NotebookLM und einer offenen Videoübersicht, die den gesamten Prozess rund um OCR genauer erklärt und zwar in einfacher Sprache.
Autor des Beitrags












