PaperBanana: Agenten-Framework erstellt wissenschaftliche Abbildungen auf Top-Niveau

PaperBanana ist ein Framework, das von Mitarbeitern rund um Google Cloud AI Research und beteiligten Forschenden der Peking University entwickelt wurde, um die Erstellung von wissenschaftlichen Illustrationen möglichst effizient zu gestalten. Das offene Agenten-Framework wurde mit Googles Top-Bild-KI Nano Banana Pro und der Bild-KI GPT-Image-1.5 von OpenAI getestet und ist auf GitHub frei zugÀnglich. 

Bildquelle: Team PaperBanana

Die Grundlage von PaperBanana bildet eine Bild-KI wie Nano Banana oder GPT-Image und damit diese bessere Bilder ausgibt, wird ein Team aus KI-Agenten verwendet, das vor jeder Bildgenerierung erst einmal einen ganz eigenen Prozess durchlĂ€uft, der zu einer höheren QualitĂ€t von zum Beispiel wissenschaftlichen Diagrammen fĂŒhren soll. Die Agenten sind dabei ĂŒber eine API an ein Sprachmodell wie Claude oder Gemini angeschlossen. Es ist somit ein Zusammenspiel von Bild-KI und LLM.

Der obere Screenshot zeigt die fĂŒnf Agenten, die auf ihr Aufgabengebiet spezialisiert sind und die Abbildungen planen, designen oder kritisch hinterfragen. Ein wichtiger Agent ist aus meiner Sicht der „Retriever Agent“, der auf eine Datenbank aus fast 300 Referenzbildern zurĂŒckgreift und auf dieser Basis Ă€hnliche Diagramme etc. generiert. Unter den ca. 300 Bildern befinden sich ausgewĂ€hlte Top-Exemplare, die das Niveau insgesamt hochhalten, wodurch eher schlechte Outputs vermieden werden können.

Bildquelle: Team PaperBanana

Ohne genauer auf die einzelnen Ergebnisse einzugehen, zeigt die obere Auswertung insgesamt, dass das Framework durchweg die normale Version von Nano Banana Pro outperformt und bis auf eine Ausnahme ebenfalls dem menschlichen Designer ĂŒberlegen erscheint. Theoretisch ließe sich zusĂ€tzlich ein Memory hinzufĂŒgen, also eine Art LangzeitgedĂ€chtnis, das sich merkt, welcher Stil vom aktuellen Nutzer bevorzugt wird und in der Folge immer passendere Bilder erstellt.

Bildquelle: Team PaperBanana

Die obere Übersicht zeigt in der Praxis, wie PaperBanana im Vergleich zum „Human“ und der unverĂ€nderten Bild-KI Nano Banana Pro abschneidet. NatĂŒrlich sind solche Outputs auch immer Geschmackssache, denn manche mögen es etwas „bunter“ & komplexer und andere eher mehr in schwarz-weiß und „schlichter“. 

Bildquelle: Team PaperBanana

Im Folgenden wird der Unterschied noch deutlicher, wenn man das Original mit dem „Style Enhancer“ vergleicht. Es lĂ€sst sich gut erkennen, was gezielte Änderungen, zum Beispiel im Rahmen der Farbgebung, bewirken können. Es sieht einfach moderner aus, wie ich finde und solche Darstellungen ließen sich nach einem Upload jederzeit anpassen, falls man jedes Semester einen etwas anderen Stil prĂ€sentieren möchte. Da gĂ€be es vielfĂ€ltige Gestaltungsmöglichkeiten.

 

PaperBanana auf arXiv (Forschungspapier)

Wie bei fast jedem neuen Forschungspapier ist auch das von PaperBanana auf der Plattform arXiv frei einsehbar. Womöglich benötigt es nicht immer ein sehr ressourcenaufwendiges Training neuer Bildmodelle, um Verbesserungen prĂ€sentieren zu können, wenn „clever“ entwickelte Frameworks Ă€hnliche Steigerungen bringen. KI-Agenten ĂŒbernehmen aktuell immer hĂ€ufiger solche Prozesse.

 

Autor

matthias kindt

Matthias Kindt auf Linkedin