PaperBanana: Agenten-Framework erstellt wissenschaftliche Abbildungen auf Top-Niveau
PaperBanana ist ein Framework, das von Mitarbeitern rund um Google Cloud AI Research und beteiligten Forschenden der Peking University entwickelt wurde, um die Erstellung von wissenschaftlichen Illustrationen möglichst effizient zu gestalten. Das offene Agenten-Framework wurde mit Googles Top-Bild-KI Nano Banana Pro und der Bild-KI GPT-Image-1.5 von OpenAI getestet und ist auf GitHub frei zugĂ€nglich.Â

Die Grundlage von PaperBanana bildet eine Bild-KI wie Nano Banana oder GPT-Image und damit diese bessere Bilder ausgibt, wird ein Team aus KI-Agenten verwendet, das vor jeder Bildgenerierung erst einmal einen ganz eigenen Prozess durchlĂ€uft, der zu einer höheren QualitĂ€t von zum Beispiel wissenschaftlichen Diagrammen fĂŒhren soll. Die Agenten sind dabei ĂŒber eine API an ein Sprachmodell wie Claude oder Gemini angeschlossen. Es ist somit ein Zusammenspiel von Bild-KI und LLM.
Der obere Screenshot zeigt die fĂŒnf Agenten, die auf ihr Aufgabengebiet spezialisiert sind und die Abbildungen planen, designen oder kritisch hinterfragen. Ein wichtiger Agent ist aus meiner Sicht der âRetriever Agent“, der auf eine Datenbank aus fast 300 Referenzbildern zurĂŒckgreift und auf dieser Basis Ă€hnliche Diagramme etc. generiert. Unter den ca. 300 Bildern befinden sich ausgewĂ€hlte Top-Exemplare, die das Niveau insgesamt hochhalten, wodurch eher schlechte Outputs vermieden werden können.

Ohne genauer auf die einzelnen Ergebnisse einzugehen, zeigt die obere Auswertung insgesamt, dass das Framework durchweg die normale Version von Nano Banana Pro outperformt und bis auf eine Ausnahme ebenfalls dem menschlichen Designer ĂŒberlegen erscheint. Theoretisch lieĂe sich zusĂ€tzlich ein Memory hinzufĂŒgen, also eine Art LangzeitgedĂ€chtnis, das sich merkt, welcher Stil vom aktuellen Nutzer bevorzugt wird und in der Folge immer passendere Bilder erstellt.

Die obere Ăbersicht zeigt in der Praxis, wie PaperBanana im Vergleich zum âHuman“ und der unverĂ€nderten Bild-KI Nano Banana Pro abschneidet. NatĂŒrlich sind solche Outputs auch immer Geschmackssache, denn manche mögen es etwas âbunter“ & komplexer und andere eher mehr in schwarz-weiĂ und âschlichter“.Â

Im Folgenden wird der Unterschied noch deutlicher, wenn man das Original mit dem âStyle Enhancer“ vergleicht. Es lĂ€sst sich gut erkennen, was gezielte Ănderungen, zum Beispiel im Rahmen der Farbgebung, bewirken können. Es sieht einfach moderner aus, wie ich finde und solche Darstellungen lieĂen sich nach einem Upload jederzeit anpassen, falls man jedes Semester einen etwas anderen Stil prĂ€sentieren möchte. Da gĂ€be es vielfĂ€ltige Gestaltungsmöglichkeiten.
Â
PaperBanana auf arXiv (Forschungspapier)
Wie bei fast jedem neuen Forschungspapier ist auch das von PaperBanana auf der Plattform arXiv frei einsehbar. Womöglich benötigt es nicht immer ein sehr ressourcenaufwendiges Training neuer Bildmodelle, um Verbesserungen prĂ€sentieren zu können, wenn âcleverâ entwickelte Frameworks Ă€hnliche Steigerungen bringen. KI-Agenten ĂŒbernehmen aktuell immer hĂ€ufiger solche Prozesse.
Â
Autor



