GPT Vision & DALL-E3 in D-A-CH verfügbar!

Ein Beitrag von Matthias Kindt

Nun lassen sich beim Chatbot ChatGPT-4 (Premium) endlich auch Bilder hochladen und analysieren. Das Feature ist automatisch eingestellt. Siehe unten links neben der Promptleiste das Image-Icon. Einfach draufklicken, Bild hochladen und Aufgabe formulieren. Das Sprachmodell GPT-4 wird nach dem Updaten auch als GPT-4V oder GPT Vision bezeichnet Um die Bilder-KI von OpenAI DALL-E3 nutzen zu können, wählt Ihr diese ganz unten im Drop-Down-Menü aus und nun lassen sich Images in einem eigenen Chat erstellen.

DALL-E3 meets ChatGPT-4 = Bilder-KI + Sprachmodell => Effizienter Bilder erstellen (lassen)?

Der in ChatGPT eingebaute Bildgenerator DALL-E3 lässt sich wie alle anderen Bilder-KIs ebenfalls mit einer simplen Texteingabe bedienen und schon geht’s los. Es lasen sich auch Bilder anpassen oder remixen. Dies einfach in der Promptleiste eingeben. Die ist auch der wesentliche Unterschied zu anderen Modellen wie Midjourney, Ideogram oder Stable Diffusion, dass nun Images im “Chat-Stil” generiert werden.

Folgende Maße sind verfügbar:

  1. Quadratisch: 1024×1024 Pixel

  2. Breit: 1792×1024 Pixel

  3. Hochformat: 1024×1792 Pixel

Übrigens lassen sich Bilder auch im Nachgang neu einfärben wie z.B. “gib mir das erste Bild in Blau aus“. Es gibt wirklich viele Möglichkeiten der Bildgenerierung und -bearbeitung. Gerne selber ausprobieren!

GPT-4 mit Upload-Funktion = GPT Vision

Output GPT-4 nach Image-Upload (Bild 1)

Das Bild zeigt ein großes Segelschiff, das sich mitten in einem stürmischen Meer befindet. Die hohen, schäumenden Wellen umgeben das Schiff, während es sich tapfer gegen die Elemente behauptet. Über dem Meer brauen sich dunkle, bedrohliche Wolken zusammen, und es gibt Anzeichen von Regen. Trotz der harschen Bedingungen sind die Segel des Schiffes voll entfaltet, und das Schiff scheint sich mit voller Kraft durch die rauen Gewässer zu bewegen. Vögel sind im Hintergrund sichtbar, die inmitten des Sturms fliegen. Das gesamte Szenario vermittelt ein Gefühl von Abenteuer und Überlebenskampf gegen die Gewalten der Natur.

Das nenne ich wirklich mal eine emotionale Bildbeschreibung. Als ich diese gelesen habe, war ich kurz davor, das Szenario direkt mehrfach via Pika Labs zu animieren 😉 Sogar die Vögel (wahrscheinlich Möwen) wurden von ChatGPT erkannt. Diese hatte ich anfangs überhaupt nicht gesehen. Schon sehr detailliert und bildlich formuliert. Gefällt mir! Ist der Einsatz im Kunstunterricht im Rahmen von Bildanalysen sinnvoll? Der Zugriff auf viele bekannte Gemälde wäre ja gegeben. Diese ließen sich dann auch noch remixen. Also etwa Picasso meets 2023 im Fantasy-Style ⚡

Bildanalyse bzw. Interpretation des Darstellung

Insgesamt könnte das Bild verschiedene Interpretationen haben. Eine mögliche Deutung ist die Verschmelzung von Tradition und Moderne oder der Einfluss der Künstlichen Intelligenz in der heutigen Bildung und Technologie. Es könnte auch die Idee darstellen, dass Bildung und Wissen Macht und Kontrolle verleihen, wie es durch die Person dargestellt wird, die den Drachen lenkt.

Eine wirklich tolle Analyse! Aus den beiden Buchstaben AI und der Abbildung, also dem Drachen wird eine Kombination aus Tradition (chinesischer Drache) und Moderne (AI) geschlussfolgert und auch der Bildungsbezug wird aufgrund der “Uni-Kappe” skizziert. Mir persönlich fällt immer wieder auf, dass künstliche Intelligenzen Ergebnisse ausgeben, ganz egal, ob via Text oder Bildern, an die man nicht gedacht hätte. Dies erweitert letztendlich den eigenen Horizont und regt stark zum Nachdenken an. Das ist übrigens nur die Zusamenfassung der 5 Punkte (siehe Screenshot). Direkt der erste Punkt war schon richtig gut analysiert.

  1. Im Zentrum des Bildes sitzt eine Person mit einer Abschlusskappe auf einem chinesischen Drachen. Die Person hält die Zügel des Drachens fest, was darauf hindeutet, dass sie die Kontrolle über den Drachen hat.

Was ich noch ergänzt hätte, wäre der Anschein, dass die Künstliche Intelligenz der Person erst das Fliegen ermöglicht und als eine Art Helfer anzusehen ist und unterstützend einwirkt. So in die Richtung “AI verleiht Flügel” ✈️✈️

autor Matthias Kindt

 

Ähnliche Beiträge