Flux LoRa: Eine eigene Bilder-KI auf der Grundlage von Flux [dev] trainieren und Images generieren
Nun gibt es mit Flux LoRa die Möglichkeit, eine ganz eigene Bilder-KI zu trainieren und zwar auf der Grundlage der Top-Anwendung Flux [dev], die allen Usern “Open Source” zur Verfügung steht. Sehr häufig wurden in diversen Beispielen via Social Media zum Training Selifes verwendet, um sich dann etwa als Superman oder Bergsteigerin darstellen zu lassen. In diesem Blogbeitrag habe ich Albert Einstein verwendet. Die Bilder wurden vorab über das geschlossene Modell Flux [Pro] generiert.
Eigene Bilder-KI auf Replicate erstellen
Im Folgenden wurde die Plattform Replicate genutzt, um dort über die angebotene Hardware, also der Rechenleistung, einen spezialisierten Bildgenerator auf der Grundlage des Modells Flux [dev] zu erstellen, das vom Anbieter Black Forest Labs herausgegeben wird und ganz maßgeblich von deutschen Entwicklern konzipiert wurde. Die Anmeldung erfolgt über ein GitHub-Konto. Für das Training habe ich einen frei verfügbaren 10 $ Gutschein verwendet, wodurch der gesamte Vorgang kostenlos war. Zum Einsatz kam der “flux.1-dev-lora-trainer” des Users Ostris, bei dem es sich um eine Softwarefirma aus den USA handelt. Eine alternative Plattform, die den gleichen Service anbietet, wäre z.B. Fal.ai. Auch über HuggingFace ist dies möglich.
Schritt für Schritt Anleitung
Dieser Blogbeitrag zeigt aus meiner Sicht den einfachsten Weg, solch eine Anwendung an den Start zu bringen und zwar auch öffentlich für alle User nutzbar. Es gibt so allerlei Einstellungsmöglichkeiten, die Ihr größtenteils überspringen könnt, da die Settings schon recht gut eingestellt sind. Seid Ihr schon fortgeschrittener, dann auch gerne selber weitere Einstellungen vornehmen. Der obere Screenshot zeigt die drei wichtigsten Settings, die Ihr definitiv benötigt, sonst klappt es einfach nicht. Darüber hinaus würde ich beim ersten Bilder-Training nicht gehen.
Und so geht’s Schritt für Schritt:
1) Anmeldung über ein GitHub-Konto
2) Aufruf der URL https://replicate.com/ostris/flux-dev-lora-trainer/train
3) Gebt Eurem Modell einen Namen wie “Flux Lora” oder “Bilder-KI” etc.
In meinem Fall ist dies https://replicate.com/unidigitalnews/fluxlora, mit der “Destination” Flux LoRa ganz am Ende, die nach dem Usernamen UnidigitalNews geschrieben wird.
4) Erstellt mindestens 10 Bilder mit einem einheitlichen Namen. Beispiel: Albert_1 bis Albert_10.
Fügt alle Images in einem Zip File zusammen und ladet es über die Upload-Funktion hoch. Benennt auch den Zip File einheitlich wie etwa Albert.zip
5) Wählt das Trigger-Word, also Keyword, mit dem Ihr Eure Person oder Euer Objekt im Rahmen des Prompts ansprecht und auf dieser Grundlage ein Bild generiert. Beispiel: In meinem Fall natürlich in das zugehörige Feld “Albert” eintragen.
6) Klickt unten rechts auf Create Training und wartet ein paar Minuten. Ist der Vorgang beendet, können direkt Bilder erzeugt werden, die kleine Cent-Beträge kosten.
Im unteren Screenshot habe ich nun ausschließlich mit dem Prompt: ***Albert as a lifeguard*** einen doch recht lässigen Albert Einstein in schicker Arbeitskleidung generiert und im Anschluss heruntergeladen. Dieses Bild wäre wie alle anderen Images für alle User frei zugänglich, da ich dies in den Settings unter Visibility und Public festgelegt habe. Schaut Euch generell mal etwas intensiver um, da man wirklich viele sinnvolle Einstellungen vornehmen kann. Am Beispielprompt ist zudem gut zu erkennen, was denn ein Trigger-Word ausmacht. Hätte ich diesen Prompt ohne Trigger-Word eingegeben, dann wäre wohl irgendein Albert dargestellt, aber nicht der Herr Einstein. Also folgerichtig wird erkannt Albert = Albert Einstein bzw. wäre dies dann ein Synonym, da es im Vorfeld so definiert wurde.
Die untere Abbildung zeigt die Auswahlmöglichkeiten etwa der GPUs seitens des bekannten US-Anbieters NVIDIA. Diese lassen sich im Vorfeld des Trainings festlegen und auch ändern, während Ihr die eigene Bilder-KI nutzt. Dies ist alles eine Frage der Kosten. Je hochwertiger bzw. leistungsfähiger ausgewählt, desto leistungsstärker wird die Künstliche Intelligenz trainiert und gibt dementsprechend auch hochwertigere Bilder aus. Zu Beginn würde ich dies auf dem niedrigsten/günstigsten Level lassen und dort keine Änderungen vornehmen. Soll die Bilder-KI genauer werden, dann lässt sich da gut mit “rumspielen”, um maximale Resultate zu erzielen. In meinem Beispiel der “Albert-Einstein-KI” wurde das Produkt NVIDIA H 100 verwendet, also ein GPU und sogenannte Graphics Processing Unit.
Was kostet das Training?
Abschließend blicken wir noch auf die Kosten, die im Rahmen des Trainings der eigenen Bilder-KI auf der Basis des Open-Source-Modells Flux [dev] angefallen sind. Insgesamt liegt der Betrag bei recht übersichtlichen 2,13 $. Da ein Gutschein in Höhe von 10 $ genutzt wurde, ließen sich noch weitere KIs trainieren und dann auch noch ein paar Bilder für geringe Cent-Beträge kostenlos generieren.
Fazit: KI-Skills ausbauen!
Aus meiner ist es sehr sinnvoll, solch eine Bilder-KI in Eigenregie einmal erstellt zu haben, um auch bestimmte Abläufe zu verstehen. Ob dies nun Spielerei sei oder doch nachhaltig sinnvoll etwa in Lehre und Unterricht integriert werden kann, dies muss jeder selber entscheiden. Das Verständnis steht hierbei im Vordergrund, da solch eine Anwendung auch recht einfach und kostenfrei entwickelt werden kann. Es lohnt sich und stärkt das “KI-Selbstbewusstein”.