Jetzt einmal in der anderen Richtung!

Die KI Bilder beschreiben lassen

•

12. 06. 2023

MidJourney, Dall-E, StableDiffusion oder wie sie alle heißen – dieses Jahr haben Bildgeneratoren, die mit künstlicher Intelligenz nach einer Eingabe (einem „Prompt“) Bilder generieren, große Aufmerksamkeit erlangt. Dabei macht es Spaß, verschiedene Prompts auszuprobieren und zu lernen, wie die neuronalen Netze, die hinter den Bildgeneratoren liegen, auf verschiedene Eingaben reagieren.

Eine Funktion, die nicht so beachtet wird, die aber helfen kann, bessere Prompts zu schreiben, ist die umgekehrte Methode: Also die K.I. Bilder betrachten lassen und schauen, was sie aus diesen herausliest. Damit lernt man ein bisschen zu verstehen, wie die Künstliche Intelligenz „denkt“.

Für Interessierte mehr im Detail:

GANs (Generative Adversarial Networks) haben zumindest zwei neuronale Netzwerke: Generator und Diskriminator. Bisher verwendeten wir immer den Generator, also der Teil, der Bilder generiert. Das diskriminative Netzwerk wird normalerweise für die Beurteilung und Unterscheidung von Daten eingesetzt (also zum Trainieren der K.I.), während das generative Netzwerk für die Erzeugung neuer Daten verantwortlich ist. Wenn du ein Bild übermittelst und es dir beschreiben lassen möchtest, nutzt du das diskriminative Netzwerk, also den Diskriminator-Teil des GANs.

Tools zur automatischen Beschreibung von Bildern

Konkret sind zwei Tools online, die eine K.I. Bilder beschreiben lassen, eines mit Fokus auf StableDiffusion und eines von MidJourney. Beide erzeugen jedoch gute Prompts, die man wiederum MidJourney „füttern“ kann. Wichtig ist, dass die generierten Beschreibungen oft wortreich, vollgestopft und manchmal sinnfrei wirken – aber wenn man sie an eine Bilder-K.I. gibt, funktioniert es!

MidJourney „/describe“

Für MidJourneys „/describe“-Kommando benötigt man Zugang zu MidJourney. Anstelle von „/imagine“ gibt man als Kommando also einfach „/describe“ ein und zieht das Bild in das Discord-Fenster. Innerhalb weniger Sekunden hat man 4 Prompts:

Wie man sieht, funktioniert es also ganz gut – und schnell 😊

CLIP Interrogator

Das zweite Tool nennt sich CLIP Interrogator und findet sich hier. Obwohl es daraus ausgelegt ist, Prompts für StableDiffusion zu generieren, funktionieren diese auch bei MidJourney.

Hier lädt man einfach das Bild hoch, klickt auf „Absenden“ – und wartet ein bisschen länger als bei MidJourney:

In diesem Fall war MidJourney bei der Beschreibung ein bisschen genauer 👌

Noch ein Vergleich

Schauen wir uns noch ein anderes Bild an und wie die beiden Tools performen:

MidJourney:

1️⃣ various pictures of tools and equipment displayed in a museum, in the style of cluj school, illustrated advertisements, nele zirnite, neo-academism, language-based, light indigo and maroon –ar 4:3

2️⃣ a poster showing many items from indie film history about men, in the style of cluj school, engraved ornaments, light maroon and light blue, nikon af600, archaeological object, niyazi selimoglu, science academia –ar 4:3

3️⃣ a poster describing the victorian era in napoleon, in the style of cluj school, everyday objects, byzantine-style iconography, light brown and maroon, fujifilm eterna 250d type 8563, neo-academism, prehistoric art –ar 4:3

4️⃣ a wall decorated with numerous items on it, in the style of informationism, light bronze and maroon, symbolic props, illustrated advertisements, nostalgia, language-based, symbolic nabis –ar 4:3

CLIP Interrogator:

a sign with a bunch of different items on it, by Adam Szentpétery, reddit, international typographic style, historical record, hungarian, in the museum, high detailed photo

Image-to-Text-to-Image

Im kreativen Prozess kann man anschließend diese Prompts verwenden, um sie leicht verändert wieder an beispielsweise MidJourney zu füttern. Zum Testen verwenden wir jedoch die Prompts, die wir von MidJourney und CLIP Interrogator erhalten haben, und testen sie in MidJourney. Ein Beispiel von hier:

Das kommt also in diesem Fall ganz gut hin. Ein Beispiel, bei dem es nicht so gut funktioniert:

Zusammenfassung

Image-To-Text ist einerseits eine spannende Möglichkeit, mehr über die „Denkweise“ der Bilder-K.I.s zu lernen und die eigenen Prompts zu verbessern und bietet andererseits kreative Möglichkeiten, um etwas Neues zu kreieren. Außerdem macht es einfach Spaß 👍😊

manuel

Ich bin Manuel Wurm, IT-Consultant und Blogger. Ich mag es, verschiedenste Dinge auszuprobieren. Vor allem mit Retro-Computern, Bierbrauen, Bogenschießen und Schlagzeug spielen verbringe ich gerne meine Zeit. Kochen zählt zu meinen größten Hobbys – das spiegelt sich auch auf wurmweb.at wieder, wo ich gerne Rezepte teile und hilfreiche Tipps für Interessierte festhalte.