Wie gut kann KI wirklich Bilder und Videos erstellen? Beispiele für Produktbilder und Fotoshooting inklusive Prompts
Im Jahr 2022 erschien im Minutentakt eine Künstliche Intelligenz nach der anderen und bahnte sich den Weg durch das Internet. Die ersten veröffentlichten Versionen waren zwar für viele faszinierend, aber noch eher im Bereich „Spielkram“. Diese wurden nach Feierabend mal erkundet oder im Büro in der Kaffeepause wurde den Kollegen gezeigt, was man damit „erreicht“ hat, wie damals als die ersten Chat-Bots aufkamen.
Das änderte sich rasant. Je nach Einsatzgebiet können KI-Tools heute mal mehr oder weniger große Arbeitsleistungen abnehmen, ersetzen oder viel wichtiger – die eigenen Fähigkeiten und Möglichkeiten verlängern. Freelancer, Abteilungen oder Unternehmen können nun Leistungen anbieten, die so vorher nicht im Bereich des Möglichen lagen.
Aber genau hier sollten wir auch realistisch bleiben. Öfter erlebe ich, dass schnell angefangen wird zu fantasieren - nicht, was die Zukunft angeht, sondern was das Hier und Jetzt anbelangt. Oft werden den derzeitigen KIs Aufgaben zugetraut und „Fähigkeiten“ angedichtet, über die sie teilweise bei weitem noch nicht verfügen. „Mach das doch einfach schnell mit KI“ – „Ja, Nein.“
In diesem Blogbeitrag erkunden wir mittels Tests zwei spezifische Einsatzbereiche: Einmal den Einsatz von KI im Bereich der Stockfotografie und einmal im Bereich des E-Commerce - für sogenannte „Product-Shots“.
Wie gut lässt sich ein einfaches Stockfoto mit KI erstellen?
Wie sehen die Prompts zu einem bestimmten Briefing aus?
Kann KI bereits ein Fotoshooting ersetzen?
Wie lange dauert es mit KI zum Ergebnis zu kommen?
Der Test samt der erzeugten KI-Bilder inklusive Analyse des Ergebnisses und Zeitangabe pro Aufgabe hier im Blogartikel!
Wie wird solch eine KI gesteuert?
Mittlerweile keine große Unbekannte mehr ist die Steuerung von KIs im Allgemeinen. Man trifft entweder auf eine von zwei möglichen Varianten oder eine Kombination beider. Wir gehen nur ganz kurz darauf ein, wie diese aussehen.
GUI – Graphical User Interface
Eine GUI ist eine grafische Oberfläche zur Bedienung, wir alle kennen sie – Slider, Radio-Buttons usw. Wir haben aktiv vorgegebene Einstellungsmöglichkeiten, die wir nach Belieben regulieren können oder aktivieren/deaktivieren.
Text Prompts
Text Prompts sind ebenfalls keine Unbekannte mehr seit Chat-GPT. Ein Text Prompt ist eine Eingabe in natürlicher Sprache. Wir können unsere Einstellungsmöglichkeiten durch Wortwahl selbst wählen. In der Regel funktionieren Prompts auch auf Deutsch, Englisch ist hier aber definitiv die beste Wahl für Text Prompts.
Beispiel Prompt: low angle extreme long shot of a container ship indanger on open sea while a heavy storm is forming, heavy clouds, rough sea, cinematic and dramatic
KI im Spotlight - Midjourney
Midjourney ist eine generative Künstliche Intelligenz. Mittels Text Prompts erstellt Midjourney Gemälde, Bilder, Zeichnungen, Fotos oder Illustrationen. Vergleichbar mit anderen Modellen in diesem Bereich wie DALL-E oder Stable Diffusion. Wir werden uns ansehen wie gut sich Stockfotografien damit erstellen lassen, können wir vielleicht sogar Fotoshootings ersetzen?
Im ersten Test werden wir uns ansehen, wie gut sich ein „einfaches Stockfoto“ erstellen lässt, im zweiten Test werden wir versuchen ein Fotoshooting zu ersetzen. Wir verfassen jeweils erstmal ein Briefing, damit wir wissen – was wir erwarten und benötigen – zudem benötigen wir diese Aufgabenstellung, um unseren Prompt zu entwickeln.
Ihr findet auch jeweils eine Angabe, wie lange es ungefähr gedauert hat, zu den jeweiligen Ergebnissen zu kommen. Ziel ist es, innerhalb eines vertretbaren Zeitraums ein „bestmögliches“ Ergebnis zu erreichen, da die breite Zielgruppe hier nicht Stunden über Stunden investieren wird bzw. möchte.
Im Test – Einfaches Stockfoto
Briefing:
Wir müssen die spektakulären Ausmaße eines Outdoor-Abenteuers einfangen. Wir benötigen eine Gruppe von Reisenden, die einen Wanderweg nehmen, der über hohe Berge führt, das Bild sollte erfolgen, wenn die Gruppe einen fantastischen Ausblick über die nicht näher definierte Landschaft hat.
Prompt:
outdoor adventure with a group of travelers enjoying a sunrise on a mountaintop. The image should convey the exhilaration of exploration and the beauty of nature, inspiring viewers to embark on their own adventures, Photojournalism, DSLR, Ultra-Wide Angle, F/22, Rays of Shimmering Light
Ausgabe:
Analyse:
Ungefähre Dauer des Prozesses: 15 Minuten
Grundsätzlich bin ich mit diesem Ergebnis auf den ersten Blick zufrieden. Diese Ausgabe wurde bei zwei Präsentationen rund 200-250 Leuten vorgelegt.
Diese Ausgabe befand sich in einer Liste mit 8 anderen echten Fotos und gefragt wurde: „Welches Foto wurde mittels KI erstellt?“. Unsere Ausgabe erhielt jedes Mal die mit am wenigsten Stimmen.
Bei einem genaueren Blick stellt man allerdings einige Probleme oder Ungereimtheiten fest.
Im unteren linken Bildbereich sieht man auf den zweiten Blick sehr deutlich das hier wenig bzw. gar keine Tiefe / 3D-Geometrie vorhanden ist. Wir blicken hier auf eine sehr flache Steinformation, die zwar eine einigermaßen korrekte Textur aufweist, aber keine Tiefe.
Auch wenn die Menschen hier grundsätzlich relativ gut gelungen sind, Haltung und Position von Extremitäten, Ausrichtung und Bewegungsfluss. So ist der Rucksack des ersten Wanderers vermutlich eine Neuheit im Outdoor Bereich, die Position am Rücken ist nicht korrekt und er besteht scheinbar aus einzelnen Schichten.
Diese beiden Probleme würden sich aber mittels Midjourney relativ schnell und auch einfach beheben lassen, wir haben bei Midjourney die Möglichkeit einzelne Bereiche zu definieren, die überarbeitet werden sollen.
Im Test – Fotoshooting
Briefing:
Benötigt wird ein Fotoshooting in einem historisch anmutenden und eingerichteten Appartement, mitten in einer Großstadt. Das Model trägt Haute Couture Abendkleidung und sitzt auf einer Chaiselongue in entspannter und neutraler Haltung.
Prompt:
The setting is an opulent, dimly lit room in a historic penthouse suite overlooking a city skyline at night. The ambiance is rich with deep, velvety hues and soft, golden lighting that casts dramatic shadows. In the center of the room stands a grand antique vanity adorned with gilded mirrors bathed in a warm, ethereal glow. A chaise longue upholstered in sumptuous velvet sits nearby, draped with luxurious fabrics in rich jewel tones. The model, dressed in an exquisite haute couture gown, exudes confidence and allure as they recline on the chaise lounge, their posture poised yet relaxed. Their expression is enigmatic, with a slight smile playing on their lips, hinting at a secret only they know. Bokeh, 35mm, Long Exposure, F/22
Ausgabe:
Analyse:
Ungefähre Dauer des Prozesses: 40 Minuten
Wir haben hier einen sehr umfangreichen Prompt, der relativ detailliert beschreibt, was wir haben wollen, diese Aufgabenstellung ist schon wesentlich komplexer. Auch hier muss ich sagen, dass ich Midjourney in seiner neuen Version (V6), grundsätzlich sehr gute Ergebnisse geliefert hat. Aufgrund der Komplexität war es hier aber wesentlich zeitintensiver ein brauchbares Ergebnis zu erhalten. Vor große Probleme werden die derzeitigen generativen KIs gestellt, wenn es um menschliche Extremitäten und um Text geht. Hände und Finger sind weiterhin eine große Herausforderung, manchmal an falscher Stelle, manchmal zu viele, manchmal zu wenige.
Ich habe an dieser Stelle vier Ausgaben mitgebracht, damit ihr einen Überblick bekommt, wie die KI jeweils unterschiedlich den Prompt umgesetzt hat.
Neben Händen und Fingern, liegen wir hier eher bei Problemen im Schulterbereich, die wohl der Körperhaltung geschuldet sind. Alles in allem bin ich aber mit der Umsetzung von Midjourney sehr zufrieden.
Mit weiterem Feintuning und Anpassungen könnte man mit diesen Fotos arbeiten. Das große Problem aber ist, ein Fotoshooting besteht in der Regel aus einem Set an Fotos, bei denen auch mehr als eines verwendet wird. Hier laufen wir auch in das größte derzeitige Manko, die Inkonsistenz. Wir haben mittlerweile zwar Möglichkeiten, aber die sind sehr limitiert und funktionieren auch nicht ansatzweise so gut wie gewünscht. Würden wir uns für das Model in Ausgabe Nummer 4 entscheiden, und würden uns wünschen, dass wir ein zusätzliches Foto von ihr bekommen, wo sie am Fenster steht – haben wir Pech. Wir würden weder 1:1 nochmal dieses Zimmer bekommen, noch 1:1 dieses Model. Die KI könnte sich höchstens annähern. Wir haben also nicht die Möglichkeit ein Szenario oder Menschen so „abzuspeichern“ dass wir unterschiedliche Posen oder Positionen erstellen können.
KI im Spotlight – Flair.ai
Flair.ai verspricht nachträgliche Fotoshootings für Produktfotos. Wir haben also unser Produktfoto, aber es sitzt traurig auf einem weißen Hintergrund und ist nicht schön in Szene gesetzt, wie eine Sonnencreme am Strand. Das soll sich nachträglich ändern lassen, wir werden uns ansehen, wie gut das funktioniert.
Für dieses Szenario verwenden wir ein freigestelltes Produktfoto einer Lampe. Wir möchten die Lampe in verschiedenen Szenarien gut in Szene setzen, um ein ansprechendes Produktfoto für unseren Online-Shop zu erhalten.
Dafür verwenden wir die KI. „Flair.ai“, diese verspricht uns genau das zu tun. Wir laden unser Foto hoch und können dann aus einer Kombination von GUI und TextPrompts, die Szene beschreiben.
Ausgabe:
Analyse:
Sehen wir uns die Ergebnisse einmal an, auf den ersten Blick – beeindruckend. Ich war überrascht und hatte diese Qualität nicht erwartet. Überraschend für mich war, dass hier auch das Licht und Schatten Spiel berücksichtigt wurde. Es ist zwar nicht ganz korrekt umgesetzt, aber die automatische Erkennung und Integration ist faszinierend.
Hier ergibt sich auch ein interessanter Fall, in Ausgabe Nummer 2 – wird offensichtlich durch Licht und Schatten suggeriert, dass die Lampe auf der Rückseite ebenfalls offen ist, in Nummer 3 ist sie das deutlich nicht. Hier ist dann besondere Vorsicht geboten, um nicht unabsichtlich in falsche Versprechen zu rutschen oder den Kunden unabsichtlich zu täuschen.
Die Text-Prompts wurden einigermaßen korrekt wiedergegeben. Manche Sachen konnte ich auf Biegen und Brechen nicht aus der KI herauskitzeln, wie der „anvil“ in Prompt Nummer 2. Man ist hier einigermaßen limitiert, ich denke, das liegt daran, dass diese KI einen sehr speziellen Nutzen verfolgt und man hierbei großzügig limitiert, um bessere Ausgaben zu erhalten. Dies sollte sich aber ändern, sobald mehr Trainingsdaten vorhanden sind und durch die Weiterentwicklung der KI.
Ansonsten sehen wir typische Fehler, die wir durch die Bank bei allen anderen generativen KIs auch beobachten können, in Ausgabe Nummer 1 sind unsere Bleistifte mindestens 40 cm lang und die Schere im Becher sieht auch ungesund aus – ich denke, es sollte eine Schere werden
Bonus: Ausblick im Videobereich
Als kleinen Bonus möchte ich hier einen kurzen Ausblick in den Videobereich geben, hier sind wir derzeit noch nicht so gut versorgt im KI-Bereich. Vor allem nicht, wenn wir hochwertige Videos haben möchten ohne große Fehlertoleranz. Derzeit befindet sich „Sora“ von OpenAI in einer geschlossenen Testumgebung. Uns bleibt nur das Werbematerial von OpenAI selbst. Auf der Website existieren derzeit mehrere Videos, die durch Sora generiert wurden und die verwendeten Prompts.
Ich verweise hier aktiv auf zwei dieser Videos.
Video 1: Jeep
Ein Paradebeispiel für Textprobleme in KIs. Obwohl keine Marke erwähnt wird, ordnet die KI eindeutig eine Marke (hier Jeep) zu und versucht sie auch textlich kenntlich zu machen, scheitert dabei aber. Ein weiteres offensichtliches Problem ist die Position, aus der die Staubwolken aus dem Radkasten kommen. Hier geht es zum Video.
Video 2: Puppys
Schnee und Fell. Auch 2024 eine Herausforderung für jeden professionellen 3D-Künstler. Konsistenz und Verhalten sind sehr schwer authentisch zu reproduzieren. Das merkt man auch an der KI, das Fell ist relativ beeindruckend, der Schnee auf den ersten Blick auch, aber wenn man auf Bewegung und Verhalten achtet – wird hier relativ schnell deutlich, dass es sich nicht um „echten echten“ Schnee handelt. Aber auch im Videobereich sind wir nicht vom Problem der Extremitäten befreit, achtet während des Videos auf die Pfoten des linken Welpen. Hier geht es zum Welpen-Video.
Fazit
Wir befinden uns derzeit in der faszinierenden Zeit, in der generative Bild und Video KIs die Bühne betreten und unser Arbeiten und unsere Inspiration verändern werden. Davor sollten wir keine große Angst haben, wir sollten uns damit auseinandersetzen, um es zu verstehen und zu wissen, wie wir uns diese Tools zunutze machen können.
Derzeit sind wir noch relativ limitiert aufgrund von etlichen Gegebenheiten. Aber wir erreichen langsam einen Bereich, wo Bild und Video KIs aktiv und nützlich eingesetzt werden können. Für die Zukunft erhoffe ich mir eine bessere und aktivere Steuerung im Bereich der Konsistenz von Ausgaben.
Viel Erfolg beim Testen!
Kevin
Quellenangaben:
Produktfoto der Lampe:
https://www.lightbox-shop.de/Stilvolle-Tischlampe-mit-schwenkbarem-Kopf/LB00001252
Videos von „Sora“ Open AI:
https://openai.com/index/sora/
Midjourney:
Flair.ai:
Autor/in
Kevin Nöst Kreation
Nach seinem Grafikdesgin & Marketingkommunikations-Studium in Wien hat sich Kevin auf Webdesign, Print & Werbung spezialisiert. Er beschreibt sich selbst als „Technik-Enthusiast“ und „kreativen Problemlöser“. Bei webnetz ist er Art Director im Grafikdesign.
Online-Marketing-News direkt ins Postfach
Melden Sie sich jetzt für unseren Newsletter an.