2023 wird eindeutig als das Jahr in die Geschichte eingehen, in dem Künstliche Intelligenz für jedermann plötzlich zur Verfügung steht, und zwar in einer Vielzahl von Anwendungen. Aktuell schießen die verschiedensten KI-Applikationen wie Pilze aus dem Boden und es ist nicht einfach, den Überblick zu behalten. Daher werde ich in meinen Blogartikeln einige ausgewählte Anwendungen genauer betrachten und andere nur kurz vorstellen.

Ich möchte mit Midjourney von Discord anfangen. Midjourney ist eine Text-zu-Bild KI, die nicht zu den ersten dieser Anwendungen gehört, aber unter Designern, Gamern und Fotoenthusiasten zurzeit die beliebteste KI ist, weil die visuellen Ergebnisse absolut verblüffend und beeindruckend sind. Ich kann mir kaum ausmalen, welchen Einfluss diese Anwendung in Zukunft haben wird in Bezug auf die Berufe von Grafikern, Illustratoren und Fotografen wie auch auf die Themen Copyright, Deepfakes und Manipulationen oder die Zukunft von Datenbanken mit ihren Millionen von Bildern, die verkauft werden wollen.

Um gute Ergebnisse bei Midjourney zu erhalten, besteht die Herausforderung darin, den richtigen Prompt zu entwickeln, der das Bildergebnis maßgeblich beeinflusst und steuert (siehe auch mein Blogartikel zum Thema Prompt Crafting). Ein Prompt ist eine schriftliche Anweisung für die KI, welches Aussehen das Bild erhalten soll, wenn es generiert wird.

Midjourney Entwicklungsfortschritte in einem Jahr (Quelle: Eluna.ai)

Zunächst mal muss man sich bei Discord registrieren und sich in der Benutzeroberfläche zurechtfinden, die etwas verwirrend aufgebaut ist. Ich will hier nicht im Detail darauf eingehen, wie man sich am besten in der Midjourney Umgebung zurechtfindet, daher verweise ich einfach mal auf YouTube, wo es unzählige Tutorial-Videos zum Umgang mit der Midjourney KI gibt.

Der 3-teilige Prompt für ein neues Bild (Midjourney produziert pro Prompt immer gleich 4 Bilder mit Variationen) beginnt immer mit dem Kommando /imagine und einem Prompt, der folgendermaßen aufgebaut ist:

1. Image Prompt (URL zu einem Bild). Dieser Teil ist optional, d.h. wenn man kein Bild als Vorlage vorgibt, kann dieser Teil des Prompts auch weggelassen werden)

2. Textbeschreibung (eine genaue Beschreibung, was im Bild enthalten sein soll, also z.B. Aussehen, Kleidung oder Körperhaltung von einer oder mehreren Personen, sichtbarer Bildausschnitt, Gebäude, Landschaft, Farben, Helligkeit oder Dunkelheit, Bildstile (z.B. hyperrealistisch, Comic, Steampunk, Illustration, Disney- oder Pixarstil, Anlehnungen an bekannte Künstler, Illustratoren, Fotografen, etc.). Dieser zweite Teil ist der schwierigste Part und die Profis hüten ihre Prompts, die sie in mühsamen, unzähligen Wiederholungen bis zum zufriedenstellenden Endergebnis ausformuliert haben, wie einen Schatz. Der goldene Weg zum Superbild führt nur über einen Prompt, der präzise formuliert ist. Im Netz gibt es schon erste Prompt-Bundles, die für 30 oder 40€ verkauft werden, und zwar zu speziellen Themen wir Architektur, Landschaften, Menchendarstelungen, etc

3. Parameter: Es gibt eine Unmenge an verschiedenen Parameterkürzeln, die an die Beschreibung angehängt werden und unmittelbaren Einfluss auf das zu generierende Bild haben, wie z.B.- -ar für Aspect ratio (Bildformat),- -no für den Ausschluss von bestimmten Elementen, – -s <Nummer> für einen zusätzlichen ästhetischen Stil, – -v 4 (oder 5) für die Version von Midjourney und viele andere Werte. Die Website von Midjourney listet diese Parameter auf und beschreibt sie im Detail. Natürlich gibt es im Netz auch unzählige Quellen, die diese Parameter erklären.

Seit dem 14. März 2023 gibt es die Version 5 von Midjourney (zurzeit nur für zahlende Abonnenten), die nochmals um ein Vielfaches bessere Bilder erstellt als Version 4, die Probleme hatte, z.B. Hände und Füße oder Reflexionen gut darzustellen. Das hat sich mit Version 5 grundlegend verbessert und man hat manchmal das Gefühl, dass die KI einem förmlich Hände (oder Füße) ins Bild drängen will, um das zu verdeutlichen. Trotzdem kommt es manchmal immer noch zu merkwürdigen Darstellungen, z.B. sechs Finger an einer Hand oder die Finger sehen ungewöhnlich krumm aus.

Ich werde sicherlich noch weitere Blogartikel zu Midjourney schreiben, denn als Grafiker oder Designer ist dieses Programm ein echter Gamechanger und die Tage sind eindeutig zu kurz, um sich voll auf alle Möglichkeiten einzulassen, die diese Anwendung einem eröffnet. Da ein Bild mehr als tausend Worte sagt, schließe ich diesen Artikel mit einem Beispiel, wobei ich denselben Prompt für V4 und V5 anwenden werde, um die Verbesserungen zu verdeutlichen. Grundsätzlich versteht Midjourney viele Sprachen, die aber intern immer ins Englische übersetzt werden. Um die Präzision zu erhalten, wähle ich daher meinen Prompt in Englisch. Der Prompt für die folgenden 2 Beispiele aus den Midjourney-Versionen 4 und 5 lautet:

/imagine photography shot through an outdoor window of a coffee shop with neon sign lighting, window glares and reflections, depth of field, [person] sitting at a table, portrait, kodak portra 800, 105 mm f1. 8 – -ar 2:1. Der einzige Unterschied ist der Parameter- -v 4 und ein – -v 5 am Ende des Prompts, um die jeweiligen Versionen anzusprechen.

Wie man sieht, werden hier durch Kommas getrennt diverse Beschreibungen gemacht bis hin zu einem speziellen Kodak Filmmaterial (Portra 800), einer Kamerablende und Bildseitenverhältnis von 2:1.

Das Ergebnis von Midjourney 4 sieht so aus:

Beispielbild von Midjourney Version 4

Beleuchtung und Unschärfen sehen beeindruckend schon aus, aber die Glasreflexionen sind nicht überzeugend. Es fällt auch auf, dass Hände kaum gezeigt werden und die Gesichter eher aussehen wie in guten 3D Games.

Midjouney 5 dagegen macht einen deutlichen Sprung nach vorne:

Beispielbild von Midjourney Version 5

Die Gesichter sehen noch ‚echter‘ aus, Hände und Reflexionen werden überzeugend dargestellt und das Raytracing, also die Berechnung von sichtbarem und unsichtbarem Licht, ist stark verbessert.

Wenn man sich diese Beispiele anschaut, kann man wirklich Angst davor haben, wie stark diese Anwendung unsere Arbeit als Grafiker, Illustrator oder Fotograf umkrempeln wird. Auch die Möglichkeiten von Diskriminierung durch fehlerhafte Daten, teilwerise fehlendem Datenschutz, das Suchtpotential bei der Beschäftigung mit KI oder der Stromverbrauch, den KI in dieser Form verbraucht, sind kritische Punkte, die es anzumerken gibt. Trotzdem sehe ich diese Entwicklung auch positiv und werde das in einem späteren Blogartikel zum Thema machen, denn Kreativitätist nach wie vor uns Menschen vorbehalten. Um also die Eingangsfrage zu beantworten, ob KI Kunst kann, halte ich mich eher zurück, weil die Beantwortung nur subjektiv sein kann. Diese Frage muss jeder für sich selbst beantworten.

Und übrigens: Dieser Artikel wurde von einem Menschen geschrieben 😉