Kann Künstliche Intelligenz Kunst?

2023 wird wohl als das Jahr in Erinnerung bleiben, in dem künstliche Intelligenz plötzlich für alle greifbar wurde. Und das in einer beeindruckenden Bandbreite an Anwendungen. Aktuell entstehen beinahe täglich neue KI-Tools und es fällt schwer, den Überblick zu behalten. Deshalb möchte ich in meinen Blogartikeln ausgewählte Anwendungen genauer beleuchten und andere zumindest kurz vorstellen.

Den Anfang macht Midjourney, eine KI zur Text-zu-Bild-Generierung, die über die Plattform Discord genutzt wird. Sie ist zwar nicht die erste ihrer Art, aber zurzeit definitiv die populärste unter Designerinnen, Gamern und Foto-Enthusiasten. Die Ergebnisse sind häufig so verblüffend, dass man kaum erahnen kann, welchen Einfluss diese Technologie künftig auf kreative Berufe haben wird. Für Grafikdesigner, Illustratoren und Fotografen könnte sich vieles verändern. Ebenso für Themen wie Copyright, Deepfakes, Manipulation – und für Bilddatenbanken, die mit Millionen von Fotos arbeiten.

Um in Midjourney überzeugende Ergebnisse zu erzielen, braucht es vor allem eines. Einen guten Prompt. Also eine präzise formulierte Anweisung an die KI, wie das Bild aussehen soll. Je klarer der Prompt, desto besser das Ergebnis (siehe auch meinen Artikel zum Thema Prompt Crafting).

Der Einstieg beginnt mit einer Registrierung bei Discord. Die Benutzeroberfläche wirkt am Anfang etwas chaotisch. Da es online bereits unzählige Tutorials gibt, verzichte ich hier bewusst auf technische Details und empfehle YouTube als Einstiegspunkt für die ersten Schritte.

Der Aufbau eines Midjourney-Prompts

Midjourney generiert pro Prompt immer vier Bildvarianten. Der Prompt selbst besteht aus drei Teilen und beginnt grundsätzlich mit dem Befehl /imagine.

  1. Image Prompt (optional)
    Eine Bild-URL, die als Vorlage dient. Dieser Teil kann weggelassen werden, wenn keine Referenz nötig ist.
  2. Textbeschreibung
    Die eigentliche inhaltliche Beschreibung. Sie enthält Details wie Personen, Kleidung, Haltung, Perspektive, Architektur, Landschaft, Lichtstimmung, Farben oder Stilrichtungen wie hyperrealistisch, Comic, Steampunk oder Anleihen an bestimmte Künstler. Dieser Teil ist zugleich der anspruchsvollste. Viele Profis optimieren ihre Prompts über unzählige Wiederholungen und geben sie nur ungern preis. Präzision ist hier der Schlüssel.
  3. Parameter
    Ergänzende Kürzel, die das Bild maßgeblich beeinflussen. Beispiele sind:
    -ar für das Seitenverhältnis.
    -no zum Ausschließen bestimmter Elemente.
    -s <Zahl> für ästhetische Stile.
    -v 4 oder -v 5 für die Midjourney-Version.
    Die vollständige Liste findet sich auf der Midjourney-Website.

Seit dem 14. März 2023 ist Midjourney Version 5 verfügbar (aktuell nur für zahlende Abonnenten). Diese Version liefert nochmals deutlich bessere Ergebnisse als Version 4, insbesondere bei Händen, Füßen, Reflexionen und Lichtberechnungen. Dennoch kommt es gelegentlich zu ungewöhnlichen Darstellungen, etwa zu viele Finger oder verdrehte Handformen. Aber der Sprung nach vorne ist unübersehbar.

Ich werde mit Sicherheit noch weitere Artikel zu Midjourney schreiben. Für uns Designerinnen und Designer ist dieses Tool ein echter Gamechanger. Und die Tage sind schlicht zu kurz, um all die Möglichkeiten auszuschöpfen, die diese KI bietet.

Ein Vergleich zwischen Version 4 und Version 5

Um die Unterschiede zu zeigen, habe ich für beide Versionen denselben Prompt verwendet. Midjourney versteht viele Sprachen, übersetzt jedoch intern alles ins Englische. Deshalb nutze ich direkt eine englische Formulierung für mehr Präzision.

Prompt:

/imagine photography shot through an outdoor window of a coffee shop with neon sign lighting, window glares and reflections, depth of field, [person] sitting at a table, portrait, kodak portra 800, 105 mm f1.8 --ar 2:1 --v 4 bzw. --v 5

Version 4 zeigt beeindruckende Ergebnisse in Bezug auf Lichtstimmung und Tiefenunschärfe, aber Reflexionen wirken oft unnatürlich. Zudem sind Hände selten vollständig sichtbar und Gesichter erinnern eher an hochqualitative 3D-Grafik.

Version 5 macht dagegen einen gewaltigen Sprung. Gesichter wirken authentischer. Hände und Reflexionen sind sauber dargestellt. Und das Raytracing – also die Simulation von sichtbarem und unsichtbarem Licht – ist deutlich verbessert.


Kritik und Ausblick

Bei all der Begeisterung sollten auch kritische Aspekte nicht ausgeblendet werden. KI wirft Fragen zu Diskriminierung aufgrund fehlerhafter Datensätze, fehlenden Datenschutzregelungen, dem Suchtpotenzial kreativer KI-Tools und dem enormen Stromverbrauch auf.

Trotzdem sehe ich die Entwicklung auch positiv. KI verändert unseren Beruf, aber Kreativität bleibt eine zutiefst menschliche Fähigkeit. Ob KI wirklich Kunst schaffen kann, ist am Ende eine subjektive Frage, die jeder für sich selbst beantworten muss.

Nächster Artikel ➝