Erstaunliche Bilder via Text: KI-Bildgeneratoren


Backstage, Quer Beet / 22. Jul 2023

Wie ich in einem der letzten Artikel schon angedeutet hatte, habe ich mich in den letzten Monaten intensiver mit den sogenannten KI-Bildgeneratoren (engl. „AI Image Generator“ oder „AI Art Generator“), beschäftigt.

  • Was sind KI-Bildgeneratoren?
  • Welche oder wie viele gibt es?
  • Welche Unterschiede gibt es?
  • Welche habe ich ausprobiert?
  • Leonardo.AI, BlueWillow und Midjourney im direkten Vergleich
Kurz: Was sind KI-Bildgeneratoren?

Dies sind Programme, die mit unzähligen bereits existierenden Bildern “gefüttert” wurden, also mit Bildern, Fotos, Kunst, etc. trainiert wurden, um nun aufgrund dieser Datenlage “selbstständig” via Text- oder Bildeingabe neue Bilder generieren.

Auf dem Markt sind derartige Programme nicht erst seit gestern, aber erst in den letzten 1-2 Jahren hat diese Technologie so rasante Fortschritte gemacht, dass inzwischen wirklich beeindruckten Bildern entstehen.

Für einige dieser Anwendungen wird Discord benötigt (welches ich bisher hauptsächlich als eine Art Instant Messenger aus dem Computerspielbereich kannte.) Andere laufen seperat im Browser mit eigener Benutzeroberfläche und wieder andere sind Teil bereits bekannter Anwendungen.

Welche oder wie viele gibt es?

Bis vor kurzem war die Anzahl dieser Programme und Tools noch recht übersichtlich. Aber spätestens in diesem Jahr scheint eine Art Knoten geplatzt zu sein und die Bildgeneratoren schießen wie Pilze aus dem Boden. Ebenso die Übersichtsartikel zu diesem Thema. Ich beschränke mich daher in diesem Beitrag auf Bildgeneratoren, die ich selbst getestet habe (und für welchen ich mich letztendlich für mein Projekt entschieden habe). Beispiele für weitere Generatoren finden sich hier und hier oder google fragen 😉

Welche Unterschiede gibt es?
  • Art der Anmeldung und Anwendung
    • Discord (z. B. Midjourney oder BlueWillow)
    • separate Anwendung im Browser (z. B. Leonardo.ai oder Nightcafé)
    • Teil einer anderen Anwendung (z. B. Canva oder Shutterstock)
  • Bedienung erfolgt in der Regel via Text- oder Bildeingabe
    • rein über Discord
    • anderes Benutzerinterface der jeweiligen Anwendung
  • Kosten
    • komplett kostenlos
    • kostenlose Probe und danach wählbares Bezahlmodell
    • von Anfang an Bezahlmodell
  • Bildqualität
    • hier gibt es doch gewaltige Unterschiede, s.u.
Welche habe ich ausprobiert:

Da ich zu denen gehöre, die erst einmal gründlich testen und ausprobieren wollen, habe ich mich auf die Programme gestürzt, die ich zunächst kostenlos ausprobieren konnte.

Shutterstock.AI und Canva Create sind zusätzliche Tool von Shutterstock bzw. Canva. Alle anderen KI-Generatoren waren eigenständige Anwendungen, zum Teil noch in der Beta-Phase.

Canva Create konnte mich nicht überzeugen. Ich würde sagen, dieser Bildgenerator steht noch am Anfang seiner Entwicklung. Shutterstock.AI hatte für meinen Geschmack zu wenig “Freiversuche” als das ich diesen ausführlich genug testen konnte. Nightcafè hat zwar schöne Bilder geliefert, aber für mein Projekt gingen diese stilistisch in die falsche Richtung.

Platzhirsch war zum Zeitpunkt, wo ich mich intensiver mit diesem Thema beschäftig habe, Midjourney. Und das zurecht, wie die Ergebnisse der Bilder zeigten. Um Midjourney bin ich eine ganze Weile herum geschlichen, da aufgrund hoher Benutzerzahlen der Zugang zur kostenlosen Beta vorübergehen gesperrt worden war. Erst im Mai war dieser wieder zugänglich, sodass ich auch hier lostesten konnte. Kurz vorher war ich, als “kostenlose Midjourney-Alternativen”, über Leonardo.AI und BlueWillow gestolpert. Beides noch in der Beta-Phase. Und das merkte man den beiden durchaus an. Die Bilder waren zwar durchaus ebenfalls beeindruckend, aber BlueWillow kam an die Ergebnisse von Midjourney einfach nicht heran und Leonardo.AI hatte (Stand Mai 2023) durchaus noch Probleme mit zusätzlichen oder anatomisch eher abenteuerlich angeordneten Gliedmaßen und Köpfen.

Leonardo.AI, BlueWillow und Midjourney im direkten Vergleich

Schauen wir uns diese drei Bildgenatoren doch anhand von ein paar Beispielen etwas genauer an. Erst einmal ein paar Fakten:

Leonardo.AI

  • kostenlose Variante
  • separate Anwendung
  • eigenes Interface
  • intensive Einarbeitung erforderlich
  • generiert zwischen 1-8 Bilder pro Eingabe

BlueWillow

  • kostenlose Variante
  • Discord
  • einfache Text bzw. Bildeingabe
  • generiert 4 Bilder pro Eingabe
  • Bilder können einzeln vergrößert und variiert werden

Midjourney

  • Beta mit Test-Rechenzeit, dann Abomodell
  • Discord
  • einfache Text bzw. Bildeingabe
  • generiert 4 Bilder pro Eingabe
  • Bilder können einzeln vergrößert und variiert werden

So viel dazu, aber kommen wir nun zum wesentlichen, dem Erstellen von Bildern. Als Textprompt habe ich zunächst “generative artificial intelligence, white background” gewählt. Wie würden sich die Programme also selber darstellen?

Leonardo.AI

BlueWillow

Midjourney

Hier zeigen sich bereits die ersten Unterschiede. Leonardo.AI als auch Midjourney haben den Prompt sehr gut umsetzen können. BlueWillow hingegen hat sowohl mit dem weißen Hintergrund, als auch mit der generellen Umsetzung der Vorgabe seine Probleme. Mir persönlich gefallen hier die Ergebnisse von Midjourney am besten, aber das ist Geschmackssache.

Variieren wir die Vorgaben ein bisschen und fügen ein einziges Wort hinzu: “generative artificial intelligence, cat, white background”

Leonardo.AI

BlueWillow

Midjourney

Diesmal waren die Ergebnisse innerhalb eines Generators recht ähnlich, deswegen die Auswahl auf ein Bild. Leonardo.AI und Midjourney liefern erneut schöne, aber verschiedene Bilder. BlueWillow hingegen stürzt sich auf dieses eine zusätzliche Wort und vernachlässigt die anderen Vorgaben.

Versuchen wir es mal mit etwas anderem: “beautiful landscape, fairy tale

Leonardo.AI

BlueWillow

Midjourney

Hier interpretiert jeder Bildgenerator die Vorgabe auf seine Weise. Alle auf ihre Weise schön.

Nun versuchen wir es einmal mit einer etwas ausgefalleneren Vorgabe: “cat, full body, riding a bike, white Background, watercolor“:

Leonardo.AI

BlueWillow

Midjourney

Hiermit wurde BlueWillow endgültig an seine Grenzen getrieben. Von den vier Bildern war dies noch das Beste, weil immerhin eine Katze zu erkennen war. Das Ergebnis ist … nennen wir es mal kreativ. BlueWillow ist durchaus in der Lage bessere Bilder zu liefern, aber nicht mit diesen vergleichsweise kurzen Prompt und auch nicht in dem Bereich, den ich für meine Bilder brauche. Zudem gibt es jetzt auch eine neue, bessere Variante (V4), welche allerdings nur im Bezahlmodus zugänglich ist.

Leonardo.AI hat hier hingegen auf den ersten Blick ein wunderschönes Bild erzeugt. Bei genauerem Hinsehen fällt allerdings der doppelte Schwanz auf. Dies lässt sich durch weitere Vorgaben in dem sehr umfangreichen Benutzerinterface weitestgehend verhindern. Auch was den Gesichtsausdruck angeht, muss hier noch nachgearbeitet werden. Dieses Bild geht, aber bei den zeitgleich erzeugten Varianten, war der Ausdruck ziemlich “leer”. Auch dies lässt sich durch weitere Vorgaben steuern. Womit wir auch schon bei Vor- und Nachteilen von Leonardo wären: das umfangreiche Interface mit seinen sehr vielen Einstellungsmöglichkeiten. Ich habe mich etwa einen Monat damit auseinandergesetzt und kam langsam in die Richtung, in der ich meine Bilder haben wollte. Aber ich war bei weitem noch nicht am Ziel.

Midjourney hat mit diesem kurzen Prompt bereits ein sehr ausdrucksstarkes Bild erzeugt und vor allem den weißen Hintergrund umsetzen können. Generell habe ich bei Midjourney schnell da Gefühl gehabt hier das zu bekommen, was mir vorschwebte. Deswegen bin ich dort auch nach Ablauf der Test-Rechenzeit ins Bezahlmodel gewechselt. Nach vergleichsweise kurzer Einarbeitungszeit (etwa 15 Stunden meiner Zeit, nicht Rechenzeit) konnte ich wirklich genau die Bilder erzeugen, die mir vorgeschwebt haben.

Fazit:

Inzwischen gibt es eine Vielzahl von KI-Bildgeneratoren, die sich jedoch stark in der Qualität ihrer erzeugten Bilder unterscheiden. Wer nur ab und zu ein nettes Bild (z.B. Geburtstagskarte, Desktophintergrund, etc.) benötigt, wird bei einer Vielzahl (auch kostenlosen) Programmen fündig werden können. Auch wenn einige dieser Programme ein vergleichbares Benutzerinterface habe, so interpretieren sie die Texteingaben doch mitunter auf sehr unterschiedliche Weise, so dass man um eine gründliche Einarbeitungszeit nicht herumkommt.

In meinem Fall konnte mich Midjourney am meisten überzeugen, weswegen ich mich schlussendlich auch hierfür entschieden habe.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert