Vergleich von Midjourney, DALL-E 2 und Stable Diffusion / Sudo Null IT News

Es gibt viele Texte über Midjourney, DALL-E 2 und Stable Diffusion: Sie wurden überprüft und sogar

verglichen

mit Designern. Wir haben uns entschieden, weiter zu gehen und einen Kampf zwischen ihnen zu arrangieren: um zu überprüfen, wie neuronale Netzwerke literarische Charaktere, historische Figuren, Abstraktionen und mehr erzeugen. Was dabei herausgekommen ist – wir zeigen unter dem Schnitt.


Disclaimer: Dieser Artikel erhebt keinen Anspruch auf wissenschaftliche Korrektheit. Wir haben gerade versucht, beliebte neuronale Netze zu vergleichen. Zum Spaß!🙃

Besonderheiten bei der Arbeit mit neuronalen Netzen

Jedes neuronale Netz hat seine eigenen Eigenschaften, die vor Beginn der Arbeit berücksichtigt werden müssen.

Zwischendurch

1. Arbeitet durch

Discord-Kanal

: Um Bilder zu generieren, müssen Sie Ihre Anfrage im Newbies-Chat-Kanal senden. Andere Benutzer werden Ihre Ergebnisse sehen.


Midjourney Discord-Fenster

2. Jedem neuen Benutzer stehen 25 kostenlose Anfragen zur Verfügung. Weitere 200 Anfragen kosten 10 $.

3. Als Antwort auf die Anfrage zeichnet das neuronale Netzwerk eine Collage aus vier Bildern. Ihre Größe kann mit speziellen Flags –w und –h eingestellt werden.


Beispiel für Bildauflösung

4. Bilder können verbessert oder zusätzliche Varianten dazu generiert werden.

DALL-E2

1. Das Projekt ist kostenlos und begrenzt die Anzahl der Anfragen nicht. Funktioniert durch

API

. Für Benutzer aus Russland ist es nur über VPN verfügbar. Außerdem benötigen Sie bei der Authentifizierung eine SMS-Bestätigung, die nur für ausländische Nummern funktioniert.


DALL-E 2, Fehlermeldung: „Etwas ist schief gelaufen. OpenAI ist in Ihrem Land nicht verfügbar”

2. Mit dem integrierten Modifikator können Sie einzelne Bildbereiche ändern. Verwandeln Sie zum Beispiel Katzen in … Mützen.

3. Für jedes Bild können Sie zusätzliche Optionen generieren, aus denen Sie die besten Illustrationen auswählen können.

4. DALL-E 2 kann Bildgrößen nicht einstellen. Das neuronale Netz kann nur mit dem 1:1-Format arbeiten. Dies ist ein Minus, wenn Sie beispielsweise ein Cover für einen Artikel über Habré erstellen müssen.

Stabile Diffusion

1. Der Quellcode des Projekts ist gemeinfrei. Um mit dem neuronalen Netzwerk zu arbeiten, können Sie das Git-Repository herunterladen und Ihren Webserver bereitstellen.


Stabile Verbreitung, WebUI


Um mit neuronalen Netzen zu arbeiten, können Sie verwenden Wählen Sie Cloud-Server aus mit Grafikkarten. Warum es besser ist, ML-Modelle auf einer GPU auszuführen, wird im Artikel beschrieben.

2. Stable Diffusion bietet eine Reihe von Optionen zur flexiblen Anpassung des Bildgenerators:

  • Höhe, Breite — Bildgröße.
  • Classifier Free Guidance Scale – wie genau das Bild der Abfrage entsprechen sollte. Wir empfehlen, den Standardwert von 7,5 zu verwenden.
  • Anzahl der zu generierenden Batches – wie viele Batches das neuronale Netzwerk insgesamt generiert.
  • Bilder pro Stapel – die Anzahl der Bilder in einem Stapel.
  • Sampling-Schritte – wie oft das neuronale Netzwerk das Bild verarbeitet. Für alle Bilder im Artikel ist der Parameter 70.
  • Sampling-Methode – eine Methode zur Auswahl der “besten” Bilder während der Generierung – bei einfachen Abfragen ist der Unterschied nicht wahrnehmbar. In den meisten Fällen wurde die Standardmethode k_lms verwendet.


Stabile Streuung, Bilder mit unterschiedlichen Sampling-Methodenwerten

3. Bilder können mit der integrierten Option verbessert werden – Bilder mit RealESRGAN hochskalieren.

Vergleich der Ergebnisse neuronaler Netze

Trotz der Unterschiede zwischen den Projekten gibt es allgemeine Regeln für die Generierung von Anfragen. Die wichtigsten sind in beschrieben

letzter Artikel

.

Für den Kampf der neuronalen Netze haben wir sechs Tests entwickelt und durchgeführt:

  1. literarischer Charakter. Die neuronalen Netze erzeugten ein Bild von demjenigen, dessen Name nicht aufgerufen werden kann.
  2. historische Persönlichkeit. Wie denken Sie, wie neuronale Netze Winston Churchill zeichnen werden: mit oder ohne Zigarre?
  3. IT-Skript. Wir haben überprüft, ob Neuronen von Assembler und Programmierung „gehört“ haben.
  4. Abstraktionen. Sie verstießen gegen die Regeln zur Generierung von Anfragen und baten darum, ein „Gefühl der Liebe“ darzustellen.
  5. Soljanka-Sammlung. Was passiert, wenn Sie nur die Objekte in der Abfrage auflisten?

Voldemort

In der Harry-Potter-Filmreihe spielten 5 Schauspieler die Rolle von Lord Voldemort. Ich frage mich, wie neuronale Netze den Zauberer sehen?
Anfrage:

Lord Voldemort steht und lächelt digitale Kunst

Es scheint, dass neuronale Netze die Zusammensetzung übertragen konnten. Wie sehr jede der Versionen des dunklen Lords dem Kanon ähnelt, ist eine Frage für die Potterianer.

Trotz des in der Anfrage vorgeschriebenen digitalen Kunststils zeigten die „Subjekte“ unterschiedliche Ergebnisse. Die erfolgreichste Option scheint Midjourney zu sein. Er sieht einer Figur aus den Harry-Potter-Filmen sehr ähnlich.

Das Schwierigste war, das Bild in Stable Diffusion zu erzeugen. In den meisten Fällen war die Silhouette des Charakters unbeholfen und hatte Störungen.


Von Stable Diffusion erzeugtes Bild

Winston Churchill

London, 1947 Menschen in gebügelten Anzügen gehen die Bürgersteige entlang, und entlang der Straßen stehen wunderschöne Laternen. Lassen Sie mich raten: Haben Sie das Bild in Schwarz-Weiß eingereicht? DALL-E 2 und Stable Diffusion – ja.

Frage: Winston Churchill steht vorne

Standardmäßig erzeugen DALL-E 2 und Stable Diffusion „Fotos“, die nur schwer von echten zu unterscheiden sind. Obwohl es im ersten Fall Mängel gibt: Die Gesichter sind verschmiert und der Text ist nicht zu erkennen.

Das Gesamtbild wird dadurch nicht beeinträchtigt. Neuronale Netze schafften es, die Anfrage zu „visualisieren“. Midjourney scheint es jedoch besser gemacht zu haben. Es erzeugt standardmäßig ein Vollfarbbild. Mit DALL-E 2 und Stable Diffusion können Sie ähnliche Ergebnisse erzielen, aber dafür müssen Sie mit Stilen und Einstellungen herumspielen.

Wunderbar! Kein neuronales Netz hat Winston Churchill mit einer Zigarre erzeugt.

Assembler-Programmierung

BEI

letzter Artikel

Wir haben versucht, das Cover für einen der Artikel zu replizieren. Und festgestellt, dass Midjourney den Programmcode nicht darstellen kann. Wir haben uns entschieden zu prüfen, welches der neuronalen Netze mit der Illustration zum Thema Programmierung am besten zurechtkommt.

Abfrage: Mannprogrammierung in Assembler

Auf dem ersten und dritten Bild – Menschen am Computer. Ob sie programmieren oder nicht, ist unbekannt. Aber es ist entfernt ähnlich. Aber im zweiten Bild ist nicht klar, was das neuronale Netz zeigen wollte. Manchmal zeichnet Midjourney Dinge, die zu abstrakt sind.

Anfrage korrigiert und Details ergänzt: Man sitzt am Computer und programmiert in Assembler


Denker sitzt im Lotussitz und programmiert Midjourney

Gefühl der Liebe

Wie stellst du dir das Gefühl der Liebe vor? Assoziieren Sie es mit einem geliebten Menschen oder vielleicht einer Lieblingspflanze? Sich etwas vorzustellen ist einfach, aber schwer zu erklären. Denn Gefühl ist abstrakt und subjektiv. Entgegen den Empfehlungen für Anfragen haben wir überprüft, welche Art von Liebe neuronale Netze sehen.

Frage: Liebesgefühl, digitale Kunst


Stichprobenmethode = k_euler

Abstrakte Kompositionen sind mit DALL-E 2 besser. Sie sind nicht trivial und vermitteln die Geschichte. Midjourney und Stable Diffusion konzentrieren sich auf das erste, was einem in den Sinn kommt, wenn man das Wort „Liebe“ hört.

Objektsatz

Während der Erstellung von Illustrationen denkt der Designer darüber nach, wie die verschiedenen Elemente, die in der Aufgabenbeschreibung vorgeschrieben sind, am besten kombiniert werden können. Manchmal ist es schwierig, sich eine „Szene“ vorzustellen: Objekte können völlig beziehungslos sein und müssen irgendwie in einer Komposition „befestigt“ werden. Wir entschieden uns zu prüfen, was neuronale Netze hervorbringen würden, wenn wir einfach die Schlüsselelemente durch Kommas getrennt auflisten würden.

Abfrage: Computer, Fotos mit Katzen, Roboter, Fisch

Was ist falsch am dritten Bild? Zuerst dachten wir, dass wir den Parameter Classifier Free Guidance Scale (cfgscale) kalibrieren müssten. Es ist dafür verantwortlich, wie genau das Bild mit der Abfrage übereinstimmen soll. Aber das hat nichts beeinflusst: Mit unterschiedlichen cfgscale-Werten werden gewöhnliche Bildverschmelzungen erzielt.


Ergebnisse für die Abfrage „Computer, Fotos mit Katzen, Roboter, Fische“ bei unterschiedlichen cfgscale-Werten.

Ansonsten scheint DALL-E 2 die Aufgabe besser gemeistert zu haben: Das Bild zeigt eine Katze, die fassungslos auf einen Computermonitor blickt. Auch das neuronale Netz hat den Fisch in der Anfrage nicht ignoriert: An der Wand hängt ein Bild davon.

Vision von mir

Und schließlich: Wie sehen sich neuronale Netze? Wir haben nachgeschaut und waren verwirrt.

Stable Diffusion assoziiert sich mit Pferden, Midjourney mit Landschaften und Sonnenuntergängen, DALL-E 2 sieht sich anders. Zuerst wie ein Bier mit einem Nachttisch und jetzt – wie ein Gedza. Die Entwickler verheimlichen uns etwas.

Diese Texte könnten Sie auch interessieren:

→ Erhöhen Sie die FPS in Anime mithilfe eines neuronalen Netzwerks und einer Tesla T4-GPU
→ Kann Midjourney die Designer ersetzen? Testen des neuronalen Netzes
→ ML in Managed Kubernetes: Welche Aufgaben brauchen einen GPU-Cluster?

Häufiges Problem: Neuronale Netze erzeugen Mutanten

Egal mit welchem ​​neuronalen Netzwerk wir arbeiten, alle haben das gleiche Problem – Artefakte im Gesicht. Die Nase kann auf der Wange und der Mund auf der Stirn sein.

Und es kommt vor, dass das Bild fast perfekt ist: Die Figuren sind vorhanden, die Farben und der Stil sind kombiniert, aber das Gesicht ist „nicht gedruckt“. Um solche Artefakte zu bekämpfen, gibt es spezielle Dienste. Einer von ihnen –

Arc Tencent

.


Das linke Auge “fixiert”. Arc Tencent Face Restoration, ein Arbeitsbeispiel

Zurück zu den Funktionen von Stable Diffusion: Das neuronale Netzwerk verfügt über ein integriertes Tool für die Gesichtsnachbearbeitung (Fix face using GFPGAN).


Vergleich der Gesichter vor und nach der Behandlung, Stabile Diffusion

Was sollten Sie wählen, um ein Hintergrundbild auf Ihrem Desktop zu erstellen? Halbzeit oder stabile Diffusion?

Artefakte sind nicht das einzige Problem, auf das Sie stoßen könnten. Manchmal werden beim Generieren horizontaler und vertikaler Bilder einige Objekte dupliziert. Dies ist eine Funktion von Stable Diffusion. Midjourney hat damit kein Problem.


Von Stable Diffusion erzeugte Bilder

Welches neuronale Netzwerk hat gewonnen?

Midjourney, DALL-E 2 und Stable Diffusion können sowohl atemberaubende als auch „schwache“ Bilder erzeugen. In einigen Fällen müssen Sie mehr mit Abfragen arbeiten, während in anderen Fällen ein Versuch ausreicht, um ein gutes Ergebnis zu erzielen. Und es ist schwer zu sagen, welches neuronale Netzwerk gewonnen hat. Aber in besonderen Fällen gibt es keine Wahl.

Wenn Sie hier und jetzt ein Bild generieren müssen, verwenden Sie Midjourney. Einfach verbinden Discord-Kanal. Sie müssen kein VPN einrichten oder einen ganzen Webserver bereitstellen. Sie können auch ohne Stileinstellungen ein gutes Bild erhalten. Obwohl es manchmal mehr als einen Versuch braucht.

Midjourney hat seine eigene “universelle Signatur”. Es erzeugt standardmäßig Ölgemälde, keine Fotos oder Zeichnungen wie DALL-E 2 und Stable Diffusion. Ob das ein Vorteil ist, liegt an Ihnen.

Möchten Sie mehrere verschiedene Objekte kombinieren? Dabei hilft DALL-E 2. Sie weiß, wie man komplexe und „sinnvolle“ Kompositionen baut. Dies ist nützlich, wenn ein Designer in kurzer Zeit viele Referenzen erhalten muss.

Auch in DALL-E können Sie die Bilder bei Bedarf ändern. Beispiel: Das neuronale Netz hat eine Landschaft gezeichnet, aber am Horizont steht ein zusätzlicher Baum. Sie können es auswählen und löschen.

Aber denken Sie daran: Um mit einem neuronalen Netz zu arbeiten, benötigen Sie ein VPN und eine ausländische Telefonnummer. Das erschwert die Arbeit. Der Service ist jedoch kostenlos und begrenzt die Anzahl der Anfragen nicht.

Stable Diffusion verfügt über Einstellungen für flexibles Arbeiten mit dem Bildgenerator. Wenn Sie beispielsweise die Last des neuronalen Netzwerks auf dem Server steuern müssen, können Sie den Parameter Sampling-Schritte reduzieren. Und wenn genügend Ressourcen vorhanden sind und das Ziel darin besteht, Zeichnungen von höchster Qualität zu erhalten, können Sie die Parameter maximal herausdrehen. Obwohl es besser ist, nicht mit der Classifier Free Guidance Scale zu experimentieren. Extreme Werte erzeugen Bilder, die nur aus Störungen bestehen. Stable Diffusion verfügt jedoch über eine integrierte Nachbearbeitung und Hochskalierung von Gesichtern.

Um jedoch mit einem neuronalen Netzwerk zu arbeiten, müssen Sie Google Collab oder Ihren eigenen Webserver bereitstellen. Diese Lösung kann teurer sein als ein Midjourney-Abonnement.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *