Kostenlose generative Bildmodelle mit der KI Stable Diffusion auf dem PC installieren

Dieser Artikel erläutert die Funktionsweise der KI-Bilderzeugung, insbesondere durch Stable Diffusion, und bietet eine Schritt-für-Schritt-Anleitung zur Installation und Nutzung auf dem PC.
Alle reden darüber, alle probieren es aus, aber wie funktioniert die Bilderzeugung durch KI wirklich? Es ist etwas anderes, auf einer der zahlreichen Webseiten, die Bilder erstellen, einen Sonnenuntergang oder eine Landschaft oder eine beliebige Person anzufordern, als ein Set von ähnlichen oder konsistenten Bildern zu generieren, das vielleicht dasselbe Subjekt darstellt.
Außerdem stellt sich die praktische Frage: Können wir neue, fantasievolle oder realistische Bilder generieren, ohne externe Dienste zu nutzen, sondern nur mit unserem PC und vielleicht sogar kostenlos, ohne Credits und verschiedene Einschränkungen und Zensuren?
Wenn ich diesen Artikel schreibe, ist es klar, dass w ir alle Bilder generieren können, die wir wollen, auch konsistente, von unserem PC aus unter Verwendung von freien und Open-Source-Generierungsmodellen.
Voraussetzung
Bevor wir dazu kommen, wie man es macht, ist es wirklich notwendig, zwei oder drei Konzepte zu verstehen, um zu wissen, was wir tun, sonst wird nur ein beliebiges Werkzeug verwendet, das niemals die erwarteten oder erhofften Ergebnisse liefern wird. Es wird ein super kurzer, wesentlicher Diskurs sein.
Daher, zurück zum Thema der Anleitung zur Installation einer KI auf dem PC: Während für Text-Chat nur ein Sprachmodell oder LLM erforderlich ist, benötigen wir für die GenAI oder generative künstliche Intelligenz ein Deep-Learning-Modell, das Text-Bild verbindet.
Beispiele für diese Text-Bild-Modelle sind das berühmte DALL-E von Open AI, das erste, das herauskam, gefolgt von Midjourney, worüber ich vor einiger Zeit ausführlich sprach, Grock von X, Imagen von Google und vor allem das wichtigste für uns alle, Stable Diffusion.
Stable Diffusion, dessen Geschichte und Funktionsweise auf Wikipedia nachgelesen werden kann, ist das kostenlose Open-Source-Modell für die Text-Bild-Diffusion von Stability AI, das jeder frei nutzen kann. Stable Diffusion ist auch ein leichteres Modell im Vergleich zu DALL-E und Midjourney, das auf dem eigenen PC installiert und von der überwiegenden Mehrheit der Webseiten und Anwendungen genutzt wird, die einen Dienst zur Bilderzeugung anbieten.
Anforderungen an Stable Diffusion auf dem PC
Wir danken den Schöpfern von Stable Diffusion, jedoch bleiben zwei Probleme für diejenigen, die mit der generativen KI experimentieren möchten.
Das erste ist die Kosten in Form von Grafikspeicher: Um Bilder durch KI zu erstellen, ist ein PC mit mindestens 12 GB VRAM erforderlich, was für Stable Diffusion von der Grafikkarte benötigt wird. Daher, wenn man wirklich alles selbst machen möchte, wird es notwendig sein, eine NVIDIA GeForce Grafikkarte mit viel VRAM zu kaufen, mindestens 12 GB, die, wie gesehen, mindestens 600 Euro kostet (und trotz dieser Ausgabe haben wir gerade das Minimum). Für Tests könnten auch 6 GB VRAM ausreichen, aber dieses Problem kann auch leicht gelöst werden, ohne etwas zu kaufen, indem man die Cloud nutzt, wie wir gleich sehen werden.
Das zweite Problem betrifft das Lernen der KI. Kurz gesagt, wenn wir die Software installieren und dann bitten, das Bild eines Mädchens zu erstellen, erscheint es mit einem bestimmten Aussehen. Beim zweiten Mal wird es ganz anders aussehen und vielleicht sogar wie eine Cartoon-Figur oder eine digitale 3D-Figur aussehen. Im Grunde brauchen wir eine Kontrolle über die KI, um sicherzustellen, dass die Bilder vom gleichen Typ sind. Um dies zu lösen, braucht man einfach etwas Geduld, um die Werkzeuge zu verstehen und zu verwenden.
Andere Anforderungen sind rein softwaretechnischer Natur. Der PC muss den Python-Interpreter und dann das Git-Tool installiert haben.
Stable Diffusion auf dem PC herunterladen und installieren
Es gibt drei Hauptprogramme zur Installation der KI von Stable Diffusion auf dem eigenen PC, die alle Open Source sind und ähnlich funktionieren, mit verschiedenen Installations- und Konfigurationsarten. Diese sind:
- AUTOMATIC1111 oder A1111, verfügbar für Mac und Windows sowie in der Cloud. Anleitungen und Nutzungshinweise sind auf der Webseite StableDiffusion.art zu finden.
- Fooocus, ein ähnliches Programm für Windows und Linux, das bei Github heruntergeladen werden kann, wo alle Informationen verfügbar sind.
- Fooocus ist ziemlich einfach zu bedienen, da es auch die Generierung von Bildern aus Bildern unterstützt. Man kann also ein eigenes Foto hochladen oder einen Face Swap machen.
- ComfyUI ist nicht nur das leistungsfähigste Programm, sondern auch das einfachste. Für diese Software gibt es ein Windows-Paket, das alles enthält, sodass keine Konfiguration benötigt wird und die Nutzung sofort möglich ist. Wenn man einen PC mit einer NVIDIA-Grafikkarte hat, kann man das Programm ComfyUI_windows_portable_nvidia.7z von der Release-Seite herunterladen, entpacken und ausführen.
Wie man auf den Webseiten dieser Programme sehen kann, kann man, wenn man keinen ausreichend leistungsstarken PC hat oder nicht zu viel Zeit mit der manuellen Installation verbringen möchte, sie in der Cloud starten dank der Plattform Google Colab. Colab ist im Wesentlichen ein Google-Dienst, der es ermöglicht, sich mit einem Google-Server mit 16 GB VRAM zu verbinden, um Python-Befehle auszuführen. Der Zugang erfordert lediglich ein Google Drive-Konto und ist für eine bestimmte Zeit kostenlos. Auf Colab kann man die Programme starten (indem man auf die Play-Taste neben den Befehlen drückt):
ComfyUI kann auch in der Cloud ausgeführt werden, komplett mit Modellen und Checkpoints, von der Seite RunComfy.com, die es ermöglicht, eine virtuelle Maschine mit 16 GB VRAM kostenlos oder auch gegen Gebühr auszuleihen, ohne Abonnements, und zahlt nur für die Zeit, die man nutzt oder für mehr Speicher.
Modelle und Checkpoints hinzufügen
Welches Programm wir auch nutzen, ich empfehle ComfyUI oder Fooocus. Um Bilder zu generieren, ist es notwendig, die sogenannten Checkpoints hochzuladen, das sind die KI-Modelle, die nicht enthalten sind. Stable Diffusion ist eines dieser KI-Modelle, aber es gibt viele andere. Diese KI-Modelle oder Checkpoints sind Dateien im .safetensors-Format und müssen heruntergeladen und in den Modellordner (den Programmordner öffnen und den Pfad models/checkpoint öffnen und die .safetensors-Dateien dort kopieren) eingefügt werden.
Die Safetensors-Modelle können von der Seite HuggingFace heruntergeladen werden, die alle Modelle zusammenführt, oder auch von der Seite Civit.ai, die weniger technisch ist und einfacher zu navigieren und zu durchsuchen ist. Zum Beispiel kann man Stable Diffusion XL 1.0 herunterladen (auf der Seite zu Files and versions gehen, um die Downloads zu finden).
Wie man sehen kann, ist die Welt der generativen KI-Bilder riesig, wo es leicht ist, Experimente durchzuführen, aber viel Erfahrung erforderlich ist, wenn man es ernsthaft angehen möchte. Um zu beginnen, würde ich empfehlen, wenn man realistische Bilder wie Fotos erstellen möchte, das Modell Juggernaut XL auf Civitai herunterzuladen, basierend auf SD XL. Wenn man Anime-Bilder oder 3D-Grafiken oder irgendeine andere Art von Bildern erstellen möchte, kann man den gewünschten Checkpoint ebenfalls von Civitai oder Huggingface herunterladen.
Das Thema Modelle endet hier jedoch nicht. Nach den ersten Tests wird man das Gefühl haben, dass das Modell chaotisch wirkt und den Prompt nicht beachtet. Deshalb gibt es die sogenannten LORA (Low-Rank Adaptation), das sind Submodelle, die die Vielfalt der Bilderstellung einschränken, um besser definieren zu können, was wir wollen, und notwendig sind, um konsistente Bilder zu erstellen. Um die Geschichte besser zu verstehen, können wir LORA wie verschiedene Fotofilter betrachten. Zum Beispiel, wenn man Bilder von einem wunderschönen Mädchen mit perfekter Haut erstellen möchte, kann man den passenden LORA (Realism) herunterladen; wenn.
Wenn wir Bilder einer berühmten Person, wie zum Beispiel der sehr trendigen Billie Eilish, erhalten möchten, müssen wir LORA herunterladen. Civitai verfügt über eine große Sammlung von LORA, die kostenlos durchsucht und heruntergeladen werden können.
Wir können auch ein LORA erstellen, indem wir (im Wesentlichen) 50 oder 60 Fotos des gleichen Themas oder Details hochladen. Dies kann auch online auf Civit.ai gemacht werden, allerdings müssen mindestens 5 Euro an Credits erworben werden.
Achten Sie auch auf das Konzept der Workflow, die auf ComfyUI als Flussdiagramme dargestellt werden. Workflows sind die Schritte, die der Algorithmus (über Checkpoints, LORA und viele andere Parameter) durchlaufen muss, um das Bild zu erstellen, und sie können wirklich komplex sein. Auf der Seite Runcomfy.com können viele fertige Workflows heruntergeladen werden.
Stable Diffusion online
Wer keinen PC mit 12 GB VRAM hat, kann diese Programme ausprobieren, aber die Erstellung von Bildern wird wirklich langsam sein. Glücklicherweise gibt es Online-Dienste. Derzeit gibt es viele Online-Dienste, die Stable Diffusion integrieren. Diese laden einfach das Open-Source-Programm, beispielsweise ComfyUI, auf ihre Server hoch, gut konfiguriert mit Checkpoints und LORA, und verlangen dafür Abonnements.
Wir haben in einem anderen Artikel eine kleine Liste der bester Websites zur kostenlosen Generierung von Bildern mit KI zusammengestellt.
Aus meinen Recherchen habe ich herausgefunden, dass die besten Seiten Civit.ai und Tensor.art sind, denn sie sind wie Online-Versionen von ComfyUI, ausgestattet mit allen gängigen Checkpoints und LORA, und sie sind, was den Verbrauch von Credits angeht, unter den großzügigsten. Man kann sie kostenlos verwenden, um viele Tests durchzuführen, und nicht nur 5 oder 10 Bilder.
Flux
Ein paar Worte zu Flux von Black Forest Lab, einem weiteren generativen KI-Modell für Text-to-Image, das ähnlich wie Stable Diffusion ist, aber aktueller und von höherer Qualität. Auf den oben genannten Websites kann man versuchen, Bilder mit Flux zu erstellen und diese mit den über SD XL oder SD 1.5 generierten zu vergleichen. Obwohl es besser ist, ist Flux jedoch sowohl in Bezug auf den VRAM (mindestens 16 GB VRAM auf dem eigenen PC) als auch hinsichtlich der Preisgestaltung der Online-Dienste "teurer".
Die einfachste Möglichkeit, Flux kostenlos auszuprobieren, ist über die Seite Hugging Face. Mit einem Klick auf Flux.1 Dev öffnet sich die Seite, auf der man den Prompt eingeben oder ein Bild hochladen kann, um ein neues zu erhalten.
Schreiben des Textes oder Prompts
Es gibt viel in diesem Artikel, und ich nehme an, dass diejenigen, die interessiert sind, weitere Anleitungen suchen werden. Wenn wir das Programm auf dem PC installiert haben oder uns für einen Online-Dienst angemeldet haben, um es schneller zu machen, kommt jetzt der schwierigste Teil: das Schreiben des Prompts. Denn um ein gut gemachtes, realistisches oder fantasievolles Bild zu generieren, ist es notwendig, alle Details im Prompt zu beschreiben, andernfalls wird es schlecht oder ungenau.
Hierbei hilft uns die normale KI, wie ChatGPT oder besser noch Google Gemini, das gut darin ist, Text-Prompts zu generieren. Man kann das Gemini Studio öffnen und dann etwas fragen wie "generate prompt for stable Diffusion for a photorealistic image of a woman.... ". Die Ausgabe kann dann im Bildgenerierungswerkzeug eingefügt werden. Ich empfehle, Prompts in englischer Sprache zu schreiben, das ist wirklich notwendig.
Eine großartige Seite, um fertige Prompts nur zu kopieren und einzufügen für Stable Diffusion und Flux, ist prompthero.com.
Ich erinnere auch daran, dass man generative KIs auch verwenden kann, um ein Gesicht in einem Foto mit FaceSwap zu ändern, eine Technik, die sich im letzten Jahr stark weiterentwickelt hat.
Abschließend beantworte ich eine letzte Frage: Können wir auch Videos auf dem PC mit KI generieren?
Die Antwort ist diesmal negativ, es ist noch zu früh, um darüber zu sprechen. Um zu beginnen, wurde das kostenlose Modell Stable Video Diffusion gerade erst veröffentlicht und funktioniert noch nicht sehr gut. Außerdem wird für die Generierung von Videos noch mehr VRAM benötigt, was es wirklich teuer machen kann.
Im Bereich Videogenerierung sind die Anbieter Kling, Hailuo, Hedra, Pika und Runway führend, wie in der Liste erwähnt.
Seiten zur Generierung von Videos mit KI
Wenn Sie Schwierigkeiten oder Fragen haben, lassen Sie es uns wissen, da das Thema komplex und ständig im Wandel ist.
Antworten auf deine häufig gestellten Fragen
Ist die stabile Diffusion auf dem PC kostenlos?
Ja, stabile Diffusion ist auf dem PC kostenlos. Hier sind einige wichtige Punkte dazu:
- -
Open-Source-Modelle
- : Stabile Diffusion wird von Stability AI als Open Source bereitgestellt.
- Kostenloser Zugang: Jeder kann die Modelle herunterladen und für persönliche Projekte nutzen.
- Nutzung und Weiterentwicklung: Die Modelle können auch weiterentwickelt und angepasst werden, ohne Kosten zu verursachen. Insgesamt bietet stabile Diffusion eine kosteneffiziente Möglichkeit, KI-gestützte Bildgenerierung zu erkunden.
Ist Stable Diffusion gratis?
Stable Diffusion ist aktuell kostenlos verfügbar, im Gegensatz zu kostenpflichtigen Diensten wie Midjourney oder Dall-E. Hier sind einige Punkte zur Nutzung und Installation:
- -
Kostenlos
- : Stable Diffusion kann ohne Gebühren genutzt werden.
- Installation: Um Stable Diffusion zu verwenden, müssen Benutzer eine Programmierumgebung auf ihrem Rechner einrichten.
- Workshop-Angebote: Es gibt Workshops, die zeigen, wie man Stable Diffusion installiert und optimal nutzt. Die kostenlose Verfügbarkeit macht Stable Diffusion zu einer attraktiven Option für Nutzer, die kreative Projekte realisieren möchten.
Können Sie stabile Diffusion unter Windows verwenden?
Ja, Sie können Stable Diffusion unter Windows verwenden. Hier ist eine kurze Anleitung, um die AUTOMATIC1111-Version der Software herunterzuladen und zu installieren:
- Voraussetzungen prüfen:
- - Stellen Sie sicher, dass Ihr PC über eine NVIDIA-GPU mit CUDA-Unterstützung verfügt.
- Installieren Sie die neueste Version von Python (mindestens 3.8).
- Git und CUDA installieren:
- Laden Sie Git von der offiziellen Website herunter und installieren Sie es.
- Installieren Sie die CUDA-Toolkit und cuDNN-Pakete von NVIDIA.
- Stable Diffusion herunterladen:
- Klonen Sie das AUTOMATIC1111-Repository von GitHub: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
- Wechseln Sie in das Verzeichnis: cd stable-diffusion-webui
- Benötigte Dateien installieren:
- Führen Sie das Installationsskript aus: pip install -r requirements.txt
- Modelldateien hinzufügen:
- Laden Sie das vortrainierte Stable Diffusion-Modell herunter und legen Sie es im
models/Stable-diffusion
-Ordner ab. - Software starten:
- Starten Sie die Anwendung mit folgendem Befehl: python app.py Nach Abschluss dieser Schritte können Sie die Web-Oberfläche aufrufen und KI-generierte Bilder direkt auf Ihrem PC erstellen.
Wie viel kostet Stable Diffusion?
Stable Diffusion ist eine kostenlose KI (Künstliche Intelligenz), die aus freien Texteingaben in natürlicher Sprache Bilder generiert. Über ein Textfeld teilen Nutzer der KI mit wenigen Worten mit, was das gewünschte Bild darstellen soll – beispielsweise ein Känguru, das einen Partyhut trägt. Hier sind einige wichtige Punkte zur Kostenstruktur von Stable Diffusion:
- -
Kostenloser Zugriff
- : Die Basisversion von Stable Diffusion kann kostenlos genutzt werden, indem Sie die Software lokal installieren oder über verschiedene Online-Plattformen zugreifen.
- Paid-Dienste: Einige Anbieter, die Stable Diffusion implementieren, bieten Premium-Dienste an, die zusätzliche Funktionen oder eine verbesserte Leistung bieten. Diese können in Form von Abonnements oder Pay-per-Use-Modellen vorliegen.
- Hardware-Kosten: Wenn Sie Stable Diffusion lokal auf Ihrem eigenen Computer betreiben möchten, sollten Sie auch die Hardware-Anforderungen berücksichtigen, da leistungsfähige GPUs oft erforderlich sind. Insgesamt fallen bei der Nutzung der Basisversion keine direkten Kosten an, während zusätzliche Premium-Features je nach Anbieter variieren können.
Schreibe einen Kommentar