KI-Freundin Fotogenerierung | Lewdly Blog
/ AI Image Generation / KI-Freundin Fotogenerierung: Konsistente Charaktere erstellen, die echt aussehen
AI Image Generation 27 Min. Lesezeit

KI-Freundin Fotogenerierung: Konsistente Charaktere erstellen, die echt aussehen

Erfahren Sie, wie Sie fotorealistische KI-Freundin-Fotos mit konsistenten Gesichtern erzeugen, mithilfe von FLUX 2, LoRA-Training, IPAdapter und Prompt-Engineering. Vollständiger Leitfaden 2026.

KI-Freundin Fotogenerierung zeigt einen konsistenten Charakter in mehreren realistischen Szenen

Ich will offen mit Ihnen sein. Der schwierigste Teil der KI-Freundin Fotogenerierung ist nicht, ein einzelnes hübsches Bild zu bekommen. Das schafft jedes Modell. Das Schwierige ist, dass Ihr zweites Bild wie dieselbe Person aussieht wie das erste. Und dann das dritte. Und das vierzigste. Ich habe den größten Teil von drei Monaten Ende 2025 damit verbracht, das zu knacken, und was ich gelernt habe, ist, dass die meisten Leute es vollkommen falsch angehen.

Schnelle Antwort: Um konsistente, fotorealistische KI-Freundin-Fotos zu erzeugen, verwenden Sie FLUX 2 als Basismodell für Realismus, trainieren Sie ein LoRA auf 15 bis 25 sorgfältig ausgewählten Referenzbildern für die Gesichtsidentität, legen Sie IPAdapter darüber für Pose- und Szenenvariation und beherrschen Sie das Prompt-Engineering für realistisches Licht, Umgebungen und Kleidung. Diese Kombination liefert über 90 Prozent Gesichtskonsistenz über Hunderte von Generierungen hinweg, wenn sie richtig gemacht wird.

Wichtige Erkenntnisse:
  • FLUX 2 ist derzeit das beste Modell für fotorealistische KI-Freundin-Fotos und schlägt sowohl SDXL als auch Midjourney bei natürlicher Hauttextur und Beleuchtung
  • LoRA-Training auf 15 bis 25 Referenzbildern liefert Ihnen die stärkste Gesichtsidentitäts-Fixierung, rund 90 bis 95 Prozent Konsistenz
  • IPAdapter erlaubt Ihnen, Posen und Szenen zu variieren, ohne die Gesichtsidentität zu verlieren, halten Sie aber das Gewicht zwischen 0,8 und 0,9 für die besten Ergebnisse
  • Prompt-Engineering für Realismus bedeutet, wie ein Fotograf zu denken, nicht wie ein Prompt-Engineer
  • Die Kombination von LoRA plus IPAdapter plus sorgfältigem Prompting ist die "heilige Dreifaltigkeit", die KI-generierte Fotos wirklich schwer von echten unterscheidbar macht

Warum sehen die meisten KI-Freundin-Fotos unecht aus?

Bevor wir darüber sprechen, wie man es behebt, lassen Sie uns darüber reden, warum die meisten KI-Freundin-Fotos den Realismustest nicht bestehen. Ich sehe überall dieselben Fehler, und ehrlich gesagt habe ich sie alle auch gemacht, als ich anfing.

Das größte Problem ist das, was ich den "Beauty-Filter-Effekt" nenne. Die Leute drehen die Ästhetik-Einstellungen voll auf, verwenden Prompts für ultraglatte Haut und enden mit Bildern, die aussehen, als wären sie durch sechs Instagram-Filter gelaufen. Echte Menschen haben Poren, eine subtile Asymmetrie in ihren Zügen und Unvollkommenheiten. Wenn Ihr KI-Charakter eine Haut hat, die glatter ist als die einer Schaufensterpuppe, schreit das jedem mit funktionierenden Augen "generiert" entgegen.

Das zweite Problem ist die Beleuchtung. Die meisten Leute denken überhaupt nicht darüber nach. Sie schreiben Prompts wie "schöne Frau in einem Café" und überlassen es dem Modell, die Beleuchtung herauszufinden. Das Modell greift standardmäßig auf diese gleichmäßige, schattenlose Ausleuchtung zurück, die es in der echten Fotografie nicht gibt. Echte Fotos haben gerichtetes Licht. Sie haben Schatten unter dem Kinn und ein Glanzlicht auf dem Wangenknochen. Sie haben dieses warme orangefarbene Leuchten von einer nahen Lampe oder den kühlen blauen Schimmer von einem Fenster.

Hier ist mein dritter Kritikpunkt, und dieser ist persönlich. Hintergründe. Ich habe am Anfang zwei Wochen damit verbracht, Bilder zu erzeugen, auf denen mein Charakter großartig aussah, aber vor diesen seltsam makellosen Hintergründen stand, ohne Unordnung, ohne Tiefe, ohne reale Unaufgeräumtheit. Echte Fotos entstehen an echten Orten. Die Kaffeetasse auf dem Tisch steht leicht außerhalb der Mitte. Im Hintergrund läuft ein verschwommener Fremder vorbei. Die Tischdecke hat eine Falte. Diese winzigen Details sind es, die Realismus verkaufen.

KI-Freundin Fotovergleich zeigt unrealistische gegenüber fotorealistischen Ergebnissen

Links: typische überbearbeitete KI-Ausgabe mit glatter Haut und flacher Beleuchtung. Rechts: korrekt erzeugtes Foto mit natürlicher Textur, gerichteter Beleuchtung und Umgebungsdetails.

Was macht FLUX 2 zur besten Wahl für realistische KI-Fotos?

Ich habe im Grunde jedes große Modell für diesen Anwendungsfall getestet. Stable Diffusion XL, Midjourney v6, DALL-E 3, verschiedene FLUX-Varianten. Und mein Fazit nach rund 2.000 Test-Generierungen ist, dass FLUX 2 die natürlich fotorealistischste Ausgabe für Charakterarbeit produziert.

Illustration für Was macht FLUX 2 zur besten Wahl für realistische KI-Fotos?

Der Grund liegt darin, wie FLUX Hauttextur und Lichtinteraktion handhabt. Wo SDXL dazu neigt, eine leicht malerische Haut zu produzieren (selbst mit fotorealistischen Checkpoints), rendert FLUX 2 Poren, feine Gesichtsbehaarung und Subsurface Scattering auf eine Weise, die sich einfach richtig anfühlt. Das Modell wurde auf einem riesigen Datensatz echter Fotografie trainiert, und das merkt man. Das Licht legt sich korrekt um Gesichter. Schatten fallen dorthin, wo sie sollen. Die Haut hat diese durchscheinende Qualität, die echte Haut unter bestimmten Lichtbedingungen hat.

Eine gewagte These hier. Ich denke, Midjourney v6 produziert im Durchschnitt "attraktivere" Bilder, aber FLUX 2 produziert "echter aussehende" Bilder. Und speziell für die KI-Freundin Fotogenerierung ist echt aussehend wichtiger als magazintitelhübsch. Die Leute folgen KI-Charakteren in den sozialen Medien, weil sie auf einer gewissen Ebene glauben, dass diese Person existieren könnte. Midjourneys Ausgabe ist wunderschön, hat aber oft diese subtile unheimliche Perfektion, die Misstrauen auslöst.

Hier ist mein tatsächliches funktionierendes FLUX-2-Setup für Charakterfotos. Ich werde Ihnen nicht die Standardwerte aus der Dokumentation geben, weil sie für diesen Anwendungsfall nicht gut sind.

  • Modell: FLUX 2 Dev (nicht Schnell, der Qualitätsunterschied ist bei Gesichtern erheblich)
  • Auflösung: 1024x1360 für Porträtaufnahmen, 1360x1024 für Landschaftsszenen
  • Guidance Scale: 3,0 bis 3,5 (niedriger als die meisten verwenden, aber es hält die Dinge natürlich)
  • Steps: 28 bis 35 (mehr als Standard, aber die Verbesserung der Gesichtsdetails ist die zusätzliche Zeit wert)
  • Sampler: Euler, mit einem Normal-Scheduler

Wenn Sie das Setup komplett überspringen möchten, erlauben Ihnen Tools wie Lewdly.ai, FLUX-Workflows auszuführen, ohne irgendetwas davon selbst konfigurieren zu müssen. Ich bin ehrlich, ich habe beim Aufbau der Plattform geholfen, aber ich nutze sie tatsächlich für schnelle Generierungen, wenn ich meinen lokalen Rechner nicht hochfahren möchte.

LoRA-Training für Gesichtskonsistenz: Das Fundament

Hier geben die meisten Leute entweder auf oder machen es falsch. LoRA-Training ist die mit Abstand wirkungsvollste Technik, um einen konsistenten KI-Charakter über Fotos hinweg beizubehalten, und das ist nicht einmal knapp. Wenn Sie meinen Leitfaden gelesen haben, wie man eine KI-Freundin mit Stable Diffusion erstellt, wissen Sie, dass ich ein großer Fan von LoRAs bin. Aber eines speziell für Gesichtskonsistenz zu trainieren, ist ein anderes Spiel als allgemeine Stil-LoRAs.

Aufbau Ihres Referenzdatensatzes

Die Qualität Ihres LoRA hängt vollständig von der Qualität Ihrer Trainingsbilder ab. Das habe ich auf die harte Tour gelernt. Mein erster LoRA-Trainingsversuch verwendete 40 Bilder, die im Grunde denselben Winkel und dieselbe Beleuchtung hatten, und das Ergebnis war ein Charakter, der nur in genau diesem einen Setup richtig aussah. Ändern Sie den Winkel um 30 Grad und das Gesicht fiel auseinander.

So sieht ein guter Trainingssatz für Gesichtskonsistenz aus.

  • 15 bis 25 Bilder (nicht 10, nicht 50, dieser Bereich ist der ideale Punkt, den ich durch Tests gefunden habe)
  • Mehrere Winkel: frontal, 3/4 links, 3/4 rechts, leichtes Profil, nach oben blickend, nach unten blickend
  • Mehrere Lichtbedingungen: natürliches Tageslicht, warmes Innenlicht, kühle Schatten, bewölkt
  • Konsistente Identität über alle Bilder: wenn Sie von Grund auf neu aufbauen, erzeugen Sie einen Basissatz mit FLUX und wählen Sie diejenigen aus, die sich am ähnlichsten sehen
  • Vielfalt im Ausdruck: neutral, leichtes Lächeln, lachend, ernst, nachdenklich
  • Saubere Hintergründe bevorzugt für das Training (Sie können sie später in komplexe Szenen setzen)

Eine häufige Frage, die ich bekomme, lautet: "Was, wenn ich noch keine Referenzbilder habe?" Das ist das Henne-Ei-Problem. Die Lösung, die ich verwende, besteht darin, etwa 100 Bilder mit FLUX zu erzeugen, indem ich einen sehr detaillierten Gesichtsbeschreibungs-Prompt verwende, die 15 bis 25 herauszupicken, die untereinander am konsistentesten aussehen, und dann ein LoRA auf diese zu trainieren. Der erste Stapel wird nicht perfekt sein, aber das LoRA fixiert das, was diese Bilder gemeinsam haben, und Ihre Ausgaben der zweiten Generation werden dramatisch konsistenter sein.

Trainingseinstellungen, die wirklich funktionieren

Ich habe öfter zwischen Trainingseinstellungen hin und her gewechselt, als ich zählen kann. Dies sind die Werte, auf die ich mich nach dem Training von etwa 30 bis 40 Charakter-LoRAs im letzten Jahr festgelegt habe.

  • Learning Rate: 1e-4 (Standard, aber ich senke sie auf 5e-5, wenn ich bemerke, dass das Gesicht während des Trainings anfängt zu "driften")
  • Trainings-Steps: 1500 bis 2500 für FLUX-LoRAs (mehr ist nicht besser, Sie überanpassen sonst)
  • Rank: 32 (ich habe früher 16 verwendet, aber 32 erfasst mehr Gesichtsdetails, ohne die Datei aufzublähen)
  • Batch Size: 1 oder 2 je nach Ihrem VRAM
  • Regularisierungsbilder: Optional, aber ich habe festgestellt, dass die Verwendung von 100 bis 200 vielfältigen Gesichtsbildern als Regularisierung verhindert, dass das Modell "vergisst", wie man andere Menschen zeichnet

Der Trainingsprozess dauert etwa 1 bis 2 Stunden auf einer 24-GB-GPU. Wenn Sie Cloud-Computing verwenden, rechnen Sie mit etwa 2 bis 5 Dollar pro Trainingslauf, je nach Anbieter.

Eine Sache, die Ihnen niemand über LoRA-Training für Gesichter sagt. Die Qualität der Captions ist wichtiger als die Trainingseinstellungen. Wenn Ihre Captions generisch sind ("eine Frau, die in einem Raum steht"), lernt das LoRA nicht, was das Gesicht Ihres Charakters einzigartig macht, im Gegensatz zu dem, was nur szenenspezifisches Rauschen ist. Ich beschrifte meine Trainingsbilder mit hyperspezifischen Gesichtsbeschreibungen. "Eine Frau mit hohen Wangenknochen, leicht nach oben gerichteter Nase, tiefliegenden grünen Augen, dünnen geschwungenen Augenbrauen, herzförmigem Gesicht, voller Unterlippe" und so weiter. Je präziser Sie die Gesichtszüge beschreiben, desto besser lernt das LoRA, sie zu isolieren und zu reproduzieren.

Wie hilft IPAdapter bei Pose- und Szenenvariation?

Sobald Sie ein LoRA für die Gesichtsidentität fixiert haben, wird IPAdapter Ihr bester Freund, um Vielfalt zu schaffen. Hier ist der Grund. Ihr LoRA stellt sicher, dass das Gesicht konsistent bleibt, aber es kontrolliert nicht Pose, Komposition oder Szeneninteraktion. Da kommt IPAdapter ins Spiel. Er nimmt ein Referenzbild und nutzt es, um die Gesamtkomposition und den Stil der Ausgabe zu steuern.

Ich stelle es mir so vor. Ihr LoRA ist der Schauspieler. IPAdapter ist der Regisseur, der dem Schauspieler sagt, wo er stehen soll und wie die Aufnahme zu rahmen ist. Zusammen sind sie mächtig.

Das Setup in ComfyUI sieht etwa so aus. Sie laden Ihr FLUX-Modell, wenden Ihr Charakter-LoRA an und verbinden dann einen IPAdapter-Node, der ein Referenzbild als Eingabe nimmt. Das Referenzbild muss nicht Ihren Charakter zeigen. Es kann ein echtes Foto sein, das die gewünschte Pose, Beleuchtung oder Komposition zeigt, und das LoRA stellt sicher, dass das Gesicht konsistent bleibt, während IPAdapter alles andere übernimmt.

IPAdapter-Gewichtseinstellungen (das ist wichtiger, als Sie denken)

Ich erinnere mich, als ich anfing, IPAdapter für Charakterarbeit zu verwenden. Ich ließ das Gewicht auf dem Standardwert 0,7 und konnte nicht herausfinden, warum meine Ergebnisse mittelmäßig waren. Das Gesicht passte irgendwie zu meiner Referenz, aber auch irgendwie nicht. Es war, als würde man einen Verwandten ansehen statt dieselbe Person.

Durch Versuch und Irrtum fand ich heraus, dass 0,8 bis 0,9 der ideale Punkt für gesichtsfokussierte IPAdapter-Arbeit ist. Gehen Sie unter 0,8 und der Referenzeinfluss ist zu schwach. Gehen Sie über 0,9 und Sie verlieren die Fähigkeit, Szenen und Posen zu ändern, die Ausgabe wird zu einer Beinahe-Kopie Ihres Referenzbildes, was den Zweck zunichtemacht.

Hier ist eine Aufschlüsselung, was verschiedene Gewichtswerte in der Praxis produzieren.

  • 0,5 bis 0,7: Allgemeine Stil- und Kompositionsübertragung, Gesichtskonsistenz ist niedrig
  • 0,7 bis 0,8: Moderate Gesichtskonsistenz, gut für lose Stilübereinstimmung
  • 0,8 bis 0,9: Starke Gesichtskonsistenz, hier arbeite ich für Charakterarbeit
  • 0,9 bis 1,0: Beinahe-Kopie der Referenz, wenig Spielraum für Szenenvariation

Für Leser, die tiefer in das Problem der Charakterkonsistenz über reine Freundin-Fotos hinaus eintauchen möchten, behandelt mein Leitfaden zu Techniken für den KI-Generator für konsistente Charaktere die breitere Landschaft an Tools und Ansätzen.

IPAdapter-Gewichtsvergleich zeigt verschiedene Konsistenzstufen

Vergleich von IPAdapter-Gewichten von 0,6 bis 0,95. Beachten Sie, wie 0,85 die beste Balance aus Gesichtskonsistenz und Szenenflexibilität bietet.

Prompt-Engineering für fotorealistische KI-Freundin-Fotos

Ehrlich gesagt ist das der Teil, der Amateurergebnisse von professionellen trennt. Ihr Modell und LoRA können perfekt sein, aber schlechte Prompts produzieren trotzdem schlechte Fotos. Und die meisten Prompting-Ratschläge da draußen sind schrecklich für Realismus, weil sie für Fantasy-Kunst oder Anime-Generierung geschrieben wurden.

Denken Sie wie ein Fotograf, nicht wie ein Autor

Die einzige nützlichste mentale Verschiebung, die ich beim Prompt-Engineering vorgenommen habe, ist, aufzuhören, Beschreibungen zu schreiben, und anzufangen, Fotografie-Briefings zu schreiben. Echte Fotografen denken in Brennweite, Blende, Lichtrichtung und Farbtemperatur. Ihre Prompts sollten das auch tun.

Statt "schöne Frau in einem Coffeeshop, die lächelt" denken Sie darüber nach, was ein Fotograf tatsächlich einfangen würde.

Schlechter Prompt: "Schöne Frau mit braunen Haaren sitzt in einem Coffeeshop, lächelt, fotorealistisch, hohe Qualität, 8k"

Guter Prompt: "Schnappschuss einer Frau, die an einem Fenstertisch in einem belebten Coffeeshop sitzt, Morgenlicht strömt von links herein, weicher Bokeh-Hintergrund mit anderen sichtbaren Gästen, sie ist mitten im Lachen und blickt leicht an der Kamera vorbei, trägt einen lässigen Strickpullover, aufgenommen mit 85mm f/1.8, warme Farbtemperatur, leichte Bewegungsunschärfe an ihrer Hand, als sie nach einer Keramik-Kaffeetasse greift"

Sehen Sie den Unterschied? Der zweite Prompt sagt dem Modell etwas über die Lichtquelle, die Schärfentiefe, das Kameraobjektiv, die Stimmung, die Unvollkommenheiten (Bewegungsunschärfe, an der Kamera vorbeiblicken statt direkt hinein) und die Umgebungsdetails, die ein Foto echt wirken lassen.

Kostenlose ComfyUI Workflows

Finden Sie kostenlose Open-Source ComfyUI-Workflows für Techniken in diesem Artikel. Open Source ist stark.

100% Kostenlos MIT-Lizenz Produktionsbereit Sterne & Testen

Die Anti-KI-Prompt-Tricks

Im letzten Jahr habe ich eine Reihe von Prompt-Phrasen entwickelt, die speziell darauf ausgelegt sind, dem typischen "KI-Look" entgegenzuwirken. Ich nenne diese meine Anti-KI-Prompt-Zusätze, und ich streue sie in jede Generierung ein.

  • "slightly out of focus background" statt "detailed background"
  • "natural skin texture with visible pores", um den Glättungseffekt zu bekämpfen
  • "imperfect lighting" oder "mixed color temperature lighting" für Realismus
  • "casual composition, not centered", um die Tendenz des Modells zu durchbrechen, Motive zu zentrieren
  • "shot on [bestimmte Kamera/Objektiv]", um fotografisches Rendering auszulösen (85mm f/1.4 ist mein Standard)
  • "grain, film texture" für dieses analoge Fotografiegefühl
  • "one eye slightly squinted" oder "asymmetrical smile" für Gesichtsrealismus

Ich verwende auch aktiv negative Prompts, um die Dinge zu unterdrücken, die KI-Fotos unecht aussehen lassen. "Smooth skin, porcelain skin, perfect symmetry, centered composition, studio lighting, airbrushed, digital art, illustration, drawing" landen alle in meinem negativen Prompt.

Aufbau eines Prompt-Template-Systems

Nachdem ich Tausende von Bildern erzeugt hatte, hatte ich es satt, jedes Mal Prompts von Grund auf neu zu schreiben. Also baute ich ein Template-System. Das halbierte meine Generierungszeit ungefähr und machte meine Ausgaben konsistenter.

Meine Template-Struktur sieht so aus.

[Trigger-Wort der Charakteridentität] + [Kleidungsbeschreibung] + [Aktivität/Pose] + [Ort mit spezifischen Details] + [Beleuchtungssetup] + [Technische Kameradetails] + [Stimmung/Atmosphäre]

Zum Beispiel. "v_sarah, wearing a dark green utility jacket and white t-shirt, leaning against a weathered brick wall checking her phone, urban alley with graffiti and puddles from recent rain, late afternoon golden hour light from the right casting long shadows, shot on Sony A7III 50mm f/1.4, moody atmospheric"

Das Trigger-Wort "v_sarah" aktiviert mein LoRA. Alles andere steuert Komposition und Realismus. Ich habe etwa 20 dieser Templates für verschiedene Szenarien gespeichert: Café-Szenen, Spaziergänge im Freien, Fitnessstudio-Aufnahmen, Strandkulissen, Abend-Ausgeh-Szenen, häusliche/lässige Settings und so weiter.

Welche Einstellungen erzeugen die realistischste Haut und Beleuchtung?

Hier werde ich wirklich konkret, weil die Standardeinstellungen für Fotorealismus ehrlich gesagt schlecht sind. Ich habe Wochen damit verschwendet, einigermaßen brauchbare Ergebnisse zu bekommen, bevor ich diese Einstellungen herausfand, und ich möchte nicht, dass Sie diese Erfahrung wiederholen.

Illustration für Welche Einstellungen erzeugen die realistischste Haut und Beleuchtung?

CFG Scale und ihre Auswirkung auf den Realismus

Die meisten Tutorials sagen Ihnen, dass Sie eine CFG von 7 oder 8 für "hochwertige" Bilder verwenden sollen. Speziell für FLUX 2 ist das zu hoch für realistische Fotos. Eine höhere CFG bringt das Modell dazu, Ihrem Prompt aggressiver zu folgen, aber sie erhöht auch die Sättigung, schärft Kanten unnatürlich und erzeugt diesen "zu perfekten" Look.

Für fotorealistische KI-Freundin-Fotos auf FLUX 2 verwende ich eine Guidance Scale von 2,5 bis 3,5. Ja, das ist niedriger als die meisten empfehlen. Und ja, es macht einen riesigen Unterschied. Die Farben werden gedämpfter und natürlicher. Die Beleuchtung wird weicher. Die Haut sieht aus wie echte Haut statt wie airgebrushtes Plastik.

Hier ist eine schnelle Referenz für verschiedene Looks.

  • 2,0 bis 2,5: Sehr natürlich, fast filmartig. Großartig für Schnappschüsse und Fotos im Dokumentarstil
  • 2,5 bis 3,5: Der ideale Punkt. Sauber, aber realistisch. Hier verbringe ich die meiste Zeit
  • 3,5 bis 5,0: Beginnt "produziert" auszusehen. In Ordnung für Porträtaufnahmen oder professionelle Fotos
  • 5,0+: Übersättigt und zu scharf für Realismus. Funktioniert für den Stil kommerzieller Fotografie, aber nicht für den natürlichen Look, den die meisten Leute wollen

Nachbearbeitung für den letzten Schliff

Ich bin ehrlich. Selbst mit perfekten Generierungseinstellungen mache ich immer noch eine leichte Nachbearbeitung bei etwa 70 Prozent meiner Bilder. Keine starke Bearbeitung, nur subtile Eingriffe, die die Lücke zwischen "großartiges KI-Foto" und "Moment, ist das eine echte Person?" überbrücken.

Mein Nachbearbeitungs-Workflow dauert etwa 30 Sekunden pro Bild.

  1. Leichte Zuschnittanpassung, damit sich die Komposition weniger "KI-zentriert" anfühlt
  2. 2 bis 3 Prozent Korn hinzufügen, um Kamerasensor-Rauschen nachzuahmen
  3. Mikro-Farbtemperaturverschiebung (normalerweise wärmer um 100 bis 200K)
  4. Sehr subtile Vignette bei 2 von 3 Bildern
  5. Leichte Highlight-Kompression, um zu erreichen, wie echte Kameras helle Bereiche handhaben

Das ist optional, aber empfohlen, wenn Sie maximalen Realismus anstreben. Tools wie Lightroom oder sogar kostenlose Alternativen wie Darktable erledigen das schnell. Wenn Sie Lewdly.ai für Ihre Generierungs-Pipeline verwenden, können einige dieser Anpassungen direkt in den Workflow eingebacken werden, was Zeit spart, wenn Sie Inhalte in großen Mengen produzieren.

Wie behält man die Konsistenz über verschiedene Outfits und Szenen hinweg bei?

Das ist die Frage, die in meinen DMs immer wieder auftaucht, und ehrlich gesagt ist es der Punkt, an dem die meisten Leute am meisten kämpfen. Sie haben einen Charakter, der in einem lässigen Outfit großartig aussieht. Jetzt brauchen Sie sie in einem eleganten Kleid in einem Restaurant. Und dann in Sportkleidung im Fitnessstudio. Und irgendwie muss sie über all diese Szenarien hinweg wie dieselbe Person aussehen.

Möchten Sie die Komplexität überspringen? Lewdly liefert Ihnen sofort professionelle KI-Ergebnisse ohne technische Einrichtung.

Keine Einrichtung Gleiche Qualität Start in 30 Sekunden Lewdly Kostenlos Testen
Keine Kreditkarte erforderlich

Die Herausforderung ist, dass LoRAs und IPAdapter dazu neigen, bestimmte Merkmale mit bestimmten Kontexten zu verbinden. Wenn die meisten Ihrer Trainingsbilder Ihren Charakter in lässiger Kleidung mit natürlicher Beleuchtung zeigten, könnte das Modell das Gesicht subtil ändern, wenn Sie nach einem dramatisch anderen Kontext fragen. Ich habe das Dutzende Male erlebt. Dasselbe LoRA, dasselbe Trigger-Wort, aber die "Restaurant-Version" hat leicht andere Wangenknochen als die "Strand-Version".

Hier ist meine Lösung, und sie ist das Ergebnis von Monaten des Testens.

Das Anker-Bild-System

Ich behalte drei bis fünf "Ankerbilder" meines Charakters, die als IPAdapter-Referenzen für verschiedene Kontexte dienen. Jedes Ankerbild zeigt den Charakter in einem bestimmten Settingtyp, aber aus einem neutralen, erkennbaren Winkel, in dem ihr Gesicht klar sichtbar ist.

  • Anker 1: Nahaufnahme-Porträt, neutraler Ausdruck, weiche Beleuchtung (das ist das "Identitäts-Reset"-Bild)
  • Anker 2: Ganzkörper-Lässig-Szene, natürliche Beleuchtung
  • Anker 3: Innenraum-Setting mit warmer künstlicher Beleuchtung
  • Anker 4: Aktive/Outdoor-Szene mit heller Beleuchtung
  • Anker 5: Abend-/Stimmungs-Szene mit dramatischer Beleuchtung

Wenn ich eine Fitnessstudio-Szene erzeuge, verwende ich Anker 4. Wenn ich eine Dinner-Date-Szene erzeuge, verwende ich Anker 3. Das LoRA übernimmt die Gesichtsidentität, während das kontextgerechte Ankerbild den IPAdapter dazu anleitet, natürlich aussehende Ergebnisse für dieses spezifische Setting zu produzieren.

Wenn das Gesicht in einem bestimmten Kontext anfängt zu driften, erzeuge ich es mit Anker 1 (der Identitäts-Reset-Nahaufnahme) mit einem höheren IPAdapter-Gewicht von 0,9 bis 0,95 neu und verwende dann diese Ausgabe als neuen kontextspezifischen Anker. Dieser Vorgang dauert etwa 10 Minuten, setzt aber die Konsistenz-Grundlinie zurück.

Garderoben-Prompting, das keine Gesichter zerstört

Hier ist etwas, das Ihnen niemand sagt. Bestimmte Kleidungsbeschreibungen stören die Gesichtsgenerierung mehr als andere. Ich habe keine Ahnung, warum das technisch passiert, aber ich habe es konsistent genug gesehen, um Regeln darum herum zu entwickeln.

Kleidungs-Prompts mit geringer Störung (sicher für Gesichtskonsistenz):

  • Lässige T-Shirts, Pullover, Jeans, Sneaker
  • Einfache Kleider ohne aufwendige Muster
  • Sportkleidung, Hoodies

Kleidungs-Prompts mit hoher Störung (achten Sie auf Ihre Gesichtskonsistenz):

  • Aufwendiger Schmuck nahe am Gesicht (Ohrringe, Halsketten)
  • Hüte, Stirnbänder, Haaraccessoires
  • Sonnenbrillen (offensichtlich)
  • Kleidungsstücke mit hohem Kragen, die das Gesicht anders rahmen
  • Kostüme oder hochdetaillierte formelle Kleidung

Wenn ich Kleidung mit "hoher Störung" verwenden muss, kompensiere ich, indem ich das LoRA-Gewicht um 0,1 bis 0,15 erhöhe und ein engeres Gesichtsausschnitt-Ankerbild für IPAdapter verwende. Es ist nicht perfekt, aber es hilft.

Für einen tieferen Blick auf Anpassungstechniken jenseits der rein visuellen Seite werfen Sie einen Blick auf den vollständigen Leitfaden zur KI-Freundin-Anpassung, der Persönlichkeits- und Interaktionsaspekte neben den Erscheinungseinstellungen behandelt.

KI-Freundin in mehreren Outfits zeigt Gesichtskonsistenz

Derselbe KI-Charakter in fünf verschiedenen Outfits und Settings, erzeugt mit dem LoRA-plus-IPAdapter-Anker-System. Die Gesichtsidentität bleibt trotz dramatischer Kontextänderungen stabil.

Häufige Fehler und wie man sie behebt

Ich helfe Leuten in Discord-Communities seit über einem Jahr bei ihrer KI-Charaktergenerierung, und ich sehe immer wieder dieselben Fehler auftauchen. Lassen Sie mich Ihnen etwas Zeit sparen.

Fehler 1. Über-Prompting für Schönheit

Die Leute schreiben "schön, wunderschön, atemberaubend, attraktiv, hübsch" alles in einen Prompt. Das drängt das Modell zu einem idealisierten, generischen Gesicht, das weniger wie eine echte Person aussieht und mehr wie ein Komposit aus jedem "schönen" Gesicht in den Trainingsdaten. Wählen Sie maximal einen Schönheitsbegriff oder, noch besser, beschreiben Sie stattdessen spezifische Merkmale.

Fehler 2. Auflösung und Seitenverhältnis ignorieren

Bei 512x512 oder sogar 768x768 zu generieren und dann hochzuskalieren ist ein Rezept für seltsame Gesichtsartefakte. Generieren Sie von Anfang an in nativer hoher Auflösung (1024x1360 für Porträts auf FLUX). Das Gesichtsdetail bei höherer nativer Auflösung ist deutlich besser als das, was Sie durch Hochskalieren einer Generierung mit niedrigerer Auflösung erhalten.

Creator-Programm

Verdiene Bis Zu 1.250 $+/Monat Mit Content

Tritt unserem exklusiven Creator-Affiliate-Programm bei. Werde pro viralem Video nach Leistung bezahlt. Erstelle Inhalte in deinem Stil mit voller kreativer Freiheit.

$100
300K+ views
$300
1M+ views
$500
5M+ views
Wöchentliche Auszahlungen
Keine Vorabkosten
Volle kreative Freiheit

Fehler 3. Dieselbe Pose für jedes Bild verwenden

Das ist ein klares Indiz dafür, dass Inhalte KI-generiert sind. Wenn jedes Foto Ihren Charakter in einer ähnlichen 3/4-Ansicht zeigt, die zur Kamera gerichtet ist, sieht es aus wie ein Charakter-Auswahlbildschirm, nicht wie der Foto-Feed einer echten Person. Echte Menschen werden in ungestellten Momenten fotografiert, aus wechselnden Winkeln, manchmal teilweise verdeckt, manchmal mitten in der Bewegung. Verwenden Sie IPAdapter mit vielfältigen Referenz-Posenbildern, um aus der Standard-Posen-Routine auszubrechen.

Fehler 4. Ihre Ausgaben nicht kuratieren

Ich erzeuge etwa 8 bis 12 Bilder für jedes, das ich tatsächlich verwende. Das ist kein Zeichen von Versagen. Das ist der Produktionsprozess. Selbst professionelle Fotografen schießen Hunderte von Fotos pro Sitzung und liefern nur 20 bis 30 finale Bilder. Seien Sie gnadenlos bei Ihrer Kuratierung. Löschen Sie alles mit subtilen Gesichtsinkonsistenzen, seltsamen Handartefakten oder unnatürlichen Ausdrücken. Qualität vor Quantität, immer.

Fehler 5. Die "alltäglichen" Fotos vernachlässigen

Die glaubwürdigsten KI-Charakter-Accounts sind nicht mit Glamour-Aufnahmen gefüllt. Sie haben Supermarkt-Selfies, unordentliche Schlafzimmerspiegel-Fotos, verschwommene Konzertaufnahmen und müde Morgenkaffee-Bilder. Diese "langweiligen" Bilder sind tatsächlich am schwierigsten zu fälschen und am überzeugendsten, wenn sie richtig gemacht werden. Ich widme etwa 30 bis 40 Prozent meiner Generierungen diesen alltäglichen, unglamourösen Szenarien.

Produktions-Workflow: Mein End-to-End-Prozess

Lassen Sie mich Sie durch meinen tatsächlichen Produktions-Workflow führen. Das ist, was ich tue, wenn ich mich hinsetze, um einen Stapel KI-Freundin-Fotos für ein Projekt oder zu Testzwecken zu erzeugen.

Schritt 1. Sitzungsplanung (5 Minuten). Ich entscheide mich für 5 bis 8 Szenarien, die ich aufnehmen möchte. Ich schreibe für jedes ein Briefing mit Ort, Outfit, Stimmung und Tageszeit. Ich denke darüber nach wie über die Planung eines echten Fotoshootings.

Schritt 2. Ankerbild-Auswahl (2 Minuten). Ich wähle aus meinem Satz von 3 bis 5 Ankern das relevanteste Ankerbild für jedes Szenario aus.

Schritt 3. Prompt-Erstellung (10 Minuten). Ich schreibe Prompts mit meinem Template-System und passe die Details für jedes Szenario an. Jeder Prompt erhält Kameraspezifikationen, Beleuchtungsbeschreibung und Umgebungsdetails.

Schritt 4. Batch-Generierung (20 bis 30 Minuten). Ich erzeuge 8 bis 12 Variationen jedes Szenarios. Wenn ich lokal laufe, dauert das länger. Wenn ich Lewdly.ai oder eine andere Cloud-Plattform verwende, kann ich das parallelisieren und schneller Ergebnisse erhalten.

Schritt 5. Kuratierung (10 Minuten). Ich überprüfe alle Ausgaben und wähle die besten 1 bis 2 aus jedem Szenario aus. Ich prüfe die Gesichtskonsistenz anhand meiner Ankerbilder, suche nach Artefakten und verifiziere, dass das Gesamtgefühl fotorealistisch ist.

Schritt 6. Leichte Nachbearbeitung (5 bis 10 Minuten). Schnelle Anpassungen in Lightroom. Korn, leichte Farbkorrektur, Zuschnitt-Feinabstimmungen.

Gesamtzeit für einen Stapel von 5 bis 8 finalen Fotos. Etwa 50 Minuten bis eine Stunde. Das schließt Setup, Generierung, Kuratierung und Nachbearbeitung ein. Mit Übung werden Sie schneller.

Fortgeschrittene Techniken, die es wert sind, gekannt zu werden

Sobald Sie die Grundlagen beherrschen, gibt es ein paar fortgeschrittene Techniken, die Ihre Ergebnisse noch weiter vorantreiben können.

Illustration für Fortgeschrittene Techniken, die es wert sind, gekannt zu werden

Face Detailer / ADetailer für Nahaufnahmen

Für jedes Bild, bei dem das Gesicht weniger als etwa 25 Prozent des Rahmens einnimmt, lasse ich es durch einen Face-Detailer-Durchlauf laufen. Das regeneriert nur den Gesichtsbereich in höherer Auflösung und mit gesichtsspezifischen Einstellungen und fügt ihn dann wieder in das Originalbild ein. Die Verbesserung der Gesichtsdetails bei Ganzkörper- oder Halbnah-Aufnahmen ist dramatisch. Ich betrachte diesen Schritt als nicht verhandelbar für jedes Bild, das in voller Größe betrachtet werden soll.

Konsistente Alterung und Mimikfalten

Ein subtiler Eingriff, der Realismus hinzufügt. Echte Menschen haben konsistente Gesichtsmerkmale wie Lachfalten, Schatten unter den Augen oder ein bestimmtes Faltenmuster, wenn sie lächeln. Wenn Ihr Charakter 28 aussehen soll, sollte sie keine perfekt glatte Haut mit null Mimikfalten haben. Ich füge meinen Prompts subtile altersgerechte Details hinzu. "Faint smile lines, subtle under-eye shadow, natural forehead movement lines." Diese Details bleiben über Generierungen hinweg konsistent, wenn sie in Ihren Trainings-Captions und Prompt-Templates stehen.

Echte Fotografie-Referenzen verwenden

Das ist meine Geheimwaffe und ich glaube nicht, dass genug Leute es tun. Ich durchstöbere Fotografie-Subreddits und Pinterest nach echten Fotos, die zu dem Szenario passen, das ich erzeugen möchte. Nicht um zu kopieren, sondern um zu verstehen, wie echte Fotos in diesem Setting tatsächlich aussehen. Was macht das Licht? Wo sind die Schatten? Was ist im Hintergrund? Wie ist die Schärfentiefe?

Dann studiere ich diese echten Fotos und übersetze ihre Eigenschaften in meinen Prompt. Dieser Reverse-Engineering-Ansatz hat meinen Realismus mehr verbessert als jede technische Einstellungsänderung.

Sollten Sie Cloud-Plattformen verwenden oder lokal laufen?

Das hängt von Ihrer Situation ab, und ich habe dazu Meinungen.

Gewagte These. Lokal zu laufen wird für die meisten Leute, die KI-Freundin Fotogenerierung machen, überbewertet. Es sei denn, Sie haben eine GPU mit über 24 GB und genießen es, an Python-Umgebungen und CUDA-Treibern zu basteln, werden Sie mehr Zeit mit dem Debuggen Ihres Setups verbringen als mit dem tatsächlichen Erzeugen von Bildern. Cloud-Plattformen wie Lewdly.ai, Replicate und RunPod kümmern sich um die Infrastruktur, sodass Sie sich auf die kreative Seite konzentrieren können.

Davon abgesehen hat lokales Laufen echte Vorteile für ernsthafte Nutzer. Keine Ratenbegrenzungen, keine Content-Policy-Beschränkungen (vorausgesetzt, Sie tun nichts Illegales), volle Kontrolle über jeden Parameter und keine Kosten pro Bild nach Ihrer anfänglichen Hardware-Investition. Wenn Sie über 50 Bilder pro Tag erzeugen, beginnt die Wirtschaftlichkeit lokaler Hardware Sinn zu ergeben.

Hier ist meine Empfehlung basierend auf dem Volumen.

  • Unter 20 Bilder pro Tag: Verwenden Sie eine Cloud-Plattform. Das lokale Setup-Kopfweh ist es nicht wert
  • 20 bis 50 Bilder pro Tag: Beides funktioniert. Hängt davon ab, ob Sie Komfort oder Kontrolle schätzen
  • Über 50 Bilder pro Tag: Lokale Hardware amortisiert sich innerhalb von 2 bis 3 Monaten

Speziell für die LoRA-Trainingsseite empfehle ich immer Cloud-Computing, es sei denn, Sie haben 24 GB VRAM. Das Training auf einer 12-GB-Karte ist möglich, aber schmerzhaft langsam, und die Iterationsgeschwindigkeit ist wichtig, wenn Sie mit Trainingsparametern experimentieren.

Häufig gestellte Fragen

Was ist das beste Modell für realistische KI-Freundin-Fotos in 2026?

FLUX 2 Dev ist meine Top-Empfehlung für Fotorealismus. Es handhabt Hauttextur, Lichtinteraktion und natürliche Ausdrücke besser als jedes andere offen verfügbare Modell. Für noch höhere Qualität auf Kosten der Geschwindigkeit ist FLUX 2 Pro einen Versuch wert, wenn Sie über einen API-Anbieter Zugang haben.

Wie viele Trainingsbilder brauche ich für ein konsistentes Gesichts-LoRA?

Ich habe festgestellt, dass 15 bis 25 Bilder der ideale Punkt sind. Unter 15 und Sie haben nicht genug Vielfalt, damit das Modell lernen kann, was am Gesicht konsistent ist, im Gegensatz zu dem, was nebensächlich ist. Über 25 und Sie bekommen abnehmende Erträge. Stellen Sie sicher, dass Ihre Bilder mehrere Winkel, Lichtbedingungen und Ausdrücke abdecken.

Kann ich Charakterkonsistenz erreichen, ohne ein LoRA zu trainieren?

Ja, aber die Konsistenz wird geringer sein. IPAdapter allein mit einem starken Referenzbild kann Sie auf etwa 75 bis 85 Prozent Gesichtskonsistenz bringen. InstantID zusätzlich zu IPAdapter hinzuzufügen treibt es auf rund 85 bis 90 Prozent. Aber für über 90 Prozent Zuverlässigkeit über Hunderte von Bildern hinweg bleibt LoRA-Training der verlässlichste Ansatz.

Warum sehen meine KI-Fotos "zu perfekt" und offensichtlich unecht aus?

Sie verwenden wahrscheinlich eine zu hohe CFG/Guidance Scale, machen Über-Prompting für Schönheit und schließen keine Unvollkommenheits-Hinweise in Ihren Prompt ein. Senken Sie Ihre Guidance auf 2,5 bis 3,5 bei FLUX, fügen Sie Schlüsselwörter für natürliche Hauttextur hinzu, schließen Sie Umgebungs-Unvollkommenheiten ein und verwenden Sie kameraspezifische Fachbegriffe, um fotografisches Rendering statt Illustrations-Rendering auszulösen.

Wie gehe ich mit Händen in KI-Freundin-Fotos um?

Hände sind immer noch die Achillesferse der KI-Bildgenerierung, obwohl FLUX 2 sie viel besser handhabt als frühere Modelle. Mein Ansatz ist dreifach. Erstens komponiere ich Aufnahmen, bei denen Hände nicht der Mittelpunkt sind. Zweitens, wenn Hände sichtbar sein müssen, verwende ich IPAdapter-Referenzbilder mit klaren, natürlichen Handposen. Drittens, für jedes Bild, in dem Hände falsch aussehen, regeneriere ich oder verwende Inpainting, um nur den Handbereich zu korrigieren.

In welcher Auflösung sollte ich für die besten Gesichtsdetails generieren?

Generieren Sie bei 1024x1360 für Hochformat oder 1360x1024 für Querformat auf FLUX 2. Das sind die nativen Hochauflösungsziele, die die besten Gesichtsdetails ohne Artefakte produzieren. Höher als das zu gehen führt oft zu seltsamen Kachel-Artefakten. Wenn Sie größere finale Bilder benötigen, generieren Sie in diesen Größen und skalieren Sie dann mit einem dedizierten Upscaler wie Real-ESRGAN hoch.

Wie lasse ich verschiedene Outfits natürlich auf demselben Charakter aussehen?

Verwenden Sie das Ankerbild-System, das ich oben beschrieben habe. Behalten Sie 3 bis 5 Referenzbilder Ihres Charakters in verschiedenen Lichtkontexten und passen Sie den Anker an die Szene an, die Sie erzeugen. Wenn ein bestimmtes Outfit Gesichts-Drift verursacht, erhöhen Sie Ihr LoRA-Gewicht um 0,1 bis 0,15, um zu kompensieren.

Ist es möglich, vollständige Fotosätze zu erzeugen, die wie die sozialen Medien einer echten Person aussehen?

Absolut, und hier glänzen die Techniken in diesem Leitfaden wirklich. Der Schlüssel ist Vielfalt. Mischen Sie Glamour-Aufnahmen mit alltäglichen. Schließen Sie verschiedene Tageszeiten, Innen- und Außen-Settings, Einzelaufnahmen und angedeutete soziale Situationen ein. Das Ankerbild-System plus Prompt-Templates machen dies systematisch erreichbar. Ich erzeuge regelmäßig Sätze von 30 bis 50 Bildern, die eine konsistente Identität beibehalten.

Wie lange dauert das gesamte Setup von Grund auf?

Wenn Sie bei null anfangen, rechnen Sie mit etwa 4 bis 6 Stunden für Ihren ersten Charakter. Das gliedert sich in etwa 1 Stunde zum Erlernen der Grundlagen, 1 bis 2 Stunden zum Erzeugen und Kuratieren Ihres anfänglichen Referenzbildsatzes, 1 bis 2 Stunden zum Trainieren eines LoRA und 30 Minuten bis eine Stunde zum Einrichten Ihrer Prompt-Templates und Ankerbilder. Nach diesem anfänglichen Setup geht das Erzeugen neuer Bilder schnell, normalerweise unter einer Minute pro final ausgewähltem Bild.

Kann ich diese Techniken auch für Videoinhalte verwenden?

Die Gesichtskonsistenz-Techniken (LoRA, Ankerbilder) lassen sich direkt auf die KI-Videogenerierung mit Modellen wie Kling und Runway Gen-3 übertragen. Der Hauptunterschied ist, dass Video die zeitliche Konsistenz als weitere Dimension hinzufügt, die Sie verwalten müssen. Aber das Fundament, das Sie für die Fotogenerierung aufbauen, gibt Ihnen einen riesigen Vorsprung. Das ist allerdings ein ganz eigener Artikel.

Abschließende Gedanken

Die KI-Freundin Fotogenerierung ist im vergangenen Jahr unglaublich weit gekommen. Die Kombination aus FLUX 2 für fotorealistisches Rendering, LoRA-Training für Gesichtsidentität, IPAdapter für flexible Posierung und durchdachtem Prompt-Engineering für Realismus macht es möglich, Charakterfotos zu erstellen, die wirklich schwer von echter Fotografie zu unterscheiden sind.

Die größte Lektion, die ich durch all das gelernt habe, ist, dass Realismus nicht um technische Perfektion geht. Es geht um Unvollkommenheit. Echte Fotos haben Fehler. Echte Menschen haben asymmetrische Züge. Echte Kameras produzieren Korn und Bokeh und Linsenaberration. Je mehr Sie sich auf diese Unvollkommenheiten einlassen, desto überzeugender werden Ihre Ergebnisse.

Beginnen Sie mit FLUX 2, trainieren Sie ein solides LoRA, bauen Sie Ihr Ankerbild-System auf und entwickeln Sie Prompt-Templates, die wie ein Fotograf statt wie ein Prompt-Engineer denken. Geben Sie sich die Erlaubnis, viele Bilder zu erzeugen und gnadenlos auf die besten herunterzukuratieren. Das ist der Prozess. Es ist keine Magie und es geht nicht sofort, aber die Ergebnisse sprechen für sich.

Wenn Sie diesen Leitfaden hilfreich fanden und die Persönlichkeits- und Interaktionsseite von KI-Begleitern erkunden möchten (nicht nur die visuelle Seite), werfen Sie einen Blick auf meine Leitfäden zur KI-Freundin-Anpassung und zum Erstellen von KI-Freundin-Charakteren mit Stable Diffusion. Die Techniken für visuelle Konsistenz in diesem Artikel passen perfekt zu den Charakterentwicklungs-Ansätzen, die dort behandelt werden.

Bereit, Ihren KI-Influencer zu Erstellen?

Treten Sie 115 Studenten bei, die ComfyUI und KI-Influencer-Marketing in unserem kompletten 51-Lektionen-Kurs meistern.

Frühbucherpreis endet in:
--
Tage
:
--
Stunden
:
--
Minuten
:
--
Sekunden
Sichern Sie Sich Ihren Platz - $199
Sparen Sie $200 - Preis Steigt Auf $399 Für Immer