AIガールフレンドの写真生成: 本物に見える一貫したキャラクターの作り方
FLUX 2、LoRAトレーニング、IPAdapter、プロンプトエンジニアリングを使って、顔が一貫したフォトリアルなAIガールフレンド写真を生成する方法を学びましょう。完全版2026年ガイドです。
率直にお伝えします。AIガールフレンドの写真生成で最も難しいのは、きれいな画像を1枚作ることではありません。どんなモデルでもそれはできます。難しいのは、2枚目の画像を1枚目と同じ人物に見せることです。そして3枚目も。さらに40枚目も同じにすることです。私は2025年の終わりにこの問題を解こうと3か月近くを費やしました。そして分かったのは、ほとんどの人がこれに完全に間違った方法で取り組んでいるということでした。
手早い答え: 一貫したフォトリアルなAIガールフレンド写真を生成するには、リアリズムのためのベースモデルとしてFLUX 2を使い、顔のアイデンティティのために厳選した15枚から25枚の参照画像でLoRAをトレーニングし、その上にポーズとシーンのバリエーションのためにIPAdapterを重ね、リアルな照明、設定、衣装のためのプロンプトエンジニアリングを習得しましょう。この組み合わせを正しく行えば、数百回の生成にわたって90%以上の顔の一貫性を達成できます。
- FLUX 2は現在、フォトリアルなAIガールフレンド写真に最適なモデルで、自然な肌の質感と照明においてSDXLとMidjourneyの両方を上回ります
- 15枚から25枚の参照画像でのLoRAトレーニングは、最も強力な顔のアイデンティティ固定を実現し、およそ90から95%の一貫性が得られます
- IPAdapterを使えば顔のアイデンティティを失わずにポーズとシーンを変えられますが、最良の結果を得るにはウェイトを0.8から0.9の間に保ちましょう
- リアリズムのためのプロンプトエンジニアリングとは、プロンプトエンジニアではなく写真家のように考えることを意味します
- LoRAとIPAdapterと丁寧なプロンプトの組み合わせは、AI生成写真を本物と本当に見分けがつかなくする「聖なる三位一体」です
なぜほとんどのAIガールフレンド写真は偽物に見えるのか
直し方を話す前に、なぜほとんどのAIガールフレンド写真がリアリズムのテストに失敗するのかを話しましょう。同じ間違いをあちこちで目にしますし、正直なところ、私も始めたばかりの頃はそれらをすべてやっていました。
最大の問題は、私が「美顔フィルター効果」と呼ぶものです。人々は美的な設定を最大まで上げ、超なめらかな肌のプロンプトを使い、Instagramのフィルターを6回通したような画像に仕上げてしまいます。本物の人間には毛穴があり、顔のパーツにわずかな非対称があり、不完全さがあります。あなたのAIキャラクターの肌がマネキンよりもなめらかなとき、それは目の見える誰にとっても「生成物だ」と叫んでいるのです。
2つ目の問題は照明です。ほとんどの人はそれについて全く考えません。「カフェにいる美しい女性」のようなプロンプトを書き、照明はモデルに任せてしまいます。モデルは、実際の写真には存在しないこの均一で影のない照明をデフォルトにします。本物の写真には方向性のある光があります。あごの下に影があり、頬骨にハイライトがあります。近くのランプから来る暖かいオレンジ色の輝きや、窓から差し込む冷たい青みがあります。
3つ目の不満はこれで、これは個人的なものです。背景です。私は初期の2週間を、キャラクターは素晴らしく見えるのに、雑然としたものも奥行きも現実世界の散らかりもない奇妙なほど無垢な背景の前に立っている画像の生成に費やしました。本物の写真は現実の場所で起きます。テーブルの上のコーヒーカップはわずかに中心からずれています。背景にはぼやけた見知らぬ人が通り過ぎています。テーブルクロスにはしわが寄っています。こうした小さなディテールこそがリアリズムを売り込むのです。
左: なめらかな肌と平坦な照明を持つ典型的な過剰加工のAI出力。右: 自然な質感、方向性のある照明、環境のディテールを備えた適切に生成された写真。
なぜFLUX 2はリアルなAI写真に最適な選択肢なのか
私はこの用途でほぼすべての主要モデルをテストしてきました。Stable Diffusion XL、Midjourney v6、DALL-E 3、さまざまなFLUXのバリアントです。そしておよそ2,000回のテスト生成を行った後の結論は、FLUX 2がキャラクター制作において最も自然にフォトリアルな出力を生み出すということです。

その理由は、FLUXが肌の質感と光の相互作用をどう扱うかにあります。SDXLが(フォトリアルなチェックポイントを使っても)やや絵画的な肌を生み出しがちなのに対し、FLUX 2は毛穴、細かい産毛、表面下散乱を、まさに正しいと感じられる形でレンダリングします。このモデルは膨大な実写写真のデータセットでトレーニングされており、それが分かります。光が顔を正しく包み込みます。影があるべき場所に落ちます。肌には、ある種の照明条件下で本物の肌が持つ半透明の質感があります。
ここで思い切った意見を1つ。Midjourney v6は平均してより「魅力的な」画像を生み出すと思いますが、FLUX 2はより「本物らしく見える」画像を生み出します。そしてAIガールフレンドの写真生成に関して言えば、本物らしく見えることは雑誌の表紙のような美しさよりも重要です。人々がソーシャルメディアでAIキャラクターをフォローするのは、ある意味でこの人物が実在しうると信じているからです。Midjourneyの出力は見事ですが、しばしばあの微妙な不気味なまでの完璧さがあり、それが疑念を呼び起こします。
これがキャラクター写真のための私の実際のFLUX 2セットアップです。この用途には適していないので、ドキュメントのデフォルト値はお伝えしません。
- モデル: FLUX 2 Dev (Schnellではなく、顔については品質の差が大きいです)
- 解像度: ポートレートショットは1024x1360、ランドスケープシーンは1360x1024
- ガイダンススケール: 3.0から3.5 (ほとんどの人が使うより低めですが、これで自然さが保たれます)
- ステップ数: 28から35 (デフォルトより多めですが、顔のディテールの改善は追加の時間に見合います)
- サンプラー: Euler、normalスケジューラーで
セットアップを完全に省略したいなら、Lewdly.ai のようなツールを使えば、これらを自分で設定せずにFLUXワークフローを実行できます。正直に言うと、私はこのプラットフォームの構築を手伝いましたが、ローカルのリグを立ち上げたくないときの手早い生成に本当に使っています。
顔の一貫性のためのLoRAトレーニング: 土台
ここはほとんどの人があきらめるか、間違えるかするところです。LoRAトレーニングは、写真全体にわたって一貫したAIキャラクターを維持するための唯一最大に影響力のあるテクニックで、それは僅差ですらありません。私がAIガールフレンドをStable Diffusionで作る ワークフローについて書いたガイドを読んでいれば、私がLoRAの大ファンであることはご存じでしょう。しかし顔の一貫性のために特化して1つトレーニングするのは、一般的なスタイルLoRAとは別物のゲームです。
参照データセットを構築する
あなたのLoRAの品質は、トレーニング画像の品質に完全に依存します。これは痛い目を見て学びました。私の最初のLoRAトレーニングの試みは、基本的に同じアングルと照明の40枚の画像を使い、その結果はその1つの特定のセットアップでしか正しく見えないキャラクターでした。アングルを30度変えると顔が崩れてしまったのです。
顔の一貫性のための良いトレーニングセットがどのようなものか、ここに示します。
- 15枚から25枚 (10枚でもなく50枚でもなく、この範囲がテストで見つけたスイートスポットです)
- 複数のアングル: 正面、3/4左、3/4右、わずかな横顔、見上げる、見下ろす
- 複数の照明条件: 自然な日光、屋内の暖色、冷たい影、曇り
- すべての画像で一貫したアイデンティティ: ゼロから構築する場合は、FLUXでベースセットを生成し、最も互いに似て見えるものを選びましょう
- 表情のバリエーション: 無表情、わずかな笑み、笑っている、真剣、考えている
- トレーニングにはクリーンな背景が好ましい (複雑なシーンには後から置けます)
よく受ける質問は「まだ参照画像がない場合はどうすればいいか」です。これは鶏が先か卵が先かの問題です。私が使う解決策は、非常に詳細な顔の説明プロンプトを使ってFLUXで約100枚の画像を生成し、最も互いに一貫して見える15枚から25枚を選び抜き、それらでLoRAをトレーニングすることです。最初のバッチは完璧ではありませんが、LoRAはそれらの画像が共有する共通点を固定し、第2世代の出力は劇的に一貫したものになります。
実際に効果のあるトレーニング設定
トレーニング設定については数え切れないほど行ったり来たりしてきました。これらは、過去1年でおよそ30から40のキャラクターLoRAをトレーニングした後に落ち着いた値です。
- 学習率: 1e-4 (標準的ですが、トレーニング中に顔が「ドリフト」し始めるのに気づいたら5e-5に下げます)
- トレーニングステップ: FLUX LoRAでは1500から2500 (多ければ良いわけではなく、過学習します)
- ランク: 32 (以前は16を使っていましたが、32の方がファイルを肥大化させずに顔のディテールをより多く捉えます)
- バッチサイズ: VRAMに応じて1または2
- 正則化画像: 任意ですが、100から200枚の多様な顔画像を正則化として使うと、モデルが他の人を描く方法を「忘れる」のを防げると分かりました
トレーニングプロセスは24GBのGPUで約1から2時間かかります。クラウドコンピュートを使う場合は、プロバイダーにもよりますがトレーニング1回あたりおよそ2から5ドルかかると見込んでください。
顔のためのLoRAトレーニングについて誰も教えてくれないことが1つあります。キャプションの品質はトレーニング設定よりも重要です。 キャプションが一般的だと(「部屋に立つ女性」)、LoRAはあなたのキャラクターの顔を独特にしているものと、単なるシーン特有のノイズを区別して学習できません。私はトレーニング画像に超具体的な顔の説明でキャプションを付けます。「高い頬骨、わずかに上を向いた鼻、奥まった緑の目、細くアーチを描いた眉、ハート型の顔、ふっくらした下唇を持つ女性」といった具合です。顔の特徴を正確に説明すればするほど、LoRAはそれらを分離して再現することをよりよく学習します。
IPAdapterはどのようにポーズとシーンのバリエーションに役立つのか
顔のアイデンティティのためにLoRAを固定できたら、バリエーションを作るうえでIPAdapterが最良の友になります。理由はこうです。あなたのLoRAは顔が一貫し続けることを保証しますが、ポーズ、構図、シーンとの相互作用は制御しません。そこでIPAdapterの出番です。参照画像を取り込み、それを使って出力全体の構図とスタイルを導きます。
私はこう考えています。あなたのLoRAは俳優です。IPAdapterは監督で、俳優にどこに立つか、どうショットを構図するかを指示します。一緒になれば、両者は強力です。
ComfyUIでのセットアップはこのような感じです。FLUXモデルを読み込み、キャラクターLoRAを適用し、それから参照画像を入力として受け取るIPAdapterノードを接続します。参照画像はあなたのキャラクターである必要はありません。欲しいポーズ、照明、構図を示す本物の写真でよく、LoRAが顔の一貫性を保証し、その他すべてをIPAdapterが処理します。
IPAdapterのウェイト設定 (あなたが思う以上に重要です)
IPAdapterをキャラクター制作に初めて使い始めた頃を覚えています。ウェイトをデフォルトの0.7のままにしていて、なぜ結果が中途半端なのか分かりませんでした。顔は参照に何となく一致するけれど、何となく一致しないのです。同じ人物ではなく親戚を見ているような感じでした。
試行錯誤の末、顔に焦点を当てたIPAdapter作業では0.8から0.9がスイートスポットだと分かりました。0.8を下回ると参照の影響が弱すぎます。0.9を上回るとシーンやポーズを変える能力を失い始め、出力が参照画像のほぼ複製になってしまい、目的を台無しにします。
実際にさまざまなウェイト値が生み出すものの内訳をここに示します。
- 0.5から0.7: 一般的なスタイルと構図の転写、顔の一貫性は低い
- 0.7から0.8: ほどほどの顔の一貫性、ゆるいスタイルマッチングに適している
- 0.8から0.9: 強い顔の一貫性、キャラクター制作で私が作業するのはここです
- 0.9から1.0: 参照のほぼ複製、シーンのバリエーションの余地はほとんどない
ガールフレンド写真にとどまらず、キャラクターの一貫性の問題をさらに深く掘り下げたい読者には、AI一貫キャラクタージェネレーター のテクニックに関する私のガイドが、ツールとアプローチのより広い全体像をカバーしています。
0.6から0.95までのIPAdapterウェイトの比較。0.85が顔の一貫性とシーンの柔軟性の最良のバランスを提供している点に注目してください。
フォトリアルなAIガールフレンド写真のためのプロンプトエンジニアリング
正直なところ、ここがアマチュアの結果とプロの結果を分ける部分です。モデルとLoRAが完璧でも、悪いプロンプトはやはり悪い写真を生み出します。そして世に出回っているプロンプトのアドバイスのほとんどは、ファンタジーアートやアニメ生成向けに書かれているため、リアリズムにはひどく不向きです。
書き手ではなく写真家のように考える
プロンプトエンジニアリングで私が行った唯一最も有用な思考の転換は、説明を書くのをやめて撮影ブリーフを書き始めることです。本物の写真家は焦点距離、絞り、光の方向、色温度の観点で考えます。あなたのプロンプトもそうあるべきです。
「コーヒーショップで微笑む美しい女性」の代わりに、写真家が実際に何を捉えるかを考えましょう。
悪いプロンプト: 「茶色の髪の美しい女性がコーヒーショップに座って微笑んでいる、フォトリアル、高品質、8k」
良いプロンプト: 「混雑したコーヒーショップの窓際のテーブルに座る女性のキャンディッド写真、朝の光が左から差し込み、他の客が見える柔らかいボケの背景、カメラのわずかに先を見ながら笑っている最中、カジュアルなニットセーターを着ている、85mm f/1.8で撮影、暖かい色温度、セラミックのコーヒーマグに手を伸ばす際の手にわずかなモーションブラー」
違いが分かりますか。2つ目のプロンプトは、光源、被写界深度、カメラレンズ、雰囲気、不完全さ(モーションブラー、カメラを直視せずその先を見ること)、そして写真を本物に感じさせる環境のディテールについてモデルに伝えています。
無料のComfyUIワークフロー
この記事のテクニックに関する無料のオープンソースComfyUIワークフローを見つけてください。 オープンソースは強力です。
反AIプロンプトのトリック
過去1年で、典型的な「AIっぽさ」を打ち消すために特別に設計したプロンプトのフレーズ群を開発しました。私はこれらを反AIプロンプト追加と呼び、すべての生成にちりばめています。
- 「detailed background」の代わりに「slightly out of focus background」
- 「natural skin texture with visible pores」 でなめらか化効果と戦う
- 「imperfect lighting」 または 「mixed color temperature lighting」 でリアリズムを
- 「casual composition, not centered」 で被写体を中央に置こうとするモデルの傾向を崩す
- 「shot on [specific camera/lens]」 で写真的なレンダリングを引き出す (85mm f/1.4が私の定番です)
- 「grain, film texture」 であのアナログ写真の質感を
- 「one eye slightly squinted」 または 「asymmetrical smile」 で顔のリアリズムを
また、AI写真を偽物に見せるものを抑制するためにネガティブプロンプトを積極的に使います。「Smooth skin, porcelain skin, perfect symmetry, centered composition, studio lighting, airbrushed, digital art, illustration, drawing」はすべて私のネガティブプロンプトに入れます。
プロンプトのテンプレートシステムを構築する
何千枚もの画像を生成した後、毎回ゼロからプロンプトを書くことに疲れました。そこでテンプレートシステムを構築しました。これで生成時間がおよそ半分になり、出力がより一貫したものになりました。
私のテンプレート構造はこのようになっています。
[キャラクターのアイデンティティのトリガーワード] + [衣装の説明] + [行動/ポーズ] + [具体的なディテールを含む場所] + [照明のセットアップ] + [カメラの技術的詳細] + [雰囲気]
たとえばこうです。「v_sarah, wearing a dark green utility jacket and white t-shirt, leaning against a weathered brick wall checking her phone, urban alley with graffiti and puddles from recent rain, late afternoon golden hour light from the right casting long shadows, shot on Sony A7III 50mm f/1.4, moody atmospheric」
トリガーワード「v_sarah」が私のLoRAを起動します。それ以外のすべては構図とリアリズムを導きます。私はさまざまなシナリオ向けにこうしたテンプレートを約20個保存しています。カフェのシーン、屋外の散歩、ジムのショット、ビーチの設定、夜の外出シーン、自宅/カジュアルな設定などです。
どの設定が最もリアルな肌と照明を生み出すのか
ここではデフォルトがフォトリアリズムに本当に向いていないので、かなり具体的に話します。私はこれらの設定を見つけるまで、まあまあの結果を得るのに数週間を無駄にしました。あなたにはその経験を繰り返してほしくないのです。

CFGスケールとリアリズムへの影響
ほとんどのチュートリアルは「高品質」な画像にはCFGを7か8にするよう言います。特にFLUX 2では、それはリアルな写真には高すぎます。CFGが高いほどモデルはプロンプトをより積極的に追いますが、彩度も増し、エッジが不自然に鋭くなり、あの「完璧すぎる」見た目を生み出します。
FLUX 2でフォトリアルなAIガールフレンド写真を作るには、ガイダンススケールを2.5から3.5にします。そう、ほとんどの人が勧めるより低めです。そしてそう、それは大きな違いを生みます。色がより落ち着いて自然になります。照明がより柔らかくなります。肌がエアブラシをかけたプラスチックではなく、実際の肌のように見えます。
さまざまな見た目のための手早いリファレンスをここに示します。
- 2.0から2.5: 非常に自然で、ほとんどフィルムのよう。キャンディッドショットやドキュメンタリー調の写真に最適
- 2.5から3.5: スイートスポット。クリーンだがリアル。私が最も時間を過ごすのはここです
- 3.5から5.0: 「作り込まれた」感じが出始める。ヘッドショットやプロの写真には問題なし
- 5.0以上: 過飽和でリアリズムには鋭すぎる。商業写真スタイルには使えるが、ほとんどの人が望む自然な見た目には不向き
最後の仕上げのための後処理
正直に言います。完璧な生成設定でも、私はやはり画像の約70%に軽い後処理を施します。重い編集ではなく、「素晴らしいAI写真」と「待って、これ本物の人間?」の間のギャップを埋める微妙な調整です。
私の後処理ワークフローは1枚あたり約30秒です。
- わずかなクロップ調整 で構図を「AIの中央配置」に感じさせなくする
- 2から3%のグレインを追加 してカメラセンサーのノイズを模倣する
- 微妙な色温度のシフト (通常は100から200K暖かく)
- 3枚に2枚へ非常に微妙なビネット
- わずかなハイライト圧縮 で本物のカメラが明るい領域を扱う方法に合わせる
これは任意ですが、最大限のリアリズムを目指すなら推奨します。Lightroomのようなツールや、Darktableのような無料の代替手段でも素早く処理できます。生成パイプラインに Lewdly.ai を使っている場合、これらの調整の一部はワークフロー自体に組み込めるので、コンテンツを大量に制作するときに時間を節約できます。
異なる衣装やシーンにわたってどう一貫性を維持するのか
これは私のDMで繰り返し出てくる質問で、正直なところ、ほとんどの人が最も苦労するところです。カジュアルな衣装で素晴らしく見えるキャラクターがいます。今度はレストランでフォーマルなドレスを着た彼女が必要です。それからジムでワークアウトウェアを着た彼女も。そして何とかして、これらすべてのシナリオで同じ人物に見えなければなりません。
複雑さをスキップしたいですか? Lewdly は、技術的なセットアップなしでプロフェッショナルなAI結果を即座に提供します。
課題は、LoRAとIPAdapterが特定の特徴を特定の文脈と関連付けがちなことです。トレーニング画像のほとんどがカジュアルな服装で自然な照明のキャラクターを示していた場合、劇的に異なる文脈を要求すると、モデルが顔をわずかに変えてしまうことがあります。私はこれを何十回も目にしてきました。同じLoRA、同じトリガーワードでも、「レストランバージョン」は「ビーチバージョン」とわずかに違う頬骨を持っているのです。
これが私の解決策で、数か月のテストの成果です。
アンカー画像システム
私はキャラクターの「アンカー画像」を3枚から5枚保管しており、それらが異なる文脈のためのIPAdapter参照として機能します。各アンカー画像は特定の設定タイプでキャラクターを示しますが、顔がはっきり見える中立的で認識しやすいアングルからのものです。
- アンカー1: クローズアップのポートレート、無表情、柔らかい照明 (これは「アイデンティティリセット」画像です)
- アンカー2: 全身のカジュアルなシーン、自然な照明
- アンカー3: 暖かい人工照明の屋内設定
- アンカー4: 明るい照明のアクティブ/屋外シーン
- アンカー5: ドラマチックな照明の夜/雰囲気のあるシーン
ジムのシーンを生成するときはアンカー4を使います。ディナーデートのシーンを生成するときはアンカー3を使います。LoRAが顔のアイデンティティを処理し、文脈に合ったアンカー画像がIPAdapterを導いてその特定の設定向けの自然に見える結果を生み出します。
特定の文脈で顔がドリフトし始めたら、アンカー1(アイデンティティリセットのクローズアップ)を0.9から0.95の高めのIPAdapterウェイトで再生成し、その出力を新しい文脈固有のアンカーとして使います。このプロセスは約10分かかりますが、一貫性のベースラインをリセットします。
顔を壊さない衣装プロンプト
誰も教えてくれないことがあります。特定の衣装の説明は、他のものよりも顔の生成に干渉します。技術的になぜこれが起きるのかは分かりませんが、ルールを作るのに十分なほど一貫して見てきました。
低干渉の衣装プロンプト (顔の一貫性に安全):
- カジュアルなTシャツ、セーター、ジーンズ、スニーカー
- 凝った模様のないシンプルなドレス
- アスレチックウェア、パーカー
高干渉の衣装プロンプト (顔の一貫性に注意):
- 顔の近くの凝ったジュエリー(イヤリング、ネックレス)
- 帽子、ヘッドバンド、ヘアアクセサリー
- サングラス(明らかに)
- 顔を違った形で縁取るハイカラーの衣服
- コスチュームや非常に細かいフォーマルウェア
「高干渉」の衣装を使う必要があるときは、LoRAウェイトを0.1から0.15上げ、IPAdapter用により顔に寄せたクロップのアンカー画像を使って補います。完璧ではありませんが、助けになります。
ビジュアル面にとどまらないカスタマイズテクニックをより深く見るには、外見の設定と並んで性格やインタラクションの側面をカバーする完全版の AIガールフレンドのカスタマイズ ガイドをチェックしてください。
LoRAとIPAdapterのアンカーシステムを使って生成された、5つの異なる衣装と設定にわたる同じAIキャラクター。劇的な文脈の変化にもかかわらず顔のアイデンティティが安定しています。
よくある間違いとその直し方
Discordコミュニティで人々のAIキャラクター生成を1年以上手伝ってきましたが、同じ間違いが何度も何度も出てくるのを目にします。あなたの時間を少し節約させてください。
間違い1. 美しさを過剰にプロンプトする
人々は「beautiful, gorgeous, stunning, attractive, pretty」を1つのプロンプトにまとめて書きます。これはモデルを理想化された一般的な顔へと押しやり、本物の人間というよりトレーニングデータ内のあらゆる「美しい」顔の合成物のように見せます。美しさの用語は最大1つにするか、もっと良いのは具体的な特徴を代わりに説明することです。
間違い2. 解像度とアスペクト比を無視する
512x512、あるいは768x768で生成してからアップスケールするのは、奇妙な顔のアーティファクトを招くレシピです。最初からネイティブの高解像度(FLUXのポートレートでは1024x1360)で生成しましょう。より高いネイティブ解像度での顔のディテールは、低解像度の生成をアップスケールしたものより格段に優れています。
コンテンツ制作で月$1,250以上稼ぐ
独占クリエイターアフィリエイトプログラムに参加。バイラル動画のパフォーマンスに応じて報酬。自分のスタイルで完全な創造的自由を持ってコンテンツを作成。
間違い3. すべての画像に同じポーズを使う
これはコンテンツがAI生成だと一目でばれる証拠です。すべての写真がカメラに向かう似たような3/4ビューでキャラクターを示していると、本物の人物の写真フィードではなくキャラクター選択画面のように見えます。本物の人間はキャンディッドな瞬間に、さまざまなアングルから、時には部分的に隠れて、時には動きの最中に撮影されます。多様な参照ポーズ画像とともにIPAdapterを使って、デフォルトポーズのマンネリから抜け出しましょう。
間違い4. 出力を厳選しない
私は実際に使う1枚ごとに約8枚から12枚の画像を生成します。それは失敗の兆候ではありません。それが制作プロセスです。プロの写真家でさえ1セッションに数百枚を撮影し、最終的に納品するのは20枚から30枚だけです。厳選には容赦なくいきましょう。微妙な顔の不整合、奇妙な手のアーティファクト、不自然な表情があるものはすべて削除します。常に量より質です。
間違い5. 「ありふれた」写真をおろそかにする
最も信じられるAIキャラクターのアカウントは、グラマーショットで埋め尽くされてはいません。スーパーの自撮り、散らかった寝室の鏡の写真、ぼやけたコンサートのショット、疲れた朝のコーヒーの写真があります。こうした「退屈な」画像は実際には最も偽造しにくく、うまくやれば最も説得力があります。私は生成の約30から40%をこうしたありふれた、華やかでないシナリオに充てています。
制作ワークフロー: 私のエンドツーエンドのプロセス
私の実際の制作ワークフローを順を追って説明させてください。これはプロジェクトのため、またはテスト目的でAIガールフレンド写真のバッチを生成しようと腰を据えるときに私がやることです。
ステップ1. セッションの計画(5分)。 撮りたい5から8のシナリオを決めます。それぞれについて場所、衣装、雰囲気、時間帯を記したブリーフを書きます。本物の撮影を計画するように考えます。
ステップ2. アンカー画像の選択(2分)。 3から5枚のアンカーのセットから、各シナリオに最も適したアンカー画像を選びます。
ステップ3. プロンプトの起草(10分)。 テンプレートシステムを使ってプロンプトを書き、各シナリオに合わせてディテールをカスタマイズします。各プロンプトにカメラのスペック、照明の説明、環境のディテールを入れます。
ステップ4. バッチ生成(20から30分)。 各シナリオの8から12のバリエーションを生成します。ローカルで実行している場合はこれに時間がかかります。Lewdly.ai や別のクラウドプラットフォームを使っている場合は、これを並列化してより速く結果を得られます。
ステップ5. 厳選(10分)。 すべての出力をレビューし、各シナリオから最良の1から2枚を選びます。アンカー画像と照らして顔の一貫性をチェックし、アーティファクトを探し、全体の雰囲気がフォトリアルであることを確認します。
ステップ6. 軽い後処理(5から10分)。 Lightroomでの素早い調整。グレイン、わずかな色補正、クロップの微調整。
5から8枚の最終写真のバッチにかかる合計時間。約50分から1時間です。これにはセットアップ、生成、厳選、後処理が含まれます。慣れればもっと速くなります。
知っておく価値のある上級テクニック
基本を押さえたら、結果をさらに押し上げられる上級テクニックがいくつかあります。

クローズアップのためのFace Detailer / ADetailer
顔がフレームの約25%未満を占める画像については、Face Detailerのパスを通します。これは顔の領域だけをより高解像度かつ顔特有の設定で再生成し、それを元の画像に合成し直します。全身や中距離のショットでの顔のディテールの改善は劇的です。フルサイズで見られる予定のどの画像でも、私はこのステップを譲れないものと考えています。
一貫した加齢と表情のしわ
リアリズムを加える微妙な仕上げが1つ。本物の人間は笑いじわ、目の下の影、笑ったときの特定のしわのパターンなど、一貫した顔の特徴を持っています。あなたのキャラクターが28歳に見えるはずなら、表情じわがゼロの完璧になめらかな肌であってはなりません。私はプロンプトに年齢相応の微妙なディテールを加えます。「Faint smile lines, subtle under-eye shadow, natural forehead movement lines」。これらのディテールは、トレーニングキャプションやプロンプトテンプレートに入っていれば、生成全体にわたって一貫し続けます。
本物の写真の参照を使う
これは私の秘密兵器で、これをやる人は十分にいないと思います。私は生成したいシナリオに合う本物の写真を写真関連のsubredditやPinterestで探します。コピーするためではなく、その設定での本物の写真が実際にどう見えるのかを理解するためです。光は何をしているか。影はどこにあるか。背景には何があるか。被写界深度はどうか。
それからそれらの本物の写真を研究し、その性質を私のプロンプトに翻訳します。このリバースエンジニアリングのアプローチは、どんな技術的設定の変更よりも私のリアリズムを向上させました。
クラウドプラットフォームを使うべきか、ローカルで実行すべきか
これはあなたの状況次第で、私にはそれについて意見があります。
思い切った意見。ローカルで実行するのは、AIガールフレンドの写真生成をするほとんどの人にとって過大評価されています。24GB以上のGPUを持っていて、Python環境やCUDAドライバーをいじるのが好きでない限り、実際に画像を生成するよりもセットアップのデバッグに多くの時間を費やすことになります。Lewdly.ai、Replicate、RunPodのようなクラウドプラットフォームはインフラを処理してくれるので、創造的な側面に集中できます。
とはいえ、ローカルでの実行は本格的なユーザーには真の利点があります。レート制限なし、コンテンツポリシーの制約なし(違法なことをしていない前提で)、すべてのパラメーターの完全な制御、そして初期のハードウェア投資後は1枚あたりのコストなしです。1日に50枚以上を生成しているなら、ローカルハードウェアの経済性が意味を持ち始めます。
ボリュームに基づく私の推奨はこうです。
- 1日20枚未満: クラウドプラットフォームを使う。ローカルセットアップの手間に見合いません
- 1日20から50枚: どちらでも機能します。利便性と制御のどちらを重視するか次第です
- 1日50枚以上: ローカルハードウェアは2から3か月で元が取れます
LoRAトレーニングの側面に関しては特に、24GB VRAMがない限り常にクラウドコンピュートを推奨します。12GBのカードでのトレーニングは可能ですが痛いほど遅く、トレーニングパラメーターを実験しているときは反復速度が重要です。
よくある質問
2026年にリアルなAIガールフレンド写真に最適なモデルは何か
FLUX 2 Devがフォトリアリズムに対する私の一番のおすすめです。肌の質感、光の相互作用、自然な表情を、他のどの公開モデルよりもうまく扱います。速度を犠牲にしてさらに高品質を求めるなら、APIプロバイダー経由でアクセスできるならFLUX 2 Proを試す価値があります。
一貫した顔のLoRAには何枚のトレーニング画像が必要か
15枚から25枚がスイートスポットだと分かりました。15枚未満だと、モデルが顔について何が一貫していて何が偶発的かを学習するのに十分なバリエーションがありません。25枚を超えると収穫逓減が始まります。画像が複数のアングル、照明条件、表情をカバーしていることを確認しましょう。
LoRAをトレーニングせずにキャラクターの一貫性を得られるか
はい、ただし一貫性は低くなります。強力な参照画像を使ったIPAdapter単独で、約75から85%の顔の一貫性に到達できます。IPAdapterの上に InstantID を加えると約85から90%まで押し上げられます。しかし数百枚の画像にわたって90%以上の信頼性を求めるなら、LoRAトレーニングが依然として最も頼れるアプローチです。
なぜ私のAI写真は「完璧すぎて」明らかに偽物に見えるのか
おそらくCFG/ガイダンススケールが高すぎ、美しさを過剰にプロンプトし、プロンプトに不完全さの手がかりを含めていないからです。FLUXではガイダンスを2.5から3.5に下げ、自然な肌の質感のキーワードを加え、環境の不完全さを含め、イラストレンダリングではなく写真的なレンダリングを引き出すためにカメラ特有の技術用語を使いましょう。
AIガールフレンド写真で手をどう扱うか
手は依然としてAI画像生成のアキレス腱ですが、FLUX 2は以前のモデルよりはるかにうまく扱います。私のアプローチは3つあります。第1に、手が焦点にならないようにショットを構図します。第2に、手が見えなければならないときは、明確で自然な手のポーズのIPAdapter参照画像を使います。第3に、手がおかしく見える画像については、再生成するか、手の領域だけを直すためにインペインティングを使います。
最良の顔のディテールのためにどの解像度で生成すべきか
FLUX 2ではポートレート向きは1024x1360、ランドスケープは1360x1024で生成しましょう。これらはアーティファクトなしで最良の顔のディテールを生み出すネイティブの高解像度のターゲットです。これより高くすると奇妙なタイリングのアーティファクトが入ることがよくあります。より大きな最終画像が必要なら、これらのサイズで生成してから Real-ESRGAN のような専用のアップスケーラーを使ってアップスケールしましょう。
同じキャラクターに異なる衣装を自然に見せるにはどうするか
上で説明したアンカー画像システムを使いましょう。異なる照明文脈でのキャラクターの参照画像を3から5枚保ち、生成しているシーンにアンカーを合わせます。特定の衣装が顔のドリフトを引き起こしているなら、補うためにLoRAウェイトを0.1から0.15上げましょう。
本物の人間のソーシャルメディアのように見える写真セットを丸ごと生成することは可能か
絶対に可能で、ここがこのガイドのテクニックが本当に輝くところです。鍵はバリエーションです。グラマーショットとありふれたものを混ぜましょう。異なる時間帯、屋内と屋外の設定、ソロショットと社交が示唆される状況を含めましょう。アンカー画像システムとプロンプトテンプレートがこれを体系的に達成可能にします。私は一貫したアイデンティティを維持する30から50枚の画像セットを日常的に生成しています。
ゼロからのセットアップ全体にどのくらい時間がかかるか
ゼロから始める場合、最初のキャラクターには約4から6時間を見込んでください。その内訳は、基本を学ぶのに約1時間、最初の参照画像セットを生成して厳選するのに1から2時間、LoRAをトレーニングするのに1から2時間、プロンプトテンプレートとアンカー画像をセットアップするのに30分から1時間です。その初期セットアップの後は、新しい画像の生成は速く、最終的に選ばれた画像1枚あたり通常1分未満です。
これらのテクニックを動画コンテンツにも使えるか
顔の一貫性のテクニック(LoRA、アンカー画像)は、KlingやRunway Gen-3のようなモデルでのAI動画生成に直接応用できます。主な違いは、動画が管理すべきもう1つの次元として時間的一貫性を加えることです。しかし写真生成のために構築した土台が大きなアドバンテージを与えてくれます。ただしそれは丸ごと別の記事です。
最後に
AIガールフレンドの写真生成はこの1年で信じられないほど進歩しました。フォトリアルなレンダリングのためのFLUX 2、顔のアイデンティティのためのLoRAトレーニング、柔軟なポージングのためのIPAdapter、そしてリアリズムのための思慮深いプロンプトエンジニアリングの組み合わせにより、本物の写真と本当に見分けるのが難しいキャラクター写真を作ることが可能になっています。
このすべてを通して学んだ最大の教訓は、リアリズムは技術的な完璧さの問題ではないということです。それは不完全さの問題です。本物の写真には欠点があります。本物の人間には非対称な特徴があります。本物のカメラはグレイン、ボケ、レンズ収差を生み出します。これらの不完全さに身を委ねるほど、あなたの結果はより説得力を持つようになります。
FLUX 2から始め、しっかりしたLoRAをトレーニングし、アンカー画像システムを構築し、プロンプトエンジニアではなく写真家のように考えるプロンプトテンプレートを開発しましょう。たくさんの画像を生成し、容赦なく最良のものだけに絞り込むことを自分に許しましょう。それがプロセスです。魔法でもなければ、即座でもありませんが、結果がそれ自体を物語ります。
このガイドが役に立ち、AIコンパニオンのビジュアル面だけでなく性格やインタラクションの側面も探求したいなら、AIガールフレンドのカスタマイズ と Stable DiffusionでAIガールフレンドキャラクターを作る についての私のガイドをご覧ください。この記事のビジュアルの一貫性のテクニックは、そこでカバーされているキャラクター開発のアプローチと完璧に組み合わさります。
AIインフルエンサーを作成する準備はできましたか?
115人の学生とともに、51レッスンの完全なコースでComfyUIとAIインフルエンサーマーケティングをマスター。
関連記事
制限のないAI画像生成機:2026年に実際に知る必要があること
制限なしのAI画像生成機に関する正直なガイド。利用可能な内容、法律、クリエイティブワーク向けの責任ある使用。
最高のAIワイフ生成ツール2026年版: 完全に一貫性のあるアニメキャラクターを作成する
2026年最高のAIワイフ生成ツールの完全ガイド。AnimagineXL、NovelAI、Pony Diffusion、FLUX animeのLoRA、IPAdapterワークフローを使用して、一貫性のあるアニメキャラクターを作成する方法を学びます。
ComfyUIからFanvueへのパイプライン: AIインフルエンサーコンテンツの自動化
ComfyUIからFanvueへのAIインフルエンサーコンテンツ自動パイプラインを構築しましょう。ワークフローの設定、バッチ生成、コンテンツのスケジューリングを解説します。