AI 女友照片生成:打造看起来真实的一致角色
学习如何使用 FLUX 2、LoRA 训练、IPAdapter 和提示词工程生成具有一致面孔的照片级 AI 女友照片。完整的 2026 年指南。
我要跟你说点实在的。AI 女友照片生成最难的部分不是搞出一张漂亮的单图。任何模型都能做到这一点。难的是让你的第二张图看起来跟第一张是同一个人。然后是第三张。再然后是第四十张。我在 2025 年底花了将近三个月想攻克这个问题,而我学到的是,大多数人的做法完全错了。
快速回答:要生成一致的、照片级的 AI 女友照片,请使用 FLUX 2 作为追求写实的基础模型,在 15 到 25 张精选参考图上训练一个 LoRA 来锁定面孔身份,在其之上叠加 IPAdapter 来实现姿势和场景的变化,并精通提示词工程以处理真实的光照、环境和服装。这一组合在正确操作时能在数百次生成中带来 90% 以上的面孔一致性。
- FLUX 2 目前是照片级 AI 女友照片的最佳模型,在自然肤质和光照方面都胜过 SDXL 和 Midjourney
- 在 15 到 25 张参考图上训练 LoRA 能给你最强的面孔身份锁定,一致性约为 90% 到 95%
- IPAdapter 让你在不丢失面孔身份的情况下变换姿势和场景,但要把权重保持在 0.8 到 0.9 之间才能获得最佳效果
- 追求写实的提示词工程意味着要像摄影师那样思考,而不是像提示词工程师那样思考
- LoRA 加 IPAdapter 加细致提示词的组合就是那个"神圣三位一体",它能让 AI 生成的照片真正难以与真实照片区分
为什么大多数 AI 女友照片看起来很假?
在我们谈论如何解决之前,先聊聊为什么大多数 AI 女友照片通不过写实测试。我到处都看到同样的错误,老实说,我刚起步时也全都犯过。
最大的问题是我所谓的"美颜滤镜效应"。人们把审美参数拉满,使用超平滑皮肤的提示词,最后得到的图像看起来像是过了六层 Instagram 滤镜。真实的人有毛孔,五官有细微的不对称,也有瑕疵。当你的 AI 角色皮肤比人体模型还光滑时,对任何有正常眼睛的人来说都明摆着是"生成的"。
第二个问题是光照。大多数人压根不去想这件事。他们写"咖啡馆里的漂亮女人"这样的提示词,然后让模型自己去处理光照。模型默认会给出那种均匀、无阴影的照明,而这种照明在真实摄影中并不存在。真实照片有方向性的光。下巴下方有阴影,颧骨上有高光。有附近台灯洒下的暖橙色光晕,或者窗户透进来的冷蓝色调。
这是我的第三个不满,而这一点很私人。背景。早期我花了两周时间生成图像,角色看起来很棒,但站在那些怪异得过分干净的背景前,没有杂物,没有纵深,没有真实世界的凌乱感。真实照片发生在真实的地方。桌上的咖啡杯稍微偏了点中心。背景里有个模糊的陌生人路过。桌布上有一道褶皱。这些细小的细节才是卖出真实感的东西。
左:典型的过度处理的 AI 输出,皮肤光滑、光照平淡。右:正确生成的照片,有自然的纹理、方向性光照和环境细节。
是什么让 FLUX 2 成为真实 AI 照片的最佳选择?
我基本上把每一个主流模型都为这个用途测试过了。Stable Diffusion XL、Midjourney v6、DALL-E 3、各种 FLUX 变体。在跑了大约 2000 次测试生成后,我的结论是 FLUX 2 在角色创作上能产出最自然的照片级输出。

原因归结于 FLUX 处理肤质和光线交互的方式。SDXL 往往会产出略带绘画感的皮肤(即便用了照片级的检查点),而 FLUX 2 在渲染毛孔、细小的面部绒毛和次表面散射方面感觉就是对。这个模型是在海量真实摄影数据集上训练的,你一眼就能看出来。光线正确地包裹住面孔。阴影落在该落的地方。皮肤具有真实皮肤在特定光照下才有的那种半透质感。
这里说个有争议的观点。我认为 Midjourney v6 平均而言能产出更"好看"的图像,但 FLUX 2 能产出更"像真的"的图像。而专门对于 AI 女友照片生成来说,像真的比杂志封面般漂亮更重要。人们在社交媒体上关注 AI 角色,是因为他们在某种程度上相信,这个人有可能真实存在。Midjourney 的输出很惊艳,但常常带有那种微妙的、令人不安的完美感,会触发人的疑心。
下面是我实际用于角色照片的 FLUX 2 配置。我不会给你文档里的默认值,因为它们对这个用途并不好。
- 模型: FLUX 2 Dev(不是 Schnell,对面孔来说画质差距很明显)
- 分辨率: 人像照片用 1024x1360,横向场景用 1360x1024
- 引导系数(Guidance scale): 3.0 到 3.5(比大多数人用的低,但能保持自然)
- 步数(Steps): 28 到 35(比默认多,但面孔细节的提升值得多花的时间)
- 采样器(Sampler): Euler,配普通调度器
如果你想完全跳过配置,像 Lewdly.ai 这样的工具能让你运行 FLUX 工作流,而无需自己配置任何这些。实话实说,我参与构建了这个平台,但当我不想启动本地设备时,我确实会用它来做快速生成。
用于面孔一致性的 LoRA 训练:基础
这是大多数人要么放弃、要么搞错的地方。LoRA 训练是在多张照片间保持 AI 角色一致性最有影响力的单项技术,而且差距大到没有悬念。如果你读过我那篇关于如何用 Stable Diffusion 创建 AI 女友工作流的指南,你就知道我是 LoRA 的铁粉。但专门为面孔一致性训练一个 LoRA,和一般的风格 LoRA 是完全不同的游戏。
构建你的参考数据集
你的 LoRA 质量完全取决于训练图像的质量。这一点我是吃了苦头才学会的。我第一次 LoRA 训练尝试用了 40 张基本上是同一角度、同一光照的图,结果是一个只有在那个特定设置下才看起来对的角色。把角度变个 30 度,面孔就崩了。
下面是一个用于面孔一致性的优质训练集应有的样子。
- 15 到 25 张图(不是 10 张,也不是 50 张,这个区间是我通过测试发现的甜蜜点)
- 多个角度: 正面、左侧四分之三、右侧四分之三、轻微侧脸、向上看、向下看
- 多种光照条件: 自然日光、室内暖光、冷色阴影、阴天
- 所有图像中身份一致: 如果你是从零开始构建的,用 FLUX 生成一个基础集,挑出彼此最像的那些
- 表情多样: 中性、轻微微笑、大笑、严肃、思考
- 训练时优选干净背景(你之后可以把她们放进复杂场景)
我常被问到的一个问题是"如果我还没有参考图怎么办?"这就是先有鸡还是先有蛋的问题。我用的解决方案是用 FLUX 配一个非常详细的面孔描述提示词生成大约 100 张图,精挑出彼此最一致的 15 到 25 张,然后在那些图上训练一个 LoRA。第一批不会完美,但 LoRA 会锁定那些图像共有的任何共性,而你第二代的输出会一致得多。
真正有效的训练参数
我在训练参数上来回折腾的次数多到数不清。这些是我在过去一年训练了大约 30 到 40 个角色 LoRA 后定下来的数值。
- 学习率: 1e-4(标准值,但如果我注意到训练过程中面孔开始"漂移",会把它降到 5e-5)
- 训练步数: FLUX LoRA 用 1500 到 2500(越多不代表越好,你会过拟合)
- 秩(Rank): 32(我以前用 16,但 32 能捕捉更多面部细节又不会让文件臃肿)
- 批大小(Batch size): 1 或 2,取决于你的显存
- 正则化图像: 可选,但我发现用 100 到 200 张多样化的面孔图作为正则化,能防止模型"忘记"如何画其他人
训练过程在一张 24GB GPU 上大约需要 1 到 2 小时。如果你用云端算力,根据服务商不同,预计每次训练会花大约 2 到 5 美元。
关于面孔 LoRA 训练,有一件事没人告诉你。**标注质量比训练参数更重要。**如果你的标注很笼统("一个站在房间里的女人"),LoRA 就学不到是什么让你角色的面孔独一无二,又有什么只是场景特定的噪声。我会用极其具体的面孔描述来标注训练图像。"一个有着高颧骨、微微上翘的鼻子、深邃的绿眼睛、纤细弯曲的眉毛、心形脸、丰满下唇的女人"等等。你越精确地描述面部特征,LoRA 就越能学会去分离并重现它们。
IPAdapter 如何帮助实现姿势和场景的变化?
一旦你为面孔身份锁定了一个 LoRA,IPAdapter 就成了你创造多样性的最佳伙伴。原因在这里。你的 LoRA 确保面孔保持一致,但它不控制姿势、构图或场景互动。这就是 IPAdapter 登场的地方。它接收一张参考图,并用它来引导输出的整体构图和风格。
我是这样理解的。你的 LoRA 是演员。IPAdapter 是导演,告诉演员站在哪里以及如何取景。两者合在一起,威力强大。
在 ComfyUI 里的配置大致是这样。你加载你的 FLUX 模型,应用你的角色 LoRA,然后连接一个 IPAdapter 节点,让它以一张参考图作为输入。这张参考图不需要是你角色本人的。它可以是一张展示你想要的姿势、光照或构图的真实照片,LoRA 会确保面孔保持一致,而 IPAdapter 负责处理其余一切。
IPAdapter 权重设置(这比你想的更重要)
我记得我刚开始把 IPAdapter 用于角色创作时。我把权重保持在默认的 0.7,搞不明白为什么我的结果平平。面孔有点像我的参考图,但又有点不像。那感觉就像在看一个亲戚,而不是同一个人。
通过反复试验,我发现 **0.8 到 0.9 是聚焦面孔的 IPAdapter 工作的甜蜜点。**低于 0.8,参考图的影响太弱。高于 0.9,你就开始失去变换场景和姿势的能力,输出变成了你参考图的近乎复制,这就违背了初衷。
下面拆解一下不同权重值在实践中产出什么。
- 0.5 到 0.7: 一般的风格和构图迁移,面孔一致性低
- 0.7 到 0.8: 中等面孔一致性,适合宽松的风格匹配
- 0.8 到 0.9: 强面孔一致性,这是我做角色创作时的操作区间
- 0.9 到 1.0: 近乎复制参考图,几乎没有场景变化的余地
对于想在女友照片之外更深入研究角色一致性问题的读者,我那篇关于 AI 一致角色生成器技术的指南涵盖了更广泛的工具和方法版图。
IPAdapter 权重从 0.6 到 0.95 的对比。注意 0.85 如何提供了面孔一致性与场景灵活性的最佳平衡。
照片级 AI 女友照片的提示词工程
说实话,这部分才是把业余结果和专业结果区分开来的地方。你的模型和 LoRA 可以是完美的,但糟糕的提示词依然会产出糟糕的照片。而外面大多数提示词建议对写实来说都很烂,因为它们是为奇幻艺术或动漫生成写的。
像摄影师那样思考,而不是像写作者
我在提示词工程上做出的最有用的思维转变,就是停止写描述,开始写摄影简报。真正的摄影师会以焦距、光圈、光照方向和色温来思考。你的提示词也应该如此。
不要写"咖啡店里微笑的漂亮女人",要去想一个摄影师实际会捕捉到什么。
糟糕的提示词: "褐色头发的漂亮女人坐在咖啡店里,微笑,照片级,高质量,8k"
优秀的提示词: "一张抓拍照片,一个女人坐在繁忙咖啡店的靠窗桌位,晨光从左侧洒进来,柔和的焦外背景里能看到其他顾客,她正在大笑中,目光略微越过镜头,穿着一件休闲针织毛衣,用 85mm f/1.8 拍摄,暖色温,她伸手去拿陶瓷咖啡杯时手上有轻微的动态模糊"
看出区别了吗?第二条提示词向模型说明了光源、景深、相机镜头、氛围、瑕疵(动态模糊、目光越过镜头而不是直视镜头),以及让照片显得真实的环境细节。
反 AI 的提示词技巧
在过去一年里,我开发了一套专门用来抵消典型"AI 感"的提示词短语。我把它们称为我的反 AI 提示词补充,我在每次生成时都会撒进去一些。
- "略微失焦的背景" 而不是 "细节丰富的背景"
- "自然肤质,毛孔可见" 来对抗平滑化效应
- "不完美的光照" 或 "混合色温光照" 来增加真实感
- "随意的构图,不居中" 来打破模型把主体居中的倾向
- "用 [特定相机/镜头] 拍摄" 来触发摄影式渲染(85mm f/1.4 是我的首选)
- "颗粒,胶片质感" 来获得那种模拟摄影的感觉
- "一只眼睛略微眯起" 或 "不对称的笑容" 来增加面部真实感
我也积极使用负面提示词来抑制那些让 AI 照片显假的东西。"光滑皮肤、瓷器般皮肤、完美对称、居中构图、影棚光照、修图过度、数字艺术、插画、绘画"全都进我的负面提示词。
构建一个提示词模板系统
在生成了数千张图之后,我厌倦了每次都从头写提示词。所以我搭了一个模板系统。这把我的生成时间大约砍了一半,也让我的输出更一致了。
我的模板结构是这样的。
[角色身份触发词] + [服装描述] + [活动/姿势] + [带具体细节的地点] + [光照设置] + [相机技术细节] + [氛围/气氛]
举个例子。"v_sarah,穿着一件深绿色工装夹克和白色 T 恤,靠在一面风化的砖墙上看手机,城市小巷里有涂鸦和刚下过雨留下的水洼,午后晚些时候的金色时刻光从右侧打来投下长长的影子,用 Sony A7III 50mm f/1.4 拍摄,阴郁而富有氛围"
触发词 "v_sarah" 会激活我的 LoRA。其余一切都用来引导构图和写实。我为不同场景保存了大约 20 个这样的模板:咖啡馆场景、户外散步、健身房照片、海滩环境、夜出场景、居家/休闲环境,等等。
什么样的设置能产出最真实的皮肤和光照?
这部分我要讲得非常具体,因为默认值对照片写实来说确实很糟糕。在弄明白这些设置之前,我浪费了好几周才得到还凑合的结果,我不想让你重蹈覆辙。

CFG 系数及其对写实的影响
大多数教程告诉你用 7 或 8 的 CFG 来获得"高质量"图像。专门对于 FLUX 2 而言,那对真实照片来说太高了。更高的 CFG 让模型更激进地遵循你的提示词,但它也会增加饱和度,让边缘不自然地锐化,并产出那种"过分完美"的观感。
对于 FLUX 2 上的照片级 AI 女友照片,我用 2.5 到 3.5 的引导系数。没错,那比大多数人推荐的要低。也没错,它带来巨大的差别。色彩变得更柔和、更自然。光照变得更柔软。皮肤看起来像真正的皮肤,而不是修图过度的塑料。
下面是不同观感的快速参考。
- 2.0 到 2.5: 非常自然,几乎像胶片。非常适合抓拍照片和纪实风格照片
- 2.5 到 3.5: 甜蜜点。干净但真实。这是我花最多时间的区间
- 3.5 到 5.0: 开始显得"加工过"。用于头像照或专业照片还行
- 5.0 以上: 过饱和且对写实来说太锐利。适合商业摄影风格,但不适合大多数人想要的自然观感
收尾的后期处理
我说实话。即便用了完美的生成设置,我仍然会对大约 70% 的图像做轻度后期处理。不是大改,只是一些微妙的处理,弥合"很棒的 AI 照片"和"等等,这是真人吗?"之间的差距。
我的后期处理流程每张图大约花 30 秒。
- 轻微调整裁切,让构图感觉不那么"AI 式居中"
- 加 2% 到 3% 的颗粒,模仿相机传感器噪点
- 微调色温(通常偏暖 100 到 200K)
- 非常微妙的暗角,三张里有两张加
- 轻微的高光压缩,匹配真实相机处理明亮区域的方式
这是可选的,但如果你追求最大写实,建议这么做。Lightroom 这样的工具,甚至像 Darktable 这样的免费替代品,都能快速搞定这些。如果你用 Lewdly.ai 作为你的生成流程,其中一些调整可以直接烘焙进工作流本身,当你大批量生产内容时这能省时间。
你如何在不同服装和场景间保持一致性?
这是我私信里不断冒出来的问题,说实话,这也是大多数人最挣扎的地方。你有一个在休闲装下看起来很棒的角色。现在你需要她穿正装裙出现在餐厅。然后是在健身房穿运动服。而且不知怎么的,她得在所有这些场景里看起来都是同一个人。
挑战在于,LoRA 和 IPAdapter 往往会把某些特征与某些语境关联起来。如果你的大多数训练图像展示的是角色穿休闲装、自然光照,那么当你提示一个截然不同的语境时,模型可能会微妙地改变面孔。这种情况我见过几十次。同一个 LoRA,同一个触发词,但"餐厅版"的颧骨和"海滩版"略有不同。
下面是我的解决方案,它是几个月测试的成果。
锚定图像系统
我会为我的角色保留三到五张"锚定图像",作为不同语境下的 IPAdapter 参考。每张锚定图像都展示角色在一种特定环境类型里,但取自一个中性、可辨识的角度,她的面孔清晰可见。
- 锚定 1: 特写肖像,中性表情,柔和光照(这是"身份重置"图像)
- 锚定 2: 全身休闲场景,自然光照
- 锚定 3: 室内环境,暖色人造光照
- 锚定 4: 活动/户外场景,明亮光照
- 锚定 5: 傍晚/阴郁场景,戏剧性光照
当我生成健身房场景时,我用锚定 4。当我生成晚餐约会场景时,我用锚定 3。LoRA 处理面孔身份,而与语境相符的锚定图像引导 IPAdapter 为那个特定环境产出看起来自然的结果。
如果面孔在某个特定语境里开始漂移,我会用锚定 1(身份重置特写)配以更高的 IPAdapter 权重 0.9 到 0.95 重新生成,然后把那个输出当作一张新的语境专属锚定图。这个过程大约花 10 分钟,但会重置一致性基线。
不会毁掉面孔的服装提示
有件事没人告诉你。某些服装描述比其他的更容易干扰面孔生成。我不知道这在技术上为什么会发生,但我看到的次数足够一致,足以让我围绕它制定一些规则。
低干扰服装提示(对面孔一致性安全):
- 休闲 T 恤、毛衣、牛仔裤、运动鞋
- 没有繁复图案的简单连衣裙
- 运动服、连帽衫
高干扰服装提示(注意你的面孔一致性):
- 面孔附近的繁复首饰(耳环、项链)
- 帽子、发带、发饰
- 太阳镜(显然)
- 以不同方式框住面孔的高领服装
- 戏服或细节繁多的正装
当我需要用"高干扰"服装时,我会通过把 LoRA 权重增加 0.1 到 0.15,并为 IPAdapter 使用一张更贴近面孔的裁切锚定图来补偿。它并不完美,但有帮助。
想更深入地了解视觉之外的定制技术,可以看看完整的 AI 女友定制指南,它在外观设置之外还涵盖了性格和互动方面。
同一个 AI 角色横跨五套不同的服装和环境,使用 LoRA 加 IPAdapter 锚定系统生成。尽管语境发生剧烈变化,面孔身份依然稳定。
常见错误及修复方法
我已经在 Discord 社群里帮人做 AI 角色生成一年多了,我看到同样的错误一次又一次出现。让我帮你省点时间。
错误 1。为追求美貌而过度堆砌提示词
人们在一条提示词里写"漂亮、惊艳、迷人、有魅力、可爱"。这会把模型推向一张理想化的、千篇一律的脸,看起来不像一个真实的人,而更像训练数据里每一张"漂亮"脸的合成品。最多挑一个表示美的词,或者更好的做法是改为描述具体的特征。
错误 2。忽视分辨率和宽高比
在 512x512 甚至 768x768 生成然后再放大,是制造怪异面部瑕疵的配方。从一开始就在原生高分辨率(FLUX 上人像用 1024x1360)下生成。更高原生分辨率下的面孔细节,比你从低分辨率生成放大得到的要好得多。
创作内容每月赚取$1,250+
加入我们的独家创作者联盟计划。根据病毒视频表现获得报酬。以完全的创作自由按您的风格创作内容。
错误 3。每张图都用同一个姿势
这是内容由 AI 生成的明显破绽。如果每张照片都展示你的角色以类似的四分之三视角面向镜头,那看起来像一个角色选择界面,而不是真人的照片流。真实的人会在不经意的瞬间被拍下,从不同角度,有时部分被遮挡,有时处于运动中。用 IPAdapter 配多样的参考姿势图,来摆脱默认姿势的窠臼。
错误 4。不筛选你的输出
我每实际用一张图,会生成大约 8 到 12 张。那不是失败的标志。那是生产流程。即便是专业摄影师,每次拍摄也会拍数百张照片,最后只交付 20 到 30 张成片。对你的筛选要狠。删掉任何有细微面孔不一致、怪异手部瑕疵或不自然表情的图。永远是质量重于数量。
错误 5。忽略"平淡"的照片
最可信的 AI 角色账号里装的不是华丽美照。它们有杂货店自拍、凌乱卧室的镜子照、模糊的演唱会照片,以及疲惫的清晨咖啡照。这些"无聊"的图像其实最难伪造,做对了也最有说服力。我把大约 30% 到 40% 的生成投入到这些平淡、不华丽的场景上。
生产流程:我的端到端流程
让我带你走一遍我实际的生产流程。这是当我坐下来为一个项目或为测试目的生成一批 AI 女友照片时所做的。
**第 1 步。会话规划(5 分钟)。**我决定要"拍摄"的 5 到 8 个场景。我为每一个写一份简报,包含地点、服装、氛围和一天中的时段。我把它当作在规划一次真实的摄影拍摄。
**第 2 步。锚定图像选择(2 分钟)。**我从我那套 3 到 5 张锚定图里,为每个场景挑出最相关的锚定图像。
**第 3 步。提示词起草(10 分钟)。**我用我的模板系统写提示词,为每个场景定制细节。每条提示词都会拿到相机参数、光照描述和环境细节。
**第 4 步。批量生成(20 到 30 分钟)。**我为每个场景生成 8 到 12 个变体。如果我在本地跑,这会更久。如果我用 Lewdly.ai 或其他云平台,我可以并行处理,更快拿到结果。
**第 5 步。筛选(10 分钟)。**我审查所有输出,从每个场景里选出最好的 1 到 2 张。我对照我的锚定图像检查面孔一致性,留意任何瑕疵,并确认整体观感是照片级的。
**第 6 步。轻度后期处理(5 到 10 分钟)。**在 Lightroom 里快速调整。颗粒、轻微色彩校正、裁切微调。
一批 5 到 8 张成片的总耗时。大约 50 分钟到一小时。这包含了配置、生成、筛选和后期处理。多练几次,你会更快。
值得了解的进阶技巧
一旦你掌握了基础,有几个进阶技巧能把你的结果推得更远。

用 Face Detailer / ADetailer 处理特写
对于任何面孔占画面不到约 25% 的图像,我都会让它过一遍面部细化处理。这会只在更高分辨率、用面部专属设置下重新生成面孔区域,然后再把它合成回原图。对全身或中景照片来说,面孔细节的提升是巨大的。我认为对任何将以全尺寸查看的图像来说,这一步都不可妥协。
一致的年龄感和表情纹
一个能增添真实感的微妙处理。真实的人有一致的面部特征,比如笑纹、眼下阴影,或者微笑时特定的褶皱样式。如果你的角色设定为看起来 28 岁,她就不该有完全光滑、零表情纹的皮肤。我会在提示词里加入与年龄相符的微妙细节。"淡淡的笑纹、轻微的眼下阴影、自然的额头活动纹路。"只要这些细节在你的训练标注和提示词模板里,它们就会在多次生成间保持一致。
使用真实摄影参考
这是我的秘密武器,我认为做这件事的人还不够多。我会浏览摄影类 subreddit 和 Pinterest,寻找与我想生成的场景相符的真实照片。不是为了照抄,而是为了理解那个环境里的真实照片实际看起来什么样。光在做什么?阴影在哪里?背景里有什么?景深如何?
然后我研究那些真实照片,把它们的特质转译进我的提示词。这种逆向工程的方法对我写实感的提升,超过任何技术设置的改动。
你该用云平台还是在本地运行?
这取决于你的情况,我对此有些看法。
有争议的观点。对大多数做 AI 女友照片生成的人来说,在本地运行被高估了。除非你有一张 24GB 以上的 GPU,并且乐在折腾 Python 环境和 CUDA 驱动,否则你花在调试配置上的时间会比实际生成图像还多。像 Lewdly.ai、Replicate 和 RunPod 这样的云平台帮你打理好基础设施,让你能专注在创作那一面。
话虽如此,对认真的用户来说,本地运行有实打实的优势。没有速率限制,没有内容政策限制(前提是你不在做任何违法的事),对每个参数有完全的掌控,并且在初始硬件投入之后没有按图计费的成本。如果你每天生成 50 张以上图像,本地硬件的经济账就开始说得通了。
下面是我基于产量给出的建议。
- 每天少于 20 张图: 用云平台。不值得为本地配置头疼
- 每天 20 到 50 张图: 两者都行。取决于你更看重便利还是掌控
- 每天 50 张以上图: 本地硬件在 2 到 3 个月内就能回本
专门对于 LoRA 训练这一面,除非你有 24GB 显存,否则我总是推荐云端算力。在一张 12GB 的卡上训练是可行的,但慢得让人痛苦,而当你在试验训练参数时,迭代速度很重要。
常见问题
2026 年真实 AI 女友照片的最佳模型是什么?
FLUX 2 Dev 是我对照片写实的首推。它在肤质、光照交互和自然表情上比任何其他公开可用的模型处理得都好。如果你愿意以速度为代价换取更高的质量,而且能通过某个 API 服务商获得使用权限,那么 FLUX 2 Pro 值得一试。
一个一致面孔的 LoRA 需要多少张训练图像?
我发现 15 到 25 张是甜蜜点。低于 15 张,你就没有足够的多样性让模型学到面孔里什么是一致的、什么是偶然的。高于 25 张,你就开始遇到收益递减。确保你的图像覆盖多个角度、光照条件和表情。
不训练 LoRA 我能获得角色一致性吗?
可以,但一致性会更低。单凭 IPAdapter 配一张强参考图能让你达到大约 75% 到 85% 的面孔一致性。在 IPAdapter 之上再加 InstantID 能把它推到约 85% 到 90%。但要在数百张图像间达到 90% 以上的可靠性,LoRA 训练依然是最可靠的方法。
为什么我的 AI 照片看起来"过分完美"且明显是假的?
你很可能用了过高的 CFG/引导系数,为追求美貌过度堆砌提示词,并且没在提示词里加入瑕疵线索。在 FLUX 上把引导降到 2.5 到 3.5,加入自然肤质关键词,包含环境瑕疵,并使用相机专属的技术术语来触发摄影式渲染而非插画式渲染。
在 AI 女友照片里我该如何处理手?
手仍然是 AI 图像生成的阿喀琉斯之踵,不过 FLUX 2 处理它们比早期模型好得多。我的做法有三方面。第一,构图时让手不成为焦点。第二,当手必须可见时,使用带有清晰、自然手部姿势的 IPAdapter 参考图。第三,对任何手看起来不对的图像,重新生成或用局部重绘只修手部区域。
为了最佳面孔细节我该用什么分辨率生成?
在 FLUX 2 上,人像方向用 1024x1360 生成,横向用 1360x1024。这些是产出最佳面孔细节而不出瑕疵的原生高分辨率目标。比这更高往往会引入怪异的拼接瑕疵。如果你需要更大的成片,就以这些尺寸生成,然后用 Real-ESRGAN 这样的专用放大工具放大。
我如何让不同的服装在同一个角色身上看起来自然?
使用我上面描述的锚定图像系统。保留你角色在不同光照语境下的 3 到 5 张参考图,并把锚定图与你正在生成的场景相匹配。如果某件特定服装导致面孔漂移,就把你的 LoRA 权重增加 0.1 到 0.15 来补偿。
有可能生成看起来像真人社交媒体的整套照片集吗?
绝对可以,而这正是本指南中的技术真正发光的地方。关键在于多样性。把华丽美照和平淡照片混在一起。包含一天中不同的时段、室内和室外环境、独照和有暗示性社交情境的照片。锚定图像系统加上提示词模板让这一切可以系统化地实现。我经常生成 30 到 50 张的照片集,并保持一致的身份。
从零开始整套配置要花多久?
如果你从零起步,第一个角色预计要花大约 4 到 6 小时。拆开来大约是 1 小时学习基础,1 到 2 小时生成并筛选你最初的参考图集,1 到 2 小时训练一个 LoRA,再用 30 分钟到一小时设置你的提示词模板和锚定图像。在那次初始配置之后,生成新图像就很快了,通常每张最终选定的图不到一分钟。
这些技术也能用于视频内容吗?
面孔一致性技术(LoRA、锚定图像)能直接迁移到用 Kling 和 Runway Gen-3 这样的模型做的 AI 视频生成。主要区别在于视频增加了时间一致性这另一个你需要管理的维度。但你为照片生成打下的基础给了你一个巨大的起跑优势。不过那是另一篇完整的文章了。
结语
AI 女友照片生成在过去一年里进步惊人。FLUX 2 用于照片级渲染、LoRA 训练用于面孔身份、IPAdapter 用于灵活摆姿、再加上为写实精心设计的提示词工程,这一组合让创造出真正难以与真实摄影区分的角色照片成为可能。
我从这一切中学到的最大一课是,写实不是关于技术上的完美。它关乎不完美。真实照片有瑕疵。真实的人有不对称的五官。真实的相机会产出颗粒、焦外虚化和镜头像差。你越是拥抱这些不完美,你的结果就越有说服力。
从 FLUX 2 开始,训练一个扎实的 LoRA,构建你的锚定图像系统,并开发出像摄影师而非提示词工程师那样思考的提示词模板。允许自己去生成大量图像,然后狠心筛选到最好的那几张。这就是流程。它不是魔法,也不是瞬间见效,但结果会替自己说话。
如果你觉得这份指南有帮助,并且想探索 AI 伴侣的性格和互动那一面(不只是视觉那一面),看看我的指南 AI 女友定制 和 用 Stable Diffusion 创建 AI 女友角色。本文中的视觉一致性技术,与那里涵盖的角色塑造方法配合得天衣无缝。
准备好创建你的AI网红了吗?
加入115名学生,在我们完整的51节课程中掌握ComfyUI和AI网红营销。
相关文章
2026年无限制AI图像生成器:你真正需要了解的内容
关于无限制AI图像生成器的诚实指南。什么可用、什么合法、以及如何负责任地用于创意工作。
2026 年最佳 AI 老婆生成器:打造完美一致的动漫角色
2026 年最佳 AI 老婆生成器完整指南。学习如何使用 AnimagineXL、NovelAI、Pony Diffusion、FLUX 动漫 LoRA 和 IPAdapter 工作流创建一致的动漫角色。
2026 年 Chroma 与 Flux Dev 的 NSFW 生成对比
Chroma 是无审查版的 Flux。Flux Dev 需要 LoRA。我们用相同的 NSFW 提示词在写实和动漫风格下对两者做了测试,比拼质量、速度和授权许可。