AI 여자친구 사진 생성: 진짜처럼 보이는 일관된 캐릭터 만들기
FLUX 2, LoRA 학습, IPAdapter, 프롬프트 엔지니어링으로 얼굴이 일관된 포토리얼리스틱 AI 여자친구 사진을 만드는 방법을 배워보세요. 완벽한 2026년 가이드입니다.
솔직하게 말씀드릴게요. AI 여자친구 사진 생성에서 가장 어려운 부분은 예쁜 이미지 한 장을 뽑는 게 아니에요. 그건 어떤 모델이든 할 수 있어요. 진짜 어려운 건 두 번째 이미지가 첫 번째 이미지와 같은 사람처럼 보이게 만드는 거예요. 그리고 세 번째도. 그리고 마흔 번째도요. 저는 2025년 후반에 거의 석 달을 이 문제를 풀려고 매달렸고, 그 과정에서 알게 된 건 대부분의 사람들이 완전히 잘못된 방식으로 접근하고 있다는 거였어요.
빠른 답변: 일관되고 포토리얼리스틱한 AI 여자친구 사진을 생성하려면, 사실감을 위해 FLUX 2를 베이스 모델로 사용하고, 얼굴 정체성을 위해 엄선한 15~25장의 레퍼런스 이미지로 LoRA를 학습시키고, 포즈와 장면 변화를 위해 그 위에 IPAdapter를 얹고, 사실적인 조명, 배경, 의상을 위한 프롬프트 엔지니어링을 익히세요. 이 조합을 제대로 해내면 수백 번의 생성에 걸쳐 90% 이상의 얼굴 일관성을 얻을 수 있어요.
- FLUX 2는 현재 포토리얼리스틱한 AI 여자친구 사진에 가장 좋은 모델이며, 자연스러운 피부 질감과 조명 면에서 SDXL과 Midjourney를 모두 능가해요
- 15~25장의 레퍼런스 이미지로 LoRA를 학습하면 가장 강력한 얼굴 정체성 고정이 가능하고, 약 90~95%의 일관성을 얻어요
- IPAdapter는 얼굴 정체성을 잃지 않으면서 포즈와 장면을 바꿀 수 있게 해주지만, 최상의 결과를 위해 가중치를 0.8에서 0.9 사이로 유지하세요
- 사실감을 위한 프롬프트 엔지니어링은 프롬프트 엔지니어가 아니라 사진작가처럼 생각하는 것을 의미해요
- LoRA에 IPAdapter, 그리고 세심한 프롬프트를 결합하는 것이 AI로 생성한 사진을 진짜와 구분하기 정말 어렵게 만드는 "성스러운 삼위일체"예요
왜 대부분의 AI 여자친구 사진은 가짜처럼 보일까요?
어떻게 고칠지 이야기하기 전에, 왜 대부분의 AI 여자친구 사진이 사실감 테스트를 통과하지 못하는지부터 짚어볼게요. 어디서나 똑같은 실수가 보이고, 솔직히 저도 처음 시작할 때 그 실수들을 다 했어요.
가장 큰 문제는 제가 "뷰티 필터 효과"라고 부르는 거예요. 사람들이 미적 설정을 잔뜩 올리고, 초매끈한 피부 프롬프트를 쓰다 보니, 인스타그램 필터를 여섯 번 거친 것 같은 이미지가 나와요. 진짜 사람은 모공이 있고, 이목구비에 미묘한 비대칭이 있고, 결점이 있어요. AI 캐릭터의 피부가 마네킹보다 매끈하면, 눈 달린 사람이라면 누구나 "생성된 거네"라고 알아채요.
두 번째 문제는 조명이에요. 대부분의 사람들은 조명을 전혀 생각하지 않아요. "카페에 있는 아름다운 여성" 같은 프롬프트를 쓰고는 조명은 모델이 알아서 하게 둬요. 그러면 모델은 실제 사진에는 존재하지 않는 균일하고 그림자 없는 조명을 기본값으로 내놓아요. 진짜 사진에는 방향성 있는 빛이 있어요. 턱 아래에 그림자가 있고 광대뼈에 하이라이트가 있어요. 근처 램프에서 나오는 따뜻한 주황빛이 돌거나, 창문에서 들어오는 차가운 푸른 색조가 있어요.
세 번째 불만이 있는데, 이건 좀 개인적이에요. 바로 배경이에요. 저는 초반에 캐릭터는 멋있게 나왔는데 어수선함도, 깊이감도, 현실의 지저분함도 없는 이상하게 말끔한 배경 앞에 서 있는 이미지를 만드는 데 2주를 썼어요. 진짜 사진은 진짜 장소에서 찍혀요. 테이블 위의 커피잔은 살짝 중심에서 벗어나 있어요. 배경에는 지나가는 낯선 사람이 흐릿하게 보여요. 식탁보에는 주름이 잡혀 있어요. 이런 사소한 디테일이 사실감을 만들어줘요.
왼쪽: 매끈한 피부와 평면적인 조명을 가진 전형적인 과도하게 가공된 AI 결과물. 오른쪽: 자연스러운 질감, 방향성 있는 조명, 환경 디테일을 갖춰 제대로 생성된 사진.
왜 FLUX 2가 사실적인 AI 사진에 가장 좋은 선택일까요?
저는 이 용도로 거의 모든 주요 모델을 테스트해봤어요. Stable Diffusion XL, Midjourney v6, DALL-E 3, 여러 FLUX 변형들까지요. 대략 2,000번의 테스트 생성을 돌려본 끝에 내린 결론은, FLUX 2가 캐릭터 작업에서 가장 자연스럽게 포토리얼리스틱한 결과물을 만들어낸다는 거예요.

그 이유는 FLUX가 피부 질감과 빛의 상호작용을 다루는 방식에 있어요. SDXL은 (포토리얼리스틱 체크포인트를 써도) 약간 회화적인 피부를 만들어내는 경향이 있는 반면, FLUX 2는 모공, 가는 솜털, 피부 표면 아래 산란을 그냥 딱 맞게 느껴지는 방식으로 렌더링해요. 이 모델은 실제 사진의 방대한 데이터셋으로 학습되었고, 그게 티가 나요. 빛이 얼굴을 제대로 감싸요. 그림자가 있어야 할 자리에 떨어져요. 피부는 특정 조명 조건에서 실제 피부가 가지는 그 반투명한 질감을 갖고 있어요.
여기서 도발적인 의견 하나. 평균적으로 Midjourney v6가 더 "매력적인" 이미지를 만든다고 생각해요. 하지만 FLUX 2는 더 "진짜처럼 보이는" 이미지를 만들어요. 그리고 AI 여자친구 사진 생성에 한해서는, 잡지 표지처럼 예쁜 것보다 진짜처럼 보이는 게 더 중요해요. 사람들이 소셜미디어에서 AI 캐릭터를 팔로우하는 건, 어느 정도는 이 사람이 실제로 존재할 수 있다고 믿기 때문이에요. Midjourney의 결과물은 화려하지만 종종 의심을 불러일으키는 미묘한 비현실적 완벽함을 갖고 있어요.
여기 캐릭터 사진을 위한 제 실제 작업용 FLUX 2 설정이에요. 문서의 기본값은 이 용도에 좋지 않으니 알려드리지 않을게요.
- 모델: FLUX 2 Dev (Schnell이 아니에요, 얼굴에서는 품질 차이가 상당해요)
- 해상도: 인물 샷은 1024x1360, 풍경 장면은 1360x1024
- 가이던스 스케일: 3.0에서 3.5 (대부분의 사람들이 쓰는 것보다 낮지만, 이래야 자연스러움이 유지돼요)
- 스텝: 28에서 35 (기본값보다 많지만, 얼굴 디테일 개선이 추가 시간을 들일 가치가 있어요)
- 샘플러: Euler, normal 스케줄러와 함께
설정 자체를 건너뛰고 싶다면, Lewdly.ai 같은 도구를 쓰면 이런 걸 직접 구성하지 않고도 FLUX 워크플로를 돌릴 수 있어요. 솔직히 말하면 제가 이 플랫폼 구축을 도왔지만, 로컬 장비를 켜기 싫을 때 빠른 생성을 위해 진짜로 써요.
얼굴 일관성을 위한 LoRA 학습: 기초
여기서 대부분의 사람들이 포기하거나 잘못 해요. LoRA 학습은 사진들에 걸쳐 일관된 AI 캐릭터를 유지하는 데 단연코 가장 영향력 있는 기법이고, 비교 자체가 안 돼요. Stable Diffusion으로 AI 여자친구 만들기 워크플로에 관한 제 가이드를 읽으셨다면, 제가 LoRA의 열렬한 팬이라는 걸 아실 거예요. 하지만 얼굴 일관성을 위해 특별히 하나를 학습하는 건 일반적인 스타일 LoRA와는 다른 게임이에요.
레퍼런스 데이터셋 구축하기
LoRA의 품질은 전적으로 학습 이미지의 품질에 달려 있어요. 저는 이걸 호되게 배웠어요. 첫 LoRA 학습 시도에서는 기본적으로 같은 각도와 조명인 40장의 이미지를 썼는데, 결과물은 그 한 가지 특정 세팅에서만 제대로 보이는 캐릭터였어요. 각도를 30도만 바꿔도 얼굴이 무너졌어요.
얼굴 일관성을 위한 좋은 학습 세트는 이런 모습이에요.
- 15~25장의 이미지 (10장도 아니고 50장도 아니에요, 테스트를 통해 찾은 이 범위가 최적점이에요)
- 여러 각도: 정면, 좌측 3/4, 우측 3/4, 약간의 측면, 위를 봄, 아래를 봄
- 여러 조명 조건: 자연광, 실내 따뜻한 빛, 차가운 그림자, 흐린 날
- 모든 이미지에 걸친 일관된 정체성: 처음부터 만든다면, FLUX로 기본 세트를 생성하고 서로 가장 닮아 보이는 것들을 골라요
- 표정의 다양성: 무표정, 살짝 미소, 웃음, 진지함, 생각하는 표정
- 학습에는 깔끔한 배경 선호 (나중에 복잡한 장면에 넣을 수 있어요)
제가 자주 받는 질문은 "아직 레퍼런스 이미지가 없으면 어떻게 하죠?"예요. 이게 바로 닭이 먼저냐 달걀이 먼저냐 하는 문제예요. 제가 쓰는 해법은 아주 상세한 얼굴 묘사 프롬프트로 FLUX를 써서 약 100장을 생성하고, 서로 가장 일관되어 보이는 15~25장을 추려낸 다음, 그것들로 LoRA를 학습하는 거예요. 첫 배치는 완벽하지 않겠지만, LoRA가 그 이미지들이 공유하는 공통점을 고정해주고, 두 번째 세대의 결과물은 훨씬 더 일관성이 높아져요.
실제로 통하는 학습 설정
저는 학습 설정을 헤아릴 수 없을 만큼 여러 번 이리저리 바꿔봤어요. 지난 한 해 동안 약 30~40개의 캐릭터 LoRA를 학습한 끝에 정착한 값들이에요.
- 학습률: 1e-4 (표준이에요, 다만 학습 중 얼굴이 "표류"하기 시작하는 게 보이면 5e-5로 낮춰요)
- 학습 스텝: FLUX LoRA의 경우 1500에서 2500 (많을수록 좋은 게 아니에요, 과적합돼요)
- 랭크: 32 (예전엔 16을 썼는데, 32가 파일을 부풀리지 않으면서 더 많은 얼굴 디테일을 잡아요)
- 배치 크기: VRAM에 따라 1 또는 2
- 정규화 이미지: 선택사항이지만, 다양한 얼굴 이미지 100~200장을 정규화용으로 쓰면 모델이 다른 사람을 그리는 법을 "잊어버리는" 것을 막아준다는 걸 알았어요
학습 과정은 24GB GPU에서 약 12시간이 걸려요. 클라우드 컴퓨팅을 쓴다면, 제공업체에 따라 학습 1회당 대략 25달러를 쓸 거라고 예상하세요.
얼굴을 위한 LoRA 학습에 대해 아무도 말해주지 않는 한 가지. 캡션 품질이 학습 설정보다 더 중요해요. 캡션이 일반적이면 ("방에 서 있는 여성"), LoRA는 캐릭터의 얼굴을 고유하게 만드는 것과 그냥 장면 특유의 노이즈를 구분하지 못해요. 저는 학습 이미지에 극도로 구체적인 얼굴 묘사로 캡션을 달아요. "높은 광대뼈, 살짝 들린 코, 깊게 자리한 초록 눈, 가늘고 아치형인 눈썹, 하트형 얼굴, 도톰한 아랫입술을 가진 여성" 같은 식으로요. 얼굴 특징을 더 정밀하게 묘사할수록, LoRA가 그것들을 분리해서 재현하는 법을 더 잘 배워요.
IPAdapter는 포즈와 장면 변화에 어떻게 도움이 될까요?
얼굴 정체성을 위한 LoRA를 고정해두면, IPAdapter는 다양성을 만드는 데 가장 든든한 친구가 돼요. 이유는 이래요. LoRA는 얼굴이 일관되게 유지되도록 보장하지만, 포즈, 구도, 장면 상호작용은 제어하지 못해요. 바로 거기서 IPAdapter가 등장해요. 레퍼런스 이미지를 받아서 결과물의 전체 구도와 스타일을 안내하는 데 써요.
저는 이렇게 생각해요. LoRA는 배우예요. IPAdapter는 배우에게 어디 서고 어떻게 화면을 잡을지 알려주는 감독이에요. 둘이 함께라면 강력해요.
ComfyUI에서의 설정은 대략 이런 식이에요. FLUX 모델을 로드하고, 캐릭터 LoRA를 적용한 다음, 레퍼런스 이미지를 입력으로 받는 IPAdapter 노드를 연결해요. 레퍼런스 이미지가 캐릭터 본인일 필요는 없어요. 원하는 포즈, 조명, 구도를 보여주는 실제 사진이면 되고, LoRA가 얼굴을 일관되게 유지하는 동안 IPAdapter가 나머지를 다 처리해요.
IPAdapter 가중치 설정 (이게 생각보다 더 중요해요)
처음 IPAdapter를 캐릭터 작업에 쓰기 시작했을 때가 기억나요. 가중치를 기본값인 0.7에 그대로 두고는 왜 결과가 그저 그런지 알 수가 없었어요. 얼굴이 레퍼런스와 어느 정도 맞기도 했지만 어느 정도 안 맞기도 했어요. 같은 사람이 아니라 친척을 보는 느낌이었어요.
시행착오 끝에, 얼굴 중심의 IPAdapter 작업에는 0.8에서 0.9가 최적점이라는 걸 알아냈어요. 0.8 아래로 가면 레퍼런스의 영향이 너무 약하고요. 0.9 위로 가면 장면과 포즈를 바꿀 수 있는 능력을 잃기 시작해서, 결과물이 레퍼런스 이미지의 거의 복사본이 되어버려요. 그러면 의미가 없어지죠.
실제로 서로 다른 가중치 값이 무엇을 만들어내는지 정리하면 이래요.
- 0.5에서 0.7: 전반적인 스타일과 구도 전이, 얼굴 일관성은 낮음
- 0.7에서 0.8: 적당한 얼굴 일관성, 느슨한 스타일 매칭에 좋음
- 0.8에서 0.9: 강한 얼굴 일관성, 제가 캐릭터 작업에서 운용하는 구간
- 0.9에서 1.0: 레퍼런스의 거의 복사본, 장면 변화 여지가 거의 없음
여자친구 사진을 넘어 캐릭터 일관성 문제를 더 깊이 파고들고 싶은 독자라면, AI 일관 캐릭터 생성기 기법에 관한 제 가이드가 더 폭넓은 도구와 접근법의 지형을 다뤄요.
0.6부터 0.95까지의 IPAdapter 가중치 비교. 0.85가 얼굴 일관성과 장면 유연성의 가장 좋은 균형을 제공하는 것에 주목하세요.
포토리얼리스틱한 AI 여자친구 사진을 위한 프롬프트 엔지니어링
솔직히 이게 아마추어 결과와 프로 결과를 가르는 부분이에요. 모델과 LoRA가 완벽해도, 나쁜 프롬프트는 여전히 나쁜 사진을 만들어요. 그리고 세상에 떠도는 프롬프트 조언 대부분은 사실감에는 형편없어요. 판타지 아트나 애니메이션 생성을 위해 쓰인 것이기 때문이에요.
작가가 아니라 사진작가처럼 생각하세요
프롬프트 엔지니어링에서 제가 만든 가장 유용한 사고 전환은 묘사를 쓰는 걸 멈추고 사진 촬영 브리프를 쓰기 시작하는 거였어요. 진짜 사진작가는 초점 거리, 조리개, 조명 방향, 색온도의 관점에서 생각해요. 여러분의 프롬프트도 그래야 해요.
"카페에서 미소 짓는 아름다운 여성" 대신, 사진작가가 실제로 무엇을 포착할지 생각해보세요.
나쁜 프롬프트: "갈색 머리의 아름다운 여성이 카페에 앉아 미소 짓고 있음, 포토리얼리스틱, 고품질, 8k"
좋은 프롬프트: "붐비는 카페의 창가 테이블에 앉은 여성의 자연스러운 사진, 왼쪽에서 들어오는 아침 빛, 다른 손님들이 보이는 부드러운 보케 배경, 카메라를 약간 비껴 보며 막 웃는 중, 캐주얼한 니트 스웨터 착용, 85mm f/1.8로 촬영, 따뜻한 색온도, 도자기 커피잔을 향해 손을 뻗는 동작에 약간의 모션 블러"
차이가 보이시나요? 두 번째 프롬프트는 광원, 피사계 심도, 카메라 렌즈, 분위기, 결점(모션 블러, 정면이 아니라 카메라를 비껴 봄), 그리고 사진을 진짜처럼 느끼게 하는 환경 디테일을 모델에게 알려줘요.
무료 ComfyUI 워크플로우
이 글의 기술에 대한 무료 오픈소스 ComfyUI 워크플로우를 찾아보세요. 오픈소스는 강력합니다.
안티 AI 프롬프트 요령
지난 한 해 동안, 저는 전형적인 "AI 느낌"을 상쇄하기 위해 특별히 설계된 일련의 프롬프트 문구를 개발했어요. 저는 이것들을 안티 AI 프롬프트 추가구라고 부르고, 모든 생성에 살짝씩 뿌려요.
- "detailed background" 대신 "slightly out of focus background"
- 매끈해지는 효과에 맞서기 위한 "natural skin texture with visible pores"
- 사실감을 위한 "imperfect lighting" 또는 "mixed color temperature lighting"
- 피사체를 중앙에 두려는 모델의 경향을 깨기 위한 "casual composition, not centered"
- 사진적 렌더링을 유도하기 위한 "shot on [특정 카메라/렌즈]" (85mm f/1.4가 제 단골이에요)
- 그 아날로그 사진 느낌을 위한 "grain, film texture"
- 얼굴 사실감을 위한 "one eye slightly squinted" 또는 "asymmetrical smile"
저는 또한 AI 사진을 가짜처럼 보이게 하는 것들을 억제하기 위해 네거티브 프롬프트를 적극적으로 써요. "Smooth skin, porcelain skin, perfect symmetry, centered composition, studio lighting, airbrushed, digital art, illustration, drawing"이 전부 제 네거티브 프롬프트에 들어가요.
프롬프트 템플릿 시스템 구축하기
수천 장의 이미지를 생성하고 나니, 매번 프롬프트를 처음부터 쓰는 게 지겨워졌어요. 그래서 템플릿 시스템을 만들었어요. 이게 제 생성 시간을 대략 절반으로 줄였고 결과물을 더 일관되게 만들어줬어요.
제 템플릿 구조는 이런 모습이에요.
[캐릭터 정체성 트리거 단어] + [의상 묘사] + [활동/포즈] + [구체적 디테일을 갖춘 장소] + [조명 설정] + [카메라 기술 세부사항] + [분위기/무드]
예를 들어. "v_sarah, wearing a dark green utility jacket and white t-shirt, leaning against a weathered brick wall checking her phone, urban alley with graffiti and puddles from recent rain, late afternoon golden hour light from the right casting long shadows, shot on Sony A7III 50mm f/1.4, moody atmospheric"
트리거 단어 "v_sarah"가 제 LoRA를 활성화해요. 나머지 전부는 구도와 사실감을 안내해요. 저는 카페 장면, 야외 산책, 헬스장 샷, 해변 배경, 밤 외출 장면, 집/캐주얼 배경 등 다양한 시나리오에 맞춰 이런 템플릿을 약 20개 저장해뒀어요.
어떤 설정이 가장 사실적인 피부와 조명을 만들까요?
여기서는 정말 구체적으로 들어갈게요. 기본값이 포토리얼리즘에 진짜로 형편없기 때문이에요. 이 설정들을 알아내기 전까지 저는 그럭저럭한 결과를 얻는 데 몇 주를 낭비했고, 여러분이 그 경험을 반복하지 않으셨으면 해요.

CFG 스케일과 그것이 사실감에 미치는 영향
대부분의 튜토리얼은 "고품질" 이미지를 위해 CFG를 7이나 8로 쓰라고 해요. FLUX 2에 한해서는, 그건 사실적인 사진에 너무 높아요. 높은 CFG는 모델이 프롬프트를 더 공격적으로 따르게 하지만, 채도를 높이고, 가장자리를 부자연스럽게 날카롭게 하고, 그 "너무 완벽한" 느낌을 만들어내요.
FLUX 2에서 포토리얼리스틱한 AI 여자친구 사진을 위해, 저는 가이던스 스케일을 2.5에서 3.5로 써요. 맞아요, 대부분이 권장하는 것보다 낮아요. 그리고 맞아요, 그게 큰 차이를 만들어요. 색이 더 차분하고 자연스러워져요. 조명이 더 부드러워져요. 피부가 에어브러시한 플라스틱이 아니라 실제 피부처럼 보여요.
서로 다른 느낌을 위한 간단한 참고 자료예요.
- 2.0에서 2.5: 매우 자연스럽고 거의 필름 같음. 자연스러운 스냅샷과 다큐멘터리 스타일 사진에 좋음
- 2.5에서 3.5: 최적 구간. 깔끔하면서도 사실적. 제가 대부분의 시간을 보내는 곳
- 3.5에서 5.0: "가공된" 느낌이 나기 시작. 증명사진이나 전문 사진에는 괜찮음
- 5.0 이상: 과채도에 사실감에는 너무 날카로움. 상업 사진 스타일에는 통하지만 대부분이 원하는 자연스러운 느낌에는 안 맞음
마지막 손질을 위한 후보정
솔직히 말할게요. 완벽한 생성 설정으로도, 저는 여전히 약 70%의 이미지에 가벼운 후보정을 해요. 무거운 편집이 아니라, "훌륭한 AI 사진"과 "잠깐, 이거 진짜 사람인가?" 사이의 간극을 메우는 미묘한 손질이에요.
제 후보정 워크플로는 이미지 한 장당 약 30초가 걸려요.
- 구도가 덜 "AI 중앙 정렬"처럼 느껴지게 만드는 약간의 크롭 조정
- 카메라 센서 노이즈를 흉내 내기 위한 2~3% 그레인 추가
- 미세한 색온도 이동 (보통 100~200K 정도 따뜻하게)
- 3장 중 2장에 아주 미묘한 비네팅
- 진짜 카메라가 밝은 영역을 다루는 방식에 맞추기 위한 약간의 하이라이트 압축
이건 선택사항이지만 최대한의 사실감을 노린다면 권장해요. Lightroom이나 Darktable 같은 무료 대안 도구가 이걸 빠르게 처리해요. 생성 파이프라인에 Lewdly.ai를 쓴다면, 이런 조정 중 일부를 워크플로 자체에 구워 넣을 수 있어서, 대량으로 콘텐츠를 만들 때 시간을 절약해줘요.
서로 다른 의상과 장면에 걸쳐 일관성을 어떻게 유지하나요?
이게 제 DM에 계속 올라오는 질문이고, 솔직히 대부분의 사람들이 가장 어려워하는 부분이에요. 캐주얼한 의상에서 멋지게 보이는 캐릭터가 있어요. 이제 그녀를 식당에서 정장 드레스 차림으로 만들어야 해요. 그리고 헬스장에서 운동복 차림으로도요. 그런데 이 모든 시나리오에 걸쳐 같은 사람처럼 보여야 해요.
복잡함을 건너뛰고 싶으신가요? Lewdly 는 기술적 설정 없이 즉시 전문 AI 결과를 제공합니다.
문제는 LoRA와 IPAdapter가 특정 특징을 특정 맥락과 연관시키는 경향이 있다는 거예요. 학습 이미지 대부분이 캐릭터를 자연광 아래 캐주얼한 옷차림으로 보여줬다면, 극적으로 다른 맥락을 프롬프트할 때 모델이 얼굴을 미묘하게 바꿀 수 있어요. 저는 이게 수십 번 일어나는 걸 봤어요. 같은 LoRA, 같은 트리거 단어인데, "식당 버전"이 "해변 버전"과 약간 다른 광대뼈를 가지고 있어요.
제 해법은 이거고, 몇 달간의 테스트의 결과예요.
앵커 이미지 시스템
저는 서로 다른 맥락을 위한 IPAdapter 레퍼런스 역할을 하는 캐릭터의 "앵커 이미지"를 서너 장에서 다섯 장 보관해요. 각 앵커 이미지는 특정 배경 유형에서의 캐릭터를 보여주되, 얼굴이 명확히 보이는 중립적이고 알아보기 쉬운 각도에서 보여줘요.
- 앵커 1: 클로즈업 인물 사진, 무표정, 부드러운 조명 (이게 "정체성 리셋" 이미지예요)
- 앵커 2: 전신 캐주얼 장면, 자연광
- 앵커 3: 따뜻한 인공 조명의 실내 배경
- 앵커 4: 밝은 조명의 활동적/야외 장면
- 앵커 5: 극적인 조명의 저녁/무드 있는 장면
헬스장 장면을 생성할 때는 앵커 4를 써요. 저녁 데이트 장면을 생성할 때는 앵커 3을 써요. LoRA가 얼굴 정체성을 처리하는 동안 맥락에 맞는 앵커 이미지가 IPAdapter를 안내해서 그 특정 배경에 자연스러워 보이는 결과를 만들어내요.
특정 맥락에서 얼굴이 표류하기 시작하면, 앵커 1(정체성 리셋 클로즈업)을 0.9에서 0.95의 더 높은 IPAdapter 가중치로 다시 생성한 다음, 그 결과물을 새로운 맥락별 앵커로 써요. 이 과정은 약 10분이 걸리지만 일관성 기준선을 재설정해줘요.
얼굴을 망가뜨리지 않는 의상 프롬프트
아무도 말해주지 않는 게 하나 있어요. 특정 의상 묘사는 다른 것들보다 얼굴 생성을 더 방해해요. 기술적으로 왜 이런 일이 일어나는지는 전혀 모르겠지만, 충분히 일관되게 봐와서 그것에 대한 규칙을 세웠어요.
저간섭 의상 프롬프트 (얼굴 일관성에 안전):
- 캐주얼 티셔츠, 스웨터, 청바지, 운동화
- 화려한 패턴 없는 심플한 드레스
- 운동복, 후드티
고간섭 의상 프롬프트 (얼굴 일관성을 주의하세요):
- 얼굴 근처의 화려한 장신구 (귀걸이, 목걸이)
- 모자, 헤어밴드, 머리 액세서리
- 선글라스 (당연하죠)
- 얼굴을 다르게 감싸는 하이넥 의류
- 코스튬이나 디테일이 많은 정장
"고간섭" 의상을 써야 할 때는, LoRA 가중치를 0.1에서 0.15 올리고 IPAdapter용으로 더 타이트한 얼굴 크롭 앵커 이미지를 써서 보완해요. 완벽하진 않지만 도움이 돼요.
시각적인 측면을 넘어선 커스터마이징 기법을 더 깊이 보고 싶다면, 외모 설정과 함께 성격과 상호작용 측면을 다루는 완전한 AI 여자친구 커스터마이징 가이드를 확인해보세요.
LoRA에 IPAdapter 앵커 시스템을 사용해 생성한, 다섯 가지 서로 다른 의상과 배경에 걸친 동일한 AI 캐릭터. 극적인 맥락 변화에도 얼굴 정체성이 안정적으로 유지됨.
흔한 실수와 해결 방법
저는 디스코드 커뮤니티에서 사람들의 AI 캐릭터 생성을 1년 넘게 도와왔는데, 같은 실수가 계속해서 반복되는 걸 봐요. 시간을 좀 아껴드릴게요.
실수 1. 미모를 위한 과도한 프롬프트
사람들이 "beautiful, gorgeous, stunning, attractive, pretty"를 한 프롬프트에 다 써요. 이건 모델을 이상화되고 일반적인 얼굴 쪽으로 밀어붙여서, 실제 사람보다는 학습 데이터에 있는 모든 "아름다운" 얼굴의 합성물처럼 보이게 만들어요. 미모 관련 단어는 최대 하나만 고르거나, 더 좋게는 구체적인 특징을 대신 묘사하세요.
실수 2. 해상도와 종횡비 무시하기
512x512이나 심지어 768x768으로 생성하고 나서 업스케일하는 건 이상한 얼굴 아티팩트를 부르는 지름길이에요. 처음부터 네이티브 고해상도(FLUX에서 인물은 1024x1360)로 생성하세요. 더 높은 네이티브 해상도에서의 얼굴 디테일은 저해상도 생성물을 업스케일한 것보다 훨씬 좋아요.
콘텐츠 제작으로 월 $1,250+ 벌기
독점 크리에이터 제휴 프로그램에 참여하세요. 바이럴 동영상 성과에 따라 수익을 받으세요. 완전한 창작 자유로 자신만의 스타일로 콘텐츠를 만드세요.
실수 3. 모든 이미지에 같은 포즈 쓰기
이건 콘텐츠가 AI로 생성되었다는 확실한 증거예요. 모든 사진이 캐릭터를 비슷한 3/4 시점에서 카메라를 향한 모습으로 보여준다면, 실제 사람의 사진 피드가 아니라 캐릭터 선택 화면처럼 보여요. 진짜 사람은 자연스러운 순간에, 다양한 각도에서, 때로는 부분적으로 가려진 채로, 때로는 동작 중에 찍혀요. 다양한 레퍼런스 포즈 이미지로 IPAdapter를 써서 기본 포즈의 틀에서 벗어나세요.
실수 4. 결과물을 선별하지 않기
저는 실제로 쓰는 한 장마다 약 812장을 생성해요. 그건 실패의 신호가 아니에요. 그게 제작 과정이에요. 전문 사진작가조차 한 세션에 수백 장을 찍고 최종 이미지는 2030장만 전달해요. 선별에는 무자비하세요. 미묘한 얼굴 불일치, 이상한 손 아티팩트, 부자연스러운 표정이 있는 건 뭐든 지우세요. 언제나 양보다 질이에요.
실수 5. "평범한" 사진을 소홀히 하기
가장 믿을 만한 AI 캐릭터 계정은 화보 같은 사진으로 가득 차 있지 않아요. 마트 셀카, 어수선한 침실 거울 사진, 흐릿한 콘서트 샷, 피곤한 아침 커피 사진이 있어요. 이런 "지루한" 이미지들이 사실 가장 위조하기 어렵고, 제대로 했을 때 가장 설득력이 있어요. 저는 제 생성물의 약 30~40%를 이런 평범하고 화려하지 않은 시나리오에 할애해요.
제작 워크플로: 저의 처음부터 끝까지의 과정
제 실제 제작 워크플로를 안내해드릴게요. 프로젝트나 테스트 목적으로 AI 여자친구 사진 한 배치를 생성하려고 자리에 앉을 때 하는 일이에요.
1단계. 세션 기획 (5분). 찍고 싶은 5~8개의 시나리오를 정해요. 각각에 대해 장소, 의상, 무드, 시간대를 담은 브리프를 써요. 실제 사진 촬영을 기획하는 것처럼 생각해요.
2단계. 앵커 이미지 선택 (2분). 3~5장의 앵커 세트에서 각 시나리오에 가장 적합한 앵커 이미지를 골라요.
3단계. 프롬프트 작성 (10분). 템플릿 시스템을 써서 프롬프트를 쓰고, 각 시나리오에 맞춰 디테일을 커스터마이징해요. 각 프롬프트에는 카메라 사양, 조명 묘사, 환경 디테일이 들어가요.
4단계. 배치 생성 (20~30분). 각 시나리오마다 8~12개의 변형을 생성해요. 로컬에서 돌리면 더 오래 걸려요. Lewdly.ai나 다른 클라우드 플랫폼을 쓰면, 이걸 병렬화해서 더 빨리 결과를 얻을 수 있어요.
5단계. 선별 (10분). 모든 결과물을 검토하고 각 시나리오에서 가장 좋은 1~2장을 선택해요. 앵커 이미지 대비 얼굴 일관성을 확인하고, 아티팩트가 있는지 살피고, 전체적인 느낌이 포토리얼리스틱한지 확인해요.
6단계. 가벼운 후보정 (5~10분). Lightroom에서 빠른 조정. 그레인, 약간의 색 보정, 크롭 손질.
최종 사진 5~8장 배치에 드는 총 시간. 약 50분에서 한 시간. 거기에는 설정, 생성, 선별, 후보정이 다 들어가 있어요. 연습하면 더 빨라질 거예요.
알아둘 만한 고급 기법
기초를 익히고 나면, 결과를 한층 더 끌어올릴 수 있는 몇 가지 고급 기법이 있어요.

클로즈업을 위한 Face Detailer / ADetailer
얼굴이 프레임의 약 25% 미만을 차지하는 이미지라면, 저는 그것을 face detailer 패스에 통과시켜요. 이건 얼굴 영역만 더 높은 해상도와 얼굴 전용 설정으로 다시 생성한 다음, 원본 이미지에 합성해서 되돌려놔요. 전신이나 중간 샷에서의 얼굴 디테일 개선은 극적이에요. 풀사이즈로 볼 이미지에는 이 단계가 협상 불가능하다고 생각해요.
일관된 노화와 표정 주름
사실감을 더해주는 미묘한 손질 하나. 진짜 사람은 웃을 때의 주름선, 눈밑 그림자, 미소 지을 때의 특정 주름 패턴 같은 일관된 얼굴 특징을 가지고 있어요. 캐릭터가 28세로 보여야 한다면, 표정 주름이 전혀 없는 완벽하게 매끈한 피부를 가져서는 안 돼요. 저는 나이에 맞는 미묘한 디테일을 프롬프트에 추가해요. "Faint smile lines, subtle under-eye shadow, natural forehead movement lines." 이런 디테일이 학습 캡션과 프롬프트 템플릿에 들어 있으면 생성물에 걸쳐 일관되게 유지돼요.
실제 사진 레퍼런스 사용하기
이게 제 비밀 무기인데 이걸 하는 사람이 충분히 많지 않은 것 같아요. 저는 생성하고 싶은 시나리오에 맞는 실제 사진을 찾으려고 사진 관련 서브레딧과 Pinterest를 둘러봐요. 베끼려는 게 아니라, 그 배경의 진짜 사진이 실제로 어떻게 생겼는지 이해하려는 거예요. 빛은 무엇을 하고 있나? 그림자는 어디 있나? 배경에는 뭐가 있나? 피사계 심도는 어떤가?
그런 다음 그 실제 사진들을 연구해서 그것들의 특질을 제 프롬프트로 옮겨요. 이 역설계 접근법은 어떤 기술적 설정 변경보다도 제 사실감을 더 많이 개선해줬어요.
클라우드 플랫폼을 써야 할까요, 로컬로 돌려야 할까요?
이건 여러분의 상황에 따라 다르고, 저는 이것에 대해 의견이 있어요.
도발적인 의견. AI 여자친구 사진 생성을 하는 대부분의 사람들에게 로컬 실행은 과대평가되어 있어요. 24GB 이상의 GPU가 있고 Python 환경과 CUDA 드라이버를 만지작거리는 걸 즐기지 않는 한, 실제로 이미지를 생성하는 것보다 설정을 디버깅하는 데 더 많은 시간을 쓰게 될 거예요. Lewdly.ai, Replicate, RunPod 같은 클라우드 플랫폼이 인프라를 처리해줘서 여러분은 창작 측면에 집중할 수 있어요.
그렇긴 하지만, 로컬 실행은 진지한 사용자에게 실질적인 이점이 있어요. 속도 제한 없음, 콘텐츠 정책 제한 없음(불법적인 걸 하지 않는다는 전제하에), 모든 파라미터에 대한 완전한 제어, 그리고 초기 하드웨어 투자 이후 이미지당 비용 없음. 하루에 50장 이상 생성한다면, 로컬 하드웨어의 경제성이 말이 되기 시작해요.
물량에 따른 제 추천은 이래요.
- 하루 20장 미만: 클라우드 플랫폼을 쓰세요. 로컬 설정의 골치를 감수할 가치가 없어요
- 하루 20~50장: 둘 다 괜찮아요. 편의성을 중시하느냐 제어를 중시하느냐에 달려 있어요
- 하루 50장 이상: 로컬 하드웨어가 2~3개월 안에 본전을 뽑아요
LoRA 학습 측면에 한해서는, 24GB VRAM이 있지 않은 한 저는 언제나 클라우드 컴퓨팅을 추천해요. 12GB 카드에서 학습하는 것도 가능하지만 고통스럽게 느리고, 학습 파라미터를 실험할 때는 반복 속도가 중요해요.
자주 묻는 질문
2026년 사실적인 AI 여자친구 사진에 가장 좋은 모델은 무엇인가요?
FLUX 2 Dev가 포토리얼리즘에 대한 제 최우선 추천이에요. 피부 질감, 조명 상호작용, 자연스러운 표정을 공개된 다른 어떤 모델보다 잘 다뤄요. 속도를 희생하더라도 더 높은 품질을 원한다면, API 제공업체를 통해 접근할 수 있을 경우 FLUX 2 Pro를 시도해볼 가치가 있어요.
일관된 얼굴 LoRA를 위해 학습 이미지가 몇 장 필요한가요?
저는 15~25장이 최적점이라는 걸 알았어요. 15장 아래면 모델이 얼굴에서 무엇이 일관된 것이고 무엇이 부수적인 것인지 배우기에 다양성이 충분하지 않아요. 25장 위면 수확 체감이 시작돼요. 이미지가 여러 각도, 조명 조건, 표정을 다루는지 확인하세요.
LoRA를 학습하지 않고도 캐릭터 일관성을 얻을 수 있나요?
네, 하지만 일관성은 더 낮을 거예요. 강한 레퍼런스 이미지와 함께 IPAdapter만 써도 약 7585%의 얼굴 일관성에 도달할 수 있어요. IPAdapter 위에 InstantID를 추가하면 약 8590%까지 끌어올려요. 하지만 수백 장의 이미지에 걸친 90% 이상의 신뢰성을 위해서는, LoRA 학습이 여전히 가장 믿을 만한 접근법이에요.
왜 제 AI 사진은 "너무 완벽"하고 명백히 가짜처럼 보이나요?
아마 CFG/가이던스 스케일을 너무 높게 쓰고, 미모를 위한 과도한 프롬프트를 쓰고, 프롬프트에 결점 단서를 넣지 않고 있을 거예요. FLUX에서 가이던스를 2.5에서 3.5로 낮추고, 자연스러운 피부 질감 키워드를 추가하고, 환경적 결점을 포함하고, 일러스트레이션 렌더링이 아니라 사진적 렌더링을 유도하기 위해 카메라 전용 기술 용어를 쓰세요.
AI 여자친구 사진에서 손을 어떻게 다루나요?
손은 여전히 AI 이미지 생성의 아킬레스건이에요. 다만 FLUX 2는 이전 모델들보다 훨씬 잘 다뤄요. 제 접근법은 세 갈래예요. 첫째, 손이 초점이 아닌 샷으로 구성하세요. 둘째, 손이 반드시 보여야 할 때는, 명확하고 자연스러운 손 포즈가 있는 IPAdapter 레퍼런스 이미지를 쓰세요. 셋째, 손이 잘못 보이는 이미지는 다시 생성하거나 인페인팅을 써서 손 영역만 고치세요.
가장 좋은 얼굴 디테일을 위해 어떤 해상도로 생성해야 하나요?
FLUX 2에서 인물 방향은 1024x1360, 풍경 방향은 1360x1024로 생성하세요. 이것들이 아티팩트 없이 가장 좋은 얼굴 디테일을 만드는 네이티브 고해상도 목표예요. 이보다 높이면 종종 이상한 타일링 아티팩트가 생겨요. 더 큰 최종 이미지가 필요하다면, 이 크기로 생성한 다음 Real-ESRGAN 같은 전용 업스케일러를 써서 업스케일하세요.
같은 캐릭터에게 서로 다른 의상을 자연스럽게 입히려면 어떻게 하나요?
위에서 설명한 앵커 이미지 시스템을 쓰세요. 서로 다른 조명 맥락의 캐릭터 레퍼런스 이미지 3~5장을 보관하고, 생성하는 장면에 앵커를 맞추세요. 특정 의상이 얼굴 표류를 일으킨다면, 보완하기 위해 LoRA 가중치를 0.1에서 0.15 올리세요.
실제 사람의 소셜미디어처럼 보이는 전체 사진 세트를 생성하는 게 가능한가요?
물론이에요. 그리고 이 가이드의 기법들이 진가를 발휘하는 곳이 바로 여기예요. 핵심은 다양성이에요. 화보 샷을 평범한 것들과 섞으세요. 다른 시간대, 실내와 야외 배경, 단독 샷과 암시된 사교 상황을 포함하세요. 앵커 이미지 시스템에 프롬프트 템플릿을 더하면 이걸 체계적으로 달성할 수 있어요. 저는 일관된 정체성을 유지하는 30~50장의 이미지 세트를 일상적으로 생성해요.
처음부터 전체 설정에 얼마나 걸리나요?
제로에서 시작한다면, 첫 캐릭터에는 약 46시간을 예상하세요. 세부적으로는 기초를 배우는 데 약 1시간, 초기 레퍼런스 이미지 세트를 생성하고 선별하는 데 12시간, LoRA를 학습하는 데 1~2시간, 프롬프트 템플릿과 앵커 이미지를 설정하는 데 30분에서 한 시간이에요. 그 초기 설정 이후로는 새 이미지를 생성하는 게 빨라요. 보통 최종 선택 이미지 한 장당 1분 미만이에요.
이 기법들을 동영상 콘텐츠에도 쓸 수 있나요?
얼굴 일관성 기법(LoRA, 앵커 이미지)은 Kling과 Runway Gen-3 같은 모델로 하는 AI 동영상 생성에 곧바로 적용돼요. 주된 차이는 동영상이 시간적 일관성이라는 또 다른 차원을 관리해야 한다는 점을 더한다는 거예요. 하지만 사진 생성을 위해 구축한 기초가 엄청난 출발 우위를 줘요. 그건 완전히 별개의 글이긴 하지만요.
마치며
AI 여자친구 사진 생성은 지난 한 해 동안 믿을 수 없을 만큼 멀리 왔어요. 포토리얼리스틱한 렌더링을 위한 FLUX 2, 얼굴 정체성을 위한 LoRA 학습, 유연한 포즈를 위한 IPAdapter, 그리고 사실감을 위한 사려 깊은 프롬프트 엔지니어링의 조합은 진짜 사진과 구분하기 정말 어려운 캐릭터 사진을 만드는 것을 가능하게 해요.
이 모든 과정을 통해 제가 배운 가장 큰 교훈은, 사실감이 기술적 완벽함에 관한 게 아니라는 거예요. 그건 불완전함에 관한 거예요. 진짜 사진에는 흠이 있어요. 진짜 사람에게는 비대칭적인 특징이 있어요. 진짜 카메라는 그레인과 보케와 렌즈 수차를 만들어내요. 이런 불완전함에 더 기댈수록, 여러분의 결과는 더 설득력 있어져요.
FLUX 2로 시작하고, 탄탄한 LoRA를 학습하고, 앵커 이미지 시스템을 구축하고, 프롬프트 엔지니어가 아니라 사진작가처럼 생각하는 프롬프트 템플릿을 개발하세요. 많은 이미지를 생성하고 가장 좋은 것들로 무자비하게 추려내는 것을 스스로에게 허락하세요. 그게 과정이에요. 마법도 아니고 즉각적이지도 않지만, 결과가 스스로 말해줘요.
이 가이드가 도움이 되었고 시각적 측면만이 아니라 AI 동반자의 성격과 상호작용 측면을 탐구하고 싶다면, AI 여자친구 커스터마이징과 Stable Diffusion으로 AI 여자친구 캐릭터 만들기에 관한 제 가이드를 살펴보세요. 이 글의 시각적 일관성 기법은 거기서 다루는 캐릭터 개발 접근법과 완벽하게 어우러져요.
AI 인플루언서를 만들 준비가 되셨나요?
완전한 51레슨 과정에서 ComfyUI와 AI 인플루언서 마케팅을 마스터하는 115명의 학생들과 함께하세요.
관련 기사
제한 없는 AI 이미지 생성기: 2026년 당신이 실제로 알아야 할 것
정직한 제한 없는 AI 이미지 생성기 가이드. 무엇이 이용 가능한지, 법적 고려사항, 그리고 창의적 작업을 위한 책임감 있는 사용.
2026년 최고의 AI 와이푸 생성기: 완벽하게 일관된 애니메이션 캐릭터 만들기
2026년 최고의 AI 와이푸 생성기 완벽 가이드. AnimagineXL, NovelAI, Pony Diffusion, FLUX 애니메이션 LoRA, IPAdapter 워크플로우로 일관된 애니메이션 캐릭터를 만드는 방법을 배워보세요.
2026년 NSFW 생성을 위한 Chroma vs Flux Dev 비교
Chroma는 검열이 없는 Flux예요. Flux Dev는 LoRA가 필요하죠. 동일한 NSFW 프롬프트로 포토리얼과 애니 양쪽을 테스트했어요. 품질, 속도, 라이선스를 다뤄요.