ComfyUI AI गर्लफ्रेंड कंसिस्टेंसी वर्कफ़्लो | Lewdly Blog
/ ComfyUI / ComfyUI में एक AI गर्लफ्रेंड कैरेक्टर बनाना: विज़ुअल कंसिस्टेंसी वर्कफ़्लो
ComfyUI 29 मिनट में पढ़ें

ComfyUI में एक AI गर्लफ्रेंड कैरेक्टर बनाना: विज़ुअल कंसिस्टेंसी वर्कफ़्लो

IPAdapter और FaceID का उपयोग करके दृश्य रूप से सुसंगत AI गर्लफ्रेंड कैरेक्टर बनाने के लिए संपूर्ण ComfyUI वर्कफ़्लो। इष्टतम सेटिंग्स और नोड कॉन्फ़िगरेशन के साथ चरण-दर-चरण तकनीकी गाइड।

IPAdapter और FaceID के साथ एक सुसंगत AI गर्लफ्रेंड कैरेक्टर बनाने के लिए ComfyUI वर्कफ़्लो

अगर आपने कभी कई इमेजों में एक सुसंगत AI गर्लफ्रेंड कैरेक्टर बनाने की कोशिश की है, तो आप वह तकलीफ़ पहले से जानते हैं। आपको एक शानदार पोर्ट्रेट मिलता है, आप वही चेहरा एक अलग पोज़ में दोबारा बनाने की कोशिश करते हैं, और अचानक उसकी नाक, जॉलाइन पूरी तरह अलग हो जाती है और किसी तरह वह पंद्रह साल बड़ी दिखने लगती है। यह पागल कर देने वाला है। कंसिस्टेंसी के पीछे भागते हुए मैंने हज़ारों जेनरेशन बर्बाद कीं, इससे पहले कि आख़िरकार मैंने एक ऐसा ComfyUI वर्कफ़्लो पकड़ा जो वाकई काम करता है।

यहाँ असली हथियार है ComfyUI के अंदर IPAdapter को FaceID के साथ जोड़ना। दोनों में से कोई एक नहीं। दोनों। साथ में। और विशिष्ट वेट वैल्यू उतनी ही मायने रखती हैं जितनी अधिकांश ट्यूटोरियल बताते नहीं हैं। मैं आपको ठीक वही वर्कफ़्लो दिखाने जा रहा हूँ जिसे मैं इस्तेमाल करता हूँ, नोड दर नोड, उन सेटिंग्स के साथ जिन्हें मैंने पिछले एक साल में बड़े पैमाने पर परखा है।

त्वरित उत्तर: ComfyUI में एक सुसंगत AI गर्लफ्रेंड कैरेक्टर बनाने के लिए एक दोहरा-लॉक तरीका चाहिए: IPAdapter (वेट 0.85) समग्र स्टाइल, शरीर के अनुपात और कपड़ों की कंसिस्टेंसी संभालता है, जबकि FaceID (वेट 0.6-0.7) विशेष रूप से चेहरे की विशेषताओं को लॉक करता है। 0.4-0.6 की डिनॉइज़ रेंज के साथ मिलकर, यह वर्कफ़्लो दर्जनों इमेज बना सकता है जहाँ आपका कैरेक्टर पोज़, आउटफिट और दृश्यों के पार पहचाने जाने योग्य रूप से वही व्यक्ति बना रहता है।

मुख्य बातें

  • IPAdapter और FaceID अलग-अलग उद्देश्यों की पूर्ति करते हैं और अधिकतम कंसिस्टेंसी के लिए इन्हें साथ इस्तेमाल किया जाना चाहिए
  • 0.85 का IPAdapter वेट आपकी प्रॉम्प्ट रचनात्मकता को दबाए बिना स्टाइल के लिए सबसे सटीक बिंदु है
  • 0.6-0.7 के बीच का FaceID वेट कठोर, बेजान भावों के बिना चेहरे की पहचान को बनाए रखता है
  • 0.4-0.6 की डिनॉइज़ वैल्यू कंसिस्टेंसी को प्राकृतिक भिन्नता के साथ संतुलित करती हैं
  • एक अकेली उच्च-गुणवत्ता वाली रेफरेंस इमेज कई औसत इमेजों से बेहतर परिणाम देती है
  • यह वर्कफ़्लो ComfyUI की बैच प्रोसेसिंग क्षमताओं के साथ खूबसूरती से स्केल होता है

कैरेक्टर कंसिस्टेंसी के लिए ComfyUI हर दूसरे टूल को क्यों मात देता है?

मैं कुछ ऐसा कहने जा रहा हूँ जो कुछ लोगों को नागवार गुज़र सकता है: अगर आप अब भी कैरेक्टर कंसिस्टेंसी के काम के लिए A1111 के WebUI का इस्तेमाल कर रहे हैं, तो आप कम परिणाम के लिए ज़्यादा मेहनत कर रहे हैं। हाँ, मैंने कह दिया। ComfyUI का नोड-आधारित आर्किटेक्चर सिर्फ़ एक अलग इंटरफ़ेस नहीं है। यह इस विशिष्ट काम के लिए मूलभूत रूप से बेहतर तरीका है।

इसकी वजह यहाँ है। एक पारंपरिक UI में आपके पास अपने प्रॉम्प्ट के लिए एक टेक्स्ट बॉक्स होता है, कुछ स्लाइडर होते हैं, और आप जेनरेट दबाते हैं। अगर आपको IPAdapter और FaceID और ControlNet और रीजनल प्रॉम्प्टिंग चाहिए, तो आप एक्सटेंशन के ऊपर एक्सटेंशन जमा करते जाते हैं और प्रार्थना करते हैं कि वे आपस में टकराएँ नहीं। ComfyUI में, इनमें से हर एक दिखाई देने वाले कनेक्शन वाला एक अलग नोड है। आप ठीक-ठीक देख सकते हैं कि डेटा आपकी रेफरेंस इमेज से IPAdapter के ज़रिए कैसे बहता है, FaceID चेहरे की विशेषताओं को अलग से कैसे प्रोसेस करता है, और सैंपलर तक पहुँचने से पहले सब कुछ कैसे मिलता है।

मैंने लगभग चौदह महीने पहले ख़ास तौर पर इसी तरह के काम के लिए ComfyUI अपनाया था, और मेरी कंसिस्टेंसी हिट रेट शायद 40% से बढ़कर 85% से ज़्यादा हो गई। यह कोई मामूली सुधार नहीं है। यह एक शाम में उपयोगी कंटेंट बनाने और एक पूरा वीकेंड लगाने के बीच का फ़र्क़ है।

नोड सिस्टम का मतलब यह भी है कि आप अपने वर्कफ़्लो में कंडीशनल लॉजिक बना सकते हैं। चाहते हैं कि लक्ष्य पोज़ आपके रेफरेंस से कितना अलग है, उसके आधार पर FaceID की मज़बूती अपने आप समायोजित हो जाए? आप यह कर सकते हैं। चाहते हैं कि कुछ जेनरेशन को एक अतिरिक्त रिफ़ाइनमेंट पास से गुज़ारें जबकि सरल कंपोज़िशन के लिए उसे छोड़ दें? यह भी संभव है। किसी मानक इंटरफ़ेस में यह करके दिखाइए।

अगर आप Stable Diffusion WebUI की दुनिया से आ रहे हैं, तो मैंने Stable Diffusion के साथ AI गर्लफ्रेंड कैरेक्टर बनाने पर एक संपूर्ण गाइड लिखी है जो मूल बातें कवर करती है। इस ComfyUI गाइड को उस तरीके के उन्नत, ज़्यादा शक्तिशाली विस्तार के रूप में सोचिए।

नींव तैयार करना: ज़रूरी नोड और मॉडल

वर्कफ़्लो बनाने से पहले, आपके पास सही टूल इंस्टॉल होने चाहिए। एक भी नोड पैक छूट जाने पर पूरा पाइपलाइन टूट जाएगा, और ComfyUI के एरर मैसेज हमेशा यह बताने में मददगार नहीं होते कि क्या छूट गया है।

नींव तैयार करना: ज़रूरी नोड और मॉडल के लिए चित्रण

ज़रूरी कस्टम नोड पैक

आपको इन्हें ComfyUI Manager के ज़रिए या मैन्युअल रूप से git clone के ज़रिए इंस्टॉल करना होगा:

  • ComfyUI_IPAdapter_plus - यह स्टाइल कंसिस्टेंसी की रीढ़ है। "plus" वर्शन में यूनिफ़ाइड लोडिंग नोड शामिल हैं जो मॉडल मैनेजमेंट को काफ़ी सरल बनाते हैं।
  • ComfyUI-FaceID - चेहरे की विशेषताओं को निकालने और लागू करने का काम संभालता है। कुछ वर्शन अब IPAdapter Plus के साथ बंडल किए जाते हैं, लेकिन पुष्टि कर लें कि आपके वर्शन में FaceID-विशिष्ट नोड शामिल हैं।
  • comfyui_controlnet_aux - पोज़ डिटेक्शन के लिए प्रीप्रोसेसर नोड, जिनकी आपको अपने कैरेक्टर को अलग-अलग स्थितियों में बनाते समय ज़रूरत पड़ेगी।
  • ComfyUI-Impact-Pack - सख़्ती से ज़रूरी नहीं, लेकिन फ़ेस डिटेक्शन और सेगमेंटेशन टूल गुणवत्ता नियंत्रण के लिए बेहद उपयोगी हैं।

वे मॉडल जिन्हें आपको डाउनलोड करना होगा

IPAdapter के लिए मॉडल की स्थिति उलझाने वाली हो सकती है क्योंकि कई वर्शन इधर-उधर घूम रहे हैं। यहाँ बिल्कुल वही है जो आपको लेना चाहिए:

  1. ip-adapter-plus-face_sdxl_vit-h.safetensors - यह SDXL के लिए फ़ेस-ऑप्टिमाइज़्ड IPAdapter मॉडल है। कैरेक्टर के काम के लिए जेनरिक वाला इस्तेमाल न करें।
  2. ip-adapter-faceid-plusv2_sdxl.bin - FaceID v2 मॉडल। v2 अपडेट ने इस बात में ध्यान देने योग्य फ़र्क़ डाला कि यह झुके हुए चेहरों को कितनी अच्छी तरह संभालता है।
  3. buffalo_l - InsightFace का एनालिसिस मॉडल। FaceID इसका उपयोग चेहरे के लैंडमार्क निकालने के लिए करता है। इसे models/insightface/models/buffalo_l/ में रखें।
  4. आपका पसंदीदा SDXL चेकपॉइंट - मैं जिस सौंदर्य को लक्षित कर रहा होता हूँ उसके आधार पर RealVisXL और JuggernautXL का मिश्रण इस्तेमाल करता हूँ।

एक चीज़ जिसने मुझे शुरुआत में हफ़्तों तक परेशान किया, वह यह है कि InsightFace मॉडल की डायरेक्टरी संरचना मायने रखती है। बात सिर्फ़ फ़ाइलें होने की नहीं है। उन्हें ठीक उसी सबफ़ोल्डर संरचना के साथ models/insightface/models/buffalo_l/ में होना चाहिए। मैंने एक "model not found" एरर को डीबग करने में शर्मनाक मात्रा में समय बिताया जो दरअसल बस एक फ़ोल्डर नेस्टिंग की समस्या थी।

IPAdapter और FaceID कैरेक्टर कंसिस्टेंसी के लिए ComfyUI नोड वर्कफ़्लो सेटअप पूरा वर्कफ़्लो जो IPAdapter और FaceID नोड को KSampler से जुड़ा हुआ दिखाता है

आप परफ़ेक्ट रेफरेंस इमेज कैसे बनाते हैं?

यहीं ज़्यादातर लोग गलती करते हैं, और यही वह चरण है जो सबसे ज़्यादा मायने रखता है। आपकी रेफरेंस इमेज आपके कैरेक्टर का DNA है। हर जेनरेशन उसकी ख़ूबियों को विरासत में लेगी, अच्छी भी और बुरी भी। एक औसत रेफरेंस डालिए, और कोई भी वेट ट्वीकिंग आपको नहीं बचाएगी।

एक अच्छी रेफरेंस इमेज को क्या बनाता है

मैंने इसे बड़े पैमाने पर परखा है, सैकड़ों अलग-अलग रेफरेंस इमेजों से एक ही कैरेक्टर बनाते हुए, और पैटर्न साफ़ है। आदर्श रेफरेंस इमेज में ये ख़ूबियाँ होती हैं:

  • साफ़, सामने की ओर मुख वाला कंपोज़िशन जहाँ चेहरा फ़्रेम का कम से कम 30-40% घेरता हो
  • तटस्थ भाव या हल्की मुस्कान क्योंकि अत्यधिक भाव FaceID को अंतर्निहित चेहरे की संरचना के बजाय भाव पर अटकने पर मजबूर करते हैं
  • समान, मुलायम रोशनी बिना तीखी परछाइयों के जिन्हें चेहरे की विशेषता समझ लिया जा सके
  • सरल पृष्ठभूमि ताकि मॉडल हर जेनरेशन में पृष्ठभूमि के तत्वों को दोहराने की कोशिश न करे
  • उच्च रिज़ॉल्यूशन कम से कम 1024x1024 का, हालाँकि SDXL वर्कफ़्लो के लिए 1536x1536 या उससे ज़्यादा बेहतर है

यहाँ एक विवादास्पद राय है जो उससे टकराएगी जो आपने कहीं और पढ़ा है। आपको कई रेफरेंस इमेजों की ज़रूरत नहीं है। असल में, एक अकेली बेहतरीन रेफरेंस तीन या चार ठीक-ठाक रेफरेंस इस्तेमाल करने से ज़्यादा सुसंगत परिणाम देती है। जब आप IPAdapter में कई रेफरेंस डालते हैं, तो यह उनका औसत निकालने की कोशिश करता है, और वह औसत निकालने की प्रक्रिया उन विशिष्ट विशेषताओं को नरम कर सकती है जो आपके कैरेक्टर को अनोखा बनाती हैं। एक साफ़, अच्छी रोशनी वाली, अच्छी तरह से रचित रेफरेंस हर बार ठीक-ठाक रेफरेंसों के पूरे संग्रह को मात देती है।

मैं आमतौर पर अपनी शुरुआती रेफरेंस को बिना किसी IPAdapter या FaceID के एक बहुत विस्तृत प्रॉम्प्ट का उपयोग करके बनाता हूँ। बस शुद्ध प्रॉम्प्ट इंजीनियरिंग ताकि मुझे पसंद आने वाला चेहरा मिल सके। फिर मैं उसे कम डिनॉइज़ (0.2-0.3) पर img2img के ज़रिए कुछ बार चलाकर निखारता हूँ। वह निखरी हुई इमेज मेरी स्थायी रेफरेंस बन जाती है। मेरी एक-एक अकेली रेफरेंस इमेज ने 500 से ज़्यादा सुसंगत जेनरेशनों में मेरा साथ दिया है।

जो लोग कई इमेजों के पार AI कैरेक्टर को सुसंगत रखने के पीछे के सिद्धांत को जानना चाहते हैं, उनके लिए AI सुसंगत कैरेक्टर जेनरेटर गाइड अंतर्निहित सिद्धांतों में गहराई से उतरती है।

इष्टतम परिणामों के लिए अपनी रेफरेंस तैयार करना

अपनी रेफरेंस इमेज को कच्ची ही वर्कफ़्लो में मत खींच कर डालिए। थोड़ी सी प्रीप्रोसेसिंग बहुत काम आती है:

  1. वर्ग प्रारूप में क्रॉप करें जो आपके लक्ष्य जेनरेशन रिज़ॉल्यूशन से मेल खाए
  2. किसी भी टेक्स्ट या वॉटरमार्क को हटाएँ क्योंकि ये IPAdapter के ज़रिए रिस सकते हैं
  3. चमक/कंट्रास्ट समायोजित करें ताकि वह तटस्थ रहे, स्टाइलिश नहीं
  4. सुनिश्चित करें कि चेहरा साफ़ दिखाई दे बिना किसी रुकावट के जैसे बालों का प्रमुख विशेषताओं को ढकना

वर्कफ़्लो बनाना: नोड दर नोड

ठीक है, आइए असल में इस चीज़ को बनाएँ। मैं वर्कफ़्लो के हर हिस्से से उसी क्रम में गुज़रूँगा जिस क्रम में डेटा उससे होकर बहता है। अगर आप ComfyUI में साथ-साथ चल रहे हैं, तो आप इसे चरण दर चरण बना सकते हैं।

रेफरेंस इमेज पाइपलाइन

अपनी रेफरेंस वाले एक Load Image नोड से शुरुआत करें। यह दो समानांतर रास्तों में फ़ीड होता है:

रास्ता 1: IPAdapter प्रोसेसिंग अपनी रेफरेंस इमेज को IPAdapter Unified Loader नोड से जोड़ें। ये पैरामीटर सेट करें:

  • Model: ip-adapter-plus-face (फ़ेस-विशिष्ट वैरिएंट)
  • Weight: 0.85
  • Weight Type: Linear
  • Start at: 0.0
  • End at: 1.0

वह 0.85 वेट बेहद ज़रूरी है। मैंने 0.5 से 1.0 तक की वैल्यू को 0.05 के अंतराल में परखा है, और 0.85 लगातार कंसिस्टेंसी और रचनात्मक आज़ादी के बीच सबसे अच्छा संतुलन देता है। इससे ज़्यादा जाइए और आपकी जेनरेशन रेफरेंस की थोड़ी संशोधित प्रतियों जैसी दिखने लगती हैं। इससे कम जाइए और 0.75 के आसपास कंसिस्टेंसी एकदम गिर जाती है।

रास्ता 2: FaceID प्रोसेसिंग उसी रेफरेंस इमेज से, IPAdapter FaceID नोड से जोड़ें। सेटिंग्स:

  • Weight: 0.65 (यहाँ से शुरू करें, 0.6-0.7 के बीच समायोजित करें)
  • Weight v2: true (अगर आपके नोड वर्शन में उपलब्ध हो)
  • Combine method: Average

FaceID वेट, IPAdapter वेट की तुलना में ज़्यादा संवेदनशील है। 0.7 पर, आपको चेहरे की मज़बूत कंसिस्टेंसी मिलती है लेकिन कभी-कभी जेनरेशनों के पार सख़्त, मिलते-जुलते भाव मिलते हैं। 0.6 पर, भाव ज़्यादा प्राकृतिक होते हैं लेकिन अत्यधिक पोज़ में आपको चेहरे का हल्का बहाव दिख सकता है। मैं आमतौर पर अपने डिफ़ॉल्ट के रूप में 0.65 पर टिकता हूँ और तभी समायोजित करता हूँ जब मुझे कोई समस्या नज़र आए।

प्रॉम्प्ट और सैंपलिंग कॉन्फ़िगरेशन

कंसिस्टेंसी नोड के साथ काम करते समय आपकी KSampler सेटिंग्स सामान्य से ज़्यादा मायने रखती हैं। यहाँ वह है जो मैं इस्तेमाल करता हूँ:

  • Steps: 30-35 (ज़्यादा स्टेप मॉडल को IPAdapter/FaceID मार्गदर्शन को प्रॉम्प्ट कंटेंट के साथ मेल बैठाने में मदद करते हैं)
  • CFG Scale: 5.5-7.0 (सामान्य से कम क्योंकि IPAdapter पहले से ही मज़बूत मार्गदर्शन दे रहा है)
  • Sampler: DPM++ 2M SDE Karras
  • Denoise: मौजूदा दृश्यों की भिन्नताओं के लिए 0.45-0.55, पूरी तरह नए कंपोज़िशन के लिए 0.7-0.8

डिनॉइज़ वैल्यू विशेष ध्यान देने योग्य है। यह नियंत्रित करता है कि मॉडल को लेटेंट शुरुआती बिंदु से विचलित होने की कितनी आज़ादी है। कैरेक्टर कंसिस्टेंसी के काम के लिए, आप एक रस्सी पर चल रहे हैं। बहुत कम और हर इमेज लगभग एक जैसी दिखती है। बहुत ज़्यादा और कंसिस्टेंसी नोड कैरेक्टर की दिखावट पर अपनी पकड़ नहीं बनाए रख पाते।

मैं आमतौर पर अपनी जेनरेशन को तीन डिनॉइज़ स्तरों पर बैच करता हूँ: 0.45, 0.55, और 0.65। फिर मैं हर बैच से सबसे अच्छे परिणाम चुनता हूँ। यह प्रक्रिया में कुछ मिनट जोड़ता है लेकिन मेरे अंतिम चयन की गुणवत्ता में नाटकीय रूप से सुधार करता है।

सुसंगत कैरेक्टरों के लिए प्रॉम्प्ट इंजीनियरिंग

आपका टेक्स्ट प्रॉम्प्ट अब भी मायने रखता है, यहाँ तक कि जब IPAdapter और FaceID मुश्किल काम कर रहे हों। लेकिन इस संदर्भ में आपको प्रॉम्प्टिंग के बारे में अलग ढंग से सोचना होगा।

मुफ़्त ComfyUI वर्कफ़्लो

इस लेख में तकनीकों के लिए मुफ़्त ओपन-सोर्स ComfyUI वर्कफ़्लो खोजें। ओपन सोर्स शक्तिशाली है।

100% मुफ़्त MIT लाइसेंस प्रोडक्शन के लिए तैयार स्टार करें और आज़माएं

अपने प्रॉम्प्ट में क्या शामिल करें:

  • दृश्य का विवरण (स्थान, दिन का समय, गतिविधि)
  • इस जेनरेशन के लिए विशिष्ट कपड़े और सहायक सामग्री
  • कैमरा कोण और फ़्रेमिंग (क्लोज़-अप, फ़ुल बॉडी, तीन-चौथाई)
  • रोशनी का मिज़ाज
  • गुणवत्ता टैग जैसे "masterpiece, best quality, highly detailed"

अपने प्रॉम्प्ट से क्या बाहर रखें:

  • चेहरे की विशिष्ट विशेषताओं का विवरण (FaceID इसे संभालता है)
  • त्वचा का रंग (IPAdapter इसे आपकी रेफरेंस से स्थानांतरित करता है)
  • बालों का रंग और स्टाइल (जब तक आप जानबूझकर इसे अलग न चाहते हों)
  • शरीर के प्रकार का विवरण (IPAdapter अनुपात संभालता है)

यहाँ एक और विवादास्पद राय है: मैं लोगों को 200-शब्द के प्रॉम्प्ट लिखते हुए देखता हूँ जो अपने कैरेक्टर के चेहरे का वर्णन करने की कोशिश करते हैं जबकि उनके पास FaceID सक्रिय है। आप शाब्दिक रूप से अपने ही कंसिस्टेंसी टूल के ख़िलाफ़ लड़ रहे हैं। चेहरे को FaceID को संभालने दीजिए। अपने प्रॉम्प्ट टोकन बाकी हर चीज़ के लिए इस्तेमाल कीजिए। मुझे अपने कुछ सबसे अच्छे परिणाम इतने सरल प्रॉम्प्ट से मिले हैं जैसे "woman sitting in a coffee shop, afternoon light, casual outfit, looking at camera, masterpiece quality."

अलग-अलग दृश्यों और पोज़ में बनाए गए सुसंगत कैरेक्टर का उदाहरण IPAdapter + FaceID वर्कफ़्लो का उपयोग करके चार अलग-अलग दृश्यों में बनाए रखा गया वही कैरेक्टर

सबसे आम गलतियाँ कौन सी हैं जो कंसिस्टेंसी को ख़त्म कर देती हैं?

Discord पर और Lewdly.ai के ज़रिए दर्जनों क्रिएटरों को उनके कंसिस्टेंसी वर्कफ़्लो सेट करने में मदद करने के बाद, मैंने वही गलतियाँ बार-बार होते देखी हैं। मुझे आपको कुछ निराशा से बचाने दीजिए।

सबसे आम गलतियाँ कौन सी हैं जो कंसिस्टेंसी को ख़त्म कर देती हैं? के लिए चित्रण

गलती 1: अपने ही कंसिस्टेंसी टूल से लड़ना

यह सबसे बड़ी है, और मैं पहले ही इसका ज़िक्र कर चुका हूँ। अगर आपका प्रॉम्प्ट कहता है "blue eyes, small nose, round face" और आपकी रेफरेंस इमेज एक ऐसा कैरेक्टर दिखाती है जिसकी आँखें हरी हैं, नाक प्रमुख है, और चेहरा कोणीय है, तो मॉडल को चुनना पड़ता है। कभी यह प्रॉम्प्ट चुनता है। कभी यह रेफरेंस चुनता है। कभी यह बेढंगा समझौता कर लेता है। नतीजा परस्पर विरोधी निर्देशों से जन्मी असंगति है।

समाधान सरल है। अपनी रेफरेंस इमेज और FaceID पर भरोसा कीजिए। अगर आप चाहते हैं कि आपके कैरेक्टर की आँखें नीली हों, तो सुनिश्चित कीजिए कि आपकी रेफरेंस इमेज में नीली आँखें हों। प्रॉम्प्ट में इसे ओवरराइड करने की कोशिश मत कीजिए।

गलती 2: ऐसी रेफरेंस इमेजों का इस्तेमाल करना जो बहुत ज़्यादा स्टाइलिश हैं

मैंने एक बार पूरा शनिवार असंगति की समस्याओं को डीबग करने में बिताया जो असल में इस वजह से थीं कि मेरी रेफरेंस इमेज में नाटकीय एनिमे-स्टाइल सेल शेडिंग थी। IPAdapter हर जेनरेशन में उस विशिष्ट रोशनी की स्टाइल को दोहराने की कोशिश कर रहा था, जो मेरे यथार्थवादी दृश्य विवरणों से टकरा रही थी। जब मैंने तटस्थ रोशनी वाली रेफरेंस पर स्विच किया, तो सब कुछ ठीक हो गया।

आपकी रेफरेंस दृश्य रूप से इतनी तटस्थ होनी चाहिए कि वह हर जेनरेशन पर कोई विशिष्ट मिज़ाज या स्टाइल न थोपे। नाटकीय रोशनी अपने प्रॉम्प्ट के लिए बचा रखिए।

गलती 3: रिज़ॉल्यूशन मिलान को नज़रअंदाज़ करना

अगर आपकी रेफरेंस इमेज 512x512 है और आप 1024x1024 पर जेनरेट कर रहे हैं, तो IPAdapter मॉडल को आपके कैरेक्टर के बारे में अपनी समझ को अपस्केल करना पड़ता है। यह शोर और असंगति लाता है। अपनी रेफरेंस रिज़ॉल्यूशन को अपने जेनरेशन रिज़ॉल्यूशन से मिलाइए, या कम से कम एक ही दायरे में रहिए।

गलती 4: फ़ेस क्रॉप को छोड़ देना

ख़ास तौर पर FaceID के लिए, उसे एक फ़ुल-बॉडी शॉट देना जहाँ चेहरा फ़्रेम में छोटा हो, उसे काम करने के लिए बहुत कम देता है। कई वर्कफ़्लो में एक स्वचालित फ़ेस-क्रॉप नोड शामिल होता है जो चेहरे के क्षेत्र को FaceID को भेजने से पहले निकालता है। अगर आपके वर्कफ़्लो में नहीं है, तो एक जोड़िए। चेहरे की कंसिस्टेंसी में फ़र्क़ तुरंत ध्यान देने योग्य होता है।

गलती 5: अपनी सेटिंग्स को कभी न परखना

मैं आपको अपने अनुशंसित वेट दे सकता हूँ, लेकिन आपका विशिष्ट मॉडल चेकपॉइंट, रेफरेंस इमेज और विषयवस्तु इष्टतम वैल्यू को प्रभावित करेंगे। अलग-अलग IPAdapter और FaceID वेट पर टेस्ट बैच बनाने में तीस मिनट बिताइए। परिणामों की तुलना करता एक सरल ग्रिड बनाइए। यह छोटा सा निवेश तब बहुत बड़ा फ़ायदा देता है जब आप प्रोडक्शन बैच करने लगते हैं।

जटिलता को छोड़ना चाहते हैं? Lewdly बिना किसी तकनीकी सेटअप के तुरंत पेशेवर AI परिणाम देता है।

कोई सेटअप नहीं समान गुणवत्ता 30 सेकंड में शुरू करें Lewdly मुफ़्त में आज़माएं
क्रेडिट कार्ड की आवश्यकता नहीं

अधिकतम कंसिस्टेंसी के लिए उन्नत तकनीकें

एक बार जब आपका बुनियादी वर्कफ़्लो भरोसेमंद ढंग से चलने लगे, तो कई ऐसी तकनीकें हैं जो कंसिस्टेंसी को और भी आगे ले जाती हैं। ये वे चीज़ें हैं जो साधारण उपयोगकर्ताओं को उन क्रिएटरों से अलग करती हैं जो एक अकेले कैरेक्टर के साथ पूरी दृश्य कथाएँ रच सकते हैं।

पोज़ मार्गदर्शन के लिए ControlNet का उपयोग

अपने वर्कफ़्लो में ControlNet (ख़ास तौर पर OpenPose) जोड़ना आपको सटीक पोज़ बताने देता है जबकि IPAdapter और FaceID कैरेक्टर की दिखावट बनाए रखते हैं। यहाँ मुख्य सेटिंग ControlNet की मज़बूती है, जिसे 0.7-0.8 पर रखा जाता है। इससे ज़्यादा कुछ भी और पोज़ मार्गदर्शन FaceID की चेहरे की विशेषता वाली प्रक्रिया में दख़ल दे सकता है।

मैं आमतौर पर असली रेफरेंस तस्वीरों से OpenPose स्केलेटन का एक बैच बनाता हूँ, फिर उनका उपयोग अपने कैरेक्टर के विविध पोज़ चलाने के लिए करता हूँ। यह प्राकृतिक, मानव जैसे दिखने वाले पोज़ देता है, न कि वह सख़्त, अप्राकृतिक स्थिति जो आपको पूरी तरह प्रॉम्प्ट-चालित पोज़ बदलावों से मिलती है।

आउटफिट बदलने के लिए रीजनल प्रॉम्प्टिंग

चाहते हैं कि आपका कैरेक्टर अलग-अलग जेनरेशनों में अलग-अलग आउटफिट में हो? रीजनल प्रॉम्प्टिंग नोड आपको इमेज के अलग-अलग क्षेत्रों पर अलग-अलग टेक्स्ट प्रॉम्प्ट लागू करने देते हैं। आप कपड़ों के क्षेत्रों को मास्क करके वहाँ आउटफिट-विशिष्ट प्रॉम्प्ट लागू कर सकते हैं जबकि चेहरे और शरीर के आकार को पूरी तरह IPAdapter और FaceID के नियंत्रण में छोड़ सकते हैं।

यह सच में पूरे कंसिस्टेंसी टूलकिट की सबसे शक्तिशाली तकनीकों में से एक है, और यह कुछ ऐसा है जिसका मैं Lewdly.ai पर कैरेक्टर वैरिएशन बनाते समय लगातार उपयोग करता हूँ। कैरेक्टर पिक्सेल-परफ़ेक्ट सुसंगत रहता है जबकि पूरी तरह अलग सेटिंग्स में पूरी तरह अलग कपड़े पहनता है।

रिफ़ाइनमेंट पास की तरकीब

यहाँ एक तकनीक है जिस पर मैंने कहीं और ज़्यादा चर्चा होते नहीं देखी। अपनी शुरुआती जेनरेशन के बाद, आउटपुट को बहुत कम डिनॉइज़ (0.15-0.25) और उन्हीं IPAdapter/FaceID इनपुट के साथ एक दूसरे KSampler पास से गुज़ारिए। यह "रिफ़ाइनमेंट पास" किसी भी चेहरे के बहाव को सूक्ष्मता से सुधारता है जो पहली जेनरेशन के दौरान घुस आया हो, बिना कंपोज़िशन को महत्वपूर्ण रूप से बदले।

इसे प्रूफ़रीडिंग की तरह सोचिए। पहला पास निबंध लिखता है। दूसरा पास टाइपो पकड़ता है। मैंने पाया है कि यह तकनीक उन लगभग आधी इमेजों को बचा लेती है जिनमें अन्यथा हल्की असंगतियाँ होतीं। बड़े बैचों में वह बचाव दर काफ़ी जुड़ती जाती है।

स्केल के लिए बैच प्रोसेसिंग

अगर आप अपने कैरेक्टर के लिए एक कंटेंट लाइब्रेरी बना रहे हैं, तो आप बड़े पैमाने पर जेनरेट करना चाहेंगे। ComfyUI नेटिव रूप से बैच प्रोसेसिंग का समर्थन करता है, और आप कतार-आधारित जेनरेशन सेट कर सकते हैं जो आपकी कंसिस्टेंसी सेटिंग्स लॉक रखते हुए दर्जनों प्रॉम्प्ट से गुज़रती है। मैंने इसे अपनी ComfyUI बैच प्रोसेसिंग गाइड में विस्तार से कवर किया है, और बैच तरीका इस कंसिस्टेंसी वर्कफ़्लो के साथ बिल्कुल सटीक जोड़ी बनाता है।

मेरे लिए एक सामान्य बैच रन में 30-50 प्रॉम्प्ट शामिल होते हैं, हर एक किसी अलग दृश्य या स्थिति का वर्णन करता है, सभी मेरी रेफरेंस इमेज के साथ उन्हीं IPAdapter और FaceID नोड से होकर फ़ीड होते हैं। 50 जेनरेशनों में से, मैं आमतौर पर 40-45 रख लेता हूँ। यह एक प्रोडक्शन दर है जिसे ज़्यादातर मैन्युअल वर्कफ़्लो छू भी नहीं सकते।

आप अलग-अलग कोण और भाव कैसे संभालते हैं?

यह वह सवाल है जो मुझसे किसी भी अन्य सवाल से ज़्यादा पूछा जाता है, और सच कहूँ तो यहीं इस वर्कफ़्लो का जादू वाकई दिखता है। एक सामने की ओर मुख वाले पोर्ट्रेट में कैरेक्टर को सुसंगत दिखाना अपेक्षाकृत आसान है। उस कंसिस्टेंसी को बनाए रखना जब वह कंधे के ऊपर से देख रही हो, हँस रही हो, या किसी नीचे के कोण से दिखाई जा रही हो? वहीं ज़्यादातर वर्कफ़्लो टूट जाते हैं।

कोण की समस्या

FaceID आपकी रेफरेंस से चेहरे के लैंडमार्क निकालता है, और वे लैंडमार्क स्वाभाविक रूप से रेफरेंस तस्वीर के कोण से बंधे होते हैं। जब आप एक बहुत अलग कोण जेनरेट करते हैं, तो FaceID को अनुमान लगाना पड़ता है कि वे लैंडमार्क नए नज़रिए से कैसे दिखेंगे। कभी यह इसे सही पकड़ लेता है। कभी नहीं पकड़ता।

इसका तोड़ हैरानी की हद तक सरल है: अपने कैरेक्टर की अलग-अलग कोणों पर 2-3 रेफरेंस इमेज (सामने, तीन-चौथाई, प्रोफ़ाइल) बनाइए और अपने लक्ष्य कंपोज़िशन के आधार पर उनके बीच स्विच कीजिए। प्रोफ़ाइल शॉट जेनरेट करते समय, अपनी प्रोफ़ाइल रेफरेंस का उपयोग कीजिए। सामने की ओर मुख वाला शॉट जेनरेट करते समय, अपनी सामने वाली रेफरेंस का उपयोग कीजिए। यह FaceID को हर विशिष्ट कोण के लिए कहीं बेहतर स्रोत डेटा देता है।

हाँ, यह एक अकेली रेफरेंस के बारे में मेरी पहले की सलाह से थोड़ा टकराता है। बारीकी यह है कि बुनियादी काम के लिए, एक रेफरेंस ठीक है। अत्यधिक कोण भिन्नताओं के पार पेशेवर-गुणवत्ता वाले आउटपुट के लिए, कोण-विशिष्ट रेफरेंस होना FaceID की सबसे बड़ी कमज़ोरी को ख़त्म कर देता है।

क्रिएटर प्रोग्राम

कंटेंट बनाकर $1,250+/महीना कमाएं

हमारे विशेष क्रिएटर एफिलिएट प्रोग्राम में शामिल हों। वायरल वीडियो प्रदर्शन के आधार पर भुगतान पाएं। पूर्ण रचनात्मक स्वतंत्रता के साथ अपनी शैली में कंटेंट बनाएं।

$100
300K+ views
$300
1M+ views
$500
5M+ views
साप्ताहिक भुगतान
कोई अग्रिम लागत नहीं
पूर्ण रचनात्मक स्वतंत्रता

भाव प्रबंधन

ज़्यादा वेट (0.7+) पर FaceID आपकी रेफरेंस इमेज से भाव को लॉक कर देने की प्रवृत्ति रखता है। अगर आपकी रेफरेंस एक तटस्थ चेहरा दिखाती है, तो आपका कैरेक्टर हर जेनरेशन में निर्विकार दिख सकता है। समाधान यह है कि उन जेनरेशनों के लिए FaceID वेट थोड़ा कम करें जहाँ आप भावपूर्ण चेहरे चाहते हैं (0.55-0.60) और वांछित भाव का वर्णन करने के लिए अपने प्रॉम्प्ट पर ज़्यादा भरोसा करें।

प्रॉम्प्ट शब्द जैसे "laughing candidly," "surprised expression," या "gentle smile" इन कम FaceID वेट पर अच्छी तरह काम करते हैं। मॉडल के पास भाव समायोजित करने की पर्याप्त आज़ादी होती है जबकि FaceID अब भी अंतर्निहित चेहरे की संरचना बनाए रखता है।

मैंने हाल ही में Lewdly.ai पर एक प्रोजेक्ट के लिए इसे परखने में एक वीकेंड बिताया और पाया कि दृश्य भावना माँगता है या तटस्थता, इसके आधार पर 0.55 और 0.65 के FaceID वेट के बीच बारी-बारी से जाना सबसे प्राकृतिक दिखने वाली कैरेक्टर शृंखला देता है जो मैंने कभी बनाई है।

भाव विविधता पर अलग-अलग FaceID वेट वैल्यू की अग़ल-बग़ल तुलना FaceID वेट तुलना: 0.55 (बाएँ) ज़्यादा भाव विविधता देता है, 0.70 (दाएँ) विशेषताओं को ज़्यादा कसकर लॉक करता है

गुणवत्ता से समझौता किए बिना गति के लिए अनुकूलन

कोई भी प्रति जेनरेशन दस मिनट इंतज़ार नहीं करना चाहता जब वह कैरेक्टर इमेजों की लाइब्रेरी बनाने की कोशिश कर रहा हो। यहाँ वे गति अनुकूलन हैं जिनका मैं उपयोग करता हूँ और जो गुणवत्ता को मायने रखने वाली हद तक प्रभावित नहीं करते।

गुणवत्ता से समझौता किए बिना गति के लिए अनुकूलन के लिए चित्रण

हार्डवेयर संबंधी बातें

यह वर्कफ़्लो कम से कम 12GB VRAM वाले GPU पर सबसे अच्छा चलता है। IPAdapter और FaceID और SDXL मेमोरी की भूखे हैं। एक RTX 3060 12GB पर, 1024x1024 पर प्रति इमेज लगभग 45-60 सेकंड की उम्मीद रखें। एक RTX 4090 पर, यह घटकर लगभग 12-15 सेकंड हो जाता है। अगर आप VRAM की समस्याओं में फँस रहे हैं, तो ComfyUI की सेटिंग्स में अटेंशन स्लाइसिंग चालू करने की कोशिश कीजिए, हालाँकि यह जेनरेशन को लगभग 20% धीमा कर देगा।

स्मार्ट बैच रणनीतियाँ

एक समय में एक इमेज जेनरेट करके उसका मूल्यांकन करने के बजाय, थोड़े-बहुत बदले हुए प्रॉम्प्ट के साथ 8-12 के बैच कतार में लगाइए। प्रति इमेज समय घटता है क्योंकि मॉडल लोडिंग और प्रीप्रोसेसिंग प्रति इमेज एक बार के बजाय प्रति बैच एक बार होती है। मेरे 4090 पर, 10 इमेजों का एक बैच कुल मिलाकर लगभग 100 सेकंड लेता है, बनाम 150 सेकंड अगर मैं उन्हें अलग-अलग जेनरेट करूँ।

अपनी कंसिस्टेंसी पाइपलाइन को कैश करना

ComfyUI रन के बीच नोड आउटपुट कैश करता है। अगर जेनरेशनों के बीच केवल आपका प्रॉम्प्ट बदलता है (वही रेफरेंस इमेज, वही IPAdapter/FaceID सेटिंग्स), तो कंसिस्टेंसी पाइपलाइन को दोबारा प्रोसेस करने की ज़रूरत नहीं होती। इसका मतलब है कि आपकी दूसरी जेनरेशन से आगे ध्यान देने योग्य रूप से तेज़ होती है। अपनी सभी जेनरेशनों को कई सत्रों में फैलाने के बजाय एक ही सत्र में कतार में लगाकर इसका फ़ायदा उठाइए।

आम समस्याओं का निवारण

परफ़ेक्ट सेटिंग्स के बावजूद, चीज़ें गड़बड़ होती हैं। यहाँ बताया गया है कि सबसे आम समस्याओं की पहचान और समाधान कैसे करें।

फ़ुल-बॉडी शॉट में कैरेक्टर अलग दिखता है

जब चेहरा पूरी इमेज का एक छोटा हिस्सा होता है तो IPAdapter का प्रभाव कमज़ोर पड़ जाता है। फ़ुल-बॉडी शॉट के लिए, IPAdapter वेट को 0.90-0.95 तक बढ़ाइए और एक पोस्ट-प्रोसेसिंग चरण के रूप में एक फ़ेस डिटेल रेस्टोरेशन नोड (जैसे Impact Pack का FaceDetailer) जोड़िए। यह दो-तरफ़ा तरीका IPAdapter के ज़रिए शरीर की कंसिस्टेंसी बनाए रखता है जबकि FaceDetailer किसी भी चेहरे के बहाव को सुधारता है।

जेनरेशनों के बीच रंग बदल जाते हैं

अगर आपके कैरेक्टर की त्वचा का रंग या बालों का रंग जेनरेशनों के बीच बहता है, तो यह आमतौर पर एक CFG स्केल की समस्या है। ज़्यादा CFG वैल्यू रंग के अंतर को बढ़ा देती हैं। जेनरेशनों के पार ज़्यादा स्थिर रंग पुनरुत्पादन के लिए 5.0-5.5 तक गिराने की कोशिश कीजिए।

FaceID जॉलाइन के आसपास आर्टिफ़ैक्ट पैदा करता है

यह तब होता है जब समग्र जेनरेशन के मुक़ाबले FaceID का वेट बहुत ज़्यादा हो। समाधान आमतौर पर इतना सरल होता है कि FaceID वेट को 0.05 के अंतराल में तब तक गिराते जाएँ जब तक आर्टिफ़ैक्ट गायब न हो जाएँ। अगर इससे हल न हो, तो जाँचिए कि क्या आपकी रेफरेंस इमेज में जॉलाइन के आसपास कोई असामान्य परछाई या आर्टिफ़ैक्ट है जिसे FaceID दोहराने की कोशिश कर रहा हो।

कैरेक्टर "चिपकाया हुआ" दिखता है

जब कैरेक्टर ऐसा दिखता है मानो उसे पृष्ठभूमि पर चिपका दिया गया हो बजाय इसके कि वह दृश्य में स्वाभाविक रूप से मौजूद हो, तो इसका मतलब है कि IPAdapter का प्रभाव बहुत हावी है। IPAdapter वेट को 0.75-0.80 तक घटाइए और डिनॉइज़ को 0.6-0.65 तक बढ़ाइए। यह मॉडल को कैरेक्टर को दृश्य के माहौल में स्वाभाविक रूप से समाहित करने के लिए ज़्यादा जगह देता है।

अलग-अलग प्रकार के AI-जनित कंटेंट के पार चेहरे की कंसिस्टेंसी बनाए रखने पर और जानकारी के लिए, AI इन्फ़्लुएंसर फ़ेस कंसिस्टेंसी तकनीक गाइड अतिरिक्त रणनीतियाँ कवर करती है जो इस वर्कफ़्लो की पूरक हैं।

मेरी अनुशंसित शुरुआती सेटिंग्स

सैकड़ों कॉन्फ़िगरेशन परखने के बाद, यहाँ वह सटीक शुरुआती बिंदु है जिसकी मैं अनुशंसा करता हूँ। यहाँ से अपने विशिष्ट चेकपॉइंट और रेफरेंस इमेज के आधार पर बदलाव कीजिए।

पैरामीटर वैल्यू टिप्पणियाँ
IPAdapter Weight 0.85 ज़्यादा रचनात्मक आज़ादी के लिए 0.75-0.80 तक घटाएँ
IPAdapter Model plus-face SDXL हमेशा फ़ेस-विशिष्ट वैरिएंट का उपयोग करें
FaceID Weight 0.65 भाव की ज़रूरतों के आधार पर 0.55-0.70 की रेंज
Denoise 0.50 नज़दीकी भिन्नताओं के लिए 0.40-0.45, नए दृश्यों के लिए 0.65-0.75
CFG Scale 6.0 5.0-7.0 के बीच रखें
Steps 32 न्यूनतम 28, 40 से ऊपर घटता प्रतिफल
Sampler DPM++ 2M SDE Karras इस वर्कफ़्लो के लिए गुणवत्ता और गति का सबसे अच्छा संतुलन
Resolution 1024x1024 अपनी रेफरेंस इमेज रिज़ॉल्यूशन से मिलाएँ

ये मनमाने आँकड़े नहीं हैं। इनमें से हर एक एक परखी हुई रेंज के केंद्र का प्रतिनिधित्व करता है जिसने कई चेकपॉइंट और रेफरेंस स्टाइल के पार लगातार सबसे अच्छे परिणाम दिए। यहाँ से शुरू कीजिए, और आप उन 90% ट्यूटोरियलों से आगे होंगे जो आपसे कह रहे हैं कि "प्रयोग कीजिए और जो काम करता है वह ढूँढिए।"

अक्सर पूछे जाने वाले प्रश्न

क्या मैं इस वर्कफ़्लो का उपयोग SDXL के बजाय SD 1.5 के साथ कर सकता हूँ? हाँ, लेकिन आपको IPAdapter और FaceID मॉडल के SD 1.5 वर्शन की ज़रूरत होगी। जिन वेट की मैंने अनुशंसा की है वे SDXL के लिए अनुकूलित हैं। SD 1.5 के लिए, 0.80 के IPAdapter वेट और 0.60 के FaceID वेट से शुरू कीजिए, क्योंकि छोटा मॉडल इन कंडीशनिंग इनपुट पर ज़्यादा आक्रामक ढंग से प्रतिक्रिया करता है।

मुझे असल में कितनी रेफरेंस इमेजों की ज़रूरत है? अधिकांश उपयोग के मामलों के लिए एक बेहतरीन रेफरेंस इमेज काफ़ी है। अगर आप अत्यधिक कोण भिन्नताएँ (प्रोफ़ाइल, ऊपर/नीचे देखना) कर रहे हैं, तो 2-3 कोण-विशिष्ट रेफरेंस होना मदद करता है। कभी भी 4 से ज़्यादा रेफरेंस इस्तेमाल मत कीजिए, क्योंकि बहुत ज़्यादा चेहरों का औसत निकालना आपके कैरेक्टर की विशिष्ट विशेषताओं को कमज़ोर कर देता है।

क्या यह एनिमे-स्टाइल मॉडल के साथ काम करेगा? IPAdapter एनिमे मॉडल के साथ अच्छी तरह काम करता है, लेकिन FaceID फ़ोटोरियलिस्टिक चेहरों के लिए बनाया गया है। एनिमे कैरेक्टर के लिए, IPAdapter को अकेले ज़्यादा वेट (0.90-0.95) पर इस्तेमाल कीजिए और FaceID को पूरी तरह छोड़ दीजिए। IPAdapter से स्टाइल स्थानांतरण आमतौर पर एनिमे कंसिस्टेंसी के लिए पर्याप्त होता है क्योंकि चेहरे की विशेषताएँ ज़्यादा स्टाइलिश और बनाए रखने में सरल होती हैं।

क्या मैं जेनरेशनों के बीच अपने कैरेक्टर का हेयरस्टाइल बदल सकता हूँ? हाँ, लेकिन सीमाओं के साथ। IPAdapter रेफरेंस हेयरस्टाइल बनाए रखने की कोशिश करेगा। इसे ओवरराइड करने के लिए, नए हेयरस्टाइल के लिए मज़बूत प्रॉम्प्ट भाषा का उपयोग कीजिए और उन विशिष्ट जेनरेशनों के लिए IPAdapter वेट को 0.70-0.75 तक घटाने पर विचार कीजिए। बालों के क्षेत्र को मास्क करने वाली रीजनल प्रॉम्प्टिंग और भी बेहतर काम करती है।

मैं अपना वर्कफ़्लो कैसे सेव और शेयर करूँ? ComfyUI JSON फ़ाइलों के रूप में वर्कफ़्लो एक्सपोर्ट का समर्थन करता है। मेनू में Save बटन का उपयोग कीजिए या Ctrl+S दबाइए। JSON फ़ाइल सभी नोड कनेक्शन और सेटिंग्स को कैप्चर करती है लेकिन मॉडल फ़ाइलों को ख़ुद नहीं। शेयर करते समय, इस बारे में एक नोट शामिल कीजिए कि कौन से मॉडल ज़रूरी हैं।

IPAdapter और IPAdapter Plus में क्या अंतर है? "Plus" वैरिएंट बेहतर इमेज समझ के लिए एक बड़े CLIP विज़न मॉडल (ViT-H बनाम ViT-G) का उपयोग करते हैं। कैरेक्टर कंसिस्टेंसी के काम के लिए, हमेशा Plus वैरिएंट का उपयोग कीजिए। गुणवत्ता का अंतर महत्वपूर्ण है, ख़ास तौर पर चेहरे की विशेषताओं और बारीक विवरणों के लिए।

मेरी जेनरेशन बहुत ज़्यादा संतृप्त दिखती हैं। मैं इसे कैसे ठीक करूँ? अत्यधिक संतृप्ति आमतौर पर IPAdapter द्वारा आपकी रेफरेंस से रंग विशेषताओं को बढ़ाने से आती है। अपनी रेफरेंस को थोड़े असंतृप्त, तटस्थ रंगों वाला बनाने के लिए प्रीप्रोसेस करने की कोशिश कीजिए। वैकल्पिक रूप से, संतृप्ति को सामान्य करने के लिए जेनरेशन के बाद एक कलर करेक्शन नोड जोड़िए।

क्या मैं इसे LoRA मॉडल के साथ जोड़ सकता हूँ? बिल्कुल। स्टाइल या विशिष्ट सौंदर्य के लिए LoRA मॉडल IPAdapter और FaceID के साथ अच्छी तरह काम करते हैं। IPAdapter कंडीशनिंग चेन से पहले LoRA को अपने मॉडल पर लागू कीजिए। IPAdapter के स्टाइल मार्गदर्शन के साथ टकराव से बचने के लिए LoRA की मज़बूती को मध्यम (0.6-0.8) रखिए।

यह अपने कैरेक्टर का एक कस्टम LoRA ट्रेन करने की तुलना में कैसा है? एक प्रशिक्षित LoRA आपके कैरेक्टर को सीधे मॉडल वेट में जड़ देता है, जो सबसे मज़बूत कंसिस्टेंसी देता है। IPAdapter/FaceID तरीका सेट करने में तेज़ है (मिनट बनाम घंटों की ट्रेनिंग) और ज़्यादा लचीला है (रेफरेंस इमेज बदलना तत्काल है)। गंभीर दीर्घकालिक प्रोजेक्ट के लिए, एक LoRA ट्रेन करने और एक पूरक कंसिस्टेंसी जाँच के रूप में IPAdapter/FaceID का उपयोग करने पर विचार कीजिए।

क्या यह वर्कफ़्लो क्लाउड GPU सेवाओं पर काम करता है? हाँ। RunPod और Vast.ai जैसी सेवाएँ इस वर्कफ़्लो के साथ ComfyUI चला सकती हैं। सभी कंसिस्टेंसी नोड सक्रिय रहते हुए आरामदायक SDXL जेनरेशन के लिए कम से कम 16GB VRAM वाला इंस्टेंस चुनना सुनिश्चित कीजिए। शुरू करने से पहले अपनी रेफरेंस इमेज और मॉडल फ़ाइलें इंस्टेंस पर अपलोड कीजिए।

समापन: सिद्धांत से व्यवहार तक

जो वर्कफ़्लो मैंने यहाँ रेखांकित किया है वह सैद्धांतिक नहीं है। यह वही सटीक पाइपलाइन है जिसे मैं Lewdly.ai पर कैरेक्टर कंसिस्टेंसी प्रोजेक्ट के लिए चलाता हूँ, जिसे हज़ारों टेस्ट जेनरेशनों और असली प्रोडक्शन उपयोग के ज़रिए निखारा गया है। 0.85 पर IPAdapter और 0.65 पर FaceID का संयोजन समझदार डिनॉइज़ वैल्यू के साथ ऐसे परिणाम देता है जो महज़ अठारह महीने पहले असंभव लगते थे।

अगर आप एक Stable Diffusion WebUI पृष्ठभूमि से आ रहे हैं, तो ComfyUI के नोड इंटरफ़ेस के साथ एक सीखने की प्रक्रिया की उम्मीद रखें। उस शुरुआती उलझन से पार पाना इसके लायक है। एक बार जब वर्कफ़्लो ठीक से बैठ जाता है, तो आप हैरान होंगे कि आप इसके बिना कैसे काम चला पाते थे। नोड से होकर डेटा बहते देखने की दृश्य प्रतिक्रिया, प्रोसेसिंग रास्तों को बाँटने और मिलाने की क्षमता, और हर पैरामीटर पर सूक्ष्म नियंत्रण आपको रचनात्मक शक्ति का एक ऐसा स्तर देता है जिसे कोई सरलीकृत UI नहीं छू सकता।

एक अकेली बेहतरीन रेफरेंस इमेज से शुरुआत कीजिए। IPAdapter और FaceID के साथ बुनियादी वर्कफ़्लो बनाइए। मेरी अनुशंसित सेटिंग्स पर 10 इमेजों का एक टेस्ट बैच जेनरेट कीजिए। अगर परिणाम अच्छे दिखते हैं, तो कोण भिन्नताओं और भाव प्रबंधन के साथ प्रयोग करना शुरू कीजिए। अगर कुछ गड़बड़ दिखता है, तो निवारण सेक्शन को फिर से देखिए। सबसे आम समस्याओं के सीधे-सरल समाधान हैं।

AI जेनरेशन में कैरेक्टर कंसिस्टेंसी कभी एक काला जादू हुआ करती थी जिसे कस्टम ट्रेनिंग पाइपलाइन वाले मुट्ठी भर विशेषज्ञ करते थे। अब यह एक ऐसा वर्कफ़्लो है जिसे आप एक दोपहर में बना सकते हैं और महीनों तक भरोसेमंद ढंग से चला सकते हैं। यही ComfyUI के नोड पारिस्थितिकी तंत्र की ताक़त है, और सच कहूँ तो, यह AI आर्ट टूलिंग में सबसे रोमांचक विकासों में से एक है जो मैंने डिफ़्यूज़न मॉडल के पहली बार मुख्यधारा में आने के बाद से देखा है।

अपना AI इन्फ्लुएंसर बनाने के लिए तैयार हैं?

115 छात्रों के साथ शामिल हों जो हमारे पूर्ण 51-पाठ पाठ्यक्रम में ComfyUI और AI इन्फ्लुएंसर मार्केटिंग में महारत हासिल कर रहे हैं।

अर्ली-बर्ड कीमत समाप्त होने में:
--
दिन
:
--
घंटे
:
--
मिनट
:
--
सेकंड
अपनी सीट क्लेम करें - $199
$200 बचाएं - कीमत हमेशा के लिए $399 हो जाएगी