1 point by slswlsek 3 weeks ago | flag | hide | 0 comments
WanVideo Tea Cache 노드 매개변수 최적화 전문가 보고서
I. 요약 보고: 최적화된 구성 개요
제출된 ComfyUI 워크플로우 분석에 따르면, 사용자의 WanVideo Tea Cache (native) 노드 설정은 wan2.1 i2v 14b 720p q8 0 gguf 모델의 성능을 최적화하기 위한 일반적이고 효과적인 출발점으로 평가된다. 현재 설정은 특히 추론 속도를 극대화하는 데 초점을 맞추고 있다. 본 보고서의 주요 분석 결과는 현재 구성이 하드웨어 제약 조건에 대한 실용적인 접근 방식을 반영하고 있으며, 최적화의 주된 기회는 비디오 품질 저하를 방지하기 위해 단일 매개변수를 전략적으로 조정하는 데 있음을 보여준다. 이 노드 구성에서 가장 중요한 요소는 rel_l1_thresh 값이며, 이는 캐싱의 공격성을 제어하여 추론 속도와 최종 비디오 품질 사이의 균형을 결정한다. 사용자의 현재 값인 0.275는 Wan2.1 모델에 권장되는 범위의 높은 쪽에 속하며, 이는 속도를 우선시하는 설정이다.1 본 보고서의 핵심 권장 사항은 rel_l1_thresh 값을 0.20으로 낮추는 것이다. 이러한 조정은 비디오의 시각적 품질을 개선하고, 잠재적인 아티팩트나 모션 저하를 줄이면서도 추론 시간에 과도한 영향을 미치지 않을 것으로 예상된다. 다른 매개변수인 start_percent, end_percent, cache_device 및 coefficients는 현재 설정이 모델 및 하드웨어 구성에 가장 적합하므로 변경할 필요가 없는 것으로 분석되었다. 다음 표는 현재 구성, 권장 변경 사항 및 그에 대한 기술적 근거를 요약하여 보여준다. 표 1. WanVideo Tea Cache 매개변수 권장 조정 사항 매개변수 현재 값 권장 값 근거 rel_l1_thresh 0.275 0.20 이 값을 낮추면 시각적 품질이 향상되고, 아티팩트가 감소한다. start_percent 0.10 0.10 초기 비디오 모션과 응집성을 유지하기 위해 그대로 유지. end_percent 1.00 1.00 전체 프로세스 캐싱을 위한 표준 설정이므로 그대로 유지. cache_device offload_device offload_device 리소스가 제한된 하드웨어에서 VRAM 관리를 위해 최적화된 설정이므로 그대로 유지. coefficients i2v_720 i2v_720 모델에 특화된 올바른 설정이므로 그대로 유지.
II. 기초 원리: GGUF와 TeaCache의 교차점
A. 사용자의 모델: wan2.1 i2v 14b 720p q8 0 gguf
사용자가 사용하는 모델은 wan2.1 i2v 14b 720p q8 0 gguf로, 여러 핵심 기술을 결합한 매우 구체적인 구성이다. 각 명칭은 모델의 특성과 최적화 전략에 대한 중요한 정보를 담고 있다. 우선, GGUF는 LLM(Large Language Model) 커뮤니티에서 대중화된 파일 형식으로, 대규모 확산 모델을 VRAM(Video RAM)이 제한된 시스템에서 효율적으로 실행하는 데 필수적인 혁신이다.4 q8_0은 8비트 양자화를 나타낸다. 이는 모델의 매개변수를 FP16(16비트) 또는 FP32(32비트) 버전보다 훨씬 적은 비트로 표현하여 파일 크기를 크게 줄이는 방법이다.6 Wan2.1 14B 모델의 원본 FP16 파일 크기는 29.1GB에 달하지만, q8_0 양자화를 적용하면 모델 크기가 약 15.4GB로 줄어들어 7, 8GB 이상의 VRAM을 가진 소비자용 GPU에서도 실행 가능해진다.8 이는 VRAM이 부족한 시스템에서도 고화질 비디오를 생성하려는 사용자에게 매우 실용적인 선택이다.5 모델 자체의 특성을 살펴보면, i2v는 모델이 이미지(image)를 비디오(video)로 변환하는 데 특화되었음을 의미한다.9 14B는 매개변수 수를 나타내며, 이는 Wan2.1 시리즈 중 가장 크고 강력한 모델임을 의미한다.10 이 모델은 특히 고해상도인 720p 출력을 지원하도록 설계되었다.9 그러나 14B 모델과 720p 해상도의 조합은 계산 및 VRAM 집약적인 작업이므로, 사용자에게 TeaCache와 같은 성능 최적화 도구를 사용하는 것이 필수적이다.12
B. TeaCache의 역할과 메커니즘
WanVideo Tea Cache 노드는 추론 시간을 가속화하기 위해 "훈련 없는 캐싱 접근 방식"인 TeaCache 기술을 적용하도록 설계되었다.13 이 기술은 확산 모델의 노이즈 제거 과정에서 연속적인 타임스텝 간의 유사성을 추정하고, 이전 타임스텝의 계산 결과를 재사용함으로써 불필요한 계산을 줄인다.14 TeaCache의 핵심 원리는 비디오 생성 속도를 크게 향상시키지만, 시각적 품질에 대한 절충이 발생할 수 있다는 점이다.16 이러한 절충을 관리하는 핵심은 모델이 새로운 계산을 수행해야 하는 시점과 캐시된 결과를 재사용할 수 있는 시점을 결정하는 것이다. TeaCache는 이를 위해 "상대적 L1 거리(relative L1 distance)"라는 측정 기준을 사용한다.17 이 거리는 현재 타임스텝의 출력과 캐시된 이전 타임스텝의 출력 간의 차이를 정량화한다.19 사용자가 설정하는 rel_l1_thresh 값은 바로 이 차이에 대한 허용 임계값 역할을 한다.20 이 값은 사용자가 속도와 품질 사이에서 원하는 균형을 맞추는 "속도-품질 레버"라고 할 수 있다.16
III. 매개변수 종합 분석 및 최적화 권장 사항
A. rel_l1_thresh: 속도-품질 레버
현재 값 (0.275) 분석
사용자가 설정한 rel_l1_thresh 값 0.275는 Wan2.1 I2V 720p 모델의 일반적인 워크플로우에서 찾아볼 수 있는 값과 거의 동일하다.21 이는 사용자가 관련 커뮤니티에서 확립된 최적화 설정을 따르고 있음을 시사한다. 이 값은 WanVideoWrapper 문서에서 권장하는 0.15~0.30 범위에 속하며, 특히 0.275는 이 범위의 상위권에 위치한다.2 이처럼 높은 임계값은 모델이 더 큰 출력 차이를 "충분히 유사하다"고 간주하게 하여, 계산 건너뛰기를 더 자주 수행함으로써 추론 속도를 극대화한다.22 일부 문서에서 이 매개변수에 대한 혼동이 발견될 수 있다. 일부 자료에서는 낮은 임계값이 더 공격적인 캐싱을 초래한다고 명시하는 반면 24, TeaCache의 기술적 원리와 대다수의 문서에 따르면 더 높은 임계값이 캐싱을 더 자주 적용하여 결과적으로 더 공격적인 속도 향상을 가져온다.3 이 값은 허용 오차를 나타내므로, 값이 높을수록 더 많은 차이를 허용하고 더 많은 계산을 건너뛸 수 있게 된다. 이로 인해 추론 속도는 빨라지지만, 실제 노이즈 제거 경로에서 벗어날 위험이 커져 미묘한 디테일이 사라지거나 "블러리(blur)" 아티팩트가 나타날 수 있다.25
권장 조정 사항
Wan2.1 모델은 rel_l1_thresh 값에 매우 민감한 것으로 알려져 있다. 높은 설정은 속도를 크게 높이지만, 비디오 출력에서 "흐릿한 팔다리"와 같은 시각적 아티팩트를 유발할 수 있다.3 따라서 현재 0.275에서 rel_l1_thresh를 0.20으로 낮추는 것을 권장한다. 이 값은 여전히 효율적인 캐싱을 제공하면서도 품질 저하 위험을 줄이고 비디오의 시각적 일관성을 개선할 수 있다.
B. start_percent 및 end_percent: 캐싱 창 정의
현재 값 (0.10 및 1.00) 분석
사용자의 start_percent 0.10 및 end_percent 1.00 설정은 WanVideo Tea Cache 노드를 사용할 때 권장되는 모범 사례와 정확하게 일치한다.2 이 두 매개변수는 전체 추론 과정 중 캐싱이 적용되는 시작점과 끝점을 정의한다.
기술적 분석: 초기 단계의 중요성
start_percent를 0.10으로 설정하는 것은 매우 중요하다. 확산 모델의 초기 단계는 비디오의 전반적인 구도, 대상의 일관성 및 움직임을 확립하는 데 가장 중요하기 때문이다. 이 초기 단계에서 캐싱을 적용하여 계산을 건너뛰면, 결과 비디오에서 "모션 저하(motion suffering)"와 같은 심각한 품질 문제가 발생할 수 있다.1 사용자는 start_percent를 0.10으로 설정함으로써 이와 같은 일반적인 문제를 사전에 방지하는 효과적인 전략을 선택한 것이다. end_percent를 1.00으로 설정한 것은 캐싱이 추론 과정의 마지막 단계까지 계속 적용되도록 하는 표준 설정이다.2 이 값은 일반적으로 변경할 필요가 없다. 따라서 이 두 매개변수는 현재 상태로 유지하는 것이 가장 합리적이다.
C. cache_device: 하드웨어 효율성 극대화
현재 값 (offload_device) 분석
cache_device를 offload_device로 설정한 것은 사용자가 시스템의 VRAM 제약 조건을 효과적으로 관리하고 있음을 보여준다. GGUF 모델, 특히 14B 720p와 같은 대규모 모델은 VRAM 부족으로 인해 Out-of-Memory(OOM) 오류를 일으키기 쉽다.4 offload_device는 캐시된 데이터를 GPU의 VRAM 대신 시스템 RAM으로 오프로드하는 솔루션이다.26
기술적 분석: 오프로드 장치의 역할
offload_device와 main_device를 비교하면 속도와 메모리 사용량에 명확한 절충이 있음을 알 수 있다. main_device(주로 GPU)에 캐싱하면 훨씬 빠른 추론이 가능하지만, 더 많은 VRAM을 소비한다.26 반면, offload_device는 시스템 RAM을 사용하여 VRAM을 절약함으로써 OOM 오류를 방지하지만, PCIe 버스를 통한 데이터 전송 병목 현상과 CPU의 낮은 계산 속도로 인해 추론 속도에 상당한 페널티가 발생한다.29 이러한 오프로딩은 CPU가 GPU보다 약 10배 느리므로, 추론 속도가 크게 저하될 수 있다.29 사용자는 이러한 속도 저하를 감수하고라도 성공적인 생성을 보장하는 실용적인 선택을 한 것이다.31 따라서 이 설정은 사용자의 하드웨어 구성에 대한 합리적인 결정이므로 변경할 필요가 없다.
D. coefficients: 모델 특화 튜닝의 핵심
현재 값 (i2v_720) 분석
사용자의 coefficients 설정은 i2v_720으로, 이는 Wan2.1의 i2v 모델을 720p 해상도로 사용할 때 올바른 사전 계산된 계수 세트이다.2
기술적 분석: 재조정 전략
coefficients 매개변수는 단순한 레이블이 아니라 TeaCache 알고리즘의 핵심 기술적 구성 요소이다. 이 매개변수는 모델이 rel_l1_thresh를 효과적으로 사용하도록 출력 차이를 재조정하는 데 사용되는 다항식 계수(polynomial coefficients)를 담고 있다.14 Wan2.1 모델의 특정 변형(예: T2V 14B 또는 I2V 720p)에 맞춤화된 이 계수는, L1 거리가 모델의 동작을 정확하게 반영하도록 하여 추론 과정 전반에 걸쳐 rel_l1_thresh가 의미 있는 임계값으로 작동하게 한다.33 이러한 계수가 있기 때문에 사용자의 rel_l1_thresh 값은 비교적 높게 설정되어 있다. 문서에서는 계수가 활성화될 때 rel_l1_thresh 값이 계수가 사용되지 않을 때보다 약 10배 더 높아야 한다고 명시하고 있으며 2, 사용자의 현재 높은 임계값은 이러한 기술적 요건에 부합하는 적절한 결과이다. 따라서 coefficients 설정을 변경하면 워크플로우를 완전히 재조정해야 하므로, 이 매개변수는 현재 상태로 유지하는 것이 가장 좋다.
IV. 실행 가능한 워크플로우 최적화 및 반복 프로세스
A. 반복적 미세 조정 가이드
이 보고서의 분석은 단순히 권장 사항을 제공하는 것을 넘어, 사용자가 rel_l1_thresh 값을 직접 미세 조정하여 자신에게 가장 적합한 속도-품질 균형을 찾을 수 있도록 지원하는 것을 목표로 한다. 아래의 단계별 프로세스를 따르면 이 매개변수를 효과적으로 최적화할 수 있다. 기준점 설정: 먼저 현재 설정인 rel_l1_thresh 0.275로 비디오를 생성한다. 이때 걸린 시간과 최종 비디오의 시각적 품질(아티팩트 유무, 모션 일관성 등)을 주의 깊게 기록하여 비교 기준을 마련한다. 품질 우선 조정: rel_l1_thresh를 권장 값인 0.20으로 낮춘 후, 동일한 비디오를 다시 생성한다. 품질에 초점을 맞춰 두 비디오를 비교한다. 모션과 디테일의 개선이 있는지, 아티팩트가 줄었는지 확인한다. 또한 생성 시간이 얼마나 늘었는지도 확인한다. 최적의 균형점 찾기: 만약 품질은 매우 좋지만 생성 시간이 너무 길다고 판단되면, 값을 0.025 단위로 소폭 올려가며 (예: 0.225, 0.25) 테스트를 반복한다. 반대로 품질이 여전히 만족스럽지 않다면, 더 낮은 값(예: 0.15)을 시도해 본다. 이러한 반복적 과정은 TeaCache가 제공하는 핵심 이점 중 하나인 "빠른 반복"을 활용하는 것이다.34 사용자는 높은 rel_l1_thresh 값으로 빠르고 거친 영상을 생성하여 프롬프트나 아이디어를 신속하게 테스트하고, 최종 결과물을 생성할 때만 낮은 값으로 전환하여 최고 품질의 비디오를 얻을 수 있다.
V. 결론 및 전망
사용자의 WanVideo Tea Cache 노드 구성에 대한 심층 분석 결과, 현재 워크플로우는 wan2.1 i2v 14b 720p q8 0 gguf 모델의 특성과 하드웨어 제약 조건을 매우 잘 이해하고 있음을 보여준다. offload_device와 i2v_720 계수를 사용한 설정은 고해상도 GGUF 모델을 VRAM이 제한된 시스템에서 실행하기 위한 합리적이고 실용적인 접근 방식이다.
현재 설정에서 가장 중요한 미세 조정 지점은 rel_l1_thresh 매개변수이다. 이 값은 캐싱의 공격성을 직접 제어하며, 비디오의 시각적 품질에 상당한 영향을 미친다. 사용자가 rel_l1_thresh의 역할과 다른 매개변수와의 기술적 연관성을 명확히 이해함으로써, 이제는 단순히 기존의 설정을 따르는 것을 넘어 자신의 창의적인 요구에 따라 비디오 생성 프로세스를 정밀하게 조정할 수 있게 되었다.
최종 권장 사항인 rel_l1_thresh를 0.20으로 낮추는 것은 품질과 속도 사이의 균형을 최적화하기 위한 시작점이다. 이 분석은 사용자가 워크플로우를 개선하는 데 필요한 지식과 도구를 제공하며, 향후 다양한 창작 활동에서 비디오 품질을 극대화할 수 있는 토대를 마련한다.
참고 자료
kijai/ComfyUI-WanVideoWrapper - GitHub, 8월 23, 2025에 액세스, https://github.com/kijai/ComfyUI-WanVideoWrapper
WanVideoTeaCache - comfyui-wanvideowrapper Custom Node | InstaSD, 8월 23, 2025에 액세스, https://www.instasd.com/comfyui/custom-nodes/comfyui-wanvideowrapper/wanvideoteacache
Speed up ComfyUI Image and Video generation with TeaCache | by Guillaume Bieler, 8월 23, 2025에 액세스, https://medium.com/@guillaume.bieler/speed-up-comfyui-image-and-video-generation-with-teacache-4409fac3def9
ComfyUI-GGUF detailed guide - RunComfy, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-GGUF
How to Run Wan2.2 Image to Video GGUF Models in ComfyUI (Low VRAM) - Next Diffusion, 8월 23, 2025에 액세스, https://www.nextdiffusion.ai/tutorials/how-to-run-wan22-image-to-video-gguf-models-in-comfyui-low-vram
QuantStack/Wan2.2-I2V-A14B-GGUF - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/QuantStack/Wan2.2-I2V-A14B-GGUF
city96/Wan2.1-T2V-14B-gguf - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/city96/Wan2.1-T2V-14B-gguf
ComfyUI Tutorial : WAN2.1 Model For High Quality Image - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1mb9tl1/comfyui_tutorial_wan21_model_for_high_quality/
Wan2.1-I2V-14B-720P-gguf - PromptLayer, 8월 23, 2025에 액세스, https://www.promptlayer.com/models/wan21-i2v-14b-720p-gguf
Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models - GitHub, 8월 23, 2025에 액세스, https://github.com/Wan-Video/Wan2.1
Wan 2.1 Models | ComfyUI_examples - GitHub Pages, 8월 23, 2025에 액세스, https://comfyanonymous.github.io/ComfyUI_examples/wan/
Wan2.1 Performance Testing : r/comfyui - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1j0cm9p/wan21_performance_testing/
welltop-cn/ComfyUI-TeaCache - GitHub, 8월 23, 2025에 액세스, https://github.com/welltop-cn/ComfyUI-TeaCache
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2411.19108v2
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model - Feng Liu, 8월 23, 2025에 액세스, https://liewfeng.github.io/TeaCache/
ComfyUI Course Ep 40: TeaCache – Speed Up Your Workflows with, 8월 23, 2025에 액세스, https://completeaitraining.com/course/comfyui-course-ep-40-teacache-speed-up-your-workflows-with-smart-caching-2/
WanVideoTeaCacheKJ Node Documentation (ComfyUI-KJNodes) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/WanVideoTeaCacheKJ
www.runcomfy.com, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-TeaCache/tea-cache#:~:text=rel_l1_thresh,with%20a%20default%20of%200.3.
Supplementary Material Face Animation with an Attribute-Guided Diffusion Model - CVF Open Access, 8월 23, 2025에 액세스, https://openaccess.thecvf.com/content/CVPR2023W/GCV/supplemental/Zeng_Face_Animation_With_CVPRW_2023_supplemental.pdf
CogVideoXTeaCache Node Documentation (ComfyUI-CogVideoXWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/CogVideoXTeaCache
Wan2.1 I2V 14B 720p model: Why do I get such abrupt characters inserted in the video?, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1jpjiig/wan21_i2v_14b_720p_model_why_do_i_get_such_abrupt/
ComfyUI Tutorial Series Ep 40: TeaCache – Speed Up Your Workflows with Smart Caching, 8월 23, 2025에 액세스, https://www.youtube.com/watch?v=wQYQDFYZGi4
WanVideoTeaCache Node Documentation (ComfyUI-WanVideoWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/WanVideoTeaCache
TeaCache - RunComfy, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-TeaCache/tea-cache
TeaCache, TorchCompile, SageAttention and SDPA at 30 steps (up to ~70% faster on Wan I2V 480p) : r/StableDiffusion - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1j1w9s9/teacache_torchcompile_sageattention_and_sdpa_at/
MochiFasterCache Node Documentation (ComfyUI-MochiWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/MochiFasterCache
TeaCache ComfyUI Node - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/TeaCache
ComfyUI-TeaCache Custom Node, 8월 23, 2025에 액세스, https://comfyai.run/custom_node/ComfyUI-TeaCache
What is the purpose of the offloading particular layers on the GPU if you don't have enough VRAM in the LM-studio (there is no difference in the token generation at all) : r/LocalLLM - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/LocalLLM/comments/1lae4xe/what_is_the_purpose_of_the_offloading_particular/
Why prompt processing with few layers offloaded vs. all is so much slower? · Issue #737 · LostRuins/koboldcpp - GitHub, 8월 23, 2025에 액세스, https://github.com/LostRuins/koboldcpp/issues/737
ComfyUI, GGUF, and MultiGPU: Making your UNet
a 2-Net
(and beyond) - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1ic0mzt/comfyui_gguf_and_multigpu_making_your_unet_a_2net/
WanVideo Tea Cache (native) - ComfyUI Cloud - Comfy.ICU, 8월 23, 2025에 액세스, https://comfy.icu/node/WanVideoTeaCacheKJ
Could you please check this and implement the use_ret_steps into the ComfyUI TeaCache. I have used GROK and the original teacache coding for linux · Issue #245 · kijai/ComfyUI-KJNodes - GitHub, 8월 23, 2025에 액세스, https://github.com/kijai/ComfyUI-KJNodes/issues/245
TeaCache FLUX node for ComfyUI - increased generation speed with a cost in image quality : r/StableDiffusion - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1hwjito/teacache_flux_node_for_comfyui_increased/