WanVideo Tea Cache 노드 매개변수 최적화 전문가 보고서

I. 요약 보고: 최적화된 구성 개요

제출된 ComfyUI 워크플로우 분석에 따르면, 사용자의 WanVideo Tea Cache (native) 노드 설정은 wan2.¹ i2v 14b 720p q8 0 gguf 모델의 성능을 최적화하기 위한 일반적이고 효과적인 출발점으로 평가된다. 현재 설정은 특히 추론 속도를 극대화하는 데 초점을 맞추고 있다. 본 보고서의 주요 분석 결과는 현재 구성이 하드웨어 제약 조건에 대한 실용적인 접근 방식을 반영하고 있으며, 최적화의 주된 기회는 비디오 품질 저하를 방지하기 위해 단일 매개변수를 전략적으로 조정하는 데 있음을 보여준다. 이 노드 구성에서 가장 중요한 요소는 rel_l1_thresh 값이며, 이는 캐싱의 공격성을 제어하여 추론 속도와 최종 비디오 품질 사이의 균형을 결정한다. 사용자의 현재 값인 0.275는 Wan2.¹ 모델에 권장되는 범위의 높은 쪽에 속하며, 이는 속도를 우선시하는 설정이다.¹ 본 보고서의 핵심 권장 사항은 rel_l1_thresh 값을 0.20으로 낮추는 것이다. 이러한 조정은 비디오의 시각적 품질을 개선하고, 잠재적인 아티팩트나 모션 저하를 줄이면서도 추론 시간에 과도한 영향을 미치지 않을 것으로 예상된다. 다른 매개변수인 start_percent, end_percent, cache_device 및 coefficients는 현재 설정이 모델 및 하드웨어 구성에 가장 적합하므로 변경할 필요가 없는 것으로 분석되었다. 다음 표는 현재 구성, 권장 변경 사항 및 그에 대한 기술적 근거를 요약하여 보여준다. 표 1. WanVideo Tea Cache 매개변수 권장 조정 사항 매개변수 현재 값 권장 값 근거 rel_l1_thresh 0.²⁷⁵ 0.²⁰ 이 값을 낮추면 시각적 품질이 향상되고, 아티팩트가 감소한다. start_percent 0.¹⁰ 0.¹⁰ 초기 비디오 모션과 응집성을 유지하기 위해 그대로 유지. end_percent 1.⁰⁰ 1.⁰⁰ 전체 프로세스 캐싱을 위한 표준 설정이므로 그대로 유지. cache_device offload_device offload_device 리소스가 제한된 하드웨어에서 VRAM 관리를 위해 최적화된 설정이므로 그대로 유지. coefficients i2v_720 i2v_720 모델에 특화된 올바른 설정이므로 그대로 유지.

II. 기초 원리: GGUF와 TeaCache의 교차점

A. 사용자의 모델: wan2.¹ i2v 14b 720p q8 0 gguf

사용자가 사용하는 모델은 wan2.¹ i2v 14b 720p q8 0 gguf로, 여러 핵심 기술을 결합한 매우 구체적인 구성이다. 각 명칭은 모델의 특성과 최적화 전략에 대한 중요한 정보를 담고 있다. 우선, GGUF는 LLM(Large Language Model) 커뮤니티에서 대중화된 파일 형식으로, 대규모 확산 모델을 VRAM(Video RAM)이 제한된 시스템에서 효율적으로 실행하는 데 필수적인 혁신이다.⁴ q8_0은 8비트 양자화를 나타낸다. 이는 모델의 매개변수를 FP16(16비트) 또는 FP32(32비트) 버전보다 훨씬 적은 비트로 표현하여 파일 크기를 크게 줄이는 방법이다.⁶ Wan2.¹ 14B 모델의 원본 FP16 파일 크기는 29.1GB에 달하지만, q8_0 양자화를 적용하면 모델 크기가 약 15.4GB로 줄어들어 7, 8GB 이상의 VRAM을 가진 소비자용 GPU에서도 실행 가능해진다.⁸ 이는 VRAM이 부족한 시스템에서도 고화질 비디오를 생성하려는 사용자에게 매우 실용적인 선택이다.⁵ 모델 자체의 특성을 살펴보면, i2v는 모델이 이미지(image)를 비디오(video)로 변환하는 데 특화되었음을 의미한다.⁹ 14B는 매개변수 수를 나타내며, 이는 Wan2.¹ 시리즈 중 가장 크고 강력한 모델임을 의미한다.¹⁰ 이 모델은 특히 고해상도인 720p 출력을 지원하도록 설계되었다.⁹ 그러나 14B 모델과 720p 해상도의 조합은 계산 및 VRAM 집약적인 작업이므로, 사용자에게 TeaCache와 같은 성능 최적화 도구를 사용하는 것이 필수적이다.¹²

B. TeaCache의 역할과 메커니즘

WanVideo Tea Cache 노드는 추론 시간을 가속화하기 위해 "훈련 없는 캐싱 접근 방식"인 TeaCache 기술을 적용하도록 설계되었다.¹³ 이 기술은 확산 모델의 노이즈 제거 과정에서 연속적인 타임스텝 간의 유사성을 추정하고, 이전 타임스텝의 계산 결과를 재사용함으로써 불필요한 계산을 줄인다.¹⁴ TeaCache의 핵심 원리는 비디오 생성 속도를 크게 향상시키지만, 시각적 품질에 대한 절충이 발생할 수 있다는 점이다.¹⁶ 이러한 절충을 관리하는 핵심은 모델이 새로운 계산을 수행해야 하는 시점과 캐시된 결과를 재사용할 수 있는 시점을 결정하는 것이다. TeaCache는 이를 위해 "상대적 L1 거리(relative L1 distance)"라는 측정 기준을 사용한다.¹⁷ 이 거리는 현재 타임스텝의 출력과 캐시된 이전 타임스텝의 출력 간의 차이를 정량화한다.¹⁹ 사용자가 설정하는 rel_l1_thresh 값은 바로 이 차이에 대한 허용 임계값 역할을 한다.²⁰ 이 값은 사용자가 속도와 품질 사이에서 원하는 균형을 맞추는 "속도-품질 레버"라고 할 수 있다.¹⁶

III. 매개변수 종합 분석 및 최적화 권장 사항

A. rel_l1_thresh: 속도-품질 레버

현재 값 (0.275) 분석

사용자가 설정한 rel_l1_thresh 값 0.275는 Wan2.¹ I2V 720p 모델의 일반적인 워크플로우에서 찾아볼 수 있는 값과 거의 동일하다.²¹ 이는 사용자가 관련 커뮤니티에서 확립된 최적화 설정을 따르고 있음을 시사한다. 이 값은 WanVideoWrapper 문서에서 권장하는 0.15~0.³⁰ 범위에 속하며, 특히 0.275는 이 범위의 상위권에 위치한다.² 이처럼 높은 임계값은 모델이 더 큰 출력 차이를 "충분히 유사하다"고 간주하게 하여, 계산 건너뛰기를 더 자주 수행함으로써 추론 속도를 극대화한다.²² 일부 문서에서 이 매개변수에 대한 혼동이 발견될 수 있다. 일부 자료에서는 낮은 임계값이 더 공격적인 캐싱을 초래한다고 명시하는 반면 24, TeaCache의 기술적 원리와 대다수의 문서에 따르면 더 높은 임계값이 캐싱을 더 자주 적용하여 결과적으로 더 공격적인 속도 향상을 가져온다.³ 이 값은 허용 오차를 나타내므로, 값이 높을수록 더 많은 차이를 허용하고 더 많은 계산을 건너뛸 수 있게 된다. 이로 인해 추론 속도는 빨라지지만, 실제 노이즈 제거 경로에서 벗어날 위험이 커져 미묘한 디테일이 사라지거나 "블러리(blur)" 아티팩트가 나타날 수 있다.²⁵

권장 조정 사항

Wan2.¹ 모델은 rel_l1_thresh 값에 매우 민감한 것으로 알려져 있다. 높은 설정은 속도를 크게 높이지만, 비디오 출력에서 "흐릿한 팔다리"와 같은 시각적 아티팩트를 유발할 수 있다.³ 따라서 현재 0.275에서 rel_l1_thresh를 0.20으로 낮추는 것을 권장한다. 이 값은 여전히 효율적인 캐싱을 제공하면서도 품질 저하 위험을 줄이고 비디오의 시각적 일관성을 개선할 수 있다.

B. start_percent 및 end_percent: 캐싱 창 정의

현재 값 (0.¹⁰ 및 1.00) 분석

사용자의 start_percent 0.¹⁰ 및 end_percent 1.⁰⁰ 설정은 WanVideo Tea Cache 노드를 사용할 때 권장되는 모범 사례와 정확하게 일치한다.² 이 두 매개변수는 전체 추론 과정 중 캐싱이 적용되는 시작점과 끝점을 정의한다.

기술적 분석: 초기 단계의 중요성

start_percent를 0.10으로 설정하는 것은 매우 중요하다. 확산 모델의 초기 단계는 비디오의 전반적인 구도, 대상의 일관성 및 움직임을 확립하는 데 가장 중요하기 때문이다. 이 초기 단계에서 캐싱을 적용하여 계산을 건너뛰면, 결과 비디오에서 "모션 저하(motion suffering)"와 같은 심각한 품질 문제가 발생할 수 있다.¹ 사용자는 start_percent를 0.10으로 설정함으로써 이와 같은 일반적인 문제를 사전에 방지하는 효과적인 전략을 선택한 것이다. end_percent를 1.00으로 설정한 것은 캐싱이 추론 과정의 마지막 단계까지 계속 적용되도록 하는 표준 설정이다.² 이 값은 일반적으로 변경할 필요가 없다. 따라서 이 두 매개변수는 현재 상태로 유지하는 것이 가장 합리적이다.

C. cache_device: 하드웨어 효율성 극대화

현재 값 (offload_device) 분석

cache_device를 offload_device로 설정한 것은 사용자가 시스템의 VRAM 제약 조건을 효과적으로 관리하고 있음을 보여준다. GGUF 모델, 특히 14B 720p와 같은 대규모 모델은 VRAM 부족으로 인해 Out-of-Memory(OOM) 오류를 일으키기 쉽다.⁴ offload_device는 캐시된 데이터를 GPU의 VRAM 대신 시스템 RAM으로 오프로드하는 솔루션이다.²⁶

기술적 분석: 오프로드 장치의 역할

offload_device와 main_device를 비교하면 속도와 메모리 사용량에 명확한 절충이 있음을 알 수 있다. main_device(주로 GPU)에 캐싱하면 훨씬 빠른 추론이 가능하지만, 더 많은 VRAM을 소비한다.²⁶ 반면, offload_device는 시스템 RAM을 사용하여 VRAM을 절약함으로써 OOM 오류를 방지하지만, PCIe 버스를 통한 데이터 전송 병목 현상과 CPU의 낮은 계산 속도로 인해 추론 속도에 상당한 페널티가 발생한다.²⁹ 이러한 오프로딩은 CPU가 GPU보다 약 10배 느리므로, 추론 속도가 크게 저하될 수 있다.²⁹ 사용자는 이러한 속도 저하를 감수하고라도 성공적인 생성을 보장하는 실용적인 선택을 한 것이다.³¹ 따라서 이 설정은 사용자의 하드웨어 구성에 대한 합리적인 결정이므로 변경할 필요가 없다.

D. coefficients: 모델 특화 튜닝의 핵심

현재 값 (i2v_720) 분석

사용자의 coefficients 설정은 i2v_720으로, 이는 Wan2.1의 i2v 모델을 720p 해상도로 사용할 때 올바른 사전 계산된 계수 세트이다.²

기술적 분석: 재조정 전략

coefficients 매개변수는 단순한 레이블이 아니라 TeaCache 알고리즘의 핵심 기술적 구성 요소이다. 이 매개변수는 모델이 rel_l1_thresh를 효과적으로 사용하도록 출력 차이를 재조정하는 데 사용되는 다항식 계수(polynomial coefficients)를 담고 있다.¹⁴ Wan2.¹ 모델의 특정 변형(예: T2V 14B 또는 I2V 720p)에 맞춤화된 이 계수는, L1 거리가 모델의 동작을 정확하게 반영하도록 하여 추론 과정 전반에 걸쳐 rel_l1_thresh가 의미 있는 임계값으로 작동하게 한다.³³ 이러한 계수가 있기 때문에 사용자의 rel_l1_thresh 값은 비교적 높게 설정되어 있다. 문서에서는 계수가 활성화될 때 rel_l1_thresh 값이 계수가 사용되지 않을 때보다 약 10배 더 높아야 한다고 명시하고 있으며 2, 사용자의 현재 높은 임계값은 이러한 기술적 요건에 부합하는 적절한 결과이다. 따라서 coefficients 설정을 변경하면 워크플로우를 완전히 재조정해야 하므로, 이 매개변수는 현재 상태로 유지하는 것이 가장 좋다.

IV. 실행 가능한 워크플로우 최적화 및 반복 프로세스

A. 반복적 미세 조정 가이드

이 보고서의 분석은 단순히 권장 사항을 제공하는 것을 넘어, 사용자가 rel_l1_thresh 값을 직접 미세 조정하여 자신에게 가장 적합한 속도-품질 균형을 찾을 수 있도록 지원하는 것을 목표로 한다. 아래의 단계별 프로세스를 따르면 이 매개변수를 효과적으로 최적화할 수 있다. 기준점 설정: 먼저 현재 설정인 rel_l1_thresh 0.275로 비디오를 생성한다. 이때 걸린 시간과 최종 비디오의 시각적 품질(아티팩트 유무, 모션 일관성 등)을 주의 깊게 기록하여 비교 기준을 마련한다. 품질 우선 조정: rel_l1_thresh를 권장 값인 0.20으로 낮춘 후, 동일한 비디오를 다시 생성한다. 품질에 초점을 맞춰 두 비디오를 비교한다. 모션과 디테일의 개선이 있는지, 아티팩트가 줄었는지 확인한다. 또한 생성 시간이 얼마나 늘었는지도 확인한다. 최적의 균형점 찾기: 만약 품질은 매우 좋지만 생성 시간이 너무 길다고 판단되면, 값을 0.⁰²⁵ 단위로 소폭 올려가며 (예: 0.225, 0.25) 테스트를 반복한다. 반대로 품질이 여전히 만족스럽지 않다면, 더 낮은 값(예: 0.15)을 시도해 본다. 이러한 반복적 과정은 TeaCache가 제공하는 핵심 이점 중 하나인 "빠른 반복"을 활용하는 것이다.³⁴ 사용자는 높은 rel_l1_thresh 값으로 빠르고 거친 영상을 생성하여 프롬프트나 아이디어를 신속하게 테스트하고, 최종 결과물을 생성할 때만 낮은 값으로 전환하여 최고 품질의 비디오를 얻을 수 있다.

V. 결론 및 전망

사용자의 WanVideo Tea Cache 노드 구성에 대한 심층 분석 결과, 현재 워크플로우는 wan2.¹ i2v 14b 720p q8 0 gguf 모델의 특성과 하드웨어 제약 조건을 매우 잘 이해하고 있음을 보여준다. offload_device와 i2v_720 계수를 사용한 설정은 고해상도 GGUF 모델을 VRAM이 제한된 시스템에서 실행하기 위한 합리적이고 실용적인 접근 방식이다. 현재 설정에서 가장 중요한 미세 조정 지점은 rel_l1_thresh 매개변수이다. 이 값은 캐싱의 공격성을 직접 제어하며, 비디오의 시각적 품질에 상당한 영향을 미친다. 사용자가 rel_l1_thresh의 역할과 다른 매개변수와의 기술적 연관성을 명확히 이해함으로써, 이제는 단순히 기존의 설정을 따르는 것을 넘어 자신의 창의적인 요구에 따라 비디오 생성 프로세스를 정밀하게 조정할 수 있게 되었다. 최종 권장 사항인 rel_l1_thresh를 0.20으로 낮추는 것은 품질과 속도 사이의 균형을 최적화하기 위한 시작점이다. 이 분석은 사용자가 워크플로우를 개선하는 데 필요한 지식과 도구를 제공하며, 향후 다양한 창작 활동에서 비디오 품질을 극대화할 수 있는 토대를 마련한다. 참고 자료 kijai/ComfyUI-WanVideoWrapper - GitHub, 8월 23, 2025에 액세스, https://github.com/kijai/ComfyUI-WanVideoWrapper WanVideoTeaCache - comfyui-wanvideowrapper Custom Node | InstaSD, 8월 23, 2025에 액세스, https://www.instasd.com/comfyui/custom-nodes/comfyui-wanvideowrapper/wanvideoteacache Speed up ComfyUI Image and Video generation with TeaCache | by Guillaume Bieler, 8월 23, 2025에 액세스, https://medium.com/@guillaume.bieler/speed-up-comfyui-image-and-video-generation-with-teacache-4409fac3def9 ComfyUI-GGUF detailed guide - RunComfy, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-GGUF How to Run Wan2.² Image to Video GGUF Models in ComfyUI (Low VRAM) - Next Diffusion, 8월 23, 2025에 액세스, https://www.nextdiffusion.ai/tutorials/how-to-run-wan22-image-to-video-gguf-models-in-comfyui-low-vram QuantStack/Wan2.2-I2V-A14B-GGUF - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/QuantStack/Wan2.2-I2V-A14B-GGUF city96/Wan2.1-T2V-14B-gguf - Hugging Face, 8월 23, 2025에 액세스, https://huggingface.co/city96/Wan2.1-T2V-14B-gguf ComfyUI Tutorial : WAN2.¹ Model For High Quality Image - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1mb9tl1/comfyui_tutorial_wan21_model_for_high_quality/ Wan2.1-I2V-14B-720P-gguf - PromptLayer, 8월 23, 2025에 액세스, https://www.promptlayer.com/models/wan21-i2v-14b-720p-gguf Wan-Video/Wan2.1: Wan: Open and Advanced Large-Scale Video Generative Models - GitHub, 8월 23, 2025에 액세스, https://github.com/Wan-Video/Wan2.1 Wan 2.¹ Models | ComfyUI_examples - GitHub Pages, 8월 23, 2025에 액세스, https://comfyanonymous.github.io/ComfyUI_examples/wan/ Wan2.¹ Performance Testing : r/comfyui - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1j0cm9p/wan21_performance_testing/ welltop-cn/ComfyUI-TeaCache - GitHub, 8월 23, 2025에 액세스, https://github.com/welltop-cn/ComfyUI-TeaCache Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model - arXiv, 8월 23, 2025에 액세스, https://arxiv.org/html/2411.19108v2 Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model - Feng Liu, 8월 23, 2025에 액세스, https://liewfeng.github.io/TeaCache/ ComfyUI Course Ep 40: TeaCache – Speed Up Your Workflows with, 8월 23, 2025에 액세스, https://completeaitraining.com/course/comfyui-course-ep-40-teacache-speed-up-your-workflows-with-smart-caching-2/ WanVideoTeaCacheKJ Node Documentation (ComfyUI-KJNodes) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/WanVideoTeaCacheKJ www.runcomfy.com, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-TeaCache/tea-cache#:~:text=rel_l1_thresh,with%20a%20default%20of%200.3. Supplementary Material Face Animation with an Attribute-Guided Diffusion Model - CVF Open Access, 8월 23, 2025에 액세스, https://openaccess.thecvf.com/content/CVPR2023W/GCV/supplemental/Zeng_Face_Animation_With_CVPRW_2023_supplemental.pdf CogVideoXTeaCache Node Documentation (ComfyUI-CogVideoXWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/CogVideoXTeaCache Wan2.¹ I2V 14B 720p model: Why do I get such abrupt characters inserted in the video?, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1jpjiig/wan21_i2v_14b_720p_model_why_do_i_get_such_abrupt/ ComfyUI Tutorial Series Ep 40: TeaCache – Speed Up Your Workflows with Smart Caching, 8월 23, 2025에 액세스, https://www.youtube.com/watch?v=wQYQDFYZGi4 WanVideoTeaCache Node Documentation (ComfyUI-WanVideoWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/WanVideoTeaCache TeaCache - RunComfy, 8월 23, 2025에 액세스, https://www.runcomfy.com/comfyui-nodes/ComfyUI-TeaCache/tea-cache TeaCache, TorchCompile, SageAttention and SDPA at 30 steps (up to ~70% faster on Wan I2V 480p) : r/StableDiffusion - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1j1w9s9/teacache_torchcompile_sageattention_and_sdpa_at/ MochiFasterCache Node Documentation (ComfyUI-MochiWrapper) - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/MochiFasterCache TeaCache ComfyUI Node - ComfyAI.run, 8월 23, 2025에 액세스, https://comfyai.run/documentation/TeaCache ComfyUI-TeaCache Custom Node, 8월 23, 2025에 액세스, https://comfyai.run/custom_node/ComfyUI-TeaCache What is the purpose of the offloading particular layers on the GPU if you don't have enough VRAM in the LM-studio (there is no difference in the token generation at all) : r/LocalLLM - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/LocalLLM/comments/1lae4xe/what_is_the_purpose_of_the_offloading_particular/ Why prompt processing with few layers offloaded vs. all is so much slower? · Issue #737 · LostRuins/koboldcpp - GitHub, 8월 23, 2025에 액세스, https://github.com/LostRuins/koboldcpp/issues/737 ComfyUI, GGUF, and MultiGPU: Making your UNet a 2-Net (and beyond) - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/comfyui/comments/1ic0mzt/comfyui_gguf_and_multigpu_making_your_unet_a_2net/ WanVideo Tea Cache (native) - ComfyUI Cloud - Comfy.ICU, 8월 23, 2025에 액세스, https://comfy.icu/node/WanVideoTeaCacheKJ Could you please check this and implement the use_ret_steps into the ComfyUI TeaCache. I have used GROK and the original teacache coding for linux · Issue #245 · kijai/ComfyUI-KJNodes - GitHub, 8월 23, 2025에 액세스, https://github.com/kijai/ComfyUI-KJNodes/issues/245 TeaCache FLUX node for ComfyUI - increased generation speed with a cost in image quality : r/StableDiffusion - Reddit, 8월 23, 2025에 액세스, https://www.reddit.com/r/StableDiffusion/comments/1hwjito/teacache_flux_node_for_comfyui_increased/

Deep Research Archives

Deep Research Archives

WanVideo Tea Cache 노드 매개변수 최적화 전문가 보고서[link]