无需训练即插即用新算法

量子位
2024-12-27 02:28:47

无需训练即插即用新算法大幅增强视频生成质量｜NUS＆上海AI Lab&UT Austin

无需额外模型训练、即插即用，全新的视频生成增强算法——Enhance-A-Video来了！

和最近人气超高的混元视频生成模型（HunyuanVideo）对比来看，加入Enhance-A-Video的版本在生成画面中表现出了更加丰富的细节和更高的语义契合度，生成内容和用户输入的文本提示更匹配：【视频1】

研究团队成员来自新加坡国立大学、上海AI实验室和德克萨斯大学奥斯汀分校。

简单来说，新算法通过调整时间注意力层输出的一个关键参数，能够在几乎不增加推理负担的情况下，大幅提升生成视频的细节表现和时序连贯性。

Enhance-A-Video还兼容多种主流视频生成模型，无需修改基础架构即可直接应用。

比如CogVideoX-2B + Enhance-A-Video：【视频2】

还有OpenSora-V1.2 + Enhance-A-Video：【视频3】

实验结果显示，Enhance-A-Video在提升视频质量方面表现卓越，尤其是在对比度、清晰度以及细节真实性上有显著改进。

新算法一经发布，其强大的泛化能力也是迅速得到了社区的认可。

很多网友已将该算法集成到多个主流推理框架中，包括ComfyUI-Hunyuan和ComfyUI-LTX。【图4】

对比一下网友Kijai发布的原始混元模型和增强后的效果，可以看到模型生成画面更加自然，动态表现也更加流畅：【视频5】

LTX-Video的研究人员Nir Zabari还成功将它应用到了LTXV模型中，显著提升了生成视频在动作一致性和细节呈现方面的表现。【图6】

这一成果表明，Enhance-A-Video不仅适用于特定模型，还能广泛适配于不同的视频生成框架。

更多介绍：无需训练、即插即用，新算法大幅增强视频生成质量｜NUS＆上海AI Lab&UT Austin