美国农民的快速5分钟左右视频生成工作流程，配备12GB显存（WAN 2.2 14B GGUF Q4、UMT5XXL GGUF Q5，还有Kijay Lightning LoRA，2高步3低步）

日常闲聊 · 昨天 18:32

我之前从来没试过本地跑视频AI模型，不过看到网上对WAN 2.2吵得挺热闹，这周就决定亲自上手试试。
我发现很多用12GB或者更少显存的朋友在用WAN 2.2的14B模型时都很卡，其实问题很简单：他们没用GGUF格式。
GGUF格式对显存更友好，加上Kijay做的那个闪电LoRA，再配合一些“节点卸载”技巧，我这边跑出了45秒的视频（长度49帧），生成时间大概5分钟左右，分辨率大约640像素，总共只用了5步（2步+3步）。
所以我真心建议大家试试GGUF格式，真的没必要在不用GGUF的情况下死磕那么久，而且说实话，GGUF的效果也没差到哪去。
我的配置如下：
显卡：RTX 3060（12GB显存）
内存：32GB
CPU：AMD Ryzen 3600
这里还有两个简单的工作流程分享给你，就算是“土豆机”也能跑起来：
工作流程 (图像到视频)  Pastebin JSON链接
工作流程 (图像第一帧到最后一帧)  Pastebin JSON链接
模型存放路径和大小如下：
WAN 2.2 高质量GGUF Q4  8.5GB → modelsdiffusion_models
WAN 2.2 低质量GGUF Q4  8.3GB → modelsdiffusion_models
UMT5 XXL文本编码器GGUF Q5  4GB → models ext_encoders
Kijay为WAN 2.2定制的闪电LoRA（高质量） 600MB → modelsloras
LoRA（低质量） 600MB → modelsloras
图片素材来自Reddit的r/MemeRestoration版块分享的模因图

大希山 · 昨天 18:57

真的是挺郁闷的，为啥我的输出跟我的形象差这么多呢？直到我注意到这个细节才明白过来。

Dustinmindy · 昨天 19:12

谢谢！我觉得之前 Kijai 可能把它叫做 Lightx2v，用在 Wan 2.1 上，所以我才会有疑惑。看起来它们可能是同一个东西。而且 Wan 2.1 的文件体积也更小一些。我之前在哪儿看到过，把 Lora 融合进主模型里会比单独调用 Lora 更快。现在就有一个叫 Jib Mix Wan 的模型已经把那个 Lora 融合进去了：
https://civitai.com/models/1813931/jibmixwan
这个模型主要是为文生图（text2image）设计的，但我试了一下它的 v2 版本用在文生视频（text2video）上，它用的是采样器 lcm + 简单调度器（scheduler），不过作者推荐的设置对我来说太慢了。唯一的问题是这个模型没有 GGUF 格式的版本，最低只有 fp8。而我看到 Wan 2.2 好像是需要两个模型文件，这让我有点懵，因为看起来它明明只有一个文件。所以我就在想，如果我们能把这个模型转成 GGUF 格式，是不是运行起来会更快一些？

SOLDIER · 昨天 19:44

哎呀，抱歉让大家误会了，我发错链接啦！这个是文本生成视频（T2V）的 GGUF 模型，本该放在图像生成视频（I2V）那块：高噪声版本：
https://huggingface.co/QuantStack/Wan2.2I2VA14BGGUF/blob/main/HighNoise/Wan2.2I2VA14BHighNoiseQ4_K_S.gguf低噪声版本：
https://huggingface.co/QuantStack/Wan2.2I2VA14BGGUF/blob/main/低噪声/Wan2.2I2VA14BLowNoiseQ4_0.gguf

某人 · 昨天 19:59

好职位，喜欢你的工作流程。我知道自己已经很熟悉了，但跟Wan一起搞这个高低噪音的活儿，我还是在学习中。有没有什么技巧，可以在不影响高低Lora的情况下，把Lora堆叠加上去？

kyc · 昨天 20:17

我把额外的LoRA放在闪电Lora之前了。总之，先看一下GGUF模型，它应该是I2V的，而不是T2V的，如果不是的话，生成出来的东西会很奇怪。上的图片/视频帖子我没法编辑，是的，他们有些破规则确实挺烦的。链接应该在评论里的某个地方，我到处都贴了一点。

zxzh0003 · 昨天 23:16

太棒的资源了！迫不及待要试试看了！非常感谢分享！

齐鸣 · 2 小时前

不客气，会检测出来的。

網絡被詐騙錢財 · 1 小时前

新鲜小伙伴提了个好问题。之前说闪电建议用4步，那为啥这儿用了5步呢？咱们一起来看看区别在哪儿～

		自动登录	找回密码
密码			立即注册

美国农民的快速5分钟左右视频生成工作流程，配备12GB显存（WAN 2.2 14B GGUF Q4、UMT5XXL GGUF Q5，还有Kijay Lightning LoRA，2高步3低步）

相关帖子

2 回复

元老级人物