发帖
 找回密码
 立即注册
搜索
2 0 0
日常闲聊 650 2 昨天 18:32
我之前从来没试过本地跑视频AI模型,不过看到网上对WAN 2.2吵得挺热闹,这周就决定亲自上手试试。
我发现很多用12GB或者更少显存的朋友在用WAN 2.2的14B模型时都很卡,其实问题很简单:他们没用GGUF格式。
GGUF格式对显存更友好,加上Kijay做的那个闪电LoRA,再配合一些“节点卸载”技巧,我这边跑出了45秒的视频(长度49帧),生成时间大概5分钟左右,分辨率大约640像素,总共只用了5步(2步+3步)。
所以我真心建议大家试试GGUF格式,真的没必要在不用GGUF的情况下死磕那么久,而且说实话,GGUF的效果也没差到哪去。
我的配置如下:
显卡:RTX 3060(12GB显存)
内存:32GB
CPU:AMD Ryzen 3600
这里还有两个简单的工作流程分享给你,就算是“土豆机”也能跑起来:
工作流程 (图像到视频)  Pastebin JSON链接
工作流程 (图像第一帧到最后一帧)  Pastebin JSON链接
模型存放路径和大小如下:
WAN 2.2 高质量GGUF Q4  8.5GB → modelsdiffusion_models
WAN 2.2 低质量GGUF Q4  8.3GB → modelsdiffusion_models
UMT5 XXL文本编码器GGUF Q5  4GB → models        ext_encoders
Kijay为WAN 2.2定制的闪电LoRA(高质量) 600MB → modelsloras
LoRA(低质量) 600MB → modelsloras
图片素材来自Reddit的r/MemeRestoration版块分享的模因图
──── 0人觉得很赞 ────

使用道具 举报

真的是挺郁闷的,为啥我的输出跟我的形象差这么多呢?直到我注意到这个细节才明白过来。
谢谢!我觉得之前 Kijai 可能把它叫做 Lightx2v,用在 Wan 2.1 上,所以我才会有疑惑。看起来它们可能是同一个东西。而且 Wan 2.1 的文件体积也更小一些。我之前在哪儿看到过,把 Lora 融合进主模型里会比单独调用 Lora 更快。现在就有一个叫 Jib Mix Wan 的模型已经把那个 Lora 融合进去了:  
https://civitai.com/models/1813931/jibmixwan  
这个模型主要是为文生图(text2image)设计的,但我试了一下它的 v2 版本用在文生视频(text2video)上,它用的是采样器 lcm + 简单调度器(scheduler),不过作者推荐的设置对我来说太慢了。唯一的问题是这个模型没有 GGUF 格式的版本,最低只有 fp8。而我看到 Wan 2.2 好像是需要两个模型文件,这让我有点懵,因为看起来它明明只有一个文件。所以我就在想,如果我们能把这个模型转成 GGUF 格式,是不是运行起来会更快一些?
哎呀,抱歉让大家误会了,我发错链接啦!这个是文本生成视频(T2V)的 GGUF 模型,本该放在图像生成视频(I2V)那块:高噪声版本:
https://huggingface.co/QuantStack/Wan2.2I2VA14BGGUF/blob/main/HighNoise/Wan2.2I2VA14BHighNoiseQ4_K_S.gguf低噪声版本:
https://huggingface.co/QuantStack/Wan2.2I2VA14BGGUF/blob/main/低噪声/Wan2.2I2VA14BLowNoiseQ4_0.gguf
好职位,喜欢你的工作流程。我知道自己已经很熟悉了,但跟Wan一起搞这个高低噪音的活儿,我还是在学习中。有没有什么技巧,可以在不影响高低Lora的情况下,把Lora堆叠加上去?
昨天 20:17
我把额外的LoRA放在闪电Lora之前了。总之,先看一下GGUF模型,它应该是I2V的,而不是T2V的,如果不是的话,生成出来的东西会很奇怪。上的图片/视频帖子我没法编辑,是的,他们有些破规则确实挺烦的。链接应该在评论里的某个地方,我到处都贴了一点。
太棒的资源了!迫不及待要试试看了!非常感谢分享!
不客气,会检测出来的。
新鲜小伙伴提了个好问题。之前说闪电建议用4步,那为啥这儿用了5步呢?咱们一起来看看区别在哪儿~
您需要登录后才可以回帖 立即登录
高级模式