多对话模型的输出中,头部保持在非常静止的位置,这与现实中会有一些头部动作的人类不同。查看使用浮点精度(float)和VACE外绘(outpainting)生成的输出,分辨率为480 x 848,共469帧,帧率16fps。我从你的视频中提取了音频和第一帧作为参考。https://imgur.com/a/FKyqEHN这肯定并不完美,看看右侧的头发就知道了。不过,头部动作看起来自然多了,这也使得VACE生成了一些身体动作。这是在配置低得多的硬件上完成的,即一块16GB显存的4060ti显卡,系统内存64GB,使用了yuvraj108c的浮点封装器(float wrapper)和kijai的Wan封装器(30个模块交换,fp8 VACE,将上下文选项节点连接到采样器以进行超过81帧的Wan外绘) 。 |