第一次长时间视频语音测试

前沿技术 · 2025-7-23 17:20:01

我终于有机会用Wan视频包装器来测试multitalk了，它的链接是https://github.com/kijai/comfyuiwanvideowrapper 。

要记得选multitalk分支，然后用这个分支里的工作流进行测试。渲染一段35秒、分辨率为576x1024的视频，用到了lightxv2 Lora和我自定义的字符Lora，这得花些时间。我用的是lcm采样器，设置了5个步骤。对出来的结果，我挺满意的，不过肯定还能更完美。我用的GPU是A6000，它有48GB的显存，系统内存是128GB 。

酷思 · 2025-7-23 17:20:32

是的，在某种意义上，我使用的工作流程是在我最初发布的链接，代码目前在multitalk分支舒适的ui模式。原始代码位于这里，也许这是一个很好的起点 https://github.com /meigen-ai/MultiTalk

黄雨子 · 2025-7-24 03:16:33

男人idk我一直在尝试与vace和没有，我总是得到这个狗屎质量模糊周围的每个81帧部分的接缝，你喜欢使用多少步骤？它类似于基本的wan vace wf？

凝视 · 2025-7-24 10:36:43

多对话模型的输出中，头部保持在非常静止的位置，这与现实中会有一些头部动作的人类不同。查看使用浮点精度（float）和VACE外绘（outpainting）生成的输出，分辨率为480 x 848，共469帧，帧率16fps。我从你的视频中提取了音频和第一帧作为参考。https://imgur.com/a/FKyqEHN这肯定并不完美，看看右侧的头发就知道了。不过，头部动作看起来自然多了，这也使得VACE生成了一些身体动作。这是在配置低得多的硬件上完成的，即一块16GB显存的4060ti显卡，系统内存64GB，使用了yuvraj108c的浮点封装器（float wrapper）和kijai的Wan封装器（30个模块交换，fp8 VACE，将上下文选项节点连接到采样器以进行超过81帧的Wan外绘）。

x51 · 2025-7-24 11:12:00

这难道不属于81帧的问题吗？（视频只有5秒钟）

flzt120 · 2025-7-24 12:30:35

对我来说，在使用kijai采样器时它不起作用。

一根小木头 · 2025-7-24 16:07:33

你能不能大致给我讲讲这是怎么做到的？比如按什么顺序？首先要有一段音频片段？然后把这个音频片段提交到ComfyUI工作流程中，特定的节点/模型识别对话内容，再结合描述性提示来生成会说话的头像？

bibi_im286 · 2025-7-24 16:17:35

从我在他们论文里读到的内容来看，我不认为多轮对话存在那个问题。

大王不在山 · 2025-7-24 17:08:58

尝试将上下文选项节点连接到Kijai包装器KSampler。如果你能容纳81帧，它可以利用一些重叠来生成更长时长的视频。我在我的4060ti 16GB显卡上制作了一个469帧的视频（vace），其中交换了30个块。在此处查看视频：https://imgur.com/a/FKyqEHN

shenzhen · 2025-7-24 18:17:23

第一个是使用VACE的，第二个和第三个是使用I2V的。我在每个视频下方填写了说明。

橙影 · 2025-7-25 10:22:08

你得到的结果质量好吗？我真的希望上下文选项能够起作用，因为这就像Animatediff一样，从直觉上来说是行得通的。从理论上讲，我们应该能够实现无限时长。但每当我用图片转视频功能时，质量都非常糟糕。有些部分连贯，但有些部分简直惨不忍睹。我不明白为什么会这样，根据其原理应该是没问题的。

旅行者 · 2025-7-25 11:52:56

尝试将上下文选项节点连接到ksampler。如果你能容纳81帧，它可以利用一些重叠来生成更长时长的视频。我用我的4060ti 16GB显卡制作了一个469帧的视频（vace），其中交换了30个模块。在此处查看视频：https://imgur.com/a/FKyqEHN

超导 · 2025-7-25 12:53:58

到目前为止，我已经通过图像扩展（outpainting）和开放姿态（open pose）测试了上下文选项。两者质量都不错，并且与参考图像的一致性也很好。我预计图像转视频（I2V）也会有不错的表现。如果你给我发私信，告诉我你正在使用的图像、所使用的模型以及你的提示词，我可以帮你测试。

seekWang · 2025-7-25 13:33:12

那个片段是有Vace还是没有Vace的？因为和我经常得到的效果相比，那个效果相当不错。我遇到的情况是，视频播放到一半时女孩就消失成一团“灰尘”了，然后在结尾又突然出现。我同意Vace可能会有帮助。我只是希望这个能像我以前的Animatediff工作流程那样正常运行。感谢回复。

平凡 · 2025-7-26 05:04:27

是的，看起来好多了。我在努力想出一种能让头部动作更自然的更好方法。提示信息也有点帮助。感谢测试这个。

flzt120 · 2025-7-26 16:33:55

很酷

reverie · 2025-7-27 23:35:09

在这里使用默认工作流程：https://github.com/kijai/ComfyUIWanVideoWrapper/tree/main/example_workflows在这里查看上下文选项的连接位置：https://www..com/r/comfyui/comments/1lkofcw/extending_wan_21_generation_length_kijai_wrapper/然后，在要交换的块数上需要进行一些反复尝试。使用4090显卡的话，我觉得交换大约20个块可能就没问题。顺便说一下，我用的是wan2.1和vace的fp8版本。

neverletgo · 2025-8-6 11:32:21

我正在使用基贾（Kijai）的封装工具附带的示例VACE工作流程。搭配这个LoRA模型并经过4个步骤：https://huggingface.co/lightx2v/Wan2.1T2V14BStepDistillCfgDistill/tree/main

		自动登录	找回密码
密码			立即注册

第一次长时间视频语音测试

相关帖子

17 回复