hao898 发表于 2025-6-30 15:42:08

浙大+阿里开源数字人/虚拟人视频生成OmniAvatar

github地址
GitHub - Omni-Avatar/OmniAvatar
从官方示例看, 嘴型与音频的匹配不是很好, 说话差不多五个字有三个字能匹配上, 唱歌的效果再差一点 。
优点在于提示词可以控制视频生成的情绪表达、人物与物体的交互。
参考大佬的耗时: 24G运行6秒视频大约需要20多分钟。48G显存运行10秒视频需要25分钟左右。

twinsbbs 发表于 2025-6-30 15:43:24

浙大还有这路子呢?

g18553988q 发表于 2025-6-30 15:43:41

twinsbbs 发表于 2025-6-30 15:43
浙大还有这路子呢?

浙大和阿里合作很多,毕竟都在杭州

twinsbbs 发表于 2025-6-30 15:44:17

g18553988q 发表于 2025-6-30 15:43
浙大和阿里合作很多,毕竟都在杭州

肥水不流外人田算是玩明白了

李强 发表于 2025-6-30 15:45:03

这运算量看起来真的很大,不过相比之下也算是优化水平了

dxl0812 发表于 2025-6-30 15:45:14

感谢分享!

e999 发表于 2025-8-16 12:00:02

匹配差但优点有
页: [1]
查看完整版本: 浙大+阿里开源数字人/虚拟人视频生成OmniAvatar