浙大+阿里开源数字人/虚拟人视频生成OmniAvatar
github地址GitHub - Omni-Avatar/OmniAvatar
从官方示例看, 嘴型与音频的匹配不是很好, 说话差不多五个字有三个字能匹配上, 唱歌的效果再差一点 。
优点在于提示词可以控制视频生成的情绪表达、人物与物体的交互。
参考大佬的耗时: 24G运行6秒视频大约需要20多分钟。48G显存运行10秒视频需要25分钟左右。
浙大还有这路子呢? twinsbbs 发表于 2025-6-30 15:43
浙大还有这路子呢?
浙大和阿里合作很多,毕竟都在杭州 g18553988q 发表于 2025-6-30 15:43
浙大和阿里合作很多,毕竟都在杭州
肥水不流外人田算是玩明白了 这运算量看起来真的很大,不过相比之下也算是优化水平了 感谢分享! 匹配差但优点有
页:
[1]