发帖
 找回密码
 立即注册
搜索
5 2 0
前沿情报 51 5 昨天 15:42
github地址
GitHub - Omni-Avatar/OmniAvatar
从官方示例看, 嘴型与音频的匹配不是很好, 说话差不多五个字有三个字能匹配上, 唱歌的效果再差一点 。
优点在于提示词可以控制视频生成的情绪表达、人物与物体的交互。
参考大佬的耗时: 24G运行6秒视频大约需要20多分钟。48G显存运行10秒视频需要25分钟左右。
──── 2人觉得很赞 ────

使用道具 举报

浙大还有这路子呢?
g18553988q
昨天 15:43
浙大和阿里合作很多,毕竟都在杭州  详情 回复
twinsbbs 发表于 2025-6-30 15:43
浙大还有这路子呢?

浙大和阿里合作很多,毕竟都在杭州
twinsbbs
昨天 15:44
肥水不流外人田算是玩明白了  详情 回复
g18553988q 发表于 2025-6-30 15:43
浙大和阿里合作很多,毕竟都在杭州

肥水不流外人田算是玩明白了
这运算量看起来真的很大,不过相比之下也算是优化水平了
感谢分享!
您需要登录后才可以回帖 立即登录
高级模式