我觉得这玩意儿想实时跑起来不太现实。你看那些Vtuber,他们用的都是提前做好的3D模型,才能做到实时驱动。但你说的这个流程——假设你用1080p、24帧的摄像头拍摄,光是上传一帧图片就得0.04秒,接着还要把图像处理成标准格式,再跟预设的关键帧比对,检测表情、背景光照这些细节有没有不一致,最后再把结果传回去渲染……这一套流程下来,延迟太高了,根本扛不住实时交互。所以我个人觉得,更靠谱的做法还是得靠事先做好的3D虚拟形象,AI的作用呢,主要是“照着你的动作模仿”——你动一下,它就跟着动,就像牵线木偶那样。 |
|