这其实就是一个“类固醇版”的视频生成技术,说白了并没有一开始看起来那么牛。大家被“对象持久性”给唬住了,但其实它背后的套路就是靠硬算——用超强的算力维持一个长时间打开的上下文窗口,这样你就可以“回溯”你走过的路。它本质上是在一个类似谷歌街景那种3D环境里,一帧一帧地生成2D画面。它知道如果你往左拖动画面,屏幕上所有东西都应该往左延伸(其实原理跟图像生成模型差不多)。而且它会记住之前生成的帧,所以如果你往右拖回去,它能重新生成正确的画面。真正厉害的地方是它能做到“实时”,但这技术目前对游戏来说没啥用,因为太吃硬件资源了,效率也低。打个比方,你让LLM做“2+2=?”这样的基础数学题,它当然也能回答,但它不是像计算器那样精准地计算,而是靠概率来“猜”。它甚至可能误以为你在暗示乔治·奥威尔,然后莫名其妙地输出“5”。同样的道理,这个所谓的“新环境”并不是真的3D模拟,它只是在一堆2D信息的基础上画布拼接。比如说HUD界面,矢量图形可以做到无限清晰、计算成本还很低。如果用程序化的方式把这些东西放在最前层,数据比如你有多少血量,就是真实的数据,而不是靠猜。所以目前这个技术只能在Google的超级数据中心里跑,靠一堆TPU撑着,勉强能处理720P、24帧、大概一分钟左右的视频。你想想,如果要运行《赛博朋克2077》那种级别的游戏,那得多少算力?一个数据中心都得专门为它服务,才有可能在全VR+极致画质下跑出8K 240帧的效果。再比如《战地6》那种物理破坏效果,如果要实时模拟,那才是真的物理引擎在跑——这个技术根本做不到。而且你也注意到了吧,他们自己其实也在“降温”,没怎么大肆宣传。我喜欢DeepMind,虽然他们不怎么吹牛,但他们也清楚地表示这玩意儿不会取代传统3D流程。——总结一句话:这玩意儿看起来很炫,但说到底还是“画饼”,离真正实用还有很长一段路要走。 |