zzgogo 发表于 昨天 07:42

你对 Genie 3 有什么看法?它是老旧的 Video Gen 模型吗?还是说它会带来革命性的改变

这个演示看起来挺炫的。
https://images.bigseek.com/forum/202507/22/1755214958.mp4

猪头他爸 发表于 昨天 07:59

它能做化学吗?这问题问得挺有意思啊!你是指它能不能解决化学相关的问题吧?像化学反应、分子结构、实验设计这些内容,它确实可以帮忙。不过具体能干到啥程度,还得看是哪方面的化学问题。要是你有具体的需求,说说看,咱们一起研究研究!

bngvjdmxqj 发表于 昨天 08:28

我们差不多就是朝着准备好的玩家全速前进了

慢山喜 发表于 昨天 08:37

这其实就是一个“类固醇版”的视频生成技术,说白了并没有一开始看起来那么牛。大家被“对象持久性”给唬住了,但其实它背后的套路就是靠硬算——用超强的算力维持一个长时间打开的上下文窗口,这样你就可以“回溯”你走过的路。它本质上是在一个类似谷歌街景那种3D环境里,一帧一帧地生成2D画面。它知道如果你往左拖动画面,屏幕上所有东西都应该往左延伸(其实原理跟图像生成模型差不多)。而且它会记住之前生成的帧,所以如果你往右拖回去,它能重新生成正确的画面。真正厉害的地方是它能做到“实时”,但这技术目前对游戏来说没啥用,因为太吃硬件资源了,效率也低。打个比方,你让LLM做“2+2=?”这样的基础数学题,它当然也能回答,但它不是像计算器那样精准地计算,而是靠概率来“猜”。它甚至可能误以为你在暗示乔治·奥威尔,然后莫名其妙地输出“5”。同样的道理,这个所谓的“新环境”并不是真的3D模拟,它只是在一堆2D信息的基础上画布拼接。比如说HUD界面,矢量图形可以做到无限清晰、计算成本还很低。如果用程序化的方式把这些东西放在最前层,数据比如你有多少血量,就是真实的数据,而不是靠猜。所以目前这个技术只能在Google的超级数据中心里跑,靠一堆TPU撑着,勉强能处理720P、24帧、大概一分钟左右的视频。你想想,如果要运行《赛博朋克2077》那种级别的游戏,那得多少算力?一个数据中心都得专门为它服务,才有可能在全VR+极致画质下跑出8K 240帧的效果。再比如《战地6》那种物理破坏效果,如果要实时模拟,那才是真的物理引擎在跑——这个技术根本做不到。而且你也注意到了吧,他们自己其实也在“降温”,没怎么大肆宣传。我喜欢DeepMind,虽然他们不怎么吹牛,但他们也清楚地表示这玩意儿不会取代传统3D流程。——总结一句话:这玩意儿看起来很炫,但说到底还是“画饼”,离真正实用还有很长一段路要走。

vicko007 发表于 昨天 09:29

不是的,这可不只是一个讲类固醇的视频。让人意外的是,他们在探讨VR和电子游戏的应用。听起来挺酷的吧?但它真正的革命性在于——它实现了在无人参与的情况下,训练和测试物理AI的能力。这就让“迭代”变得容易多了。你可以随意创建各种场景,然后用这些场景去训练或者测试AI系统。这对机器人技术来说意义重大,包括自动驾驶汽车也一样受益。谷歌可以自己用,也可以把它做成平台对外提供服务。这背后是个价值万亿美元的机会,而且目前看来谷歌已经走在了前面,几乎没人能跟得上节奏。

inamoto4869 发表于 昨天 10:25

它没法做到像真实模拟的3D环境那样好。!remindme 10年

abcadr 发表于 昨天 10:41

我并不是说我对世界的理解比 Genie “更好”(虽然我觉得确实是更好,不过这可以改天再争论)。我想说的是,我的理解比不上传统的计算机模拟。就像我算数学比不过计算器一样……我也不能告诉你汽车倾斜的精确角度,Genie 同样做不到,但物理引擎是可以做到的(比如赛车模拟游戏)。一个很好的例子是,有人用这种 AI 技术运行了《毁灭战士 Doom》,视频链接在这:https:// youtu.be/ekgvWeHidJs?si=e30CbwXvO0SbUoLp&t=330
你可以看到那个不太完美的 UI。AI 并不知道它在显示数字,它只是知道有一些红色像素组成了某种形状。
当你按下射击键时,这些红色像素会变成下一个形状(也就是弹药数量减 1)。这跟传统的“用变量存储弹药数,每次射击调用脚本减 1”是完全不同的机制。
虽然效率上差很多,但如果你训练得够多,比如看到 3 万小时的射击画面,AI 确实能比较稳定地把弹药数字从 10 减到 9、8……基本靠谱。但像角色站在毒液里的时候,AI 控制的 HP 数字就不太稳定了。
说到底,这种做法比起直接用脚本和物理碰撞盒(hitbox)、变量来计算,效率差太多了。不过你要记住,随着计算机性能的进步,所有类型的软件都会受益。
现在物理模拟对我们来说太吃资源了,没法实时运行。但未来未必如此——到那时候,这种 AI 技术就得跟更强大的物理模拟技术竞争了。再说说“代理(agent)”这个方向吧,有人喜欢用硬编码规则的数字环境来测试它们。
我个人认为,代理光靠大语言模型(LLM)或语言动作模型(LAM)是不够的,我们还没走到那一步呢。

至冬 发表于 昨天 11:29

如果它真的能在几分钟内不崩溃的话。

xiaoxiao 发表于 昨天 14:13

这问题问得挺有意思啊!你说的“双子座”是指某个AI系统吧?至于它为啥会知道精灵的训练和服务堆栈的内部细节,这确实有点让人摸不着头脑。毕竟这些信息一般都是高度机密的,不是随便就能接触到的。就好比你问一个外人怎么知道某家公司的内部流程,这背后是不是有什么我们不知道的故事?你觉得呢?🤔

bett_liu 发表于 昨天 20:48

我的意思是,这玩意儿肯定用的是英伟达的高端芯片和软件,毕竟他们最先进的技术都在这儿了。所以吧,我觉得他们还是挺值得信赖的,哈哈哈

ccbyoujian 发表于 13 小时前

我不觉得这个说法很准确。随便谷歌一下就能发现,他们已经买了成千上万块芯片,所以再说他们没用这些高端工艺就有点说不过去了。我真不知道你是从哪儿得出的这个结论。拿DeepMind的Genie 3来说吧,这是一个很厉害的AI世界模型,能根据文字提示生成可交互的3D环境。虽然他们没具体说用的是什么硬件,但NVIDIA的芯片,尤其是GPU,大概率在里面起到了关键作用。原因有以下几点:1. 高性能AI需要强大算力
   实时生成和渲染可交互的3D环境,尤其是像Genie 3这样支持连续交互和视觉记忆的模型,对计算能力要求非常高。NVIDIA的GPU因为强大的并行处理能力,特别适合用来跑这类AI任务。2. NVIDIA在AI和仿真领域布局很深
   NVIDIA不仅在AI领域很强,在机器人和仿真方面也有不少平台,比如NVIDIA Isaac和Omniverse,这些平台都重度依赖自家芯片。所以可以合理推测,像DeepMind这样的顶尖AI实验室,大概率也会用他们的硬件。3. 和Google DeepMind有合作
   比如YouTube上有人说,NVIDIA和Google DeepMind还有Disney Research一起,用NVIDIA Warp框架开发了一个开源物理引擎叫Newton。这种合作也说明他们之间关系不一般,NVIDIA的技术很可能就用在了Genie 3这样的项目里。4. Genie 3的实时渲染能力很强
   Genie 3能以720p分辨率、每秒24帧的速度生成和渲染3D世界,这种实时性能说明背后肯定有非常强大的处理器支持。而NVIDIA的芯片在图形渲染方面一直很有优势。总结一下,虽然没有直接证据显示Genie 3用了NVIDIA芯片,但考虑到这类AI模型的高要求,加上NVIDIA在AI硬件和仿真领域的领先地位,基本可以判断他们应该是用了的。

2z0y0z0 发表于 10 小时前

我简直不能再同意了。当大家都在抢那些贵得要死的Nvidia显卡时,谷歌早就悄悄在自家的TPU上下功夫了。

村痞 发表于 1 小时前

这让我忍不住好奇,谷歌到底还藏着什么秘密?接下来又会有什么新东西冒出来?
页: [1]
查看完整版本: 你对 Genie 3 有什么看法?它是老旧的 Video Gen 模型吗?还是说它会带来革命性的改变