250718 AI日报:Veo3 API开放付费预览;ChatGPT Agent发布;Suno 4.5更新
<h3>谷歌 Veo 3 视频生成 API 开放付费预览</h3><iframe src="https://player.bilibili.com/player.html?isOutside=true&aid=114871769309060&bvid=BV1LfguzcEke&cid=31117479250&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>谷歌 Veo 3 现已推出付费预览 API,该 API 目前可在 Gemini API 和 AI Studio 中付费使用。每次调用可生成 8 秒时长的视频内容,提供带音频和不带音频两种版本选择。</p>
<p>不过价格非常贵啊 - 带音频版本每秒收费 $0.75,不带音频版本也要每秒 $0.5。</p>
<p>https://x.com/GoogleDeepMind/status/1945886603328778556</p>
<hr />
<h3>OpenAI 发布全能 ChatGPT Agent</h3>
<iframe src="https://player.bilibili.com/player.html?isOutside=true&aid=114871769374244&bvid=BV1ifguzcEuD&cid=31117477543&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>OpenAI 重磅推出 ChatGPT agent 智能代理系统,这是一个通用 agentic系统,配备了完整的工具套件,包括视觉浏览器、文本浏览器、终端和直连API,能够动态选择最佳路径,包括过滤结果、运行代码,甚至生成幻灯片和电子表格,同时在各个步骤中保持完整的任务上下文。</p>
<p>只有 Pro、Plus 和 Team 用户才可以使用,完整介绍可以看官方推文。</p>
<p>https://x.com/OpenAI/status/1945904743148323285</p>
<hr />
<h3>AWS Kiro:文档先行的 AI IDE</h3>
<p>AWS 最新推出的 Kiro 是一款 AI IDE(类似 Cursor),其最大创新点在于采用 spec-driven(规范驱动)工作流 - 强调文档先行,而非即兴编程。</p>
<p>作为基于 VSCode 的套壳产品,Kiro 完美兼容现有插件生态。目前搭载的是 Anthropic 的 Sonnet 3.7 和 4.0 大模型。</p>
<p>目前还在预览阶段,完全免费但需要排队 Waitlist。不过官方已经画好大饼了:未来定价分为两档 - Kiro Pro 19 刀/月给 1000 次交互,Pro+ 39 刀/月给 3000 次交互。</p>
<p>https://kiro.dev/</p>
<hr />
<h3>Decart AI 发布 MirageLSD:号称零延迟的实时视频生成模型</h3>
<iframe src="https://player.bilibili.com/player.html?isOutside=true&aid=114871769240421&bvid=BV1ofguzFEg5&cid=31117478674&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>MirageLSD 是 Decart AI 发布的首个 Live-Stream Diffusion(实时流式扩散,简称 LSD)AI 视频模型,能够实现无限、实时的视频生成。</p>
<p>官方宣称延迟低至 40ms(不过没说明具体硬件配置),实际生成效果嘛…只能说还有进步空间。你可以在官方技术报告查看完整技术细节。</p>
<p>https://about.decart.ai/publications/mirage</p>
<hr />
<h3>Suno AI 4.5+ 更新:人声替换/伴奏翻转/歌单灵感三大功能</h3>
<iframe src="https://player.bilibili.com/player.html?isOutside=true&aid=114871769237676&bvid=BV1RfguzFEND&cid=31117541387&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>音乐生成AI领跑者Suno刚刚发布了 4.5+ 版本更新,带来了三项功能:</p>
<ul>
<li>人声替换(Vocal Swap):用户可以轻松替换歌曲中的人声部分,为歌曲注入新的声音风格。</li>
<li>伴奏翻转(Flip Instrumentals):用户可以对伴奏进行重新编排或翻转,创造出全新的音乐风格。</li>
<li>从播放列表获取灵感(Spark a Song from Any Playlist):用户可以从任何播放列表中获取灵感,快速生成新的歌曲创意。</li>
</ul>
<p>https://x.com/SunoMusic/status/1945884363805061537</p>
<p>话说 Suno 好像好久都没有更新底模了。</p>
<hr />
<h3>v0 平台 API 公开测试版上线</h3>
<p><img src="https://images.bigseek.com//forum/202507/18/112739azbad75ko9dubddg.webp" alt="c02a8d40f38b89293f2ab9a66f6151fb8cf9146d.webp" title="c02a8d40f38b89293f2ab9a66f6151fb8cf9146d.webp" /></p>
<p>v0 平台 API 现已推出公开测试版!现在你可以通过官方 SDK 将 v0 的功能无缝集成到自己的系统中。</p>
<p>https://vercel.com/changelog/v0-platform-api-now-in-beta</p>
<hr />
<h3>谷歌搜索 AI 模式现在支持 Gemini 2.5 Pro</h3>
<iframe src="https://player.bilibili.com/player.html?isOutside=true&aid=114871769240548&bvid=BV1ofguzFEMA&cid=31117542362&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>谷歌DeepMind官方公告显示,谷歌搜索的AI模式现已支持 Gemini 2.5 Pro,因为支持推理了,可以用来解决非常复杂的数学问题。</p>
<p>https://x.com/GoogleDeepMind/status/1945515683451736246</p>
Gemini真是越来越全面 Veo那价格也太离谱了吧,抢钱呢这是? 实时视频的那个有点意思啊 agent不知道用起来咋样
页:
[1]