warkinger 发表于 2025-7-16 10:38:32

250716 AI日报:Gemini嵌入模型开放;Voxtral语音转录模型;PUSA低成本高性能视频模型

<h3>Mistral 开源 Voxtral:多语言语音转录模型,准确率超 Whisper v3</h3>
<p><img src="https://images.bigseek.com//forum/202507/16/103655b3t7xnn7i0vzrr0w.webp" alt="10563334701e950e46294cd6782724c09c8eca6d.webp" title="10563334701e950e46294cd6782724c09c8eca6d.webp" /></p>
<p>Voxtral 是 Mistral AI 最新开源的多语言语音转录模型,提供 24B 和 3B 两个参数版本。24B 版本专为生产环境优化,而轻量级的 3B 版本则非常适合本地和端侧设备部署。</p>
<p>根据其官方基准测试,其转录准确率显著超越 OpenAI Whisper v3 Large 和 Gemini Flash 2.5 等主流方案。</p>
<p>完整的技术细节和性能对比可查阅官方博客。</p>
<p>https://mistral.ai/news/voxtral</p>
<hr />
<h3>谷歌 Gemini 嵌入模型 API 全面开放,每百万 token 仅 0.15 美元</h3>
<p><img src="https://images.bigseek.com//forum/202507/16/103711gdk2zj4kkzm9kdeg.webp" alt="7781b24cc2f8f57e542b938bd39895392bd2235a.webp" title="7781b24cc2f8f57e542b938bd39895392bd2235a.webp" /></p>
<p>谷歌 Gemini Embedding 模型现已正式在 Gemini API 和 Vertex AI 中向开发者全面开放。价格方面极具竞争力,每 100 万输入 token 仅需 0.15 美元,这个定价可以说是非常便宜了。</p>
<p>完整公告详情请参阅谷歌官方博客。</p>
<p>https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/</p>
<hr />
<h3>PUSA V1.0:低成本高性能视频生成模型</h3>
<p><img src="https://images.bigseek.com//forum/202507/16/103739meyyk0gpe0rkl8gf.webp" alt="d9000ee2f48a2ef95e19ab058396ae846dd6a91f.webp" title="d9000ee2f48a2ef95e19ab058396ae846dd6a91f.webp" /></p>
<p>PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B,仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就超越了 Wan-I2V-14B 模型的性能。</p>
<p>更厉害的是,Wan-I2V 只能进行图像到视频的生成,而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能</p>
<p>代码和模型都已经开源啦,完整介绍可以看PUSA 项目官网。</p>
<p>https://yaofang-liu.github.io/Pusa_Web/</p>
<hr />
<h3>OpenArt Story 一键生成完整叙事短视频</h3>
<iframe src="https://player.bilibili.com/player.html?isOutside=true&amp;aid=114860427839553&amp;bvid=BV1LouxzkEUY&amp;cid=31067736781&amp;p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true"></iframe>
<p>OpenArt 推出了一个名为 OpenArt Story 的新功能,用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频,这个视频包含动作、音乐和完整的叙事线,不仅仅是简短的片段,而是一个完整的故事。</p>
<p>其背后的技术支持来自黑森林、可灵、海螺、pixverse、fal、openai 和谷歌。</p>
<p>https://x.com/openart_ai/status/1945090984876106118</p>

心中只有他 发表于 2025-7-16 10:53:07

OpenArt Story 屌炸了

踏雪的剑 发表于 2025-7-16 10:53:20

心中只有他 发表于 2025-7-16 10:53
OpenArt Story 屌炸了

可以细说嘛

心中只有他 发表于 2025-7-16 10:53:45

踏雪的剑 发表于 2025-7-16 10:53
可以细说嘛

视频内容。。一键生成完整故事线短视频

lihanyue 发表于 2025-7-16 10:53:56

其实gemini 2.5 pro多模态语音识别要优于gemini 2.5 flash, 法国人就是喜欢搞小动作, 一定要和差生比成绩.

hython 发表于 2025-7-16 10:54:21

<p>咋还是y轴颠倒的</p>
<p><img src="data/attachment/forum/202507/16/105413kwvaqlw5s2t94zaw.webp" alt="96698a38869ccb1fd37fdbee5a95c6ffcd05aa88.webp" title="96698a38869ccb1fd37fdbee5a95c6ffcd05aa88.webp" /></p>
页: [1]
查看完整版本: 250716 AI日报:Gemini嵌入模型开放;Voxtral语音转录模型;PUSA低成本高性能视频模型