250901 AI日报:微软 Copilot Labs 音频表达功能;字节风格统一生图模型
<h3>微软 Copilot Labs 音频表达功能:AI 语音风格自定义</h3><p><img src="https://images.bigseek.com//forum/202509/01/133756e4ozlfox5h3lf6a3.webp" alt="20cb100a2f4fea0bc2fea3fd8c6e99bbd76c9002.webp" title="20cb100a2f4fea0bc2fea3fd8c6e99bbd76c9002.webp" /></p>
<p>微软在 Copilot Labs 上线了实验性功能「音频表达(Audio Expression)」,用户通过输入提示词,可让 AI 以不同语音风格朗读文本。</p>
<p>https://copilot.microsoft.com/labs/experiments/audio-expression</p>
<p>目前完全免费,不过仅支持英语,可以试试看。</p>
<hr />
<h3>字节开源 USO 模型:统一风格与主体驱动的生成框架</h3>
<p><img src="https://images.bigseek.com//forum/202509/01/133911et5pnptnriui56wt.webp" alt="beb3a2df2743775fed93612246187fbc2f24dda4.webp" title="beb3a2df2743775fed93612246187fbc2f24dda4.webp" /></p>
<p>USO 模型是字节开源的一项创新框架,将“风格驱动”与“主体驱动”两类图像生成任务统一整合。https://github.com/bytedance/USO</p>
<p>该模型基于 FLUX.1-dev 微调,提供了 LoRA 权重与投影模型,支持四种典型推理模式:精准主体控制、灵活风格迁移、IP-风格混合创作以及多风格融合生成。</p>
<p>官方还贴心地提供了在线 demo,可以直接试玩。</p>
<p>https://huggingface.co/spaces/bytedance-research/USO</p>
<hr />
<h3>腾讯 Hunyuan-MT-7B:开源 38 种语言翻译模型</h3>
<p><img src="https://images.bigseek.com//forum/202509/01/133937age2l2cgxo5znflc.webp" alt="d6eb8ab1821f04dfcf50b22c6544be510b9e57bc.webp" title="d6eb8ab1821f04dfcf50b22c6544be510b9e57bc.webp" /></p>
<p>Hunyuan-MT-7B 是腾讯开源的翻译模型系列,包含翻译主模型 Hunyuan-MT-7B 以及业界首个开源翻译集成模型 Hunyuan-MT-Chimera-7B。</p>
<p>https://github.com/Tencent-Hunyuan/Hunyuan-MT</p>
<p>支持38种语言互译,甚至包括五种中国少数民族语言,可以在混元官网在线免费用。</p>
<p>https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=hunyuan-mt-7b</p>
<hr />
<h3>美团 LongCat-Flash:开源 560B MoE 模型</h3>
<p><img src="https://images.bigseek.com//forum/202509/01/133954ytxqsyroxzowuexw.webp" alt="a44b40bc1ebadc6d29230d3a94d900138d49c847.webp" title="a44b40bc1ebadc6d29230d3a94d900138d49c847.webp" /></p>
<p>LongCat-Flash 是美团开源的一款 560B 参数混合专家模型(MoE),采用动态计算机制,能根据上下文需求灵活激活 186 亿至 313 亿参数,平均仅需 270 亿参数即可高效完成推理。</p>
<p>https://huggingface.co/meituan-longcat/LongCat-Flash-Chat</p>
<p>该模型遵循 MIT 许可证开放权重,也可以直接访问 LongCat AI在线体验。</p>
<p>https://longcat.ai/</p>
<hr />
<h3>OpenBMB 开源 UltraRAG 2.0:YAML 配置实现多阶段 RAG 推理</h3>
<p><img src="https://images.bigseek.com//forum/202509/01/134021o2hnh99jdfcnz5n2.webp" alt="39b88354c7e7226617f47200a42cdf1ffcbb2d8f.webp" title="39b88354c7e7226617f47200a42cdf1ffcbb2d8f.webp" /></p>
<p>OpenBMB 开源的 UltraRAG 2.0(UR-2.0)是首个基于 Model Context Protocol(MCP)架构设计的轻量级 RAG 系统构建框架。</p>
<p>https://ultrarag.openbmb.cn/</p>
<p>最厉害的是,你只需要编写 YAML 配置文件,就能以极低的代码量快速构建多阶段推理系统!</p>
<p>完整的详细使用文档可以查看官网,上手超简单,不过想要做好,不写代码是不可能的。</p>
还是手慢了 每天看报 前排看报 前排看报 每天看报 每天看报 每天看报 看报,读人工智能新闻 起猛了,看见美团发布模型了 先抢个一楼再看 每天看报纸
页:
[1]