250901 AI日报：微软 Copilot Labs 音频表达功能；字节风格统一生图模型

前沿情报 · 昨天 13:37

微软在 Copilot Labs 上线了实验性功能「音频表达（Audio Expression）」，用户通过输入提示词，可让 AI 以不同语音风格朗读文本。

https://copilot.microsoft.com/labs/experiments/audio-expression

目前完全免费，不过仅支持英语，可以试试看。

USO 模型是字节开源的一项创新框架，将“风格驱动”与“主体驱动”两类图像生成任务统一整合。https://github.com/bytedance/USO

该模型基于 FLUX.1-dev 微调，提供了 LoRA 权重与投影模型，支持四种典型推理模式：精准主体控制、灵活风格迁移、IP-风格混合创作以及多风格融合生成。

官方还贴心地提供了在线 demo，可以直接试玩。

https://huggingface.co/spaces/bytedance-research/USO

Hunyuan-MT-7B 是腾讯开源的翻译模型系列，包含翻译主模型 Hunyuan-MT-7B 以及业界首个开源翻译集成模型 Hunyuan-MT-Chimera-7B。

https://github.com/Tencent-Hunyuan/Hunyuan-MT

支持38种语言互译，甚至包括五种中国少数民族语言，可以在混元官网在线免费用。

https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=hunyuan-mt-7b

LongCat-Flash 是美团开源的一款 560B 参数混合专家模型（MoE），采用动态计算机制，能根据上下文需求灵活激活 186 亿至 313 亿参数，平均仅需 270 亿参数即可高效完成推理。

https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

该模型遵循 MIT 许可证开放权重，也可以直接访问 LongCat AI在线体验。

https://longcat.ai/

OpenBMB 开源的 UltraRAG 2.0（UR-2.0）是首个基于 Model Context Protocol（MCP）架构设计的轻量级 RAG 系统构建框架。

https://ultrarag.openbmb.cn/

最厉害的是，你只需要编写 YAML 配置文件，就能以极低的代码量快速构建多阶段推理系统！

完整的详细使用文档可以查看官网，上手超简单，不过想要做好，不写代码是不可能的。

qwertlina · 昨天 13:47

还是手慢了

JCRen.net · 昨天 13:56

每天看报

slipknot · 昨天 16:02

前排看报

z2587 · 昨天 17:59

前排看报

紫狗情 · 昨天 18:48

每天看报

紫雷虎 · 昨天 19:13

每天看报

黑山念 · 昨天 20:23

每天看报

		自动登录	找回密码
密码			立即注册

资讯250901 AI日报：微软 Copilot Labs 音频表达功能；字节风格统一生图模型