美团发布 560B 参数 LongCat-Flash-Thinking 推理模型

LongCat-Flash-Thinking 是美团重磅发布的基于混合专家架构的大型语言推理模型,总参数量达 5600 亿。https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
根据官方基准测试,其性能比肩 OpenAI o3 和 Gemini 2.5 Pro,目前模型权重已根据 MIT 许可证开源。
也可以直接在官网打开推理模式体验:https://longcat.ai/
Spectral Labs 推出 SGS-1:草图直接生成可编辑 CAD 格式
Spectral Labs 发布了 SGS-1,这是一款能够生成完全可制造、参数化 3D 几何体的基础模型。
https://www.spectrallabs.ai/research/SGS-1
用户只需输入图像或 3D 网格,即可生成可在传统 CAD 软件中编辑的 STEP 格式。目前,官网仅公布了技术报告:https://www.spectrallabs.ai/research/SGS-1
字节推出 Doubao 翻译大模型:28 语言互译能力比肩 GPT-4o

Doubao-Seed-Translation(豆包翻译模型)是字节火山最新推出的通用翻译大模型,支持多达 28 种语言的互译能力。
官方宣称其翻译性能超越或持平 GPT-4o 和 Gemini-2.5-Pro,价格方面也很亲民,每百万字符输入仅需 1.20 元,输出为 3.60 元,完整定价细节可以查看火山引擎的官方文档。
https://www.volcengine.com/docs/82379/1820188
GitHub 突发调整:Copilot 暂停向中国大陆用户提供 Claude 模型服务

VS Code 中的 GitHub Copilot 模型选择器现已无法为中国大陆 IP 用户提供 Claude 系列模型选项。
目前官方尚未发布任何相关公告,但根据我的推测,这可能是应 Anthropic 公司的要求而实施的服务调整。
小米开源 MiMo-Audio:7B 通用音频模型

MiMo-Audio 是小米推出的开源 7B 通用音频大模型,使用 1 亿小时语音完成预训练。它能够零样本理解复杂音频并推理来源,还能按文本指令实时合成高自然度语音。更厉害的是,它可以直接在上下文中完成风格转换、语音翻译和声音编辑等任务。
https://xiaomimimo.github.io/MiMo-Audio-Demo/
官方还表示,这模型在各项基准上超越了 Gemini-2.5-Flash 和 GPT-4o-Audio,是当前最强开源音频模型。
阿里开源 Wan2.2-Animate:动作驱动的数字人模型
阿里通义万相正式开源了140亿参数的MoE视频扩散模型Wan2.2-Animate。
https://humanaigc.github.io/wan-animate/
这个模型效果非常强,能够一键驱动照片中的人物和动物,支持动作、表情和对口型功能。可以去官网查看详细案例,也可以直接在HuggingFace Space上体验。
https://huggingface.co/spaces/Wan-AI/Wan2.2-Animate