Fish Audio发布S1声音模型

前沿情报 · 2025-6-5 14:07:18

先锋语音技术初创公司 Hanabi AI 在美国时间6月3日宣布推出OpenAudio S1，这是全球首个 AI 配音演员，也是突破性的生成式语音模型，可提供前所未有的实时情感和音调控制。OpenAudio S1 突破了传统文本转语音解决方案的局限，能够创造出细致入微、情感真实的语音输出，捕捉人类全方位的表情。OpenAudio S1 模型现已在fishaudio上开放公测，供所有人免费试用。

“我们相信，AI语音叙事的未来不仅仅在于生成语音，更在于表演，”Hanabi AI创始人兼首席执行官廖诗佳表示。“借助OpenAudio S1，我们正在塑造我们所认为的下一个创意前沿：AI配音。”

从合成文本到语音输出到人工智能语音性能

OpenAudio S1 创新的核心在于将语音从单纯的功能性工具转变为叙事的核心元素。Hanabi AI 并非将语音视为需要合成的脚本输出，而是将其视为一场需要指导的表演——充满情感深度、精准的节奏和富有表现力的细微差别。无论是在传达坏消息前压抑焦虑的颤抖犹豫，还是意外重逢后的脆弱兴奋，OpenAudio S1 都允许用户实时控制和微调声音强度、情感共鸣和韵律，使语音输出不仅听起来逼真，而且更具人性化。

“语音是传达情感最有力的方式之一，但它是最微妙、最难复制的，也是让机器真正具有人性化感觉的关键，”廖先生强调道，“但长期以来，人们一直停留在文本转语音的思维模式。归根结底，机器生成的语音与人类语音的区别在于情感的真实性。这不仅在于你说什么，还在于你怎么说。OpenAudio S1 是第一个让创作者能够像与真人演员合作一样指导配音的 AI 语音模型。”

最先进的模型满足可控性和速度要求

Hanabi AI 凭借强大的技术基础，助力创意愿景的实现。OpenAudio S1 采用端到端架构，拥有 40 亿个参数，并基于丰富的文本和音频数据集进行广泛训练。这种先进的配置使 S1 能够以惊人的精度捕捉情感的细微差别和声音的微妙之处。S1 已完全集成到 fish.audio 平台，面向广泛的用户群体——从能够在几分钟内生成长篇内容的创作者，到需要对每个声音变调进行精细调整的创意专业人士。

根据Hugging Face 的 TTS Arena 的第三方基准测试，OpenAudio S1 在关键基准测试中表现出持续的提升，在关键领域优于 ElevenLabs、OpenAI 和 Cartesia：

表现力——S1 提供更细致入微的情感表达和音调变化，以电影深度处理讽刺、喜悦、悲伤和恐惧等微妙之处，而不像当前竞争模型那样情感范围有限。
超低延迟——S1 提供低于 100 毫秒的延迟，非常适合游戏、语音助手和直播内容创作等实时应用，这些应用对即时响应时间至关重要。而 Cartesia 和 OpenAI 等竞争对手的延迟仍然较高，导致实时交互场景下的响应不够自然，更具机械感。
实时精细控制——使用 S1，用户可以实时调整语调、音高、情绪和语速，不仅可以使用简单的提示，例如（愤怒）或（声音颤抖），还可以使用各种更细致入微或更具创意的指令，例如（自信但隐藏恐惧）或（急切地低语）。这使得语音生成能够灵活且富有表现力，适合各种情境和人物。
最先进的语音克隆——准确复制说话者的节奏、步调和音色。
多语言、多说话者的流畅性——S1 可在 11 种语言中无缝运行，擅长处理多语言环境中的多说话者环境（例如多个角色的对话），支持不同语言之间的无缝过渡而不会失去音调的一致性。

面向未来的开创性研究愿景

OpenAudio S1 只是开篇之作。Hanabi 的长期使命是打造一个真正的人工智能伴侣，它不仅能处理信息，还能与人类的情感、意图和临场感建立联系。虽然如今许多语音模型能够清晰地表达语音，但它们仍然缺乏真正的情感深度，难以支持人工智能伴侣所需的那种信任、温暖和自然的互动。Hanabi 并非将语音视为输出层，而是将其视为人工智能体验的情感核心，因为要让人工智能伴侣感觉自然，它的声音必须传达真实的感受和联系。

为了将这一愿景变为现实，Hanabi 同时推进研究和产品开发。公司运营两个互补的部门：OpenAudio 是 Hanabi 的内部研究实验室，专注于开发突破性的语音模型，并提升情感表达、实时控制和语音保真度。同时，Fish Audio 作为 Hanabi 的产品部门，提供一系列易于使用的应用程序，将这些技术进步直接带给消费者。

展望未来，该公司计划逐步向公众发布 OpenAudio 架构、训练流程和推理堆栈的核心部分。

可扩展创新对现实世界的影响

该公司拥有一支由四名Z世代成员组成的创始团队，在2025年1月至4月期间，其年收入从40万美元增至500多万美元，同时凭借Fish Audio的早期产品（包括实时演奏工具和长篇音频生成），其月活跃用户（MAU）从5万增至42万。这种增长势头反映了该团队将前沿创新转化为产品体验的能力，这些体验能够与快速发展的创意社区产生共鸣。

创始人兼首席执行官廖诗佳在该领域拥有超过七年的经验，并积极参与开源 AI 开发。在创立 Fish Audio 之前，他领导或参与了多个被广泛采用的语音和歌唱合成模型的开发，包括 So-VITS-SVC、GPT-SoVITS、Bert-VITS2 和 Fish Speech，这些模型至今仍在研究和创意编程社区中发挥着重要作用。这些开源基础不仅构建了技术核心，也建立了社区信任，为 fish.audio 的早期商业发展提供了动力。

价格

高级会员（Fish Audio Playground 上的无限生成）：

- 每月 15 美元
- 每年 120 美元

API：每百万 UTF-8 字节 15 美元（约 20 小时音频）

ahjswjq · 2025-6-18 16:00:02

这技术看着挺厉害

		自动登录	找回密码
密码			立即注册

资讯Fish Audio发布S1声音模型

相关帖子

1 回复

浏览过的版块

CV工程师

元老级人物

第一篇帖

渐入佳境

缝合怪

嗨翻全场

话痨标兵

彩虹屁大师