先锋语音技术初创公司 Hanabi AI 在美国时间6月3日宣布推出OpenAudio S1,这是全球首个 AI 配音演员,也是突破性的生成式语音模型,可提供前所未有的实时情感和音调控制。OpenAudio S1 突破了传统文本转语音解决方案的局限,能够创造出细致入微、情感真实的语音输出,捕捉人类全方位的表情。OpenAudio S1 模型现已在fishaudio上开放公测,供所有人免费试用。
“我们相信,AI语音叙事的未来不仅仅在于生成语音,更在于表演,”Hanabi AI创始人兼首席执行官廖诗佳表示。“借助OpenAudio S1,我们正在塑造我们所认为的下一个创意前沿:AI配音。”
从合成文本到语音输出到人工智能语音性能 OpenAudio S1 创新的核心在于将语音从单纯的功能性工具转变为叙事的核心元素。Hanabi AI 并非将语音视为需要合成的脚本输出,而是将其视为一场需要指导的表演——充满情感深度、精准的节奏和富有表现力的细微差别。无论是在传达坏消息前压抑焦虑的颤抖犹豫,还是意外重逢后的脆弱兴奋,OpenAudio S1 都允许用户实时控制和微调声音强度、情感共鸣和韵律,使语音输出不仅听起来逼真,而且更具人性化。 “语音是传达情感最有力的方式之一,但它是最微妙、最难复制的,也是让机器真正具有人性化感觉的关键,”廖先生强调道,“但长期以来,人们一直停留在文本转语音的思维模式。归根结底,机器生成的语音与人类语音的区别在于情感的真实性。这不仅在于你说什么,还在于你怎么说。OpenAudio S1 是第一个让创作者能够像与真人演员合作一样指导配音的 AI 语音模型。”
最先进的模型满足可控性和速度要求 Hanabi AI 凭借强大的技术基础,助力创意愿景的实现。OpenAudio S1 采用端到端架构,拥有 40 亿个参数,并基于丰富的文本和音频数据集进行广泛训练。这种先进的配置使 S1 能够以惊人的精度捕捉情感的细微差别和声音的微妙之处。S1 已完全集成到 fish.audio 平台,面向广泛的用户群体——从能够在几分钟内生成长篇内容的创作者,到需要对每个声音变调进行精细调整的创意专业人士。
根据Hugging Face 的 TTS Arena 的 第三方基准测试,OpenAudio S1 在关键基准测试中表现出持续的提升,在关键领域优于 ElevenLabs、OpenAI 和 Cartesia: - 表现力——S1 提供更细致入微的情感表达和音调变化,以电影深度处理讽刺、喜悦、悲伤和恐惧等微妙之处,而不像当前竞争模型那样情感范围有限。
- 超低延迟——S1 提供低于 100 毫秒的延迟,非常适合游戏、语音助手和直播内容创作等实时应用,这些应用对即时响应时间至关重要。而 Cartesia 和 OpenAI 等竞争对手的延迟仍然较高,导致实时交互场景下的响应不够自然,更具机械感。
- 实时精细控制——使用 S1,用户可以实时调整语调、音高、情绪和语速,不仅可以使用简单的提示,例如(愤怒)或(声音颤抖),还可以使用各种更细致入微或更具创意的指令,例如(自信但隐藏恐惧)或(急切地低语)。这使得语音生成能够灵活且富有表现力,适合各种情境和人物。
- 最先进的语音克隆——准确复制说话者的节奏、步调和音色。
- 多语言、多说话者的流畅性——S1 可在 11 种语言中无缝运行,擅长处理多语言环境中的多说话者环境(例如多个角色的对话),支持不同语言之间的无缝过渡而不会失去音调的一致性。
面向未来的开创性研究愿景 OpenAudio S1 只是开篇之作。Hanabi 的长期使命是打造一个真正的人工智能伴侣,它不仅能处理信息,还能与人类的情感、意图和临场感建立联系。虽然如今许多语音模型能够清晰地表达语音,但它们仍然缺乏真正的情感深度,难以支持人工智能伴侣所需的那种信任、温暖和自然的互动。Hanabi 并非将语音视为输出层,而是将其视为人工智能体验的情感核心,因为要让人工智能伴侣感觉自然,它的声音必须传达真实的感受和联系。
为了将这一愿景变为现实,Hanabi 同时推进研究和产品开发。公司运营两个互补的部门:OpenAudio 是 Hanabi 的内部研究实验室,专注于开发突破性的语音模型,并提升情感表达、实时控制和语音保真度。同时,Fish Audio 作为 Hanabi 的产品部门,提供一系列易于使用的应用程序,将这些技术进步直接带给消费者。 展望未来,该公司计划逐步向公众发布 OpenAudio 架构、训练流程和推理堆栈的核心部分。
可扩展创新对现实世界的影响 该公司拥有一支由四名Z世代成员组成的创始团队,在2025年1月至4月期间,其年收入从40万美元增至500多万美元,同时凭借Fish Audio的早期产品(包括实时演奏工具和长篇音频生成),其月活跃用户(MAU)从5万增至42万。这种增长势头反映了该团队将前沿创新转化为产品体验的能力,这些体验能够与快速发展的创意社区产生共鸣。
创始人兼首席执行官廖诗佳在该领域拥有超过七年的经验,并积极参与开源 AI 开发。在创立 Fish Audio 之前,他领导或参与了多个被广泛采用的语音和歌唱合成模型的开发,包括 So-VITS-SVC、GPT-SoVITS、Bert-VITS2 和 Fish Speech,这些模型至今仍在研究和创意编程社区中发挥着重要作用。这些开源基础不仅构建了技术核心,也建立了社区信任,为 fish.audio 的早期商业发展提供了动力。
价格 高级会员(Fish Audio Playground 上的无限生成): - 每月 15 美元
- 每年 120 美元 API:每百万 UTF-8 字节 15 美元(约 20 小时音频) |