发帖
 找回密码
 立即注册
搜索
0 0 0
前沿情报 48 0 前天 14:37

NVIDIA 正在推动语音 AI 和语言模型实现出色的性能、效率和可访问性,为重新定义自动语音识别 (ASR) 可能性的创新奠定基础。

NVIDIA Parakeet TDT 0.6 B v2 是一个包含 6 亿个参数的自动语音识别 (ASR) 模型,专为高质量英语转录而设计。目前,它与其他四款排名靠前的 NVIDIA Parakeet 车型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放异彩。

本文将探讨这些和其他先进的 NVIDIA 语音 AI 模型如何为自动语音识别 (ASR) 的准确性、速度和通用性设定新的基准。我们将回顾模型亮点、排行榜性能和实际部署选项,以便您可以将这些先进的模型用于现实世界的应用。

NVIDIA 语音 AI 模型概述

NVIDIA Parakeet 和 Canary AI 模型系列是 NVIDIA Riva 的一部分,NVIDIA Riva 是一系列 GPU 加速的多语种语音和翻译微服务,用于构建完全可定制的实时对话式 AI 工作流。

Riva 语音模型通常始于研究原型,经历了从实验到可扩展的高性能部署的过程。虽然从研究到部署的过程遵循结构化路径,但将模型推进到 NVIDIA NIM 微服务的决定通常取决于现实世界的需求以及模型在更广泛的开发者社区中的表现。

NVIDIA 模型通常会进行性能调优并打包为 NIM,以便使用 Riva 在可扩展的现实世界应用中无缝部署,从而从研究原型发展到改进部署。如需了解更多信息,请查看 NVIDIA 生成式 AI 软件产品管理高级总监 Joey Conway 最近的访谈。

NVIDIA Parakeet v2 模型亮点

Parakeet v2 具有业内出色的 6.05% 词错误率 (WER) ,具有出色的准确性、超快的推理速度 ( RTFx 3386.02,比替代产品快 50 倍) 以及创新的开创性功能 (例如准确的时间和从歌曲到歌词的转录) ,可将性能提升到更高水平。这些模型是开源的,可用于商业用途。

对于其他 ASR 模型难以平衡速度、准确性和专用用例的情况,Parakeet v2 提供了所有这些功能,使其成为对尖端性能和通用性有要求的开发者的首选。

视频 :使用 NVIDIA Parakeet v2 创建的歌曲转歌词转录示例

NVIDIA NeMo Canary 模型亮点

NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上名列前茅。NVIDIA NeMo Canary 1B 和 NVIDIA NeMo Canary 1B Flash 目前分别排名第 4 和第 3 位,因其强大的多语种性能和快速推理而脱颖而出。这些模型在几种主要语言的语音识别和翻译方面均名列前茅。

image2.png

──── 0人觉得很赞 ────

使用道具 举报

您需要登录后才可以回帖 立即登录
高级模式