英伟达发布大规模AI就绪欧洲语言数据集和工具

英伟达发布名为Granary的大规模开源多语言音频数据集，包含超过100万小时音频、65万小时语音识别和35万小时语音翻译数据，涵盖25种欧洲语言。同时推出Canary-1b-v2和Parakeet-tdt-0.6b-v6两个AI模型，用于语音翻译和转录任务。该数据集在GitHub免费开放，可帮助开发者为小众语言创建更包容的语音技术。

地球上超过7000种语言中，只有极少数得到人工智能模型的支持。为此，英伟达公司今日宣布推出一个大规模的AI就绪数据集和模型，旨在支持高质量欧洲语言AI翻译技术的开发。

这个名为Granary的新数据集是一个庞大的开源多语言音频语料库，包含超过100万小时的音频内容，外加65万小时的语音识别数据和35万小时的语音翻译数据。

英伟达语音AI团队与卡内基梅隆大学和布鲁诺·凯斯勒基金会的研究人员合作，将未标注的音频和公共语音数据处理成可用于AI训练的信息。该数据集在GitHub上免费开放获取。

Granary涵盖25种欧洲语言，几乎包括欧盟全部24种官方语言，以及俄语和乌克兰语。数据集还包含了可用数据有限的语言，如克罗地亚语、爱沙尼亚语和马耳他语。

这一点至关重要，因为提供这些代表性不足的人工标注数据集，将使开发者能够为使用这些语言的受众创建更具包容性的语音技术，同时在AI应用和模型中使用更少的训练数据。

英伟达专门针对欧洲语言对其数据集进行了微调，专注于这些语言家族特定的高质量音频和标注，从而使模型能够使用更少的数据。团队在研究论文中证明，与其他流行数据集相比，使用Granary训练数据实现自动语音识别和自动语音翻译的高准确率所需的数据量约为一半。

新AI翻译和转录模型

除Granary外，英伟达还发布了新的Canary和Parakeet模型，以展示该数据集的应用潜力。

两个模型分别是Canary-1b-v2（针对复杂任务高准确率优化的模型）和Parakeet-tdt-0.6b-v6（专为高速、低延迟翻译和转录任务设计的小型模型）。

新Canary模型采用相当宽松的许可证，允许商业和研究使用，将Canary当前支持的语言从4种扩展到25种。它提供的转录和翻译质量可媲美三倍大小的模型，同时推理速度快达10倍。该模型拥有10亿参数，可在大多数下一代旗舰智能手机上完全本地运行，实现实时语音翻译。

Parakeet优先考虑高吞吐量，能够单次处理并转录24分钟的音频。它可以检测音频语言并无需额外提示即可转录。Canary和Parakeet都能在输出中提供准确的标点符号、大写字母和单词级时间戳。

其他提供大规模多语言能力的AI模型还包括Cohere for AI的Aya Expanse——由AI初创公司Cohere Inc.运营的非营利研究实验室开发的高性能多语言模型系列。它是Aya Collection的一部分，该收藏是迄今为止最大的多语言数据集收藏之一，包含5.13亿个样本，其中包括能够覆盖100多种语言的开放AI模型Aya-101。

英伟达在GitHub上提供了使用Granary数据集微调模型的详细信息（如公司如何训练Canary和Parakeet），并在Hugging Face上向开发者开放了这个大规模多语言数据集。

Q&A

Q1：Granary数据集包含什么内容？

A：Granary是英伟达发布的大规模开源多语言音频语料库，包含超过100万小时的音频内容，65万小时的语音识别数据和35万小时的语音翻译数据，涵盖25种欧洲语言，包括几乎所有欧盟官方语言以及俄语和乌克兰语。

Q2：Canary和Parakeet模型有什么特点？

A：Canary-1b-v2是针对复杂任务优化的高准确率模型，支持25种语言，推理速度比同等质量模型快10倍，可在旗舰手机上本地运行。Parakeet-tdt-0.6b-v6专注于高速低延迟任务，能单次处理24分钟音频并自动检测语言。

Q3：这些数据集和模型对开发者有什么价值？

A：这些工具让开发者能够用更少的训练数据创建高质量的多语言语音技术，特别是为那些数据稀缺的语言开发更具包容性的应用。所有资源都在GitHub和Hugging Face上免费开放，支持商业和研究使用。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

英伟达发布大规模AI就绪欧洲语言数据集和工具

来源：SiliconANGLE

2025

08/18

07:57

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

企业通用智能将比AGI更快实现商业突破

"便宜"的开源AI模型实际上在消耗你的计算预算

SK Telecom打造主权AI基础设施，支持韩国国家AI模型开发

研究揭示大语言模型聊天机器人易被恶意利用窃取用户隐私数据

谷歌推出超小型AI模型Gemma 3 270M，智能设备离线运行新突破

ChatGPT全面指南：关于这个AI聊天机器人你需要了解的一切

谷歌正在为NotebookLM开发神秘新功能"Magic View"

欧洲AI明星公司发布全球最小高性能模型

谷歌推出AI航班搜索工具应对反垄断审查

AI创业公司Landbase收购Adauris强化入站营销自动化

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会