地球上超过7000种语言中,只有极少数得到人工智能模型的支持。为此,英伟达公司今日宣布推出一个大规模的AI就绪数据集和模型,旨在支持高质量欧洲语言AI翻译技术的开发。
这个名为Granary的新数据集是一个庞大的开源多语言音频语料库,包含超过100万小时的音频内容,外加65万小时的语音识别数据和35万小时的语音翻译数据。
英伟达语音AI团队与卡内基梅隆大学和布鲁诺·凯斯勒基金会的研究人员合作,将未标注的音频和公共语音数据处理成可用于AI训练的信息。该数据集在GitHub上免费开放获取。
Granary涵盖25种欧洲语言,几乎包括欧盟全部24种官方语言,以及俄语和乌克兰语。数据集还包含了可用数据有限的语言,如克罗地亚语、爱沙尼亚语和马耳他语。
这一点至关重要,因为提供这些代表性不足的人工标注数据集,将使开发者能够为使用这些语言的受众创建更具包容性的语音技术,同时在AI应用和模型中使用更少的训练数据。
英伟达专门针对欧洲语言对其数据集进行了微调,专注于这些语言家族特定的高质量音频和标注,从而使模型能够使用更少的数据。团队在研究论文中证明,与其他流行数据集相比,使用Granary训练数据实现自动语音识别和自动语音翻译的高准确率所需的数据量约为一半。
新AI翻译和转录模型
除Granary外,英伟达还发布了新的Canary和Parakeet模型,以展示该数据集的应用潜力。
两个模型分别是Canary-1b-v2(针对复杂任务高准确率优化的模型)和Parakeet-tdt-0.6b-v6(专为高速、低延迟翻译和转录任务设计的小型模型)。
新Canary模型采用相当宽松的许可证,允许商业和研究使用,将Canary当前支持的语言从4种扩展到25种。它提供的转录和翻译质量可媲美三倍大小的模型,同时推理速度快达10倍。该模型拥有10亿参数,可在大多数下一代旗舰智能手机上完全本地运行,实现实时语音翻译。
Parakeet优先考虑高吞吐量,能够单次处理并转录24分钟的音频。它可以检测音频语言并无需额外提示即可转录。Canary和Parakeet都能在输出中提供准确的标点符号、大写字母和单词级时间戳。
其他提供大规模多语言能力的AI模型还包括Cohere for AI的Aya Expanse——由AI初创公司Cohere Inc.运营的非营利研究实验室开发的高性能多语言模型系列。它是Aya Collection的一部分,该收藏是迄今为止最大的多语言数据集收藏之一,包含5.13亿个样本,其中包括能够覆盖100多种语言的开放AI模型Aya-101。
英伟达在GitHub上提供了使用Granary数据集微调模型的详细信息(如公司如何训练Canary和Parakeet),并在Hugging Face上向开发者开放了这个大规模多语言数据集。
Q&A
Q1:Granary数据集包含什么内容?
A:Granary是英伟达发布的大规模开源多语言音频语料库,包含超过100万小时的音频内容,65万小时的语音识别数据和35万小时的语音翻译数据,涵盖25种欧洲语言,包括几乎所有欧盟官方语言以及俄语和乌克兰语。
Q2:Canary和Parakeet模型有什么特点?
A:Canary-1b-v2是针对复杂任务优化的高准确率模型,支持25种语言,推理速度比同等质量模型快10倍,可在旗舰手机上本地运行。Parakeet-tdt-0.6b-v6专注于高速低延迟任务,能单次处理24分钟音频并自动检测语言。
Q3:这些数据集和模型对开发者有什么价值?
A:这些工具让开发者能够用更少的训练数据创建高质量的多语言语音技术,特别是为那些数据稀缺的语言开发更具包容性的应用。所有资源都在GitHub和Hugging Face上免费开放,支持商业和研究使用。
好文章,需要你的鼓励
Gartner预测,到2029年,超过50%的企业将采用数字主权策略,以确保对数据和关键系统的国家控制。主权云将在这些策略中发挥关键作用,使企业能够在确保合规性的同时实现系统"云化"。企业正在采用私有云、主权云和本地数据中心等多种云私有化模式,主要驱动因素包括业务一致性、IT资源、成本和性能考量。
印度学者在卫星图像识别领域取得突破,设计出无需预训练的神经网络架构,在EuroSAT数据集上达到97.23%准确率。通过三轮迭代优化,研究者发现卫星图像需要平衡空间和光谱两种特征,创新性地开发了可学习融合参数的双路径注意力机制。该方法证明了专用架构设计在特定领域的巨大潜力,为无法获得大规模预训练数据的应用场景提供了有效解决方案。
这款16英寸便携显示器采用分离式设计,包含显示屏和磁吸式支架,均由阳极氧化铝制成。支架采用双铰链设计,支持360度旋转调节,收纳时厚度仅约1.3厘米。FlipAction Pro Gen 1配备2560×1600分辨率、60Hz刷新率、350尼特亮度和100% DCI-P3色域。无需外接电源,可直接从设备取电。适合与iPad配合提升多任务处理效率,或作为Mac的垂直副屏使用。
UC伯克利研究团队开发了ECHO框架,通过分析社交媒体上真实用户对GPT-4o图像生成的使用反馈,构建了更贴近实际需求的AI评测体系。该框架收集了超过31000个用户提示词,发现传统评测无法覆盖的复杂任务需求,并识别出用户关心的色彩偏移、身份保持等具体问题,为AI模型评估提供了全新的用户导向思路。