AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
3月11日,亚马逊云科技在Amazon Bedrock又上线了,完全托管的满血版DeepSeek-R1,企业部署将更加简单。
Cato Networks 推出全球首个基于 SASE 的局域网新一代防火墙 (NGFW),实现了局域网和云防火墙的完全融合。该方案旨在解决企业平均需要 55 天才能修复 50% 关键漏洞的问题,通过自更新和自维护功能,消除了手动打补丁和紧急修复的需求,为企业提供始终最新的安全防护。
WhatsApp 正在测试新的消息主题功能,该功能将允许用户更好地组织和跟踪群聊中的对话。继上月推出彩色聊天主题、关联社交媒体账号以及支持图片和语音的 ChatGPT 功能后,这项新功能将进一步提升用户体验,特别是在繁忙的群聊中追踪特定话题时更为便捷。
Orange 与卫星运营商 Telesat 建立战略商业合作伙伴关系,通过在法国贝尔塞奈昂奥特建设 Telesat Lightspeed 地面站,结合 Orange 在 26 个国家和地区的地面站网络,为偏远地区提供低延迟、安全可靠的卫星通信服务。此次合作将增强 Orange 的全球数字基础设施韧性,促进偏远地区的数字包容。