AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
Databricks在旧金山Data + AI峰会上推出多项重磅产品,包括支持AI智能体实时访问数据湖的Lake TAP架构、毫秒级查询引擎Reyden,以及具备持续学习能力的Genie One智能平台。CEO Ali Ghodsi表示AGI已经到来,当前核心挑战在于如何将其真正融入企业运营。Databricks还宣布收购AI安全平台Panther Labs,并推出Unity AI Gateway用于企业AI治理与成本管控。
WorldOlympiad是浙大、阿里等机构联合提出的视频世界模型评测基准,从物理规律、三维几何一致性和长程交互控制三个维度评测AI视频模型,首次实现跨游戏、机器人、真实世界场景的统一评测。
谷歌Wear OS 7已开始向Pixel Watch设备推送,此次更新带来最高10%的续航提升、实时通知Live Updates及跨设备音频控制功能。更值得关注的是,谷歌正将智能手表定位为其AI生态系统的核心枢纽,与智能眼镜、耳机等设备深度联动。Gemini AI功能将于年内陆续上线,包括自然语言生成表盘和跨应用多步操作。此外,重塑后的Fitbit应用引入AI健康教练,但用户生物特征与医疗数据的隐私保护问题仍是谷歌面临的重大挑战。
混合大模型做推理训练后长文检索能力暴跌,香港科技大学团队发现根源在查询键矩阵局部漂移,提出零训练成本的QK-Restore修复方法。