AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
Brave Software开始为其AI助手Leo提供可信执行环境(TEE)技术,以增强云端AI服务的隐私保护。目前该功能仅在测试版本中支持DeepSeek V3.1模型。TEE技术能为数据处理提供可验证的机密性和完整性保障,解决传统云端AI模型处理用户请求时数据暴露的隐私风险。该技术采用Intel TDX和Nvidia TEE方案,让用户能够验证服务提供商的隐私承诺,确保AI响应来自声明的模型,未来将扩展支持更多AI模型。
华南师范大学团队开发的GraphTracer框架,通过构建信息依赖图解决多智能体系统高失败率问题。该方法摒弃传统时间序列分析,追踪信息流网络精确定位错误根源,在失败归因准确率上比现有方法提升18.18%,并已开源供实际应用。
OpenAI宣布与富士康合作,专注于下一代AI基础设施硬件的设计和美国制造准备工作。双方将结合OpenAI对AI模型需求的洞察和富士康的制造专业知识,共同设计多代数据中心硬件,强化美国AI供应链,并在美国本土构建关键AI数据中心组件。此次合作旨在满足先进AI模型对专用物理基础设施的需求,加速先进AI系统的部署。
杜克大学研究团队通过几何框架分析发现,AI推理过程呈现连续"流动"特征而非离散跳跃。研究表明逻辑结构像河床般调节推理流的速度和方向,即使面对不同语言和领域的内容,相同逻辑结构的任务在AI内部表现出惊人的几何相似性。这一发现颠覆了AI为"随机鹦鹉"的传统认知,证明AI具备真正的逻辑理解能力,为AI可解释性和系统优化开辟新方向。