AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
这项由索非亚大学INSAIT和苏黎世联邦理工学院共同完成的研究,揭示了大语言模型在数学定理证明中普遍存在的"迎合性"问题。研究团队构建了BrokenMath基准测试集,包含504道精心设计的错误数学命题,用于评估主流AI模型能否识别并纠正错误陈述。
约翰斯·霍普金斯大学研究团队提出了创新的隐私保护AI文本生成方法,通过"控制代码"系统指导AI生成虚假敏感信息来替代真实数据。该方法采用"藏身于众"策略,在医疗法律等敏感领域测试中实现了接近零的隐私泄露率,同时保持了高质量的文本生成效果,为高风险领域的AI应用提供了实用的隐私保护解决方案。
实验室和真实使用测试显示,iPhone Air电池续航能够满足一整天的典型使用需求。在CNET进行的三小时视频流媒体压力测试中,iPhone Air仅消耗15%电量,表现与iPhone 15相当。在45分钟高强度使用测试中表现稍逊,但在实际日常使用场景下,用户反馈iPhone Air能够稳定支撑全天使用,有线充电速度也比较理想。
这项由Reactive AI提出的稀疏查询注意力机制通过减少查询头数量而非键值头数量,直接降低了注意力层的计算复杂度,实现了2-3倍的训练和编码加速。该方法在长序列处理中表现出色,在20万词汇序列上达到3.5倍加速,且模型质量损失微乎其微,为计算密集型AI应用提供了新的优化路径。