AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
悉尼大学和微软研究院联合团队开发出名为Spatia的创新视频生成系统,通过维护3D点云"空间记忆"解决了AI视频生成中的长期一致性难题。该系统采用动静分离机制,将静态场景保存为持久记忆,同时生成动态内容,支持精确相机控制和交互式3D编辑,在多项基准测试中表现优异。
33年后,贝尔纳多·金特罗决定寻找改变他人生的那个人——创造马拉加病毒的匿名程序员。这个相对无害的病毒激发了金特罗对网络安全的热情,促使他创立了VirusTotal公司,该公司于2012年被谷歌收购。这次收购将谷歌的欧洲网络安全中心带到了马拉加,使这座西班牙城市转变为科技中心。通过深入研究病毒代码和媒体寻人,金特罗最终发现病毒创造者是已故的安东尼奥·恩里克·阿斯托尔加。
马里兰大学研究团队开发ThinkARM框架,首次系统分析AI推理过程。通过将思维分解为八种模式,发现AI存在三阶段推理节律,推理型与传统AI思维模式差异显著。研究揭示探索模式与正确性关联,不同效率优化方法对思维结构影响各异。这为AI系统诊断、改进提供新工具。