AI 公司 Sesame 发布了为其令人印象深刻的语音助手 Maya 提供支持的基础模型。
这个拥有 10 亿参数 ("参数"指模型的各个组成部分) 的模型采用 Apache 2.0 许可证,这意味着它可以在很少限制的情况下进行商业使用。根据 Sesame 在 AI 开发平台 Hugging Face 上的描述,这个名为 CSM-1B 的模型可以从文本和音频输入生成"RVQ 音频代码"。
RVQ 指"残差向量量化",这是一种将音频编码为离散 token (称为代码) 的技术。RVQ 被用于多项最新的 AI 音频技术中,包括 Google 的 SoundStream 和 Meta 的 Encodec。
CSM-1B 使用 Meta 的 Llama 系列模型作为其主干,并配备了音频"解码器"组件。Sesame 表示,CSM 经过微调的变体为 Maya 提供支持。
Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 仓库中写道:"这里开源的模型是一个基础生成模型。它能够产生各种声音,但尚未针对任何特定声音进行微调...由于训练数据的污染,该模型对非英语语言有一定的处理能力,但效果可能不会很好。"
目前尚不清楚 Sesame 使用了什么数据来训练 CSM-1B。该公司对此没有说明。
值得注意的是,该模型实际上没有任何安全保障措施。Sesame 采用诚信系统,仅仅是敦促开发者和用户不要在未经本人同意的情况下使用该模型模仿他人的声音,不要创建误导性内容如假新闻,或从事"有害"或"恶意"活动。
我尝试了 Hugging Face 上的演示,克隆我的声音不到一分钟。之后,我可以轻松地生成任何想要的语音,包括关于选举和俄罗斯宣传等争议性话题。
Consumer Reports 最近警告说,市面上许多流行的 AI 驱动的声音克隆工具都没有"有意义的"保障措施来防止欺诈或滥用。
Oculus 联合创始人 Brendan Iribe 共同创立的 Sesame 在 2 月底因其助手技术而走红,这项技术几乎突破了恐怖谷效应。Maya 和 Sesame 的另一个助手 Miles 会呼吸,说话时会有停顿,而且可以像 OpenAI 的 Voice Mode 一样在说话时被打断。
Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 获得未披露金额的投资。除了开发语音助手技术外,该公司表示正在开发"设计用于全天佩戴"的 AI 眼镜原型,这些眼镜将配备其定制模型。
好文章,需要你的鼓励
短视频营销正成为品牌推广的重要方式,但寻找最佳片段并精准分发始终是一大难题。初创公司Clouted通过整合逾10万名自由创作者网络,结合AI技术自动完成视频剪辑与分发策略。其AI系统持续测试不同格式与渠道组合,让每次营销活动都比上一次更精准高效。该公司近日完成700万美元种子轮融资,由Slow Ventures领投,正朝着企业级营销基础设施市场迈进。
CurveBench是由四所高校联合构建的视觉拓扑推理基准,通过让AI识别嵌套闭合曲线的层次包含关系,揭示了顶尖视觉语言模型在空间结构理解上的系统性缺陷。
本月初,Anthropic宣布购买300兆瓦算力的协议,锁定位于田纳西州孟菲斯附近的Colossus 1数据中心全部产能。据悉,Anthropic将在2029年5月前每月向xAI支付12.5亿美元,协议总价值超400亿美元。该交易细节源自SpaceX向SEC提交的S-1文件。xAI此举实质上是将闲置算力变现——近期Grok用户量下滑,大量服务器空闲,xAI由此转型为"新云服务商",向竞争对手出售计算资源。
圣母大学与亚利桑那州立大学联合构建首个真实骗局对话进展预测基准PRESCAM,揭示当前AI模型识别骗局推进逻辑的核心局限。