旧金山 AI 初创公司 Anthropic 不仅推出了上周发布的新款大语言模型 Claude Opus 4 和 Sonnet 4,今天还为同名的 Claude AI 聊天机器人带来了两项重大更新:在 Apple App Store ( iOS 设备,如 iPhone ) 和 Google Play Store ( Android 设备 ) 的移动应用中推出了新的对话语音模式。
此外,这家与 OpenAI 一较高下(部分创始成员为 OpenAI 离职人员)的 AI 初创公司,还将网络搜索功能扩展到所有免费用户。
这些更新旨在使 Claude 更加多功能,并惠及更广泛的用户群体。
“这是语音功能的早期实现,但我已经发现它既有趣又实用,” Anthropic 的 Claude 关系负责人 Alex Albert 在社交网络 X 上写道。“请告诉我们你的体验(好的和不好的),这样我们未来能将它做得更好!”
不过,目前 Claude 的对话语音界面仅支持英文,同时也还未提及该功能的 API 或网页支持——这意味着它暂时仅限于单独的移动应用用户。
Hitting OpenAI where it hurts
据 Anthropic 介绍,全新的 Claude 语音模式将在未来几周内逐步推送给所有移动应用用户。
虽然竞争对手 OpenAI 自 2023 年底起就在 ChatGPT 上提供了对话语音模式并多次进行大幅升级,但 Claude 的新对话模式不仅达到相同水平,还提供了 OpenAI 所没有的功能。
正如 X 上发布的一段宣传视频所示,现在 Claude 的移动应用用户可以通过对话语音界面,要求 Claude 检查他们的 Google 日历、Gmail 和 Google Docs 中的特定信息,聊天机器人会对这些信息进行摘要,并以语音方式读出,包括即将到来的约会和演示资料。
虽然对话界面和网络搜索功能对 Claude 免费版用户开放,但与外部应用和工具的整合仅面向付费订阅用户,分别为 Claude Pro(每月 20 美元或年付 214.99 美元)和 Claude Max(每个用户每月 100 美元)。
与 OpenAI 类似,用户可以从多种语音选项中进行选择——在 Claude 的设置中,它们被命名为 “Buttery, Airy, Mellow, Glassy 和 Rounded”,每种语音都有各自独特的语调、口音和对话特点。
语音对话会生成完整的文字转录和语音模式摘要。同时,Claude 还提供视觉笔记,捕捉每次对话中的关键信息,为用户提供便捷的回顾和复查方式。
Seamless transitions between text and voice, plus rich media support
语音模式的一个显著特点是,用户可以在文本与语音交互之间无缝切换,而不会丢失对话上下文。这种灵活性满足了不同用户的偏好和使用场景。
除了语音对话外,语音模式还支持丰富媒体交互。用户可以使用语音命令讨论文档、图像以及复杂信息,同时 Claude 依然能够保持流畅的对话,使用户能够更深入地参与内容并轻松获取关键见解。
对于 Pro 方案及以上的用户,语音模式还将个人信息源(如邮件、日历事件和文档)与实时网络搜索结果整合在一起。这种多数据源的结合为用户提供了更全面、实用的对话体验。
Web search for all
与此同时,随着语音模式的推出,Anthropic 还将网络搜索功能扩展到所有免费用户。此新功能使 Claude 能够利用实时互联网数据,对有关突发新闻、市场趋势及其他动态话题的问题给出更新、更准确的回答。
为免费计划用户提供网络搜索功能,进一步丰富了 Claude 不断扩展的整合能力和知识资源库,使用户更容易获取相关答案并掌握最新动态。
Anthropic’s broader vision
Anthropic 指出,对于公司而言,开发语音技术并不是新领域。
除了 Claude 移动应用中的语音转文字功能,Anthropic 还为 Amazon 的 Alexa+ 以及 Otter AI 的转录服务提供技术支持。
这些经验为新语音模式的开发提供了理论依据,同时展示了其整合至用户数字生活其它方面的潜力。
这些更新与 Claude 的其他一系列增强功能一同推出,包括 Claude 4 的发布、与 Google Workspace 的整合以及扩展的研究能力。
A push toward more versatile user interactivity
Anthropic 强调,用户可以轻松发起语音对话,并要求 Claude 总结日历条目或搜索文档,从而展示出平台不断扩展的功能。
Anthropic 也发布了相关媒体资料,为那些有兴趣深入了解更新内容的用户提供了更多资源。
随着语音模式进入内测版本和免费计划中增加了网络搜索功能,Anthropic 持续在扩展 Claude AI 服务的功能性和普及性。这些更新标志着对话式 AI 在变得更灵活、更贴合用户日常任务方面又迈出了一大步。
好文章,需要你的鼓励
这项来自新加坡国立大学等机构的研究引入了REASONMAP,一个用于评估多模态大语言模型细粒度视觉理解能力的基准测试。研究团队使用来自13个国家30个城市的高分辨率交通地图,构建了1,008个问答对,设计了两级评估框架测量答案的正确性和质量。对15个流行模型的评估揭示了一个意外发现:开源领域的基础模型表现优于推理型模型,而闭源模型则相反。研究还表明,当视觉输入被遮盖时,模型性能普遍下降,证明真正的细粒度视觉推理任务仍需要有效整合多模态信息。
Nvidia公布2026财年一季度业绩,营收441亿美元,同比增长69%;新AI超算与显卡产品陆续亮相,尽管出口管控对H20业务造成影响,但整体AI市场前景依然乐观。
Cerebras WSE 芯片拥有 40 亿晶体管,推理速度达到 NVIDIA 集群的约 2.5 倍,刷新了全球 AI 推理速度记录,为复杂 AI 代理应用提供高性能计算支持。
这项研究提出了"B-score",一种新指标用于检测大语言模型中的偏见。研究人员发现,当模型能看到自己之前对同一问题的回答时(多轮对话),它能够减少偏见并给出更平衡的答案。B-score计算单轮与多轮对话中答案概率的差异,无需外部标注即可识别有偏见的回答。实验证明,将B-score用于回答验证可显著提高准确率,在标准基准测试上平均提升2.9个百分点。这一发现不仅提供了实用工具,还表明大语言模型具有自我纠正能力。