旧金山 AI 初创公司 Anthropic 不仅推出了上周发布的新款大语言模型 Claude Opus 4 和 Sonnet 4,今天还为同名的 Claude AI 聊天机器人带来了两项重大更新:在 Apple App Store ( iOS 设备,如 iPhone ) 和 Google Play Store ( Android 设备 ) 的移动应用中推出了新的对话语音模式。
此外,这家与 OpenAI 一较高下(部分创始成员为 OpenAI 离职人员)的 AI 初创公司,还将网络搜索功能扩展到所有免费用户。
这些更新旨在使 Claude 更加多功能,并惠及更广泛的用户群体。
“这是语音功能的早期实现,但我已经发现它既有趣又实用,” Anthropic 的 Claude 关系负责人 Alex Albert 在社交网络 X 上写道。“请告诉我们你的体验(好的和不好的),这样我们未来能将它做得更好!”
不过,目前 Claude 的对话语音界面仅支持英文,同时也还未提及该功能的 API 或网页支持——这意味着它暂时仅限于单独的移动应用用户。
Hitting OpenAI where it hurts
据 Anthropic 介绍,全新的 Claude 语音模式将在未来几周内逐步推送给所有移动应用用户。
虽然竞争对手 OpenAI 自 2023 年底起就在 ChatGPT 上提供了对话语音模式并多次进行大幅升级,但 Claude 的新对话模式不仅达到相同水平,还提供了 OpenAI 所没有的功能。
正如 X 上发布的一段宣传视频所示,现在 Claude 的移动应用用户可以通过对话语音界面,要求 Claude 检查他们的 Google 日历、Gmail 和 Google Docs 中的特定信息,聊天机器人会对这些信息进行摘要,并以语音方式读出,包括即将到来的约会和演示资料。
虽然对话界面和网络搜索功能对 Claude 免费版用户开放,但与外部应用和工具的整合仅面向付费订阅用户,分别为 Claude Pro(每月 20 美元或年付 214.99 美元)和 Claude Max(每个用户每月 100 美元)。
与 OpenAI 类似,用户可以从多种语音选项中进行选择——在 Claude 的设置中,它们被命名为 “Buttery, Airy, Mellow, Glassy 和 Rounded”,每种语音都有各自独特的语调、口音和对话特点。
语音对话会生成完整的文字转录和语音模式摘要。同时,Claude 还提供视觉笔记,捕捉每次对话中的关键信息,为用户提供便捷的回顾和复查方式。
Seamless transitions between text and voice, plus rich media support
语音模式的一个显著特点是,用户可以在文本与语音交互之间无缝切换,而不会丢失对话上下文。这种灵活性满足了不同用户的偏好和使用场景。
除了语音对话外,语音模式还支持丰富媒体交互。用户可以使用语音命令讨论文档、图像以及复杂信息,同时 Claude 依然能够保持流畅的对话,使用户能够更深入地参与内容并轻松获取关键见解。
对于 Pro 方案及以上的用户,语音模式还将个人信息源(如邮件、日历事件和文档)与实时网络搜索结果整合在一起。这种多数据源的结合为用户提供了更全面、实用的对话体验。
Web search for all
与此同时,随着语音模式的推出,Anthropic 还将网络搜索功能扩展到所有免费用户。此新功能使 Claude 能够利用实时互联网数据,对有关突发新闻、市场趋势及其他动态话题的问题给出更新、更准确的回答。
为免费计划用户提供网络搜索功能,进一步丰富了 Claude 不断扩展的整合能力和知识资源库,使用户更容易获取相关答案并掌握最新动态。
Anthropic’s broader vision
Anthropic 指出,对于公司而言,开发语音技术并不是新领域。
除了 Claude 移动应用中的语音转文字功能,Anthropic 还为 Amazon 的 Alexa+ 以及 Otter AI 的转录服务提供技术支持。
这些经验为新语音模式的开发提供了理论依据,同时展示了其整合至用户数字生活其它方面的潜力。
这些更新与 Claude 的其他一系列增强功能一同推出,包括 Claude 4 的发布、与 Google Workspace 的整合以及扩展的研究能力。
A push toward more versatile user interactivity
Anthropic 强调,用户可以轻松发起语音对话,并要求 Claude 总结日历条目或搜索文档,从而展示出平台不断扩展的功能。
Anthropic 也发布了相关媒体资料,为那些有兴趣深入了解更新内容的用户提供了更多资源。
随着语音模式进入内测版本和免费计划中增加了网络搜索功能,Anthropic 持续在扩展 Claude AI 服务的功能性和普及性。这些更新标志着对话式 AI 在变得更灵活、更贴合用户日常任务方面又迈出了一大步。
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。