旧金山 AI 初创公司 Anthropic 不仅推出了上周发布的新款大语言模型 Claude Opus 4 和 Sonnet 4,今天还为同名的 Claude AI 聊天机器人带来了两项重大更新:在 Apple App Store ( iOS 设备,如 iPhone ) 和 Google Play Store ( Android 设备 ) 的移动应用中推出了新的对话语音模式。
此外,这家与 OpenAI 一较高下(部分创始成员为 OpenAI 离职人员)的 AI 初创公司,还将网络搜索功能扩展到所有免费用户。
这些更新旨在使 Claude 更加多功能,并惠及更广泛的用户群体。
“这是语音功能的早期实现,但我已经发现它既有趣又实用,” Anthropic 的 Claude 关系负责人 Alex Albert 在社交网络 X 上写道。“请告诉我们你的体验(好的和不好的),这样我们未来能将它做得更好!”
不过,目前 Claude 的对话语音界面仅支持英文,同时也还未提及该功能的 API 或网页支持——这意味着它暂时仅限于单独的移动应用用户。
Hitting OpenAI where it hurts
据 Anthropic 介绍,全新的 Claude 语音模式将在未来几周内逐步推送给所有移动应用用户。
虽然竞争对手 OpenAI 自 2023 年底起就在 ChatGPT 上提供了对话语音模式并多次进行大幅升级,但 Claude 的新对话模式不仅达到相同水平,还提供了 OpenAI 所没有的功能。
正如 X 上发布的一段宣传视频所示,现在 Claude 的移动应用用户可以通过对话语音界面,要求 Claude 检查他们的 Google 日历、Gmail 和 Google Docs 中的特定信息,聊天机器人会对这些信息进行摘要,并以语音方式读出,包括即将到来的约会和演示资料。
虽然对话界面和网络搜索功能对 Claude 免费版用户开放,但与外部应用和工具的整合仅面向付费订阅用户,分别为 Claude Pro(每月 20 美元或年付 214.99 美元)和 Claude Max(每个用户每月 100 美元)。
与 OpenAI 类似,用户可以从多种语音选项中进行选择——在 Claude 的设置中,它们被命名为 “Buttery, Airy, Mellow, Glassy 和 Rounded”,每种语音都有各自独特的语调、口音和对话特点。
语音对话会生成完整的文字转录和语音模式摘要。同时,Claude 还提供视觉笔记,捕捉每次对话中的关键信息,为用户提供便捷的回顾和复查方式。
Seamless transitions between text and voice, plus rich media support
语音模式的一个显著特点是,用户可以在文本与语音交互之间无缝切换,而不会丢失对话上下文。这种灵活性满足了不同用户的偏好和使用场景。
除了语音对话外,语音模式还支持丰富媒体交互。用户可以使用语音命令讨论文档、图像以及复杂信息,同时 Claude 依然能够保持流畅的对话,使用户能够更深入地参与内容并轻松获取关键见解。
对于 Pro 方案及以上的用户,语音模式还将个人信息源(如邮件、日历事件和文档)与实时网络搜索结果整合在一起。这种多数据源的结合为用户提供了更全面、实用的对话体验。
Web search for all
与此同时,随着语音模式的推出,Anthropic 还将网络搜索功能扩展到所有免费用户。此新功能使 Claude 能够利用实时互联网数据,对有关突发新闻、市场趋势及其他动态话题的问题给出更新、更准确的回答。
为免费计划用户提供网络搜索功能,进一步丰富了 Claude 不断扩展的整合能力和知识资源库,使用户更容易获取相关答案并掌握最新动态。
Anthropic’s broader vision
Anthropic 指出,对于公司而言,开发语音技术并不是新领域。
除了 Claude 移动应用中的语音转文字功能,Anthropic 还为 Amazon 的 Alexa+ 以及 Otter AI 的转录服务提供技术支持。
这些经验为新语音模式的开发提供了理论依据,同时展示了其整合至用户数字生活其它方面的潜力。
这些更新与 Claude 的其他一系列增强功能一同推出,包括 Claude 4 的发布、与 Google Workspace 的整合以及扩展的研究能力。
A push toward more versatile user interactivity
Anthropic 强调,用户可以轻松发起语音对话,并要求 Claude 总结日历条目或搜索文档,从而展示出平台不断扩展的功能。
Anthropic 也发布了相关媒体资料,为那些有兴趣深入了解更新内容的用户提供了更多资源。
随着语音模式进入内测版本和免费计划中增加了网络搜索功能,Anthropic 持续在扩展 Claude AI 服务的功能性和普及性。这些更新标志着对话式 AI 在变得更灵活、更贴合用户日常任务方面又迈出了一大步。
好文章,需要你的鼓励
谷歌Agent Development Kit(ADK)革新了AI应用开发模式,采用事件驱动的运行时架构,将代理、工具和持久化状态整合为统一应用。ADK以Runner为核心,通过事件循环处理用户请求、模型调用和外部工具执行。执行逻辑层管理LLM调用和工具回调,服务层提供会话、文件存储等持久化能力。这种架构支持多步推理、实时反馈和状态管理,为构建超越简单聊天界面的生产级AI应用提供了完整框架。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
苹果在iOS 26中推出全新游戏应用,为iPhone、iPad和Mac用户提供个性化的游戏中心。该应用包含五个主要版块:主页展示最近游戏和推荐内容,Arcade专区提供超过200款无广告游戏,好友功能显示Game Center动态并支持游戏挑战,资料库可浏览已安装游戏并提供筛选选项,搜索功能支持按类别浏览。iOS 26.2版本还增加了游戏手柄导航支持,为游戏玩家提供更便捷的操作体验。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。