Zoom Video Communications Inc. 今天对其平台进行升级,为其 Zoom AI Companion 添加了智能代理功能和技能,以协助视频通话交互。
公司宣布为包括 Zoom Meetings、Phone、Team Chat、Docs 和 Contact Center 在内的产品增添 AI 增强功能,使 AI 代理能够执行复杂操作并为客户编排任务执行。
首席产品官 Smita Hashim 表示:"AI Companion 正在从个人助手进化为真正的智能代理,这标志着 AI 在提升工作效率和协作方面的重大飞跃。"
Zoom AI Companion 是一款覆盖整个 Zoom 平台的生成式 AI 助手,提供会议总结、笔记记录和邮件写作等功能。随着智能代理功能的加入(这是 AI 获得更广泛推理能力以无需人工干预做出决策和解决复杂问题的新趋势),它可以采取行动并执行长期任务。
新的智能代理技能包括管理日历安排会议、从冗长的视频会议中生成片段,以及为高级文档创建提供写作帮助等功能。
Zoom 宣布其 AI Companion 是一个开放平台,不久将能够与第三方代理(包括 ServiceNow AI 代理)进行交互。用户还可以创建具有特定技能集的自定义代理,以满足其独特需求。
通过附加组件,可以根据业务需求对 Companion 进行定制。这包括创建自定义会议模板和包含行业特定术语的词典、整合第三方应用程序的专业数据源,以及使用 AI Studio 扩展其知识库。
可定制的 AI Companion 附加组件预计将于 4 月推出。
公司表示,其附加功能将小语言模型与大语言模型结合使用,以低成本提供高精度的答案。Zoom 解释说,新的小语言模型经过多语言数据训练,并针对复杂操作进行了优化,旨在促进多代理协作。
Saint Leo University 首席信息官 Steven Carroll 表示:"自从 Zoom AI Companion 推出以来,我们一直在使用它,我亲眼目睹了它如何改变我们的学术和行政运营。这项技术不仅仅是提高效率,它让我们的员工能够减少手动任务的时间,投入更多时间进行有意义的协作。"
为继续加强 AI 功能,Zoom 表示将很快为特定行业(如一线工作者、医疗保健和教育)提供更深入的专门构建的智能代理和传统 AI 解决方案。
从 4 月开始,基于 AI Companion 的移动解决方案 Workplace for Frontline 将为员工提供在班期间的通信和工作管理功能。这包括一键通话、轮班交换、任务管理和轮班总结。
到 3 月底,面向医生、护士和从业者的 Workplace for Clinicians 将推出,让他们能够投入更多时间进行患者护理,减轻文档和行政任务。最后,Workplace for Education 将把 Zoom 的 AI Companion 引入课堂,协助生成讲座总结、课程大纲、研究笔记、学习材料和作业。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。