AI 代理 - 当下最热门的 AI 术语 - 能够自主运作,利用外部工具完成复杂任务,几乎不需要人工干预。
它们可以 24/7 不间断工作,不会生病,也不会因薪资待遇而罢工。难怪像 Nvidia 这样的大公司已经开始在工作中应用它们。
而且它们不仅仅能完成简单的日常任务。最重要的机遇在于利用这种全球规模的机器智能来创造全新的商业机会,开发令人惊叹的新产品和服务。
每个行业都将受到 AI 代理的影响,但有些行业会比其他行业更快采用它。这些行业将率先获得增长和生产力提升的益处。
因此,如果你想预测 AI 代理在你所在行业的发展时间表和影响,了解推动或阻碍其应用的具体因素至关重要。
要了解这一点,你可以先问自己以下三个问题:
是否存在安全的监管环境?
如果金融、医疗保健或制造业等重要行业的主要参与者对可能出现的问题没有保障,他们就不会对实施 AI 代理有信心。
他们需要满足股东期望并通过审计。在 AI 代理和自动化虚拟员工领域,所有关于生成式 AI 应用的问题仍然存在,甚至更多。
法律灰色地带和伦理困境仍然存在,这足以让谨慎的企业采取观望态度。没有公司想成为第一个因自动化代理员工造成数据泄露、版权侵犯或违反 DEI 规则而被起诉的案例。
当行业领导者确信已经建立了使用 AI 代理的框架,能够推动增长,符合当前法规,并且不会面临违反未来法规的风险时,就会全面推进。我认为科技、电信、电子商务和物流等行业在这方面已经相当成熟。
是否存在商业案例?
必须有盈利的方式。企业需要看到明确的、可衡量的效益,如成本节约、效率提升或客户体验改善。当他们清楚地看到这些时,就会进行投资。这意味着那些关键指标较难衡量的行业 - 如教育、政府或社会服务 - 可能难以识别和定义商业案例。
这些行业在其他软性指标上的影响可能会很大。例如,教师在批改作业上花费的时间减少,可能意味着有更多时间与学生面对面交流。对这些领域的领导者来说,如果不想错过这场革命,找到商业案例是一个特别紧迫的挑战。
我们是否已经准备好?
这包括两个方面 - 技术准备和文化准备。
技术准备意味着要获得基础设施、数据、平台和工具的访问权限 - 许多人认为这是相对容易的部分。
文化准备涵盖广泛的范围。从技能组合和建立重视持续学习和培训的工作场所,到建立对技术推动业务增长的信任,再到能够根据业务目标战略性地部署 AI 代理。
许多公司可能在技术上有能力部署 AI 代理,但缺乏安全有效使用所需的文化框架。或者相反。
由于这些原因,一些行业在整合 AI 代理方面可能面临挑战,包括那些可能担心 AI 威胁到人类工作的行业,例如法律或媒体领域。还有那些受限于传统系统或历来难以吸引技术人才的部门,如政府、公共部门和公用事业。
另一方面,技术、金融和零售等行业和部门已做好准备率先行动。在这些领域,企业在之前多次数字化转型浪潮中不断磨练其技术和文化准备。通过这样做,他们已经为数字化和互联系统奠定了基础,这些系统对于 AI 代理的真正腾飞至关重要。
AI 代理机遇
AI 代理将颠覆传统商业秩序。就像互联网革命一样,旧的统治者将会衰落,新的领军者将会崛起。
对某些部门和行业来说,其价值和使用场景比其他行业更为明显,但机遇对所有人都是存在的。
那些在过去几十年里率先投资计算机、互联网、云计算,最终投资 AI 的组织显然已经领先一步。
但这并不意味着任何人都会被落下,今天就要理解这些挑战和机遇,这对于任何想在明天从中受益的人来说都应该是首要任务。
好文章,需要你的鼓励
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。