目前很多人开始意识到,由 Google 主导的超过 3000 亿美元的西方搜索市场正在被新型大语言模型和生成式 AI 彻底颠覆。我的好友兼同事、www.brandrank.ai 的创始人 Pete Blackshaw 将这种现象称为"答案经济" - 我认为他说得对。
以下是我制作的一个表格,比较传统 Google 搜索与新型大语言模型答案引擎的差异。
五个要素的解释
交互模式: Google 要求用户设定特定搜索词并反复优化搜索条件。相比之下,大语言模型提供对话式体验,允许用户自然表达需求,同时模型会不断完善和调整其回应。
结果形式: Google 的搜索结果是需要用户逐一评估的链接列表。而大语言模型则能将多个来源的信息整合成连贯且相关的答案,减少了进一步解读的需求。
效率: 使用 Google 时,用户往往需要浏览多页搜索结果才能找到可用信息。大语言模型则消除了这一步骤,立即提供简明且相关的信息,从而提高效率。
洞察深度: Google 搜索主要是汇总和展示现有内容,很少提供网上readily可获取内容之外的信息。大语言模型则能分析数据、推断含义并深入解释概念,为复杂查询提供更优质的见解。
个性化: 除非受用户历史记录或位置影响,Google 的结果通常是标准化的。而大语言模型则能根据用户的语气、意图和知识水平动态调整,创造符合个人需求的体验。
从基于问题的搜索转向以答案为导向的互动反映了一个范式转变,使个人和职业环境中的决策更快速、更有效。"答案经济"使大语言模型成为知识工作者、管理人员和普通用户不可或缺的工具。让我们来看看三个关键问题。
行动 1:了解您的产品或服务在主流模型中的表现
Blackshaw 的研究表明,消费者已经在产品购买过程中使用大语言模型。对于电子产品,60% 的顾客会咨询这些模型。一个简单的方法是访问 www.chathub.gg,这是一个元搜索引擎,只需每月 19 美元订阅费,就能同时查询六个大语言模型。我在 www.chathub.gg 输入了以下提示:
"你是婴儿产品专家,我想知道最环保的尿布是什么?请选出前三名,然后告诉我你的首选并说明理由。"
然后我又问:"哪个最具性价比?"
下表显示这段对话不仅提出了考虑选项,而且只需一个追加问题就能重新排序。
每个产品或服务都会被新的答案引擎发现和评价。现在就开始审视需要关注的方面,并着手实施改进排名的方法。
行动 2:为客户绘制关键趋势图
我向所有六个引擎询问了 2025 年 AI 领导者面临的关键问题,然后将所有回答输入另一个大语言模型,创建了一个还不错的七大要点清单。
AI 治理和伦理一致性理由: 如欧盟 AI 法案等全球法规收紧和公众审查加强,需要强健的伦理框架和合规措施。
计算资源竞争理由: 先进 AI 模型的巨大资源需求推动"算力军备竞赛",加上半导体短缺和云计算成本上升。
人才获取和保留理由: 预计到 2028 年 AI 专家将严重短缺,激烈竞争导致薪酬待遇不可持续,特别是高级职位。
数据隐私和安全理由: 数据处理呈指数级增长造成更高的隐私和安全风险,在日益增加的网络威胁中需要强有力的保护措施。
AI 可解释性和透明度理由: 仅 22% 的组织表示对 AI 透明度有高度信心,这对医疗保健和金融等高风险应用构成重大挑战。
ROI 和价值证明理由: 组织难以证明 AI 投资的持续价值,需要更清晰的治理和衡量框架。
AI 系统的偏见和公平性理由: 面部识别、招聘和医疗保健应用中的已知偏见突显了 AI 开发和部署中公平性的紧迫需求。
对客户重要性的这种新视角是所有面向客户的领导者都应该利用的持续对话。这些模型使用起来非常简单,可以与你对话解释为什么它们认为这些是关键趋势。你可以要求它与自己辩论 - 例如,告诉我这些趋势错误的主要原因等。在试图预测客户需求和愿望时,这些模型是很好的对话伙伴。
行动 3:想象你正在寻找最佳工作场所
我向六个答案引擎提出了以下问题:
"对于一个 25 岁、拥有 MBA 和会计学位的人来说,四大会计师事务所中哪家最适合工作?请选择一家并为你的选择辩护。"
当我询问 chathub.gg 时,所有六个模型都说是德勤,这让我有点困扰。我在普华永道工作的八年很愉快,虽然我与公司已经没有任何财务关系,但我一定会告诉我在那里的朋友们,他们需要研究如何提高在答案引擎中的排名。每个领导者都必须问:我们公司的排名如何?
简而言之,我们正从问题经济转向答案经济。每个企业今天都应该查看他们的产品或服务的排名、模型认为的关键客户趋势以及他们在人才市场中的地位。这些仅仅是答案引擎无处不在带来的影响的开始。
好文章,需要你的鼓励
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。