到不久的将来,就会出现只面向 AI 代理的招聘网站。2025 年将是 AI 同事进入我们生活的一年。但哪家公司将提供这些 AI 员工呢?要回答这个问题,我们需要关注公司所需的两个关键要素:用户访问权和企业数据访问权。
Microsoft 的领先优势 — 用户访问权 谁在为我们提供所有的办公工具?答案显而易见:Microsoft。Microsoft 在用户访问方面占据领先地位。无论喜欢与否,大多数人都在使用 Microsoft 产品,而 AI 正在深度整合到这些工具中,Copilot 助手已经无处不在。
这种市场准入优势至关重要。2023 年和 2024 年,许多初创公司推出了令人印象深刻的 AI 服务,但很快就被 Microsoft 和 Google 这样的巨头所掩盖,因为后者可以直接接触到客户。以 Jasper.ai 为例,这个曾备受瞩目的 AI 写作工具,如今其功能已被直接集成到 Google 和 Microsoft 的产品中,这使得小型企业越来越难以竞争。
OpenAI 的桌面应用 如果 OpenAI 不能创建自己的工具或找到突破口,可能也会面临类似命运。新推出的桌面应用可能就是这样的突破口。该应用现在可以直接从 VS Code、Xcode、TextEdit、Terminal 和 iTerm2 等开发者工具中读取代码。这意味着开发者和写作者不再需要将代码复制粘贴到 ChatGPT 中——这是我们许多人的常见困扰。这是一个非常实用的工具,也是深度融入桌面用户工作流程的明智之举。我们将拭目以待它能否撼动 Microsoft 的主导地位。
数据访问的力量 AI 需要数据才能发挥效果。假设你正在寻找关于公司内部流程或文档见解的答案,像 OpenAI 的 ChatGPT 这样的通用工具是不够的。我们需要能够阅读和总结公司文档的工具,专门为企业使用而定制。正如我之前所说,2025 年将是搜索的一年——特别是企业搜索。OpenAI 等公司提供的 Transformer 模型可以提供这种能力,但需要内部数据。
谁拥有这种数据的访问权?Microsoft、Amazon 和 Google 是主要玩家,它们在 SharePoint 等平台存储数据。但它们并非唯一。例如,Salesforce 也拥有海量的宝贵数据——客户互动、讨论、流程文档、营销策略等。Salesforce 想要 AI 代理来帮助释放这种潜力吗?当然想。他们现在是否处于劣势?是的。
因此,Salesforce CEO Marc Benioff 最近抨击 Microsoft 并不令人意外。他称其 AI 助手 Copilot "令人失望",说"它根本不起作用,也不能提供任何准确性。"他甚至将其称为"Clippy 2.0"——这是我听过最有趣的嘲讽——然后推出了 Salesforce 自己的 AI 解决方案 Agent Forces。
OpenAI 如何竞争? OpenAI 既没有 Microsoft 那样的数据访问权和消费者覆盖范围,也没有 Salesforce 那样的企业数据宝库。那么,它的优势在哪里?OpenAI 声称拥有最智能的工具——这可能是真的,尽管我个人认为 Anthropic 的 Claude 3.5 目前比 OpenAI 的 GPT-4 更好。
OpenAI 正在押注其凭借卓越技术超越所有竞争对手的能力。目前的技术前沿是什么?是推理能力——本质上是能"思考更久"的模型,正如我在评论 Sam Altman 最近关于 AGI 的帖子时提到的。
与大语言模型对话需要成本 然而,"思考更久"意味着更多的 CPU 使用和更高的成本。OpenAI 最近在 E 轮融资中筹集了 66 亿美元——这是维持运营所需的重要资金。虽然 Salesforce 的 Agentforce 从客户那里获得稳定的收入,Microsoft 拥有庞大的财务储备,但 OpenAI 仍在努力说服企业和用户支付足够的费用来抵消开发尖端 AI 的巨额成本。
他们每月 200 美元的高级套餐(包括扩展版 O1)是朝这个方向迈出的一步。但这个价格值得吗?报告显示,到目前为止,设计良好的提示(即人工编写的指令)可以超过 OpenAI 的 O1。
这种情况会改变,但很明显 OpenAI 不会是唯一提供高级推理能力的厂商。O1 可能很快就会被开源替代品超越,就像我们之前在 Meta 的 Llama 身上看到的那样。
说到 Meta,我对 2025 年的预测之一是他们将在明年尝试将 AI 模型货币化。但最终,他们也将面临在没有获得稳定可靠收入流的情况下证明巨额成本合理性的挑战。
AI 代理将加入劳动力大军 2025 年,我们将看到更多 AI 代理进入劳动力市场,通过简化、增强和自动化各行各业的任务来改变工作流程。这些不会是全能的 AGI 模型,而是为特定工作流程设计的小型专业模型。AI 将通过结合传统 AI、上下文检索 (RAG) 和健壮的用户设计,一步步扩展和改进流程,以解决安全性、幻觉和用户控制等挑战。
Amazon、Salesforce、Google 和 Microsoft 都将尝试成为这些 AI 代理的底层技术平台。对于 OpenAI 和 Sam Altman 来说,关键的战略问题将是如果最终要与它们直接竞争,如何为 Microsoft 或 Salesforce 定价 OpenAI 的基础模型。
好文章,需要你的鼓励
AI项目从试点转向生产阶段时,企业面临意外的云成本激增问题。推理工作负载需要全天候运行以确保服务正常,成本可能一夜间飙升1000%以上。许多公司每月费用从5000美元激增至50000美元。为控制成本,企业开始采用混合架构:将推理工作负载迁移至本地或托管设施,训练任务保留在云端。这种模式可削减60-80%的基础设施支出,在保持性能的同时实现成本可预测性。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
企业在AI模型选择上面临开放源码与封闭专有技术的抉择,这一选择对财务和定制化都有重要影响。开放模型如Meta Llama提供更大控制权和定制选项,而封闭模型如OpenAI GPT-4o提供简化使用和企业级支持。专家建议采用投资组合策略,根据准确性、延迟、成本、安全性等因素选择合适模型,而非单一选择。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。