Anthropic近期开展了一项实验,构建了一个模拟分类信息市场,让AI智能体分别扮演买家与卖家角色,双方在这一平台上达成真实商品的实际交易。
Anthropic坦承,这次名为"Project Deal"的测试仅是一项"小规模试验性实验,参与者均为自愿报名的内部员工"。共有69名Anthropic员工参与其中,每人获得100美元预算(以礼品卡形式发放),用于向同事购买商品。
尽管如此,Anthropic表示对"Project Deal的运行成效感到惊喜"——本次实验共促成186笔交易,交易总金额超过4,000美元。
据悉,Anthropic实际上构建了四个独立的市场环境,分别配备不同的AI模型进行测试:其中一个为"真实"市场(所有用户均由公司最先进的模型代理,且实验结束后交易结果得到实际兑现),另外三个则用于学术研究目的。
Anthropic指出,当用户由更先进的模型代理时,他们往往能获得"客观上更优的交易结果"。然而,用户普遍未能察觉到这种差距,这引发了对"智能体质量差异"问题的关注——处于劣势的一方很可能并未意识到自己吃了亏。
此外,实验结果还显示,用户在初始阶段给予智能体的指令,对最终的成交概率和议价结果并无明显影响。
Q&A
Q1:Project Deal实验是什么?它是如何运作的?
A:Project Deal是Anthropic开展的一项内部实验,旨在测试AI智能体之间的商业交易能力。实验构建了一个模拟分类信息市场,让智能体分别代表买家和卖家进行真实商品交易。共69名员工参与,每人获得100美元礼品卡预算用于向同事购买商品。整个实验共达成186笔交易,总金额超过4,000美元。
Q2:使用更先进的AI模型代理交易,结果会有什么不同?
A:根据Anthropic的实验结果,由更先进的AI模型代理的用户能够获得客观上更好的交易结果。但值得关注的是,处于劣势的用户往往并未察觉到这种差距,这意味着"智能体质量差异"可能在用户不知情的情况下影响交易公平性,形成隐性的不对等局面。
Q3:用户给智能体的初始指令会影响交易结果吗?
A:根据Project Deal的实验数据,用户最初给予智能体的指令对成交概率和最终议价价格并没有显著影响。也就是说,无论用户如何设定初始交易策略,智能体在实际谈判中的表现差异并不明显,这一结论对于理解智能体自主决策能力具有一定参考价值。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。