就在中国人工智能开发商 DeepSeek Ltd. 推出低成本 ChatGPT 替代方案震惊世界几周后,另一家中国初创公司也引发了类似轰动,发布了据称是目前最先进的自主 AI 系统之一。
这个名为 Manus AI 的系统被称为是一个能够"连接思维和行动"的新一代 AI 系统,它不仅能处理信息,还能代表用户完成完整的任务。该系统由 Monica 公司开发,于 3 月 6 日推出,并迅速获得全球关注。其开发者表示,Manus 在 GAIA 基准测试中超越了 OpenAI 的 DeepResearch 模型。
与 ChatGPT、Grok 和 Google 的 Gemini 等需要人工输入才能执行任务的 AI 聊天机器人不同,Manus 能够渐进式地做出决策并独立完成各种任务。因此,它无需等待用户提供指令就能开始行动。
举例来说,如果用户要求"帮我找一套公寓",Manus 不仅会搜索各种房源信息,还会研究和评估犯罪率、天气和通勤时间等多个因素,从而提供更具针对性的建议。
Manus 并非使用单一模型,而是采用了多个专门负责不同领域的子代理,使其能够轻松执行复杂的多步骤工作流程。此外,它采用异步工作方式,在后台运行,仅在输出结果准备就绪时才通知用户。
媒体报道热议 Manus 是一个游戏规则改变者,代表着 AI 系统向完全独立运作方向的转变。这不仅带来令人兴奋的可能性,也加剧了对 AI 取代人类工作者以及承担过多责任的担忧。
Forbes 在一篇赞誉报道中称,Manus 将"改变一切",打破了美国在 AI 开发领域无可争议领导者的观念。报道指出,Manus 证明中国不仅已经赶上美国,还可能在开发完全自主 AI 代理的竞赛中超越了其竞争对手。
Manus 确实具有一些有趣的实际应用。例如,它能够自主分析简历、交叉参考就业市场趋势,并从求职者池中筛选出最合适的候选人,同时为每个人提供详细报告。
Manus 还可用于软件开发,能够快速从零开始生成网站。一旦确定设计方案,它甚至可以自行部署网站,解决托管等技术问题。
这些能力表明 Manus 可能对人类工作者构成真正的威胁,因为它有能力实际取代某些职位,而不仅仅是提高工作效率。这反过来又引发了伦理问题和监管担忧。
然而,Manus 可能并不如宣传的那么厉害。目前,这个 AI 代理仅向特定的测试者开放,需要邀请才能使用。
Manus 的创建者表示,他们仍在努力扩展系统规模并解决用户报告的问题。但多份报告显示,他们可能面临不少挑战。测试用户反映出现大量错误信息和无限循环,在事实性问题上出现错误,未能引用结果来源,甚至出现一些基础性错误。
TechCrunch 的 Kyle Wiggers 在早期访问中也报告了多个 Manus 未能完成看似简单任务的情况,如订购三明治、预订酒店房间或开发火影忍者风格的格斗游戏。
尽管如此,仍有许多人对 Manus 印象深刻。毫无疑问,它在周末席卷了互联网,到处都能看到用户惊叹的报告。
虽然仍需观察创建者是否能解决初期问题,但 Manus 的出现无疑将进一步挑战硅谷领先科技公司在 AI 竞赛中独占鳌头的假设。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。