就在中国人工智能开发商 DeepSeek Ltd. 推出低成本 ChatGPT 替代方案震惊世界几周后,另一家中国初创公司也引发了类似轰动,发布了据称是目前最先进的自主 AI 系统之一。
这个名为 Manus AI 的系统被称为是一个能够"连接思维和行动"的新一代 AI 系统,它不仅能处理信息,还能代表用户完成完整的任务。该系统由 Monica 公司开发,于 3 月 6 日推出,并迅速获得全球关注。其开发者表示,Manus 在 GAIA 基准测试中超越了 OpenAI 的 DeepResearch 模型。
与 ChatGPT、Grok 和 Google 的 Gemini 等需要人工输入才能执行任务的 AI 聊天机器人不同,Manus 能够渐进式地做出决策并独立完成各种任务。因此,它无需等待用户提供指令就能开始行动。
举例来说,如果用户要求"帮我找一套公寓",Manus 不仅会搜索各种房源信息,还会研究和评估犯罪率、天气和通勤时间等多个因素,从而提供更具针对性的建议。
Manus 并非使用单一模型,而是采用了多个专门负责不同领域的子代理,使其能够轻松执行复杂的多步骤工作流程。此外,它采用异步工作方式,在后台运行,仅在输出结果准备就绪时才通知用户。
媒体报道热议 Manus 是一个游戏规则改变者,代表着 AI 系统向完全独立运作方向的转变。这不仅带来令人兴奋的可能性,也加剧了对 AI 取代人类工作者以及承担过多责任的担忧。
Forbes 在一篇赞誉报道中称,Manus 将"改变一切",打破了美国在 AI 开发领域无可争议领导者的观念。报道指出,Manus 证明中国不仅已经赶上美国,还可能在开发完全自主 AI 代理的竞赛中超越了其竞争对手。
Manus 确实具有一些有趣的实际应用。例如,它能够自主分析简历、交叉参考就业市场趋势,并从求职者池中筛选出最合适的候选人,同时为每个人提供详细报告。
Manus 还可用于软件开发,能够快速从零开始生成网站。一旦确定设计方案,它甚至可以自行部署网站,解决托管等技术问题。
这些能力表明 Manus 可能对人类工作者构成真正的威胁,因为它有能力实际取代某些职位,而不仅仅是提高工作效率。这反过来又引发了伦理问题和监管担忧。
然而,Manus 可能并不如宣传的那么厉害。目前,这个 AI 代理仅向特定的测试者开放,需要邀请才能使用。
Manus 的创建者表示,他们仍在努力扩展系统规模并解决用户报告的问题。但多份报告显示,他们可能面临不少挑战。测试用户反映出现大量错误信息和无限循环,在事实性问题上出现错误,未能引用结果来源,甚至出现一些基础性错误。
TechCrunch 的 Kyle Wiggers 在早期访问中也报告了多个 Manus 未能完成看似简单任务的情况,如订购三明治、预订酒店房间或开发火影忍者风格的格斗游戏。
尽管如此,仍有许多人对 Manus 印象深刻。毫无疑问,它在周末席卷了互联网,到处都能看到用户惊叹的报告。
虽然仍需观察创建者是否能解决初期问题,但 Manus 的出现无疑将进一步挑战硅谷领先科技公司在 AI 竞赛中独占鳌头的假设。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。