Perplexity公司推出了名为"Computer"的新工具,允许用户分配任务并观看由协调多个智能体运行各种模型的系统来完成这些任务。
该公司声称,目前面向Perplexity Max订阅用户提供的Computer是"一个创建和执行完整工作流程的系统",并且"能够运行数小时甚至数月"。
其核心理念是用户描述具体的目标结果,比如"为我的餐厅规划并执行本地数字营销活动"或"为我构建一个Android应用,帮助我进行特定类型的工作研究"。然后Computer会构思子任务,并根据需要将它们分配给多个智能体,运行Perplexity认为最适合这些任务的模型。
核心推理引擎目前运行Anthropic的Claude Opus 4.6,而Gemini用于深度研究,Nano Banana用于图像生成,Veo 3.1用于视频制作,Grok用于需要考虑速度的轻量级任务,ChatGPT 5.2用于"长上下文记忆和广泛搜索"。
这种为任务选择最佳模型的方法与一些竞争产品(如只使用Anthropic模型的Claude Cowork)有所不同。
所有这些都在云端进行,具有预构建的集成。Perplexity表示:"每个任务都在隔离的计算环境中运行,可以访问真实的文件系统、真实的浏览器和真实的工具集成。"
这一理念部分源于一些资深用户已经在进行这种工作流程,而Computer旨在让更广泛的用户群体能够实现这一点,而无需处理所有繁琐的设置。用户已经在使用多个模型,并根据感知到的能力将它们量身定制用于特定任务,例如使用MCP(模型上下文协议)让这些模型访问本地机器上的数据和应用程序。Perplexity Computer采用了不同的方法,但目标相同:让AI智能体运行量身定制的模型,使用用户自己的文件、服务和应用程序执行任务。
OpenClaw可以被视为这一概念的直接前身。
发展历程
如果您没有关注备受瞩目的OpenClaw热潮,这里是简要总结:最初名为ClawdBot,后来改名为Moltbot,OpenClaw是一个智能体AI工具,利用大语言模型在用户的本地机器上独立运行,作为一种后台或环境进程,执行从整理电子邮件历史到建设网站等各种任务,基本上可以实现用户能够想象到的任何功能。
在获得适当权限并安装合适的插件后,它可以创建、修改或删除用户文件,并在超出大多数用户使用现有模型和MCP(模型上下文协议)能够实现的范围内改变系统。用户会使用USER.MD、MEMORY.MD、SOUL.MD或HEARTBEAT.MD等文件为工具提供关于其目标以及如何独立实现这些目标的上下文,有时会在没有直接用户输入的情况下运行很长时间。
一方面,这意味着它能够完成令人印象深刻的任务——首次展现了AI支持者一直说智能体AI最终将完成的知识工作类型。另一方面,它容易出现严重错误,并且容易受到提示注入和其他安全问题的影响,部分原因是存在未经验证的插件生态系统。
用于创建由AI智能体填充的病毒式Reddit克隆的同一工具包,至少在一个案例中,也导致违背用户意愿删除了用户的电子邮件。
保持在安全范围内
Perplexity Computer旨在通过几种方式解决这些问题。首先,其核心进程在云端进行,而不是在用户的本地机器上。其次,它存在于一个封闭的生态系统中,具有经过策划的集成列表,这与OpenClaw的无管制前沿形成对比。
当然,这是一个不完美的类比,但可以说如果OpenClaw是AI智能体工具的开放网络,那么Computer就是苹果的App Store。虽然您在功能上受到更多限制,但您不会信任来自未经验证来源的包来访问您的系统。
不过,仍然可能存在风险。一方面,大语言模型会出错,如果Computer处理的是您在其他地方没有备份的数据,或者您没有验证输出结果,这些错误可能会产生严重后果。
Perplexity Computer旨在通过选择最适合的模型来优化子任务,从而整理、完善和控制病毒式OpenClaw智能体AI工具的强大功能,与Claude Cowork等产品竞争。
这肯定不会是最后一个尝试做这种事情的现有AI公司。毕竟,OpenAI雇佣了OpenClaw的开发者,CEO Sam Altman暗示我们在OpenClaw中看到的一些功能对公司未来的产品愿景至关重要。
Q&A
Q1:Perplexity Computer是什么?它能做什么?
A:Perplexity Computer是一个AI智能体协调系统,允许用户描述具体目标后,系统会自动将任务分解为子任务,并分配给最适合的AI模型来完成。它可以处理从数字营销活动规划到Android应用开发等各种复杂工作流程,能够连续运行数小时甚至数月。
Q2:Computer与OpenClaw有什么区别?
A:Computer在云端运行并提供经过策划的安全集成,而OpenClaw在用户本地机器上运行,使用未经验证的插件生态系统。Computer更像是苹果App Store的封闭安全模式,而OpenClaw更像开放但风险较高的网络环境。
Q3:Computer如何选择使用哪个AI模型?
A:Computer会根据任务特性选择最适合的模型:核心推理使用Claude Opus 4.6,深度研究使用Gemini,图像生成使用Nano Banana,视频制作使用Veo 3.1,快速轻量级任务使用Grok,长上下文记忆和搜索使用ChatGPT 5.2。
好文章,需要你的鼓励
谷歌宣布为旗下互动世界构建工具Project Genie新增Google街景功能,用户可基于真实地点生成可探索的游戏世界。只需选定美国境内的地图位置,描述角色形象,并选择"沙漠"或"石器时代"等风格,系统即可生成与现实街景绑定的沉浸式虚拟场景。每次游玩时长限60秒,支持WASD操控,目前仅向AI Ultra订阅用户开放,后续将逐步扩展覆盖范围。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
随着AI编程工具的普及,越来越多的非开发者开始尝试自己构建应用。谷歌在I/O大会上宣布,AI Studio新增功能可让用户通过提示词快速生成原生Android应用,并直接导出到手机。此外,谷歌还推出了基于Gemini的自定义小组件功能,并提出"生成式UI"概念,让手机界面根据需求实时生成。与此同时,苹果据报道也在探索通过提示词创建快捷指令的功能,手机个性化体验或将迎来新突破。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。