AI公司正在将智能体推广为下一个职场颠覆者,但专家表示它们还未准备好投入实际应用。AI智能体往往难以独立做决策,经常出现幻觉,无法与其他智能体协作,缺乏保密意识,并且与现有系统集成困难。
行业先驱如Andrej Karpathy和Ali Ghodsi表示,就像自动驾驶汽车的部署一样,智能体要想成功,需要人类参与其中。
一家名为Mixus的初创公司希望通过其AI智能体平台来解决这个问题,该平台不仅让人类参与工作流程,还允许用户直接通过电子邮件或Slack与智能体互动。
"我们在客户现有的环境中为他们提供服务,"Mixus联合创始人Elliot Katz在接受TechCrunch采访时表示。"今天职场中的每个人都在哪里?大部分时间,他们都在使用电子邮件。因为我们可以通过电子邮件做到这点,我们相信这是我们能够普及智能体使用的方式。"
如果Mixus能够可靠运行,它可能会解决AI智能体领域的一个重大问题。目前大多数AI公司要么提供预构建的助手,如ChatGPT或Gemini,要么开发者必须使用LangChain、AutoGen或crewAI等框架构建定制智能体。
Mixus于2024年底才从斯坦福大学推出测试版,但已经筹集了260万美元的种子轮前融资,并获得了一些客户,包括服装连锁店Rainbow Shops,以及金融和科技领域的其他客户。
这家初创公司表示,其最大卖点是易于使用,从帮助创建智能体到与它们互动都很简单。用户可以通过文本提示在Mixus平台上通过聊天功能设置智能体,或者只需将指令发送到agent@mixus.com。然后Mixus将直接从收件箱构建、运行和管理单步或多步智能体。
例如,客户支持经理可能会使用这样的提示:
创建一个智能体,找到Jira中mixus-dummy项目的所有开放任务,向我发送一份包含所有过期任务信息的报告。起草电子邮件发送给所有有过期任务的负责人,让我在聊天中审核,使用简单清晰的电子邮件格式(无附件/文档)。一旦我确认,发送邮件。现在就运行。今后每周一太平洋标准时间上午7点运行。
Katz和他的联合创始人Shai Magzimof向TechCrunch演示了智能体,展示了如何通过简单指示智能体在哪个步骤需要征求监督来为智能体添加人工验证。
例如,他们运行一个智能体来研究TechCrunch记者,然后向他们推介。智能体识别并收集技术新闻和趋势,分析信息以确定潜在的故事角度,并编制总结发现的研究报告。在最后阶段,智能体被指示将信息发送给Katz进行验证。一旦获得批准,智能体将把完成的研究报告发送给Magzimof。
创始人指出,人类可以根据需要多少参与工作流程——Magzimof表示组织可以设置公司范围的规则,比如确保发送到公司外部的电子邮件得到人工检查。
让其他同事参与工作流程就像在与AI智能体的聊天中标记他们,或在发给智能体的电子邮件中抄送他们一样简单。与当今市场上的智能体相比,这是另一个突出特点:大多数模型都是单用户的,虽然Notion AI和Slack允许用户在共享空间中协作,但它们不允许AI实时管理团队成员之间的对话和任务。
Mixus的另一个核心功能是能够记住文件、聊天、提示和智能体。
"我们创建了Spaces,让每个团队、每个人、每个群体都能拥有共享记忆,"Magzimof说。"然后我的所有智能体、所有文件、所有人都可以在那个特定Space的记忆中。"
虽然ChatGPT和Claude都支持记忆功能,但它们的企业版还不支持用户间的共享智能体记忆。
Mixus还能做什么?
在我们的采访中,创始人进行了一小时的演示,展示了各种用例和能力。Mixus的智能体确实看起来很有能力,体现出高度的自主性和记忆能力,这让公司在AI智能体spectrum中处于较高水平。前提是产品能像演示中那样可靠运行。
与其他智能体一样,Mixus可以与从Gmail到Jira等其他工具集成,用户可以触发智能体立即运行或按计划运行。智能体可以内联运行和编辑文档或电子表格——类似于ChatGPT、Microsoft Copilot和Google Gemini,但这些通常限于沙箱环境。
Mixus还让智能体能够自主导航组织上下文——比如通过查看Jira票证来找出组织中谁负责某项任务。
基于Anthropic的Claude 4和OpenAI的o3组合构建,Mixus智能体还可以访问网络,Magzimof说这可以用于实时研究或监控等任务。他将其描述为"升级版的Google快讯"。
综合来看,Mixus似乎不太像一个生产力工具,更像一个不知疲倦的数字同事——这是另一次将AI重新想象为协作者的雄心勃勃的尝试。如果它能如宣传般运行,你的下一个"同事"可能不是人类,但它处理收件箱的速度可能比你还快。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。