AI公司正在将智能体推广为下一个职场颠覆者,但专家表示它们还未准备好投入实际应用。AI智能体往往难以独立做决策,经常出现幻觉,无法与其他智能体协作,缺乏保密意识,并且与现有系统集成困难。
行业先驱如Andrej Karpathy和Ali Ghodsi表示,就像自动驾驶汽车的部署一样,智能体要想成功,需要人类参与其中。
一家名为Mixus的初创公司希望通过其AI智能体平台来解决这个问题,该平台不仅让人类参与工作流程,还允许用户直接通过电子邮件或Slack与智能体互动。
"我们在客户现有的环境中为他们提供服务,"Mixus联合创始人Elliot Katz在接受TechCrunch采访时表示。"今天职场中的每个人都在哪里?大部分时间,他们都在使用电子邮件。因为我们可以通过电子邮件做到这点,我们相信这是我们能够普及智能体使用的方式。"
如果Mixus能够可靠运行,它可能会解决AI智能体领域的一个重大问题。目前大多数AI公司要么提供预构建的助手,如ChatGPT或Gemini,要么开发者必须使用LangChain、AutoGen或crewAI等框架构建定制智能体。
Mixus于2024年底才从斯坦福大学推出测试版,但已经筹集了260万美元的种子轮前融资,并获得了一些客户,包括服装连锁店Rainbow Shops,以及金融和科技领域的其他客户。
这家初创公司表示,其最大卖点是易于使用,从帮助创建智能体到与它们互动都很简单。用户可以通过文本提示在Mixus平台上通过聊天功能设置智能体,或者只需将指令发送到agent@mixus.com。然后Mixus将直接从收件箱构建、运行和管理单步或多步智能体。
例如,客户支持经理可能会使用这样的提示:
创建一个智能体,找到Jira中mixus-dummy项目的所有开放任务,向我发送一份包含所有过期任务信息的报告。起草电子邮件发送给所有有过期任务的负责人,让我在聊天中审核,使用简单清晰的电子邮件格式(无附件/文档)。一旦我确认,发送邮件。现在就运行。今后每周一太平洋标准时间上午7点运行。
Katz和他的联合创始人Shai Magzimof向TechCrunch演示了智能体,展示了如何通过简单指示智能体在哪个步骤需要征求监督来为智能体添加人工验证。
例如,他们运行一个智能体来研究TechCrunch记者,然后向他们推介。智能体识别并收集技术新闻和趋势,分析信息以确定潜在的故事角度,并编制总结发现的研究报告。在最后阶段,智能体被指示将信息发送给Katz进行验证。一旦获得批准,智能体将把完成的研究报告发送给Magzimof。
创始人指出,人类可以根据需要多少参与工作流程——Magzimof表示组织可以设置公司范围的规则,比如确保发送到公司外部的电子邮件得到人工检查。
让其他同事参与工作流程就像在与AI智能体的聊天中标记他们,或在发给智能体的电子邮件中抄送他们一样简单。与当今市场上的智能体相比,这是另一个突出特点:大多数模型都是单用户的,虽然Notion AI和Slack允许用户在共享空间中协作,但它们不允许AI实时管理团队成员之间的对话和任务。
Mixus的另一个核心功能是能够记住文件、聊天、提示和智能体。
"我们创建了Spaces,让每个团队、每个人、每个群体都能拥有共享记忆,"Magzimof说。"然后我的所有智能体、所有文件、所有人都可以在那个特定Space的记忆中。"
虽然ChatGPT和Claude都支持记忆功能,但它们的企业版还不支持用户间的共享智能体记忆。
Mixus还能做什么?
在我们的采访中,创始人进行了一小时的演示,展示了各种用例和能力。Mixus的智能体确实看起来很有能力,体现出高度的自主性和记忆能力,这让公司在AI智能体spectrum中处于较高水平。前提是产品能像演示中那样可靠运行。
与其他智能体一样,Mixus可以与从Gmail到Jira等其他工具集成,用户可以触发智能体立即运行或按计划运行。智能体可以内联运行和编辑文档或电子表格——类似于ChatGPT、Microsoft Copilot和Google Gemini,但这些通常限于沙箱环境。
Mixus还让智能体能够自主导航组织上下文——比如通过查看Jira票证来找出组织中谁负责某项任务。
基于Anthropic的Claude 4和OpenAI的o3组合构建,Mixus智能体还可以访问网络,Magzimof说这可以用于实时研究或监控等任务。他将其描述为"升级版的Google快讯"。
综合来看,Mixus似乎不太像一个生产力工具,更像一个不知疲倦的数字同事——这是另一次将AI重新想象为协作者的雄心勃勃的尝试。如果它能如宣传般运行,你的下一个"同事"可能不是人类,但它处理收件箱的速度可能比你还快。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。