AI公司正在将智能体推广为下一个职场颠覆者,但专家表示它们还未准备好投入实际应用。AI智能体往往难以独立做决策,经常出现幻觉,无法与其他智能体协作,缺乏保密意识,并且与现有系统集成困难。
行业先驱如Andrej Karpathy和Ali Ghodsi表示,就像自动驾驶汽车的部署一样,智能体要想成功,需要人类参与其中。
一家名为Mixus的初创公司希望通过其AI智能体平台来解决这个问题,该平台不仅让人类参与工作流程,还允许用户直接通过电子邮件或Slack与智能体互动。
"我们在客户现有的环境中为他们提供服务,"Mixus联合创始人Elliot Katz在接受TechCrunch采访时表示。"今天职场中的每个人都在哪里?大部分时间,他们都在使用电子邮件。因为我们可以通过电子邮件做到这点,我们相信这是我们能够普及智能体使用的方式。"
如果Mixus能够可靠运行,它可能会解决AI智能体领域的一个重大问题。目前大多数AI公司要么提供预构建的助手,如ChatGPT或Gemini,要么开发者必须使用LangChain、AutoGen或crewAI等框架构建定制智能体。
Mixus于2024年底才从斯坦福大学推出测试版,但已经筹集了260万美元的种子轮前融资,并获得了一些客户,包括服装连锁店Rainbow Shops,以及金融和科技领域的其他客户。
这家初创公司表示,其最大卖点是易于使用,从帮助创建智能体到与它们互动都很简单。用户可以通过文本提示在Mixus平台上通过聊天功能设置智能体,或者只需将指令发送到agent@mixus.com。然后Mixus将直接从收件箱构建、运行和管理单步或多步智能体。
例如,客户支持经理可能会使用这样的提示:
创建一个智能体,找到Jira中mixus-dummy项目的所有开放任务,向我发送一份包含所有过期任务信息的报告。起草电子邮件发送给所有有过期任务的负责人,让我在聊天中审核,使用简单清晰的电子邮件格式(无附件/文档)。一旦我确认,发送邮件。现在就运行。今后每周一太平洋标准时间上午7点运行。
Katz和他的联合创始人Shai Magzimof向TechCrunch演示了智能体,展示了如何通过简单指示智能体在哪个步骤需要征求监督来为智能体添加人工验证。
例如,他们运行一个智能体来研究TechCrunch记者,然后向他们推介。智能体识别并收集技术新闻和趋势,分析信息以确定潜在的故事角度,并编制总结发现的研究报告。在最后阶段,智能体被指示将信息发送给Katz进行验证。一旦获得批准,智能体将把完成的研究报告发送给Magzimof。
创始人指出,人类可以根据需要多少参与工作流程——Magzimof表示组织可以设置公司范围的规则,比如确保发送到公司外部的电子邮件得到人工检查。
让其他同事参与工作流程就像在与AI智能体的聊天中标记他们,或在发给智能体的电子邮件中抄送他们一样简单。与当今市场上的智能体相比,这是另一个突出特点:大多数模型都是单用户的,虽然Notion AI和Slack允许用户在共享空间中协作,但它们不允许AI实时管理团队成员之间的对话和任务。
Mixus的另一个核心功能是能够记住文件、聊天、提示和智能体。
"我们创建了Spaces,让每个团队、每个人、每个群体都能拥有共享记忆,"Magzimof说。"然后我的所有智能体、所有文件、所有人都可以在那个特定Space的记忆中。"
虽然ChatGPT和Claude都支持记忆功能,但它们的企业版还不支持用户间的共享智能体记忆。
Mixus还能做什么?
在我们的采访中,创始人进行了一小时的演示,展示了各种用例和能力。Mixus的智能体确实看起来很有能力,体现出高度的自主性和记忆能力,这让公司在AI智能体spectrum中处于较高水平。前提是产品能像演示中那样可靠运行。
与其他智能体一样,Mixus可以与从Gmail到Jira等其他工具集成,用户可以触发智能体立即运行或按计划运行。智能体可以内联运行和编辑文档或电子表格——类似于ChatGPT、Microsoft Copilot和Google Gemini,但这些通常限于沙箱环境。
Mixus还让智能体能够自主导航组织上下文——比如通过查看Jira票证来找出组织中谁负责某项任务。
基于Anthropic的Claude 4和OpenAI的o3组合构建,Mixus智能体还可以访问网络,Magzimof说这可以用于实时研究或监控等任务。他将其描述为"升级版的Google快讯"。
综合来看,Mixus似乎不太像一个生产力工具,更像一个不知疲倦的数字同事——这是另一次将AI重新想象为协作者的雄心勃勃的尝试。如果它能如宣传般运行,你的下一个"同事"可能不是人类,但它处理收件箱的速度可能比你还快。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。