AI公司正在将智能体推广为下一个职场颠覆者,但专家表示它们还未准备好投入实际应用。AI智能体往往难以独立做决策,经常出现幻觉,无法与其他智能体协作,缺乏保密意识,并且与现有系统集成困难。
行业先驱如Andrej Karpathy和Ali Ghodsi表示,就像自动驾驶汽车的部署一样,智能体要想成功,需要人类参与其中。
一家名为Mixus的初创公司希望通过其AI智能体平台来解决这个问题,该平台不仅让人类参与工作流程,还允许用户直接通过电子邮件或Slack与智能体互动。
"我们在客户现有的环境中为他们提供服务,"Mixus联合创始人Elliot Katz在接受TechCrunch采访时表示。"今天职场中的每个人都在哪里?大部分时间,他们都在使用电子邮件。因为我们可以通过电子邮件做到这点,我们相信这是我们能够普及智能体使用的方式。"
如果Mixus能够可靠运行,它可能会解决AI智能体领域的一个重大问题。目前大多数AI公司要么提供预构建的助手,如ChatGPT或Gemini,要么开发者必须使用LangChain、AutoGen或crewAI等框架构建定制智能体。
Mixus于2024年底才从斯坦福大学推出测试版,但已经筹集了260万美元的种子轮前融资,并获得了一些客户,包括服装连锁店Rainbow Shops,以及金融和科技领域的其他客户。
这家初创公司表示,其最大卖点是易于使用,从帮助创建智能体到与它们互动都很简单。用户可以通过文本提示在Mixus平台上通过聊天功能设置智能体,或者只需将指令发送到agent@mixus.com。然后Mixus将直接从收件箱构建、运行和管理单步或多步智能体。
例如,客户支持经理可能会使用这样的提示:
创建一个智能体,找到Jira中mixus-dummy项目的所有开放任务,向我发送一份包含所有过期任务信息的报告。起草电子邮件发送给所有有过期任务的负责人,让我在聊天中审核,使用简单清晰的电子邮件格式(无附件/文档)。一旦我确认,发送邮件。现在就运行。今后每周一太平洋标准时间上午7点运行。
Katz和他的联合创始人Shai Magzimof向TechCrunch演示了智能体,展示了如何通过简单指示智能体在哪个步骤需要征求监督来为智能体添加人工验证。
例如,他们运行一个智能体来研究TechCrunch记者,然后向他们推介。智能体识别并收集技术新闻和趋势,分析信息以确定潜在的故事角度,并编制总结发现的研究报告。在最后阶段,智能体被指示将信息发送给Katz进行验证。一旦获得批准,智能体将把完成的研究报告发送给Magzimof。
创始人指出,人类可以根据需要多少参与工作流程——Magzimof表示组织可以设置公司范围的规则,比如确保发送到公司外部的电子邮件得到人工检查。
让其他同事参与工作流程就像在与AI智能体的聊天中标记他们,或在发给智能体的电子邮件中抄送他们一样简单。与当今市场上的智能体相比,这是另一个突出特点:大多数模型都是单用户的,虽然Notion AI和Slack允许用户在共享空间中协作,但它们不允许AI实时管理团队成员之间的对话和任务。
Mixus的另一个核心功能是能够记住文件、聊天、提示和智能体。
"我们创建了Spaces,让每个团队、每个人、每个群体都能拥有共享记忆,"Magzimof说。"然后我的所有智能体、所有文件、所有人都可以在那个特定Space的记忆中。"
虽然ChatGPT和Claude都支持记忆功能,但它们的企业版还不支持用户间的共享智能体记忆。
Mixus还能做什么?
在我们的采访中,创始人进行了一小时的演示,展示了各种用例和能力。Mixus的智能体确实看起来很有能力,体现出高度的自主性和记忆能力,这让公司在AI智能体spectrum中处于较高水平。前提是产品能像演示中那样可靠运行。
与其他智能体一样,Mixus可以与从Gmail到Jira等其他工具集成,用户可以触发智能体立即运行或按计划运行。智能体可以内联运行和编辑文档或电子表格——类似于ChatGPT、Microsoft Copilot和Google Gemini,但这些通常限于沙箱环境。
Mixus还让智能体能够自主导航组织上下文——比如通过查看Jira票证来找出组织中谁负责某项任务。
基于Anthropic的Claude 4和OpenAI的o3组合构建,Mixus智能体还可以访问网络,Magzimof说这可以用于实时研究或监控等任务。他将其描述为"升级版的Google快讯"。
综合来看,Mixus似乎不太像一个生产力工具,更像一个不知疲倦的数字同事——这是另一次将AI重新想象为协作者的雄心勃勃的尝试。如果它能如宣传般运行,你的下一个"同事"可能不是人类,但它处理收件箱的速度可能比你还快。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。