AI项目面临的最大挑战来自其依赖的数据。更强大的计算能力和更低成本的高容量存储带来了信息洪流,但并非所有数据都是干净的。数据往往支离破碎、重复冗余、治理不善或结构不当。数据处理的古老法则"垃圾进,垃圾出"依然困扰着每个希望实现数据驱动的企业。
AI的出现恰逢其时,有助于解决这一问题。它能够大规模快速分析和改进数据。如今,多智能体AI系统能够更快速、更高效地完成这项工作。
智能体AI利用自主智能体,在人类参与的循环中转变数据准备、治理和可用性的方式。它们承诺通过共同处理专业化任务来为AI工作负载准备数据,使我们更容易从信息中挖掘价值。数据管理的未来是多智能体化的,复杂的系统将持续学习和适应,大规模交付可信赖的高质量数据。
清除瓶颈
传统数据工程需要大量资源。它需要手动编码、模式映射和容易出错的故障排除方面的专业知识。许多生成式AI项目因数据治理和准备不足而失败。
"要产生影响,我们必须大幅减少让计算机理解你想要实现什么目标所涉及的人工劳动,"谷歌云高级产品经理Firat Tekiner解释道。这包含三个组成部分。
首先是我们与计算机系统交流方式的演进。过去这需要大量编码。现在,我们可以使用简单的自然语言提示来触发上下文感知的管道创建、修改和测试。大语言模型帮助系统理解意图,无需复杂的编码技能。"AI智能体可以将你要求它做的事情转化为具体行动,"Tekiner解释说。
第二个组成部分是确保数据具备内置治理功能,为AI做好准备。数据必须可信赖、安全,并符合组织规则。系统必须按应用程序管理质量和访问控制,因为在全局层面这样做会过于缓慢。
第三个省力措施是打破数据孤岛,让更多人能够处理数据工程任务。这防止数据工程师成为数据管道的瓶颈。"我们需要赋能更广泛的数据工作者,包括分析师、科学家,甚至参与数据贡献和理解的业务用户,"Tekiner说。
多智能体优势
我们可以为AI智能体分配角色,使它们能够处理不同工作,共同实现同一目标,比单一整体程序更快完成任务。
谷歌云正在设计一个协作生态系统,在Gemini(谷歌先进的大语言模型系列)驱动的元数据通用框架内包含多个智能体。每个智能体都可以在自己的领域成为专家,如数据工程、数据科学、治理或数据分析。这些智能体还可以相互传递信息和任务。
Tekiner解释道:"我们正朝着这样的未来发展:一个智能体摄取数据,另一个处理复杂转换,另一个专注于数据质量,还有一个处理验证。"他将这种协作类型比作蚁群。单个蚂蚁可以单独执行简单任务。但当它们聚集在一起时,能够解决真正复杂的问题。
"多智能体系统使系统变得更加稳健、有韧性和适应性,"Tekiner观察到。
协作与上下文感知智能
Tekiner提供了一个成功足球队的类比。"前锋可能非常擅长进球,但球队也需要像摄取智能体这样的后卫,以及像转换智能体这样控制比赛的中场球员。"
这些球员必须协同工作,根据策略和对手球队优缺点的数据接受教练指示。
同样,多智能体系统必须理解并在组织环境中运作。这种上下文和智能体可访问的元数据定义了其智能。从逻辑角度看,智能体系统可以通过跨多个互连层次运作的分层系统构建其智能。
基础层确保智能体理解最佳实践,包括标准数据格式和结构、常见数据质量检查和验证规则、分析方法论,以及基本安全和合规原则。这一基础知识通过Gemini等大语言模型提供,是使智能体能够一致可靠地管理数据操作的关键。
也可以在这一基础层之上叠加特定行业知识。处理医疗数据的智能体需要遵守HIPAA法规,正如金融智能体需要了解隐私和洗钱法规一样。这一行业层确保智能体能够应对不同业务领域的特定复杂性和要求。
另一层元数据可以纳入公司特定元素,如命名约定、安全策略和现有数据模型。这些关键洞察不会上传到客户环境之外的任何地方,这对维护数据隐私和安全非常重要。
学会预防问题
系统可以通过明确的业务规则和工作流指令学习这种分层理解。这些包括已批准的数据处理程序、合规要求和约束,以及自定义字段映射和转换。换句话说,可以向智能体提供数据工程合同或规范。智能体还可以通过处理历史工作流自主学习组织模式。
基于观察和学习,智能体可以检测和标记与既定模式的偏差,并建议行动方案。它可能监控你的管道以识别模式和数据漂移并建议修复。这种自主学习能力使智能体更加相关和高效,大大减少了对人类参与循环的手动输入需求。
自动化效率的益处
我们正朝着多个数据智能体复制这种自主能力的未来发展,随着智能体承担重复性任务,个人生产力将得到提升。
例如,企业可能面临影响多个管道的监管变化。低技术修复涉及编写代码并将其复制到多个位置,但这既耗时又容易出错。智能体可以在几秒钟内一致地将其传递到数千个位置。如果智能体能够无错误地完成95%的工作,那么它可能将六个月的工作减少到大约一周。
智能体还可以自动化手动元数据管理和文档任务。当你与它们交互时,它们可以捕获组织内的知识,记录和文档化处理规则和模式,系统性地建议和实施更新。自动化元数据创建和维护保存了机构知识,并随着组织发展保持更新。
数据民主化
AI的未来在于不仅理解做什么,还理解如何在特定业务环境中执行的智能体。随着对这些系统信任的增长,组织可以期待日益增长的自主性来减少手动流程负担。
通过BigQuery,谷歌云在这一前沿领域发挥了主导作用。它通过为从工程师到分析师的新一代数据工作者提供智能数据工程智能体作为协作伙伴来赋能他们。
这些智能体有潜力通过嵌入式治理管理复杂数据操作,大规模交付可信赖的高质量数据。通过持续学习和自主适应,它们使我们更容易、更快速地从数据中获得洞察,同时人类工程师可以专注于更高层次的工作。
好文章,需要你的鼓励
知名的投资机构ICONIQ Capital发布了《开发者手册:2025年AI现状报告》,基于对300位企业高管的调研,包括CEO、工程负责人、AI负责人和产品负责人等关键决策者,涵盖了从初创公司到十亿美元巨头的各个发展阶段,深度剖析了当下企业AI产品应用的全貌,为我们呈现了一个从"如何构思、交付和规模化AI驱动业务"的完整路线。
中科大团队开发出LongAnimation系统,解决了长动画自动上色中的色彩一致性难题。该系统采用动态全局-局部记忆机制,能够为平均500帧的动画进行稳定上色,性能比现有方法提升35-58%。核心创新包括SketchDiT特征提取器、智能记忆模块和色彩优化机制,可大幅提升动画制作效率。
南开大学团队开发出DepthAnything-AC模型,解决了现有AI距离估算系统在恶劣天气和复杂光照条件下性能下降的问题。通过创新的扰动一致性训练框架和空间距离约束机制,该模型仅用54万张图片就实现了在雨雪、雾霾、夜晚等复杂环境下的稳定距离判断,同时保持正常条件下的优秀性能,为自动驾驶和机器人导航等应用提供了重要技术支撑。