任何想要拥有领先AI策略的组织,首先必须制定成功的数据策略。
这是IBM副总裁兼首席数据官Ed Lovely传达的信息。
"当你考虑扩展AI时,数据就是基础,"他说。
然而,很少有组织拥有与其AI雄心相匹配的数据架构。相反,它们拥有孤立的数据,这些数据没有受到一致数据标准的治理——这是长期企业数据策略的结果,这些策略逐个应用程序地创建IT环境,以提供时点决策,而不是支持企业范围的人工智能部署。
2025年IBM研究报告《AI雄心激增,但企业数据准备好了吗?》显示了有多少组织在数据方面存在困难。研究发现,在全球1700名首席数据官中,只有26%的人对其数据能够支持新的AI驱动收入流感到有信心。
Lovely说,需要的是集成的企业数据架构,"无论数据产生在哪里",都要应用相同的标准、治理和元数据。
Lovely并不是唯一看到组织需要更新其数据策略的人。
IDC全球数据圈和全球存储圈研究项目研究经理、2025年报告《生成式AI时代的内容创建》联合作者Adam Wright说:"大多数组织需要现代化其数据策略,因为AI不仅改变了数据的使用方式,还改变了使用数据的原因和价值创造的位置。"
"传统数据策略是为报告、商业智能和自动化而构建的,但AI需要更加动态、精细和实时的数据管道,能够为迭代的、模型驱动的工作流程提供动力。这意味着从静态数据治理转向持续数据质量监控、更强的元数据和血缘追踪,以及反映AI的临时、缓存和保存数据混合的保留策略,"他说。"AI时代要求组织从收集/存储一切的心态演变为有意的、价值驱动的数据策略,平衡成本、风险和他们想要实现的特定AI结果。"
高成熟度数据基础
大多数组织远未达到这一目标。
Wright说:"许多组织继续在拥有'正确'数据方面存在困难,无论这意味着充足的数量、适当的质量,还是支持AI用例所需的必要上下文元数据。在IDC研究和行业对话中,数据准备始终是实现AI价值的最大障碍之一,往往超过计算成本或模型选择。大多数企业仍在处理分散的系统、不一致的治理,以及对他们实际拥有什么数据以及这些数据可信度的有限可见性。"
Lovely说,IBM曾面临许多这样的挑战,但在过去三年中努力解决这些问题,使其数据AI就绪。
IBM面向AI时代的数据策略包括对长期方法的多项改变,使其能够构建Lovely所称的集成企业数据架构。例如,公司保留了数据所有者的概念,但"帮助他们理解数据是IBM的资产,如果我们能够以受控、安全的方式民主化它,我们就能以更好、更高效的方式运营业务,"Lovely说。
因此,IBM从多个团队管理孤立数据转向使用通用标准和通用架构的通用团队。企业领导者还整合了300TB的数据,基于公司寻求的结果和驱动这些结果的工作流程选择所需的数据。
"我们很有目的性,"Lovely说,并补充说其数据平台现在覆盖约80%的IBM工作流程。"当今企业最大的生产力释放之一是创建集成的企业数据架构。由于我们在数据方面的投资,我们正在快速在公司部署AI。"
构建更好数据策略的8个建议
为了在数据基础和数据消费能力方面建立高成熟度,组织需要面向AI时代的数据策略——一个强化数据质量、打破数据孤岛、使数据能力与业务优先考虑的AI用例保持一致的策略。
专家提供采取的步骤:
1. 重新思考数据所有权
Wright解释说:"当业务部门、产品团队和AI平台都在持续生成和转换数据时,将数据所有权纯粹视为IT问题的传统模式不再有效。理想情况下,明确的责任应该由高级数据领导者(如首席数据官)承担,但没有首席数据官的组织必须确保数据治理责任在IT、安全和业务部门之间明确分配。"
他补充说,拥有"定义政策的单一权威点和联邦执行模式至关重要,这样业务部门既保持授权又不失控制。"
圣托马斯大学软件工程和数据科学系教授兼主席、应用人工智能中心主任Manjeet Rege建议组织将数据所有者重新定义为数据管理员,他们不拥有数据,而是基于中央数据功能设定的标准、治理、安全和互操作性拥有数据的含义和质量。
2. 打破孤岛
为了做到这一点,"首席信息官需要围绕共享的AI和数据结果使业务部门保持一致,因为生成式AI只有在工作流程、流程和数据源在整个企业中连接时才能提供价值,"Wright说。
"这意味着建立跨职能治理,标准化分类法和政策,并创建激励团队共享数据而不是保护数据的机制,"他补充说。"技术通过统一平台、元数据层和通用安全框架提供帮助,但真正的解锁来自C级高管和业务利益相关者之间的协调领导。"
3. 投资AI时代的数据技术
这些技术包括现代数据湖和数据湖仓、向量数据库和可扩展对象存储,所有这些"都能处理具有强治理的大容量、多模态数据,"Wright说。
组织还需要编排和管道工具,自动化摄取、清洗、转换和移动,以便AI工作流程能够端到端可靠运行。元数据引擎和治理层对于使模型理解上下文、跟踪血缘并安全可靠地使用结构化和非结构化数据至关重要。
Rege建议构建"模块化、受治理且能够演进"的数据平台层。"你需要能够将数据视为可重用产品的架构,而不仅仅是单一管道,并且能够用于批处理和实时需求。"
Rege还支持数据湖和数据湖仓,称它们"正在成为AI的支柱,因为它们能够处理结构化和非结构化数据。"
此外,Thoughtworks首席AI和数据官Shayan Mohanty建议首席信息官构建可组合企业,具有模块化技术和灵活结构,使人类和AI能够跨多个层访问数据和工作。
专家还建议首席信息官投资于解决新兴数据生命周期需求的技术。
Wright说:"生成式AI正在根本上重塑数据生命周期,创造了临时、缓存和持久存储内容的更动态混合。大多数生成式AI输出都是短暂的,只使用几秒钟、几分钟或几小时,这增加了对高性能基础设施(如DRAM和SSD)的需求,以处理快速迭代、缓存和易失性工作流程。"
"但同时,生成式AI输出的有意义子集确实持续存在,如最终文档、批准的媒体资产、合成训练数据集和合规相关内容,这些仍然很大程度上依赖于成本效益高、大容量的HDD进行长期存储,"他补充说。"随着生成式AI采用的增长,组织将需要适应从临时内容的超快内存到持久存档的强大HDD系统这一完整生命周期的数据策略,因为存储负担/动态正在发生变化。"
4. 自动化并为数据架构增加智能
Mohanty将企业数据的糟糕状态归咎于"数据生产者和数据消费者之间的裂痕",产生的数据进入"某处的巨大堆积,称为数据仓库",然后创建分析层来利用它。他指出,这种方法需要大量人类知识和手工努力才能工作。
他建议组织采用数据产品思维"使数据生产者和数据消费者更紧密地结合",并为其企业架构增加自动化和智能,以便AI可以在需要时识别和访问正确的数据。
Mohanty说,首席信息官可以使用模型上下文协议(MCP)来包装数据并提供协议级访问,并指出访问需要组织在其目录和工具中编码信息以确保数据可发现性。
5. 确保结构化和非结构化数据AI就绪
Wright说:"当结构化数据格式一致、治理良好并用准确的元数据丰富时,就是AI就绪的,使模型易于理解和使用。组织应该优先考虑强大的数据质量控制、主数据管理和明确的所有权,以便结构化数据集保持可靠、可互操作并与特定AI用例保持一致。"
专家强调需要将同样的纪律带到非结构化数据中,确保非结构化数据也得到适当标记、分类并用元数据丰富,以便AI系统能够有效理解和检索它。
Rege说:"你需要将非结构化数据视为一流的数据资产。最有趣的AI用例大多存在于非结构化数据中,如客户服务音频通话、消息和文档,但对于许多组织来说,非结构化数据仍然是盲点。"
Rege建议将其存储在信息可搜索的向量数据库中。
6. 考虑外部数据源和合成数据
Wright说:"当现有数据不完整、有偏见、太小或与他们试图追求的AI用例不太一致时,组织绝对应该评估是否需要外部或合成数据,"并指出"当真实数据敏感、收集成本高或受隐私、监管或操作约束限制时,合成数据变得特别有用。"
7. 逐步实施高成熟度数据基础
Salesforce企业IT策略高级副总裁Shibani Ahuja说,不要等到数据处于完美状态才开始。
"有些组织觉得他们必须在能够开始之前把所有数据都弄对,但他们也面临开始旅程的压力,"她说。
就像成熟大多数企业项目一样,首席信息官和他们的执行同事可以——也应该——采用增量方法来构建AI时代的数据项目。
Ahuja建议通过逐个结果工作来成熟数据项目,创建数据策略和架构来支持一个AI驱动的结果,然后继续后续结果。
Ahuja说:"这是一种思维方式:从你需要的东西进行逆向工程。将某些东西投入生产,确保你有正确的护栏,观察它,调整它使其扩展,然后投入下一个。"
8. 采用跨职能方法进行数据团队建设
Wright说:"数据应该由包括IT、数据治理、安全和实际使用数据驱动决策的业务部门在内的跨职能生态系统支持。当这些团队共享所有权时,AI时代的数据策略效果最佳,其中IT团队启用基础设施,治理团队确保信任和质量,业务团队定义上下文和价值。"
Q&A
Q1:为什么只有26%的首席数据官对AI数据准备感到自信?
A:因为大多数组织拥有孤立的数据,这些数据没有受到一致数据标准的治理,是长期企业数据策略的结果。这些策略逐个应用程序创建IT环境,提供时点决策而不是支持企业范围的AI部署,导致数据架构与AI雄心不匹配。
Q2:集成企业数据架构与传统数据架构有什么区别?
A:集成企业数据架构要求无论数据产生在哪里,都要应用相同的标准、治理和元数据。与传统多个团队管理孤立数据不同,它使用通用团队、通用标准和通用架构,能够以受控、安全的方式民主化数据使用。
Q3:如何逐步实施高成熟度数据基础而不等待完美数据?
A:采用逐个结果工作的增量方法,创建数据策略和架构支持一个AI驱动的结果,然后继续后续结果。将某些东西投入生产,确保有正确的护栏,观察和调整使其扩展,这是一种从需求进行逆向工程的思维方式。
好文章,需要你的鼓励
尽管2026年智能手机外观可能变化不大,但内部技术正发生飞跃式进步。AI原生处理器、新型连接技术和先进显示系统正将日常设备转变为具备企业级功能的强大个人平台。这些趋势对企业和消费者同样重要,因为人们携带的手机决定了他们如何访问数据、协作办公、管理工作流程和使用数字服务。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。
《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。
清华大学研究团队提出3DThinker框架,首次让AI具备类似人类的三维空间想象能力。该系统在推理过程中插入特殊的三维想象符号,不依赖外部工具或大量标注数据,就能从有限的二维图像中构建三维心理模型。在多个空间推理基准测试中,3DThinker相比传统方法性能提升达50-100%,为自动驾驶、机器人导航、虚拟现实等领域的AI应用开辟了新路径。