数据产业系列解读之十四:突破数据关键技术 夯实数据产业基础(下篇)

在今年8月底召开的第十届中国国际大数据博览会(“贵阳数博会”)上,国家数据局刘烈宏局长和陈荣辉副局长对外宣布,将正式出台促进数据产业发展相关政策,从优化产业布局、培育多元经营主体、强化政策保障等方面,系统布局培育壮大数据产业。

在今年8月底召开的第十届中国国际大数据博览会(“贵阳数博会”)上,国家数据局刘烈宏局长和陈荣辉副局长对外宣布,将正式出台促进数据产业发展相关政策,从优化产业布局、培育多元经营主体、强化政策保障等方面,系统布局培育壮大数据产业。数据产业政策研究专班牵头人张向宏教授发布了我国第一份《数据产业图谱》,首次展示了我国数据产业的基本涵义、构成、主体、特征,显示了我国数据产业的发展现状和巨大潜能。2024年9月27日,国家数据局正式发布了《关于促进数据产业高质量发展的指导意见》,面向全社会公开征求意见。为了进一步凝聚共识,集聚力量,为数据产业高质量发展创造更加顺畅的环境,《交大评论》特推出“数据产业系列解读”专栏,特邀请北京交通大学、清华大学、北京大学、北京航天航空大学、北京化工大学、北京物资学院、中国软件评测中心、华为公司、烽火科技、北京软件和信息服务协会、合合信息等11家数据产业政策研究专班单位专家,从不同角度解读我国数据产业发展情况。

其中,系列解读文章1—5,主要对国内外数据产业发展进行了宏观解读;系列解读文章6,重点解读我国数据产业的3方面布局;系列解读文章7,重点解读我国数据产业的6种经营主体;系列解读文章8—15,主要解读数据资源、数据技术、数据应用、数据流通、数据安全、数据基础设施等6种业态的发展重点方向;系列解读文章16,重点解读我国数据产业5方面的保障措施。

本期是系列解读文章第十四期《突破数据关键技术 夯实数据产业基础(下篇)》,主要阐述我国数据技术发展现状及问题、以及突破数据关键技术的重点方向和实现路径。

数据产业系列解读之十四:突破数据关键技术 夯实数据产业基础(下篇)

三、我国数据技术发展现状及问题

数据技术在很大程度上代表了一个国家的数字经济发展水平、一个地区的数据产业发展质量、以及一个数据企业的市场竞争力。尽管我国在数据采存算管用全流程各环节的数据技术已取得全面突破,但是,数据技术的发展还远远不能满足市场对数据安全可信、高效流通的需求,无论是公共数据、企业数据、还是个人数据,大多数都由于数据技术的限制而不能安全畅通地流通。特别是在一些关键核心数据技术方面,我国仍然存在原创能力不强、技术受制于人等问题,造成高质量数据难以生成,高价值数据难以获取,已成为数据供不出、流不动、用不好的的重要成因。

数据产业系列解读之十四:突破数据关键技术 夯实数据产业基础(下篇)

1.高质量数据采集汇聚技术有待突破

随着大模型参数规模不断增大,所需训练和对齐的数据规模越来越大,预计到2028年,全球在万维网上可流通的结构化数据即将耗尽,图像、视频、音频等非结构化数据在数据规模和数据价值方面的作用日益突显,从技术层面实现这些非结构化数据的标准化采集和治理,正在成为全球人工智能企业、数据标注企业、数据加工企业着力突破的技术方向,以ScaleAI为代表的一批美国数据企业,已在非结构化数据的标准化采集、自动化和智能化标注以及高质量数据集的构建等方面,探索和积累了大量的先进技术和方法,走在了全球前列。

当前,我国在结构化数据采集技术方面已全面突破并获得广泛应用,但多模态数据的采集、清洗、标注技术标准仍未形成广泛共识。结构化数据的数据湖、湖仓一体技术等数据汇聚技术已广泛应用,数据编织和数据接口等技术也逐步正在成熟,异构数据融合技术还有一定差距。数据采集汇聚总体上仍处于分散化、自发性的状态,自动化、智能化水平还比较低,企业方面还没有出现规模化、体系化的专业性大公司,在相关技术研发方面投入不足。

2.数据计算存储技术存在卡脖子堵点

绝大多数数据计算存储技术在我国已得到掌握并广泛应用。在数据计算技术方面,批处理计算技术、数据共享交换、数据目录、分类分级、云技术等大多数计算技术都已掌握并创新,分布式计算技术、图计算技术、远程连接场景分析技术还在研发中,在流计算技术、数据波动分析、数据资产化变化分析等方面还未掌握。特别是在影响计算性能的算力芯片方面,与英伟达为代表的全球领先水平仍有代际差距,在高性能计算方面存在卡脖子堵点。

在数据存储技术方面,集中式存储、分布式存储、高端全闪存存储、云存储、对象存储、灾备存储技术、蓝光存储等技术已完全掌握并处于全球领先水平。在数据存储系统方面,至2024年,我国自研数据存储系统位列全球最权威的存储性能排行榜IO500榜单第一名;2024年9月,我国自研AI存储系统首次获得全球人工智能领域最权威的MLPERF Storage AI基准测试第一名。在存储介质和存储芯片上,我国232层三维闪存芯片和美光同系列产品代表业界最先进水平,在闪存主控芯片方面,我国已经有十几家厂商的产品得到商用,产品能力与国外主流厂商持平。数据湖存储、人工智能存储、数据重删压缩技术、存储加密、防勒索和数据灾备等技术已全面突破,但还未实现市场大规模商用,磁电盘存储技术、绿色存储技术等还有待突破。

3.数据大规模流通交易技术尚不成熟

当前,海量的高价值数据由于面临巨大法律和技术障碍而无法流通交易,既要促进高价值数据流通交易起来,又要确保在大规模、快速率、高通量流通过程中的数据安全,成为数据要素化过程中的全球难题。我国数据流通交易技术研发和应用仍处于起步阶段,数据使用控制技术、隐私计算技术、区块链技术、数据沙箱技术等数据安全可信流通技术还远未成熟,特别是算法安全检测还处于原始状态。除清算结算技术较成熟以外,数据定价、审计监督、争议仲裁、数据确权登记等数据交易技术基本上都处于初期研发阶段。

在现有数据流通技术条件下,数据常常以数据包或API等明文形式进行传输和流通,常常难以满足数据持有方对数据安全的要求,也不能满足数据处理方对海量实时数据处理的需求。既能促进数据大规模高效流通、又能确保数据流通过程中安全的区块链、隐私技术、数联网技术、数据空间技术等新兴数据技术,已成为数据流通技术重要发展方向,但是,这些技术目前尚不成熟,往往实现了数据安全可信,就不能实现大规模数据流通,或者实现了数据大规模传输,又会出现安全隐患。因此,国家一方面将从重大科技专项、关键数据技术研发等方面持续支持数据流通技术的突破,另一方面将从应用角度支持这些技术的大规模普及应用和基础设施化,尽快推动这些技术走向成熟应用。

4.数据开发利用技术正快速发展迭代

当前,经济社会正在从传统信息化阶段向数据要素化阶段迈进,其中一个重要标志就是面向流程、面向对象的传统信息系统正在向面向数据的新型数据系统转型,特别是许多网络化、数字化、智能化起步较早、发展较快的地区、行业和企业,在过去信息系统长期运行过程中积累了海量数据,围绕这些数据不断推陈出新各种数据分析技术、可视化技术、数据智能技术、推荐系统、商业智能、搜索引擎、人工智能内容生成、智能决策等数据开发利用技术,甚至以此为基础,形成了各种基于数据的数据系统,数据资源的要素价值作用得以充分释放和发挥。

由于我国具有超大市场规模、海量数据资源和丰富应用场景等优势,我国在数据开发利用技术方面总体上走在了世界前列,特别是在互联网和移动互联网时代,以阿里、腾讯、美团、抖音、滴滴等公司为代表的数据技术企业,在数据分析、可视化、搜索引擎、商业智能等数据开发利用技术方面,引领了全球发展先河,技术不断迭代日趋成熟,应用也非常普遍。但是,在当前的人工智能发展新阶段,我国在人工智能内容生成、数据智能分析、智能决策、推荐系统,以及搜索引擎领域的人工智能增强和多模态搜索方面,还未获得实质性突破,在智能决策的优化算法方面还比较落后。

5.数据安全治理技术正转向动态安全

在过去的信息安全和网络安全时代,企业和其他经营主体的经营管理效率提高,是通过软件或信息系统通过改善流程、降低成本等方式实现的,数据只是信息系统的附产品,并不直接产生或创造价值,没有对数据流通利用的需求,反而更加关注数据由于可能发生的流动而引起的安全隐患,通常采用隔离、认证、加密等手段,确保数据“进不来、看不懂、拿不走、可溯源”,尽最大可能杜绝、切断、减少数据的流动。因此,传统信息安全和网络安全各种措施的一个共同特点,就是尽可能让数据静止在一个环境中不动,数据不能流通。在当前经济社会已步入数据要素化发展新阶段的背景下,数据不仅要流通起来,而且还要大规模流通起来,才能充分释放和发挥数据的要素价值作用,而在数据大规模流通过程确保数据动态安全,成为数据安全的新命题。

安全治理技术包括静态安全技术和动态安全技术两大类。静态安全技术包括日志收集技术、数据库运维网关、API数据安全网关技术、数据脱敏技术、数据水印技术等,动态安全技术包括应用数据加密技术、应用数据防泄漏技术、身份认证与访问控制技术、数据备份与恢复技术、隐私计算、数据空间、数联网、数场等。当前,我国的静态安全技术已非常成熟,应用也非常广泛,但是,我国动态安全技术还处于起步阶段,大多数动态安全技术都具有消耗资源大、运行成本高的问题,普遍不具备大规模商用的条件。

6.数据基础设施技术正向融合化发展

数据基础设施技术包括高效弹性的数据网络传输技术、多元异构的算力协同技术、以及开放普惠的数据流通利用技术。高效弹性的数据网络传输技术主要包括实现确定性网络、长距无损网络的节点即时组网技术、数据高效传输技术等。多元异构的算力协同技术主要包括多元异构算力统筹调度技术、算力资源对接与协同计算技术等。开放普惠的数据流通利用技术包括统一目录标识技术、统一身份登记技术、统一接口规范技术,以及确保数据高效流通的隐私技术、区块链、数据空间等各种技术。

当前,我国在网络层面的传输技术、网络安全技术、网络管理技术等方面居全球领先地位,特别是在5G、5.5G传输方面技术领先于其他国家,但是在网络切片、IPV6、多模态网络、广域RDMA、卫星互联网络等数网融合技术方面还有待突破。在算力层面方面,我国面临巨大瓶颈,特别是算力芯片技术、并行计算、异构计算、多卡多机高速联通等方面存在“卡脖子”环节。在数据空间技术方面,隐私计算、数据空间、数场、数联网、委托计算等都处于发展初级阶段。

四、突破关键数据技术的重点领域和实现路径

数据产业系列解读之十四:突破数据关键技术 夯实数据产业基础(下篇)

 

1.提升采集汇聚和治理应用智能化水平

随着大模型向更大规模参数和更广领域应用发展,大模型训练、微调、对齐所需的数据量和工作量指数级增长,传统的手工采集、标注、清洗等技术手段已远远不能满足市场需求,自动化、智能化、标准化已成为数据采集汇聚、治理应用的必然趋势,特别是要加大多模态数据的智能化标注、数据合成等核心技术攻关力度。

2.大力推动云边端计算技术的协同发展

数据规模的爆炸性增长,对处理、存储和传输能力提出了更高要求。传统的云计算模式已难以满足所有场景的需求,边缘计算和端计算的重要性日益凸显,大力推动云边端计算技术协同发展,形成适应数据规模汇聚、实时分析和智能应用的计算服务能力显得尤其重要。应通过技术研发、标准制定、产业合作等措施,在存储、计算、网络三方面加大云边端协同发展。一是推动存储资源协同。通过协同处理分布在边缘云和中心云的存储资源,提高存储资源的利用率,节约传输带宽。如CDN网络将热点视频业务放在边缘网络上,用户就近访问数据,降低中心云的带宽需求。二是促进计算资源协同,对分布在边缘云和中心云的计算资源进行协同处理,提高计算资源的效率。在AI训练与应用系统中,中心云负责大规模的AI训练,边缘云则利用训练好的AI算法进行推理应用。三是推进网络资源协同。协同分布在边缘云和中心云的网络资源,降低整体的网络带宽,节约传输成本。例如,云化核心网将控制面部署在中心云,用户面按需部署在边缘云与中心云,实现数据的分流和低时延访问。

3.强化可信存储标准、技术、场景应用

将更多数据低成本地、安全可靠地存储起来,大幅度提高数据产存比,是数据要素化、价值化的重要一环。应从构建可信标准、鼓励技术突破、深化场景应用等三方面,加大可信存储技术研发力度,支撑规模化、实时性跨域数据存储和流动,提高智能存储使用占比。一是构建可信存储标准。推动政产学研用联合,制定可信存储标准,加速产品化落地。同时,从国家、地方、行业等多个层面完善数据存储安全保护的制度体系,为可信存储技术的发展提供有力保障。二是要突破关键核心技术。鼓励技术层面广泛联合科研院所、高校、领军企业,加大在智能存储、下一代蓝光存储、量子存储等前沿技术领域的基础研究力度,健全创新链、产业链和供应链。三是深化存力业务场景。面向国民经济和社会发展的重点领域,围绕数字化、智能化转型和数字产业化发展,不断扩大数据资源的利用、挖掘和价值释放的应用场景,充分发挥国内超大规模市场优势。

4.加快数据可信流通技术研发及其应用

以隐私计算、区块链、数据空间、数场、数联网、数据元件为代表的数据可信流通技术,在确保数据可信安全基础上,能实现数据流通应用,是数据可信流通的重要发展方向。但是,这些技术目前尚不成熟,一是应用场景受限,常应用于数据价值较大,或者对数据流通有特殊要求的场景,还不能支持数据的大规模流通;二是资源耗费大,计算传输效率较低,当前隐私计算的计算和传输效率仅为明文计算和传输的十分之一甚至更低,还不能大规模普及性应用。应推动技术突破和应用普及两方面相向而行,一方面国家应组织数据可信流通技术攻关,突破技术难点,另一方面应采取措施鼓励数据可信流通技术大范围应用,在应用中实现技术的持续优化升级,并通过大规模应用降低技术的使用成本。

5.加强基础、前沿和原创数据技术创新

应鼓励科研机构、高等院校和行业龙头企业,紧跟数据科学领域最新技术发展趋势,立足于国家战略性任务,以及金融、医疗、教育、交通、科研等领域对数据技术的实际需求,结合数据产业发展现状和自身资源与特色优势,建设网络数据复杂性数据计算理论、大数据分析引擎、大数据平台系统、高维异质多模态数据处理等方向和领域的数据科学实验室、数据技术创新中心、企业数据技术中心等,加大对数据领域基础研究的支持力度,持续创新和引领数据前沿技术、原创性技术发展。

6.探索利益共享的数据技术创新联合体

创新联合体是多个主体联合攻关的一种组织模式,是以企业为主体、市场为导向、产学研用深度融合的技术创新组织。它旨在解决产业发展关键核心技术,研发具有先发优势的关键技术、引领未来发展的基础前沿技术。创新联合体一般以共同利益为纽带,以市场机制为保障,由创新资源整合能力强的领军企业或领衔机构牵头,联合相关领域核心科研机构、高校以及产业链上下游企业等共同参与组建。应充分发挥企业创新主体作用,支持数据产业链主企业结合行业数据空间、城市数据空间、企业数据空间建设,联合上下游企业、科研机构和高校等建立创新联合体,优化产学研协作机制,加快科技成果转化和应用落地。

7.支持和完善数据技术开源平台与社区

支持数据技术龙头企业牵头建设数据技术开源平台,通过设立严格的贡献指南和代码审查流程等,确保数据技术代码的质量和稳定性,并持续添加有价值的功能,引入新的特性和技术,不断解决特定问题或改善现有流程,吸引更多企业加入。支持建设功能强大、参与活跃的开源社区,持续迭代、改进,并处理安全或兼容性问题,增加用户和企业参与的信心。

作者:

张茜茜:北京物资学院信息学院副教授

 

来源:交大评论

0赞

好文章,需要你的鼓励

2024

12/16

14:04

分享

点赞

交大评论

北京交通大学信息管理理论与技术国际研究中心(ICIR)主办。全面关注全球政治、经济、社会发展热点问题,重点聚焦以网信产业为核心的全球战略新兴产业发展动态,每周一期,周一定期更新。

最近文章 :