DNA可以存储数据数百年,但成本却无人能负担——至少现在如此。
每隔几个世纪,人类就会重新发明记忆方式。泥板变成了纸张,纸张变成了磁带,最近又变成了硅芯片。每一次飞跃都让存储变得更快、更便宜、密度更高,但没有一种能做到永久保存。到目前为止,我们发明的每一种数字格式都注定会衰退。
现在,一种保存了数十亿年生命密码的分子被要求为我们的数据做同样的事情。
DNA及其分子家族彻底改变了现代生活。阅读、理解和操控DNA的能力改变了我们治疗疾病、改造生物体和种植食物的方式。然而,尽管有这些突破,DNA还没有兑现它最受炒作的承诺之一:彻底改变我们存储不断增长的数据山的方式。
人类每年产生的数字信息超过了传统媒介在经济上能容纳的范围。十多年来,科学家和科技媒体一直将DNA指向潜在解决方案——大自然首选的存储和传输信息媒介,以其惊人的密度和持久性而闻名。
一旦写入DNA,数据就可以以相对较低的成本无限复制。阅读DNA变得越来越便宜,这得益于基因组学革命和解码人类基因组的竞赛。DNA的潜在数据密度是任何现有存储介质都无法匹敌的,在合适的条件下,DNA分子可以保持稳定数个世纪。与磁性或光学格式不同,DNA作为存储格式永远不会过时。
从理论上讲,这听起来毫无疑问。那么,为什么我们还没有将所有数据存储在DNA中?
在DNA中存储1MB数据的成本比在SSD上存储高出100多万倍,比磁带(当前归档存储的标准)高出250多万倍。延迟是另一个障碍:检索数据可能需要几小时或几天,而不是几毫秒。因为DNA存储在液体中,随机访问特定文件会增加复杂性和成本。该领域还缺乏插入现代数据管道所需的标准化基础设施和自动化。
多年来,几家初创公司试图将DNA存储转化为产品但都失败了。他们的许多演示,将歌曲或书籍编码到DNA中并嵌入到艺术品中,产生了头条新闻和风险投资,但客户很少。
那么DNA真的有机会成为可行的存储技术吗?如果有,什么时候,成本是多少?
现代DNA数据存储路径开始
现代DNA数据存储始于2012年和2013年的两篇里程碑式论文,一篇来自哈佛大学乔治·丘奇的实验室,另一篇来自欧洲生物信息学研究所尼克·戈德曼的团队。他们是第一批证明数字数据可以可靠地编码、存储和从合成DNA分子中检索的科学家。
从那时起,学术关注度稳步增长,从2012年的约70篇论文增长到2024年的800多篇。然而,大部分关注集中在软件方面:开发编解码器、优化存储架构和完善检索算法。这些工作很有价值,但没有解决高写入成本的真正瓶颈。
在这方面的进展较慢,但并非停滞。一些有前景的想法正在出现:带有可寻址分区和保护涂层的盒式DNA介质,以及暗示成本更低的新合成方法。尽管这些努力是渐进的,但它们展示了实用的DNA存储有一天如何在实验室外工作。
风险投资活动也讲述了类似的故事。自2012年以来交易不到100笔,总投资约14亿美元,与量子计算或聚变能源等领域相比,DNA存储仍然是一个舍入误差,这些领域每年都吸引数倍的投资。
近80%的资金投向了仅有的两家公司——Twist生物科学和DNA Script,两者主要专注于为生物研究而非数据存储制造DNA。这两个领域的需求几乎是相反的:生物学需要长的、纯净的DNA链,而存储可以容忍噪音和短片段,通过错误校正和冗余进行补偿。一个领域的进展很少转化到另一个领域。
认识到这一差距,Twist生物科学在2025年5月将其存储部门分拆成一家新公司Atlas数据存储,获得1.55亿美元种子资金,这表明投资者对这一概念的信心可能受到了打击,但并未破裂。
另一个鼓舞人心的信号来自存储网络行业协会(SNIA),该协会以标准化硬盘、SSD和磁带接口而闻名。SNIA现在主持DNA数据存储联盟,这是一个定义DNA文件编码、元数据和物理介质标准的国际联盟,这是实验技术开始向工业发展的阶段。
虽然来自市场和学术界的信号仍然不一,但问题不再是DNA存储是否有效;它确实有效。真正的挑战是如何使其变得负担得起。
应用前景与经济门槛
考虑到DNA存储的成本和延迟限制,只有少数几个应用有意义:需要数百年保存且维护最少的文化和科学档案,以及关键知识保存,如法律框架、科学记录或旨在超越当前机构的文化艺术品。
简而言之,DNA存储是为数据层次结构的最深、最冷层而构建的,即写入一次、很少读取的信息。
该技术要突破实验室限制,需要两个拼图块落实到位:首先,写入成本必须降到每MB1美元以下,其次,投资必须大幅增加。
即使DNA存储实现从目前约每MB100美元的1000-10000倍成本降低,它仍将比磁带贵2-3倍。但它的优势不是每字节成本,而是随时间的成本。
在现实的包装密度下,一立方厘米的DNA可以容纳数百PB,相当于一个整个超大规模数据中心压缩成一个方糖的体积。一旦写入,DNA不需要电力、冷却或维护。相比之下,磁带库和硬盘驱动器消耗恒定功率,需要每5-10年迁移一次。在25年内,这些能源和维护成本往往超过介质本身。
DNA的零空闲能耗足迹颠覆了这一模式,为面临减排压力的组织提供了一种惰性、免维护且本质上绿色的存储形式。在非常长的时间跨度内,看起来昂贵的前期投入可能成为最便宜的选择。
问题是:市场和企业不是为世纪而设计的。投资者以季度思考,政府如果幸运的话,以十年为单位。这就是为什么公共资金可能决定DNA存储是否能逃脱实验室,而不是私人投资者。
有先例可循:人类基因组计划,一个旨在解码定义人类基因组的DNA的全球合作。从2000年代初人类基因组计划结束到现在,DNA测序成本下降了近100万倍,这主要归功于公共资助的研究项目。那个努力大约用了15年,花费约50亿美元,动员了数百名科学家。回报不仅仅是一个测序基因组,而是一个完整的测序行业,使读取DNA便宜到足以成为常规。
DNA写入的类似努力可以为存储做同样的事情,一个旨在使信息保存成为公共利益的"人类数据项目"。
闪存存储的历史表明,早期的怀疑主义不是坏兆头。当闪存在1980年代末首次亮相时,它被认为太昂贵、太小、太脆弱而不重要。1MB闪存存储成本约1000美元,是航天器和高端工业设备保留的奢侈品。但它提供了磁性介质永远无法提供的东西:速度。到2000年代中期,价格下降了1万倍,性能飙升。闪存跨越了其临界点,重新定义了从数码相机到智能手机和AI的计算。
DNA存储处于类似的拐点,只是相反。闪存从慢到快爬升层次结构,DNA从长期存储下降到永久存储。它在延迟上永远无法与SSD或硬盘驱动器竞争,但对于归档存储周期来说它不需要。它占据了一个新的基础层,深冷存储,为必须超越任何技术周期的数据而构建。
数年后和许多学生之后,同一台DNA合成机器仍然站在实验室安静角落的长凳上,其金属外壳因不使用而略显灰尘。它所体现的承诺没有死亡;它只是在等待经济学赶上。
如果DNA存储实现了哪怕一小部分承诺,世界的信息可能会超越创造它的每一个磁盘、云和公司。它需要的是像人类基因组计划这样的催化剂,以及将闪存从1980年代的好奇心转变为现代计算骨干的那种顽固的工程坚持。一路上,公共或私人投资者可能开始看到其真正的潜力。
注记
菲利普·安特科维亚克是一位转向战略咨询的学术研究员,现居苏黎世。他的博士论文研究DNA数据存储,并在过去十年中密切关注学术和行业活动。
Q&A
Q1:DNA数据存储技术的核心优势是什么?
A:DNA数据存储的核心优势在于其超高密度和超长保存期。一立方厘米的DNA可以容纳数百PB数据,相当于一个超大规模数据中心的容量,且在合适条件下可保存数百年,一旦写入不需要电力、冷却或维护。
Q2:为什么DNA存储技术还没有得到广泛应用?
A:主要障碍是成本过高。在DNA中存储1MB数据比SSD存储高出100多万倍,比磁带高出250万倍。此外还有延迟问题,数据检索需要几小时或几天,以及缺乏标准化基础设施。
Q3:DNA存储技术何时能实现商业化?
A:技术突破需要两个关键条件:写入成本降至每MB1美元以下,且需要大规模投资。目前需要类似人类基因组计划的公共资助项目来推动成本降低。预计主要应用于需要长期保存的文化和科学档案领域。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。