在今天的专栏中,我将探讨AI生成合成数据的有利应用,并展示斯坦福大学正在进行的一项关于解剖学上合理的3D大脑MRI创新研究如何绘制和解锁大脑的奥秘。
读者可能还记得,我之前讨论过斯坦福大学医学院精神病学和行为科学系的一项AI与心理健康倡议,该项目被称为AI4MH,由精神病学和行为科学教授Kilian Pohl博士共同指导。Pohl博士关于使用AI生成合成数据来设计MRI的研究是明智利用生成式AI和大语言模型在心理健康和许多其他研究领域取得重大突破的前沿例子。
让我们来谈论这个话题。
这项AI进展分析是我在福布斯专栏中持续报道的最新AI发展的一部分,包括识别和解释各种有影响力的AI复杂性。
AI与心理健康治疗
作为简要背景,我一直在广泛报道和分析现代AI在提供心理健康建议和执行AI驱动治疗方面的各个方面。这种AI的兴起主要是由生成式AI的不断发展和广泛采用推动的。
毫无疑问,这是一个快速发展的领域,有着巨大的优势,但同时,遗憾的是,隐藏的风险和明显的陷阱也会出现在这些努力中。我经常就这些紧迫问题发声,包括去年在CBS《60分钟》节目中的露面。
合成数据的未开发价值
每当您使用生成式AI或大语言模型(如OpenAI的流行ChatGPT)时,您实际上是在生成数据。这种AI生成的数据被称为合成数据。它被认为是合成的,因为它是由AI产生的,而不是人类手写的东西。
当您使用ChatGPT、Claude、Gemini、Grok等时,您正在生成数据这个想法可能并不明显,如果您只是向AI询问如何煮鸡蛋或修理汽车的问题。对您来说,AI只是在回答您的问题。就这样,故事结束。
AI的任何答案或实际上任何回应都是数据的一种形式。您正在促使AI生成数据。数据本身具有价值。除了作为您问题的答案外,生成的数据还可以用于其他精明的目的。例如,您可以将生成的数据发布到互联网上,从而与可能访问该帖子的其他人分享数据。
关于合成数据的争论
就像现在生活中的几乎所有事情一样,合成数据的出现已经陷入激烈的争论中。使用合成数据涉及权衡。如果明智和适当地使用,AI生成的数据可能是一个巨大的福音。遗憾的是,当合成数据被肆意使用或没有适当控制时,事情可能会出错。
一个主要的担忧是我们将用合成数据填满互联网。
在一个被称为"死互联网理论"的理论中,人们担心当您阅读互联网上发布的内容时,它将是由AI设计的文本。您不一定会意识到AI产生了这些文本。您会假设一个活生生的人在网上写作并发布了他们的评论。
合成数据的普及被认为是不好的,因为互联网的大部分最终可能几乎完全由AI生成的数据组成。只有微小的人类书写内容片段将保留下来。在生成数据的海洋中,也许只有微小的人类写作片段。这些片段将像广阔干草堆中的针一样稀缺。
关于互联网已经向AI生成数据倾斜程度的持续猜测是一个激烈争议的话题。争论和反驳飞快进行。例如,一种观点是我们可能更好地用合成数据代替人类书写的数据。谁能说人类书写的数据必然比AI生成的数据更好?激烈的辩论继续进行。
当我就最新AI趋势发表演讲时,我经常被问及是否应该禁止使用合成数据。或者人们不应该被允许将AI生成的数据发布到互联网上。让这成为犯罪。让互联网保持为仅有人类书写内容的原始保护区。
我强烈强调这种关于合成数据的思维方式是短视的。这是把婴儿和洗澡水一起倒掉的传统错误。AI生成的数据具有巨大价值。我们应该深思熟虑地考虑如何利用这种价值。同时,当然,我们应该谨慎避免误用合成数据,并相应地采取谨慎的步骤。
治疗师-客户会话分析的合成数据
作为我如何有益地选择使用合成数据的简要例子,考虑想要研究治疗师如何与他们的客户和患者互动的用例。
我们可以通过密切研究治疗师-客户会话期间发生的互动来了解很多关于治疗和治疗实践的知识。一些治疗师记录并转录他们的会话,在获得客户许可的情况下这样做,然后使用这些材料来自我反思他们的治疗技能。这也可以是回顾会话并在冷静地进行会后分析时获得关于客户的额外见解的方便手段。
在更大规模上,这些转录会话具有更多价值。
如果治疗师匿名化转录本,他们可能会将转录的会话提供给其他治疗师和研究人员。通过检查数百或可能数千个这样的转录本,我们可以确定各种设计的治疗方法似乎如何在治疗师-客户会话期间进行的大局观视角,并发现可以全面推进心理健康实践的关键模式。
进行治疗师-客户会话分析的困难在于没有大量的数字存储,并且它们有时需要成本来获取。其他问题包括这样的转录本往往需要大量的数据清理,因为对话经常是断断续续的口语片段。总的来说,以研究和推进心理健康理论和实践的名义利用治疗师-客户会话的愿望受到可用转录本短缺、获取成本以及使其易于使用的艰苦努力的阻碍。
如何克服这个问题?
一种方法是使用生成式AI和大语言模型来生成基于AI被指导这样做的治疗师-客户转录本。因此,生成代表治疗师-客户对话的合成数据。我已经这样做了,并在链接中描述了关键的来龙去脉。以前期和适当的方式使用AI进行此目的很重要。目标是产生以现实世界对话为模式的对话。同样重要的是标记对话是合成的,以便其他研究人员了解转录本是如何产生的。
理解大脑的合成数据
在斯坦福大学,有一项令人兴奋的努力,使用生成式AI来产生合成的大脑MRI。这提供了合成数据有益使用的另一个生动例子。
假设您想研究MRI以收集关于大脑如何运作的发现。您可能想要大规模地这样做,探索许多MRI以辨别模式。另一个角度是深入研究特定的MRI,仔细观察关键核心元素,发现可以帮助我们揭示大脑状况的方面,如潜在的疾病或病症。
您如何获得足够的MRI和足够的多样性来进行这些类型的大脑焦点分析?
一个聪明的方法是使用AI生成MRI,然后可以分析和研究。我们想要这样做,并在MRI中尽可能现实。简单地在肆意的基础上生成不特别反映人类遇到的真实条件的MRI是不合适的。如果MRI要有有效用途,它们必须是现实的。
如最近的在线帖子"生成式AI帮助斯坦福研究人员更好地理解大脑疾病"(斯坦福报告,2025年10月7日)中所述,提出了这些关键点(摘录):
"斯坦福大学精神病学和行为科学教授、电气工程礼聘教授Kilian M. Pohl说,'神经科学的未来突破性发现将依赖于AI技术。目前的问题是这项技术往往产生不可靠的结果,因为大多数大脑MRI研究规模不够大。'"
"Pohl是心理健康AI倡议的共同主任,也是斯坦福HAI和吴蔡神经科学研究所的教员,他最兴奋的是将BrainSynth应用于了解微妙影响大脑的疾病。'我研究的许多疾病或状况都不太为人所理解,对大脑的影响有微妙的效果,你通常无法用肉眼看到,'Pohl说。'我想使用这种生成式AI技术来捕获那些微妙的效果。'"
第二点提到了一个为MRI合成而开发的AI系统,被称为BrainSynth。让我们更仔细地看看这种能力。
解构BrainSynth和合成数据
正在进行的巧妙方法包括使用生成式AI来产生合成数据并生成可用的3D大脑MRI。至关重要的是,合成的MRI需要在解剖学上合理。推向合理性是一个难以解决的问题。生成MRI是一回事,但这样做并反映人类解剖现实主义涉及复杂的问题。
在Pohl博士共同撰写的题为"元数据条件生成模型合成解剖学上合理的3D大脑MRI"的研究论文中,由Wei Peng、Tomas Bosschieter、Jiahong Ouyang、Robert Paul、Edith V Sullivan、Adolf Pfefferbaum、Ehsan Adeli、Qingyu Zhao和Kilian M Pohl撰写,发表在《医学图像分析》,2024年8月,提出了这些要点(摘录):
"生成模型的最新进展为增强自然和医学图像的生成铺平了道路,包括合成大脑MRI。"
"为了生成与神经科学发现相关的高质量T1加权MRI,我们提出了一个两阶段扩散概率模型(称为BrainSynth),以有条件地依赖于元数据(如年龄和性别)合成高分辨率MRI。"
"然后我们提出了一个新颖的程序来评估BrainSynth的质量,根据其合成MRI如何很好地捕获大脑区域的宏观结构特性以及它们如何准确地编码年龄和性别的效应。"
"结果表明,我们合成MRI中超过一半的大脑区域在解剖学上是合理的,即真实和合成MRI之间的效应大小相对于年龄和性别等生物因素来说很小。此外,解剖合理性根据其几何复杂性在皮质区域之间有所不同。"
"这些结果表明我们的模型准确地捕获了大脑的解剖信息,因此可以丰富研究中代表性不足样本的数据。"
这项研究的元数据方面特别值得注意。如上所述,BrainSynth寻求编码年龄和性别等因素的效应。将生物因素纳入生成过程大大有助于可用性并有助于解剖合理性目标。
对于那些对BrainSynth的AI基础感兴趣的人,您可以考虑查看项目的GitHub网站。
合成数据的双重检查
任何AI生成合成数据的努力的重要部分需要涉及对生成数据的双重检查,这在BrainSynth研究中得到显著识别。研究人员仔细比较了真实MRI与合成MRI。这样做有助于确定合成是否准确并充分捕获现实世界现象的基石。
对于选择使用AI生成数据的任何人来说,情况也是如此。
AI生成数据得到坏名声的部分原因是,合成数据有时在没有一丝双重检查的情况下被交给世界。人们可能会错误地依赖合成数据,就像它是真实的一样。同时,合成数据可能包含不准确性,包括可怕的AI幻觉。
我是合成数据双重检查和标记生成数据为AI产生的坚定倡导者。
目前的最终思考
现在正在获得牵引力的一个口号是我们必须努力减少正在作为有效数据共享的"AI垃圾"的数量。AI垃圾越多,对整个社会来说情况会变得更糟。反过来,我预测这将刺激一系列新法律,试图遏制AI垃圾,但这些法律可能会无意中过度射击,造成与它们可能解决的问题一样多的问题。
正如阿尔伯特·爱因斯坦雄辩地说:"只有为他人而活的生活才是有价值的生活。"如果您要使用AI生成合成数据,请考虑他人。努力产生有效数据,双重检查数据,将其标记为合成,然后才发布数据供他人依赖。
您大概会让爱因斯坦为您的英勇努力感到骄傲。
Q&A
Q1:BrainSynth是什么?它能做什么?
A:BrainSynth是斯坦福大学开发的一个两阶段扩散概率模型,用于合成高分辨率的3D大脑MRI。它能够基于年龄和性别等元数据生成解剖学上合理的大脑MRI图像,帮助研究人员更好地理解大脑疾病和神经科学现象。
Q2:AI生成的合成MRI数据可靠吗?
A:研究表明,BrainSynth生成的合成MRI中超过一半的大脑区域在解剖学上是合理的,真实和合成MRI之间的效应大小相对于年龄和性别等生物因素来说很小。不过,研究人员强调需要对合成数据进行仔细的双重检查和验证。
Q3:为什么要使用AI生成合成数据而不是真实数据?
A:真实的大脑MRI数据往往数量有限、获取成本高,且大多数大脑MRI研究规模不够大,这限制了AI技术在神经科学中的应用。使用AI生成合成数据可以丰富研究中代表性不足样本的数据,为神经科学研究提供更大规模的数据集。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。