生成式 AI 需要合成数据,我们需要确保其可信度

生成式 AI 模型需要大量真实数据训练,但互联网上的内容仍不足以应对所有情况。为继续发展,这些模型需要使用模拟或合成数据进行训练。专家指出,AI 开发者必须负责任地使用合成数据,否则可能会迅速出现问题。合成数据可以教导模型应对现有数据中不存在的场景,但关键是要确保这些数据可靠且符合现实。

目前像 ChatGPT 和 Gemini 这样的生成式 AI 模型都是通过大量真实世界数据进行训练的,但即便互联网上的所有内容也不足以让模型应对所有可能出现的情况。

为了持续发展,这些模型需要使用模拟或合成数据进行训练,这些数据虽然是合理的但并非真实存在的场景。在西南偏南 (SXSW) 大会的一个专家讨论会上指出,AI 开发者需要负责任地完成这项工作,否则可能会迅速失控。

今年以来,在 AI 模型训练中使用模拟数据的方式受到新的关注,这源于中国推出的新模型 DeepSeek AI。该模型使用了比其他模型更多的合成数据进行训练,从而节省了资金和计算资源。

专家表示,这不仅仅是为了节省数据收集和处理成本。合成数据 (通常由 AI 自己生成) 可以教会模型一些在已有真实数据中不存在,但未来可能遇到的场景。如果模型已经见过某种情况的模拟,那么即使是百万分之一的可能性也不会让 AI 模型措手不及。

"有了模拟数据,你就可以摆脱边缘案例的困扰,前提是这些数据是可信的,"曾在 Twitter、Atlassian、Microsoft 等公司领导产品团队的 Oji Udezue 说道。他和其他专家在德克萨斯州奥斯汀举行的 SXSW 大会上发表演讲。"理论上,只要我们能够信任它,我们就可以构建一个适用于 80 亿人的产品。"

难点在于如何确保其可信度。

模拟数据的问题

模拟数据有很多优势。首先,生产成本更低。Udezue 表示,你可以用软件模拟测试数千辆汽车的碰撞,但在现实生活中获得相同的结果,你必须真实地损毁这些车辆,这会耗费大量资金。

德克萨斯州立大学商业分析教授 Tahir Ekin 说,例如在训练自动驾驶汽车时,你需要捕捉一些在道路上可能遇到的不常见场景,即使这些场景不在训练数据中。他举例说明了奥斯汀国会大道桥下蝙蝠群spectacular出现的情况。这种场景可能不会出现在训练数据中,但自动驾驶汽车需要知道如何应对蝙蝠群。

风险来自于使用合成数据训练的机器如何应对真实世界的变化。Ekin 说,它不能存在于另一个现实中,否则就会变得不那么有用,甚至可能造成危险。他问道:"你会愿意乘坐一辆完全没有在真实道路上训练过,只依靠模拟数据训练的自动驾驶汽车吗?"任何使用模拟数据的系统都需要"扎根于真实世界",包括其模拟推理与实际情况的一致性反馈。

Udezue 将这个问题比作社交媒体的创建,最初是为了扩大全球通信范围,这个目标确实实现了。但他指出,社交媒体也被滥用,"现在独裁者用它来控制人民,而人们同时也用它来讲笑话。"

随着 AI 工具的规模和普及度不断提高(这一过程因使用合成训练数据而变得更容易),不可信的训练和模型与现实脱节可能带来的潜在现实影响变得更加显著。Udezue 说:"作为建设者和科学家,我们有责任再三确保系统的可靠性。这不是幻想。"

如何控制模拟数据

确保模型可信的一种方法是让训练过程透明化,用户可以根据对这些信息的评估来选择使用什么模型。与会专家反复使用营养标签的比喻,这种标签用户很容易理解。

目前已经存在一些透明度,比如通过开发者平台 Hugging Face 提供的模型卡片,其中详细介绍了不同系统的细节。芯片制造商 Nvidia 的企业生成式 AI 产品管理总监 Mike Hollinger 表示,这些信息需要尽可能清晰透明。他说:"这些措施必须到位。"

Hollinger 说,最终不仅是 AI 开发者,AI 用户也将共同定义行业最佳实践。

Udezue 表示,行业还需要考虑伦理和风险。"合成数据将使很多事情变得更容易,"他说。"它将降低构建事物的成本。但其中一些事情将改变社会。"

Udezue 说,可观察性、透明度和信任必须内置于模型中以确保其可靠性。这包括更新训练模型,使其反映准确的数据,而不是放大合成数据中的错误。一个令人担忧的问题是模型崩溃,当 AI 模型使用其他 AI 模型产生的数据进行训练时,会越来越远离现实,最终变得毫无用处。

"越是回避捕捉真实世界的多样性,响应可能就越不健康,"Udezue 说。解决方案是错误修正,他说。"如果将信任、透明度和错误修正这些理念结合起来,这些问题似乎并非无法解决。"

来源:cnet

0赞

好文章,需要你的鼓励

2025

03/11

18:09

分享

点赞

邮件订阅