生成式 AI 需要合成数据，我们需要确保其可信度

生成式 AI 模型需要大量真实数据训练，但互联网上的内容仍不足以应对所有情况。为继续发展，这些模型需要使用模拟或合成数据进行训练。专家指出，AI 开发者必须负责任地使用合成数据，否则可能会迅速出现问题。合成数据可以教导模型应对现有数据中不存在的场景，但关键是要确保这些数据可靠且符合现实。

目前像 ChatGPT 和 Gemini 这样的生成式 AI 模型都是通过大量真实世界数据进行训练的，但即便互联网上的所有内容也不足以让模型应对所有可能出现的情况。

为了持续发展，这些模型需要使用模拟或合成数据进行训练，这些数据虽然是合理的但并非真实存在的场景。在西南偏南 (SXSW) 大会的一个专家讨论会上指出，AI 开发者需要负责任地完成这项工作，否则可能会迅速失控。

今年以来，在 AI 模型训练中使用模拟数据的方式受到新的关注，这源于中国推出的新模型 DeepSeek AI。该模型使用了比其他模型更多的合成数据进行训练，从而节省了资金和计算资源。

专家表示，这不仅仅是为了节省数据收集和处理成本。合成数据 (通常由 AI 自己生成) 可以教会模型一些在已有真实数据中不存在，但未来可能遇到的场景。如果模型已经见过某种情况的模拟，那么即使是百万分之一的可能性也不会让 AI 模型措手不及。

"有了模拟数据，你就可以摆脱边缘案例的困扰，前提是这些数据是可信的，"曾在 Twitter、Atlassian、Microsoft 等公司领导产品团队的 Oji Udezue 说道。他和其他专家在德克萨斯州奥斯汀举行的 SXSW 大会上发表演讲。"理论上，只要我们能够信任它，我们就可以构建一个适用于 80 亿人的产品。"

难点在于如何确保其可信度。

模拟数据的问题

模拟数据有很多优势。首先，生产成本更低。Udezue 表示，你可以用软件模拟测试数千辆汽车的碰撞，但在现实生活中获得相同的结果，你必须真实地损毁这些车辆，这会耗费大量资金。

德克萨斯州立大学商业分析教授 Tahir Ekin 说，例如在训练自动驾驶汽车时，你需要捕捉一些在道路上可能遇到的不常见场景，即使这些场景不在训练数据中。他举例说明了奥斯汀国会大道桥下蝙蝠群spectacular出现的情况。这种场景可能不会出现在训练数据中，但自动驾驶汽车需要知道如何应对蝙蝠群。

风险来自于使用合成数据训练的机器如何应对真实世界的变化。Ekin 说，它不能存在于另一个现实中，否则就会变得不那么有用，甚至可能造成危险。他问道："你会愿意乘坐一辆完全没有在真实道路上训练过，只依靠模拟数据训练的自动驾驶汽车吗？"任何使用模拟数据的系统都需要"扎根于真实世界"，包括其模拟推理与实际情况的一致性反馈。

Udezue 将这个问题比作社交媒体的创建，最初是为了扩大全球通信范围，这个目标确实实现了。但他指出，社交媒体也被滥用，"现在独裁者用它来控制人民，而人们同时也用它来讲笑话。"

随着 AI 工具的规模和普及度不断提高（这一过程因使用合成训练数据而变得更容易），不可信的训练和模型与现实脱节可能带来的潜在现实影响变得更加显著。Udezue 说："作为建设者和科学家，我们有责任再三确保系统的可靠性。这不是幻想。"

如何控制模拟数据

确保模型可信的一种方法是让训练过程透明化，用户可以根据对这些信息的评估来选择使用什么模型。与会专家反复使用营养标签的比喻，这种标签用户很容易理解。

目前已经存在一些透明度，比如通过开发者平台 Hugging Face 提供的模型卡片，其中详细介绍了不同系统的细节。芯片制造商 Nvidia 的企业生成式 AI 产品管理总监 Mike Hollinger 表示，这些信息需要尽可能清晰透明。他说："这些措施必须到位。"

Hollinger 说，最终不仅是 AI 开发者，AI 用户也将共同定义行业最佳实践。

Udezue 表示，行业还需要考虑伦理和风险。"合成数据将使很多事情变得更容易，"他说。"它将降低构建事物的成本。但其中一些事情将改变社会。"

Udezue 说，可观察性、透明度和信任必须内置于模型中以确保其可靠性。这包括更新训练模型，使其反映准确的数据，而不是放大合成数据中的错误。一个令人担忧的问题是模型崩溃，当 AI 模型使用其他 AI 模型产生的数据进行训练时，会越来越远离现实，最终变得毫无用处。

"越是回避捕捉真实世界的多样性，响应可能就越不健康，"Udezue 说。解决方案是错误修正，他说。"如果将信任、透明度和错误修正这些理念结合起来，这些问题似乎并非无法解决。"

来源：cnet

0赞

好文章，需要你的鼓励

生成式 AI 需要合成数据，我们需要确保其可信度

来源：cnet

2025

03/11

18:09

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: