目前像 ChatGPT 和 Gemini 这样的生成式 AI 模型都是通过大量真实世界数据进行训练的,但即便互联网上的所有内容也不足以让模型应对所有可能出现的情况。
为了持续发展,这些模型需要使用模拟或合成数据进行训练,这些数据虽然是合理的但并非真实存在的场景。在西南偏南 (SXSW) 大会的一个专家讨论会上指出,AI 开发者需要负责任地完成这项工作,否则可能会迅速失控。
今年以来,在 AI 模型训练中使用模拟数据的方式受到新的关注,这源于中国推出的新模型 DeepSeek AI。该模型使用了比其他模型更多的合成数据进行训练,从而节省了资金和计算资源。
专家表示,这不仅仅是为了节省数据收集和处理成本。合成数据 (通常由 AI 自己生成) 可以教会模型一些在已有真实数据中不存在,但未来可能遇到的场景。如果模型已经见过某种情况的模拟,那么即使是百万分之一的可能性也不会让 AI 模型措手不及。
"有了模拟数据,你就可以摆脱边缘案例的困扰,前提是这些数据是可信的,"曾在 Twitter、Atlassian、Microsoft 等公司领导产品团队的 Oji Udezue 说道。他和其他专家在德克萨斯州奥斯汀举行的 SXSW 大会上发表演讲。"理论上,只要我们能够信任它,我们就可以构建一个适用于 80 亿人的产品。"
难点在于如何确保其可信度。
模拟数据的问题
模拟数据有很多优势。首先,生产成本更低。Udezue 表示,你可以用软件模拟测试数千辆汽车的碰撞,但在现实生活中获得相同的结果,你必须真实地损毁这些车辆,这会耗费大量资金。
德克萨斯州立大学商业分析教授 Tahir Ekin 说,例如在训练自动驾驶汽车时,你需要捕捉一些在道路上可能遇到的不常见场景,即使这些场景不在训练数据中。他举例说明了奥斯汀国会大道桥下蝙蝠群spectacular出现的情况。这种场景可能不会出现在训练数据中,但自动驾驶汽车需要知道如何应对蝙蝠群。
风险来自于使用合成数据训练的机器如何应对真实世界的变化。Ekin 说,它不能存在于另一个现实中,否则就会变得不那么有用,甚至可能造成危险。他问道:"你会愿意乘坐一辆完全没有在真实道路上训练过,只依靠模拟数据训练的自动驾驶汽车吗?"任何使用模拟数据的系统都需要"扎根于真实世界",包括其模拟推理与实际情况的一致性反馈。
Udezue 将这个问题比作社交媒体的创建,最初是为了扩大全球通信范围,这个目标确实实现了。但他指出,社交媒体也被滥用,"现在独裁者用它来控制人民,而人们同时也用它来讲笑话。"
随着 AI 工具的规模和普及度不断提高(这一过程因使用合成训练数据而变得更容易),不可信的训练和模型与现实脱节可能带来的潜在现实影响变得更加显著。Udezue 说:"作为建设者和科学家,我们有责任再三确保系统的可靠性。这不是幻想。"
如何控制模拟数据
确保模型可信的一种方法是让训练过程透明化,用户可以根据对这些信息的评估来选择使用什么模型。与会专家反复使用营养标签的比喻,这种标签用户很容易理解。
目前已经存在一些透明度,比如通过开发者平台 Hugging Face 提供的模型卡片,其中详细介绍了不同系统的细节。芯片制造商 Nvidia 的企业生成式 AI 产品管理总监 Mike Hollinger 表示,这些信息需要尽可能清晰透明。他说:"这些措施必须到位。"
Hollinger 说,最终不仅是 AI 开发者,AI 用户也将共同定义行业最佳实践。
Udezue 表示,行业还需要考虑伦理和风险。"合成数据将使很多事情变得更容易,"他说。"它将降低构建事物的成本。但其中一些事情将改变社会。"
Udezue 说,可观察性、透明度和信任必须内置于模型中以确保其可靠性。这包括更新训练模型,使其反映准确的数据,而不是放大合成数据中的错误。一个令人担忧的问题是模型崩溃,当 AI 模型使用其他 AI 模型产生的数据进行训练时,会越来越远离现实,最终变得毫无用处。
"越是回避捕捉真实世界的多样性,响应可能就越不健康,"Udezue 说。解决方案是错误修正,他说。"如果将信任、透明度和错误修正这些理念结合起来,这些问题似乎并非无法解决。"
好文章,需要你的鼓励
据报道,Meta 正在加速其 AI 开发,测试首款自家设计的 AI 训练芯片。此举旨在降低庞大的基础设施成本,并减少对 NVIDIA 的依赖。Meta 希望在 2026 年之前能够使用该芯片进行训练。该专用加速器芯片专注于 AI 任务,能效高于通用的 NVIDIA GPU。Meta 的 MTIA 系列芯片专注于生成式 AI、推荐系统和高级研究,计划将其用于 Facebook 和 Instagram 的推荐系统,并最终应用于生成产品,如 Meta AI 聊天机器人。
金融服务业正面临数据爆炸式增长,预计到2026年将达到221,000艾字节。为应对这一挑战,行业正加速采用AI技术,以提高运营效率、生产力和降低成本。然而,AI的部署也带来了数据中心基础设施方面的新需求。本文探讨了金融服务业如何通过AI就绪的数据中心战略来应对数据重力挑战,实现数据本地化,并加速AI部署。
诺基亚在美国光纤网络市场取得重要进展,与两家互联网服务提供商签署合作协议。Outer Reach Broadband将在缅因州农村地区部署下一代光纤网络,BerryComm则将在印第安纳州中部为数千家企业提供高速互联网连接。这些项目旨在缩小数字鸿沟,促进当地经济发展,并为用户提供更快速、可靠的互联网服务。
Altera 正式推出新一代 Agilex 3 FPGA 芯片系列,旨在拓展智能边缘计算的边界。这款芯片相比前代产品性能提升 1.9 倍,功耗降低 38%,可应用于机器人、工厂自动化系统和医疗设备等多个领域。作为独立公司后的首次重要产品发布,展现了 Altera 在 FPGA 领域的创新实力。