随着科技巨头宣称他们的 AI 发布是开放的——甚至将"开放"一词纳入其名称中——曾经只在业内流行的术语"开源"已经进入了现代时代精神。在这个关键时期,一家公司的失误可能会使公众对 AI 的接受度倒退十年或更长时间,开放性和透明度的概念被随意使用,有时甚至不诚实地用来培养信任。
同时,随着新的白宫政府对科技监管采取更加放手的态度,战线已经划定——创新与监管相对立,并预测如果"错误的"一方获胜将会带来严重后果。
然而,还有第三条道路,它已经在其他技术变革浪潮中被测试并证明有效。基于开放性和透明度原则的真正开源协作,即使在授权行业开发无偏见、合乎道德且有益于社会的技术的同时,也能释放更快的创新速度。
理解真正开源协作的力量
简单来说,开源软件具有可以自由查看、修改、分析、采用和分享(用于商业和非商业目的)的源代码——从历史上看,它在培养创新方面具有重大意义。例如,开源产品 Linux、Apache、MySQL 和 PHP 释放了我们所知道的互联网潜力。
现在,通过民主化对 AI 模型、数据、参数和开源 AI 工具的访问,社区可以再次释放更快的创新,而不是不断地重新创造轮子——这就是为什么 IBM 最近对 2,400 名 IT 决策者的研究显示,人们对使用开源 AI 工具来提高投资回报率的兴趣日益增长。在确定 AI 投资回报率时,更快的开发和创新位居榜首,研究还证实,采用开放解决方案可能与更大的财务可行性相关。
开源 AI 不是追求有利于少数公司的短期收益,而是邀请在不同行业和领域创建更多样化和定制化的应用程序,这些行业和领域可能没有专有模型所需的资源。
或许同样重要的是,开源的透明度允许对 AI 系统的行为和伦理进行独立审查和审计——当我们利用大众现有的兴趣和动力时,他们会发现问题和错误,就像他们在 LAION 5B 数据集事件中所做的那样。
在那个案例中,群众找出了隐藏在数据中的超过 1,000 个包含已验证儿童性虐待材料的 URL,这些数据为 Stable Diffusion 和 Midjourney 等生成式 AI 模型提供燃料——这些模型可以根据文本和图像提示生成图像,是许多在线视频生成工具和应用程序的基础。
虽然这一发现引起了轩然大波,但如果该数据集像 OpenAI 的 Sora 或 Google 的 Gemini 那样是封闭的,后果可能会更严重。很难想象如果 AI 最令人兴奋的视频创作工具开始生成令人不安的内容会引起什么样的反弹。
值得庆幸的是,LAION 5B 数据集的开放性使社区能够促使其创建者与行业监督机构合作,找到解决方案并发布 RE-LAION 5B——这说明了为什么真正开源 AI 的透明度不仅有利于用户,还有利于努力与消费者和公众建立信任的行业和创造者。
AI 中的"开源魔法"的危险
虽然单独的源代码相对容易共享,但 AI 系统比软件复杂得多。它们依赖于系统源代码,以及模型参数、数据集、超参数、训练源代码、随机数生成和软件框架——这些组件必须协同工作,AI 系统才能正常运行。
在 AI 安全性引发担忧的情况下,宣称发布是开放的或开源的已经变得很普遍。然而,要使这一说法准确,创新者必须共享拼图的所有部分,以便其他参与者可以完全理解、分析和评估 AI 系统的属性,最终复制、修改和扩展其功能。
例如,Meta 吹嘘 Llama 3.1 405B 是"第一个前沿级开源 AI 模型",但只公开共享了系统的预训练参数(或权重)和一些软件。虽然这允许用户随意下载和使用该模型,但关键组件如源代码和数据集仍然保持封闭——这在 Meta 宣布将 AI 机器人资料注入以太中,同时停止审核内容准确性的情况下变得更加令人担忧。
公平地说,被分享的内容确实对社区有所贡献。开放权重模型提供了灵活性、可访问性、创新性和一定程度的透明度。例如,DeepSeek 决定开源其权重,发布其 R1 技术报告并免费使用,这使 AI 社区能够研究和验证其方法并将其融入他们的工作中。
然而,当没有人能够真正查看、试验和理解创建它的每个拼图块时,将 AI 系统称为开源是误导性的。
这种误导不仅威胁公众信任。它不是让社区中的每个人都能在像 Llama X 这样的模型基础上进行协作、构建和改进,而是迫使使用此类 AI 系统的创新者盲目相信未共享的组件。
迎接我们面临的挑战
随着自动驾驶汽车在主要城市上路,AI 系统在手术室辅助外科医生,我们才刚刚开始让这项技术接管象征性的方向盘。承诺是巨大的,出错的可能性也很大——这就是为什么我们需要新的衡量标准来定义在 AI 世界中什么是值得信赖的。
例如,即使斯坦福大学的 Anka Reuel 和同事最近尝试为用于评估模型表现的 AI 基准建立新框架,行业和公众依赖的审查实践仍然不够充分。基准测试未能考虑到学习系统核心的数据集在不断变化,以及适当的指标因用例而异。该领域还缺乏丰富的数学语言来描述当代 AI 的能力和局限性。
通过共享整个 AI 系统以实现开放性和透明度,而不是依赖不充分的评审和对流行词汇的敷衍了事,我们可以促进更大的协作,并培养具有安全和道德开发的 AI 的创新。
虽然真正的开源 AI 提供了实现这些目标的经验证框架,但行业中存在令人担忧的透明度缺失。如果没有科技公司的大胆领导和合作来自我管理,这种信息差距可能会损害公众信任和接受度。拥抱开放性、透明度和开源不仅仅是一个强大的商业模式——它也是在一个有利于所有人而不仅仅是少数人的 AI 未来之间做出选择。
好文章,需要你的鼓励
科技领袖Pat Gelsinger加入Gloo创业公司,致力于为信仰社区开发价值导向的AI技术平台,探索科技如何成为促进社会正向发展的力量。
科技巨头和初创公司正在开发人形机器人,利用先进AI模型赋能机器人可以执行家务和物流工作,但仍面临诸多技术和信任挑战。
来自加州帕洛阿尔托的 AI 初创公司 Reve AI 正式发布了 Reve Image 1.0 文本生成图像模型。该模型在提示词遵循度、美学效果和文字渲染方面表现出色,目前可在 preview.reve.art 免费体验。作为该公司的首个产品,Reve Image 凭借其卓越的性能已跃居第三方基准测试榜首,超越了包括 Midjourney v6.1 和 Google Imagen 3 在内的多个竞品。
OpenAI 终于为其旗舰聊天机器人 ChatGPT 启用了 GPT-4o 的原生多模态图像生成功能。与传统的 DALL-E 3 相比,这项新功能作为同一模型的一部分,能够同时理解和生成文本、代码和图像,展现出更高质量的图像生成能力和更准确的文字渲染效果,已经获得用户的高度赞誉。