近日,Google 与计算机历史博物馆 (CHM) 联合发布了 AlexNet 的源代码。这个卷积神经网络 (CNN) 被普遍认为在 2012 年彻底改变了 AI 领域,它证明了"深度学习"能够实现传统 AI 技术无法达到的目标。
深度学习使用多层神经网络,可以在没有显式编程的情况下从数据中学习,这与传统依赖手工制定规则和特征的 AI 方法有着显著的区别。
这份 Python 代码现已在 CHM 的 GitHub 页面上作为开源软件发布,为 AI 爱好者和研究人员提供了一个了解计算历史关键时刻的机会。AlexNet 之所以成为 AI 发展的分水岭,是因为它能以前所未有的准确度识别照片中的物体——可以将图像正确分类为"草莓"、"校车"或"金毛寻回犬"等 1000 个类别之一,错误率显著低于此前的系统。
就像查看原始 ENIAC 电路或巴贝奇差分机的设计图一样,研究 AlexNet 的代码可能会让未来的历史学家深入了解这个相对简单的实现是如何引发了改变世界的技术。虽然深度学习推动了医疗保健、科学研究和辅助工具的进步,但它也促成了一些令人担忧的发展,如换脸技术、自动监控和可能导致的大规模就业替代。
但在 2012 年,这些负面影响对许多人来说仍然像是遥远的科幻梦。相反,专家们只是惊叹于计算机终于能够以接近人类的准确度识别图像。
教会计算机"看"
正如 CHM 在其详细的博客文章中所解释的,AlexNet 源于多伦多大学研究生 Alex Krizhevsky 和 Ilya Sutskever,以及他们的导师 Geoffrey Hinton 的工作。该项目证明了深度学习可以超越传统的计算机视觉方法。
这个神经网络在 2012 年的 ImageNet 竞赛中胜出,其识别照片中物体的能力远超任何之前的方法。计算机视觉领域的资深专家 Yann LeCun 在意大利佛罗伦萨参加演示时立即认识到了它的重要性,据报道他在演示后站起来宣称 AlexNet 是"计算机视觉历史上一个明确的转折点"。正如 Ars 在 11 月详细报道的那样,AlexNet 标志着定义现代 AI 的三项关键技术的融合。
根据 CHM 的说法,博物馆在 2020 年开始努力获取这份具有历史意义的代码,当时 Hansen Hsu (CHM 的策展人) 联系 Krizhevsky,希望因其历史重要性而发布源代码。由于 Google 在 2013 年收购了他们的公司 DNNresearch,因此拥有知识产权。
博物馆与 Google 进行了五年的谈判,以确定发布事宜,并仔细识别哪个特定版本代表了 2012 年的原始实现——这是一个重要的区别,因为网上存在许多标记为"AlexNet"的重现版本,但它们并非突破性成果中使用的真实代码。
AlexNet 的工作原理
虽然 AlexNet 对 AI 的影响现在已成为传奇,但了解其背后的技术创新有助于解释为什么它代表着如此重要的时刻。这个突破并非源于任何单一的革命性技术,而是优雅地结合了此前独立发展的现有技术。
该项目结合了三个此前独立的组件:深度神经网络、海量图像数据集和图形处理单元 (GPU)。深度神经网络构成了 AlexNet 的核心架构,具有多个层次,可以学习越来越复杂的视觉特征。该网络以实现系统并执行大量训练过程的 Krizhevsky 命名。
与传统的需要程序员手动指定在图像中寻找什么特征的 AI 系统不同,这些深度网络可以自动发现不同抽象层次的模式——从早期层的简单边缘和纹理到深层的复杂物体部件。虽然 AlexNet 使用专门用于处理网格状数据(如图像)的 CNN 架构,但今天的 AI 系统如 ChatGPT 和 Claude 主要依赖于 Transformer 模型。这些模型是 Google Research 在 2017 年的发明,通过称为"注意力"的机制擅长处理序列数据并捕捉文本和其他媒体中的长程依赖关系。
在训练数据方面,AlexNet 使用了由斯坦福大学教授李飞飞博士在 2006 年启动的 ImageNet 数据库。李收集了数百万张互联网图像,并使用称为 WordNet 的数据库进行组织。Amazon Mechanical Turk 平台的工作者帮助标注这些图像。
该项目需要强大的计算能力来处理这些数据。Krizhevsky 在他父母家的卧室里的电脑上安装了两块 Nvidia 显卡来运行训练过程。神经网络执行许多并行的矩阵计算,这些任务正是显卡擅长处理的。在黄仁勋的领导下,Nvidia 通过其在 2007 年发布的 CUDA 软件使其显卡可以用于非图形任务的编程。
AlexNet 的影响远超计算机视觉领域。深度学习神经网络现在为语音合成、游戏系统、语言模型和图像生成器提供动力。它们也导致了一些可能破坏社会的影响,如在社交网络中充斥 AI 生成的垃圾内容、为欺凌者提供便利,以及可能改变历史记录。
他们现在在哪里?
在突破性成果发布 13 年后,AlexNet 的创造者们已经将他们的专业知识用于不同的方向,每个人都以独特的方式为该领域做出贡献。
在 AlexNet 取得成功后,Krizhevsky、Sutskever 和 Hinton 成立了 DNNresearch Inc.,该公司在 2013 年被 Google 收购。此后,每个团队成员都走上了不同的道路。Sutskever 在 2015 年共同创立了 OpenAI,该公司在 2022 年发布了 ChatGPT,最近又创立了 Safe Superintelligence (SSI),这家初创公司已获得 10 亿美元的融资。Krizhevsky 在 2017 年离开 Google,在 Dessa 开发新的深度学习技术。
Hinton 因警告未来 AI 系统的潜在危险而获得赞誉和争议,他在 2023 年从 Google 辞职,以便能够自由地讨论这个话题。去年,Hinton 与 John J. Hopfield 一起因其在 20 世纪 80 年代初的机器学习基础性工作而获得 2024 年诺贝尔物理学奖,这让科学界感到震惊。
关于谁对 AlexNet 的贡献最大,Hinton 以其特有的幽默向计算机历史博物馆描述了项目角色:"Ilya 认为我们应该做这个,Alex 使它成功运行,而我获得了诺贝尔奖。"
好文章,需要你的鼓励
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
Meta以143亿美元投资Scale AI,获得49%股份,这是该公司在AI竞赛中最重要的战略举措。该交易解决了Meta在AI发展中面临的核心挑战:获取高质量训练数据。Scale AI创始人王亚历山大将加入Meta领导新的超级智能研究实验室。此次投资使Meta获得了Scale AI在全球的数据标注服务,包括图像、文本和视频处理能力,同时限制了竞争对手的数据获取渠道。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。