如今,几乎所有前沿的 AI 产品和模型都采用 Transformer 架构。像 GPT-4、LLaMA、Gemini 和 Claude 等大语言模型都基于 Transformer,其他 AI 应用如文本转语音、自动语音识别、图像生成和文本转视频模型的底层技术也都是 Transformer。
随着 AI 热潮持续升温,是时候深入了解 Transformer 了。本文将解释它的工作原理、为什么对可扩展解决方案的发展如此重要,以及为什么它是大语言模型的支柱。
Transformer 不只是表面那么简单
简而言之,Transformer 是一种专门用于建模数据序列的神经网络架构,非常适合语言翻译、句子补全、自动语音识别等任务。Transformer 之所以成为序列建模任务的主导架构,是因为其底层的注意力机制可以轻松实现并行化,从而在训练和推理时实现大规模扩展。
Transformer 最初由 Google 研究人员在 2017 年的论文《Attention Is All You Need》中提出,作为一种专门用于语言翻译的编码器-解码器架构。次年,Google 发布了双向编码器表示 (BERT),这可以被视为最早的大语言模型之一——尽管按今天的标准来看规模较小。
自那时起——特别是在 OpenAI 的 GPT 模型问世后——训练更大模型的趋势加速发展,使用更多数据、更多参数和更长的上下文窗口。
为推动这一发展,出现了许多创新:更先进的 GPU 硬件和更好的多 GPU 训练软件;量化和专家混合 (MoE) 等降低内存消耗的技术;Shampoo 和 AdamW 等新型训练优化器;FlashAttention 和 KV Caching 等高效计算注意力的技术。这种趋势很可能在可预见的未来继续下去。
Transformer 中自注意力机制的重要性
根据应用场景的不同,Transformer 模型采用编码器-解码器架构。编码器组件学习数据的向量表示,可用于分类和情感分析等下游任务。解码器组件接收文本或图像的向量或潜在表示,用于生成新文本,适用于句子补全和摘要等任务。因此,许多熟知的最先进模型,如 GPT 系列,都只使用解码器。
编码器-解码器模型结合了这两个组件,使其适用于翻译和其他序列到序列的任务。对于编码器和解码器架构而言,核心组件是注意力层,因为它允许模型保留文本中较早出现的词语的上下文。
注意力机制有两种:自注意力和交叉注意力。自注意力用于捕捉同一序列中词语之间的关系,而交叉注意力用于捕捉两个不同序列之间词语的关系。交叉注意力在模型中连接编码器和解码器组件,在翻译过程中,例如,它允许英语单词"strawberry"与法语单词"fraise"建立联系。从数学角度看,自注意力和交叉注意力都是矩阵乘法的不同形式,可以通过 GPU 高效完成。
由于注意力层的存在,Transformer 可以更好地捕捉相距较远的词语之间的关系,而之前的模型如循环神经网络 (RNN) 和长短期记忆 (LSTM) 模型则会丢失文本前面的词语上下文。
模型的未来发展
目前,Transformer 是许多需要大语言模型的用例的主导架构,并且受益于最多的研究和开发。虽然这种情况短期内似乎不会改变,但最近一类引起关注的不同模型是状态空间模型 (SSMs),如 Mamba。这种高效算法可以处理非常长的数据序列,而 Transformer 则受限于上下文窗口。
对我来说,Transformer 模型最令人兴奋的应用是多模态模型。例如,OpenAI 的 GPT-4 能够处理文本、音频和图像,其他提供商也开始跟进。多模态应用非常多样化,涵盖视频字幕、声音克隆、图像分割等领域。它们还为残障人士提供了使 AI 更易接触的机会。例如,视障人士可以通过多模态应用的语音和音频组件进行交互。
这是一个充满机遇的领域,有望发现新的用例。但请记住,至少在可预见的未来,这些应用主要还是基于 Transformer 架构。
好文章,需要你的鼓励
Cato Networks 推出全球首个基于 SASE 的局域网新一代防火墙 (NGFW),实现了局域网和云防火墙的完全融合。该方案旨在解决企业平均需要 55 天才能修复 50% 关键漏洞的问题,通过自更新和自维护功能,消除了手动打补丁和紧急修复的需求,为企业提供始终最新的安全防护。
WhatsApp 正在测试新的消息主题功能,该功能将允许用户更好地组织和跟踪群聊中的对话。继上月推出彩色聊天主题、关联社交媒体账号以及支持图片和语音的 ChatGPT 功能后,这项新功能将进一步提升用户体验,特别是在繁忙的群聊中追踪特定话题时更为便捷。
Orange 与卫星运营商 Telesat 建立战略商业合作伙伴关系,通过在法国贝尔塞奈昂奥特建设 Telesat Lightspeed 地面站,结合 Orange 在 26 个国家和地区的地面站网络,为偏远地区提供低延迟、安全可靠的卫星通信服务。此次合作将增强 Orange 的全球数字基础设施韧性,促进偏远地区的数字包容。
世界宽带协会 (WBBA) 研究表明,人工智能在网络领域已发挥重要作用,特别是在宽带部署前期阶段的应用可以优化基础设施投资并提升收益。同时,Net5.5G 网络架构的全球应用案例,以及 Wi-Fi 通话等新技术的发展,都将推动下一代智能互联网络的实现。