如今,几乎所有前沿的 AI 产品和模型都采用 Transformer 架构。像 GPT-4、LLaMA、Gemini 和 Claude 等大语言模型都基于 Transformer,其他 AI 应用如文本转语音、自动语音识别、图像生成和文本转视频模型的底层技术也都是 Transformer。
随着 AI 热潮持续升温,是时候深入了解 Transformer 了。本文将解释它的工作原理、为什么对可扩展解决方案的发展如此重要,以及为什么它是大语言模型的支柱。
Transformer 不只是表面那么简单
简而言之,Transformer 是一种专门用于建模数据序列的神经网络架构,非常适合语言翻译、句子补全、自动语音识别等任务。Transformer 之所以成为序列建模任务的主导架构,是因为其底层的注意力机制可以轻松实现并行化,从而在训练和推理时实现大规模扩展。
Transformer 最初由 Google 研究人员在 2017 年的论文《Attention Is All You Need》中提出,作为一种专门用于语言翻译的编码器-解码器架构。次年,Google 发布了双向编码器表示 (BERT),这可以被视为最早的大语言模型之一——尽管按今天的标准来看规模较小。
自那时起——特别是在 OpenAI 的 GPT 模型问世后——训练更大模型的趋势加速发展,使用更多数据、更多参数和更长的上下文窗口。
为推动这一发展,出现了许多创新:更先进的 GPU 硬件和更好的多 GPU 训练软件;量化和专家混合 (MoE) 等降低内存消耗的技术;Shampoo 和 AdamW 等新型训练优化器;FlashAttention 和 KV Caching 等高效计算注意力的技术。这种趋势很可能在可预见的未来继续下去。
Transformer 中自注意力机制的重要性
根据应用场景的不同,Transformer 模型采用编码器-解码器架构。编码器组件学习数据的向量表示,可用于分类和情感分析等下游任务。解码器组件接收文本或图像的向量或潜在表示,用于生成新文本,适用于句子补全和摘要等任务。因此,许多熟知的最先进模型,如 GPT 系列,都只使用解码器。
编码器-解码器模型结合了这两个组件,使其适用于翻译和其他序列到序列的任务。对于编码器和解码器架构而言,核心组件是注意力层,因为它允许模型保留文本中较早出现的词语的上下文。
注意力机制有两种:自注意力和交叉注意力。自注意力用于捕捉同一序列中词语之间的关系,而交叉注意力用于捕捉两个不同序列之间词语的关系。交叉注意力在模型中连接编码器和解码器组件,在翻译过程中,例如,它允许英语单词"strawberry"与法语单词"fraise"建立联系。从数学角度看,自注意力和交叉注意力都是矩阵乘法的不同形式,可以通过 GPU 高效完成。
由于注意力层的存在,Transformer 可以更好地捕捉相距较远的词语之间的关系,而之前的模型如循环神经网络 (RNN) 和长短期记忆 (LSTM) 模型则会丢失文本前面的词语上下文。
模型的未来发展
目前,Transformer 是许多需要大语言模型的用例的主导架构,并且受益于最多的研究和开发。虽然这种情况短期内似乎不会改变,但最近一类引起关注的不同模型是状态空间模型 (SSMs),如 Mamba。这种高效算法可以处理非常长的数据序列,而 Transformer 则受限于上下文窗口。
对我来说,Transformer 模型最令人兴奋的应用是多模态模型。例如,OpenAI 的 GPT-4 能够处理文本、音频和图像,其他提供商也开始跟进。多模态应用非常多样化,涵盖视频字幕、声音克隆、图像分割等领域。它们还为残障人士提供了使 AI 更易接触的机会。例如,视障人士可以通过多模态应用的语音和音频组件进行交互。
这是一个充满机遇的领域,有望发现新的用例。但请记住,至少在可预见的未来,这些应用主要还是基于 Transformer 架构。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。