人工智能是一个深奥且错综复杂的领域。该领域的科学家们常常依赖专有术语和行话来解释他们的研究内容。因此,在报道人工智能产业时,我们经常不得不使用这些技术术语。这也是我们认为制作一个术语表来定义我们文章中使用的一些最重要词汇和短语会非常有帮助的原因。
随着研究人员不断发现推动人工智能前沿的全新方法并识别新兴的安全风险,我们将定期更新此术语表,增加新词条。
AGI 人工通用智能,即 AGI,是一个模糊的概念。但通常它指的是在许多(如果不是大多数)任务上表现得比普通人更出色的 AI。OpenAI 首席执行官 Sam Altman 最近将 AGI 描述为“可以作为中等水平同事雇佣的人类对应物”。与此同时,OpenAI 的宪章将 AGI 定义为“在大多数经济上有价值的工作中超越人类的高度自主系统”。Google DeepMind 对 AGI 的理解与这两种定义略有不同;该实验室认为 AGI 是“在大多数认知任务上至少与人类同样出色的 AI”。感觉困惑吗?请放心——处于 AI 研究前沿的专家们也同样感到困惑。
AI agent AI agent 指的是一种利用 AI 技术替你执行一系列任务的工具——超出普通 AI 聊天机器人的能力,例如报销费用、预订机票或餐厅桌位,甚至编写和维护代码。然而,正如我们之前所说明的,在这个新兴领域存在许多不同的要素,因此“AI agent”对不同的人可能有不同的含义。相关基础设施仍在建设中以实现其预期功能,但其基本概念暗示着一个能够调用多个 AI 系统来完成多步骤任务的自主系统。
Chain of thought 对于一个简单的问题,人脑可以几乎不经过深思熟虑就作出回答——比如“长颈鹿和猫哪种动物更高?”但在很多情况下,你往往需要拿出纸笔来列出中间步骤以得出正确答案。例如,如果一个农场主养有鸡和牛,总共有 40 只头和 120 条腿,你可能需要写下一个简单的方程来得出答案(20 只鸡和 20 头牛)。
在 AI 语境下,大语言模型的链式思考推理意味着将问题拆解为更小的中间步骤,以提高最终结果的质量。虽然通常需要更长时间才能得到答案,但答案更有可能是正确的,尤其是在逻辑或编程问题上。通过强化学习,将传统大语言模型开发的推理模型优化为链式思考模式。 (See: Large language model)
Deep learning 深度学习是一种自我提升的机器学习子集,其中 AI 算法采用多层次的人工神经网络 (ANN) 结构设计。这使得它们能够比基于简单机器学习的系统(如线性模型或决策树)建立更复杂的关联。深度学习算法的结构借鉴了人脑中神经元密集交互的路径。
深度学习 AI 模型能够自行识别数据中的重要特征,而无需人工工程师对这些特征进行预定义。该结构同时支持算法通过重复和调整,从错误中学习并改善输出。然而,深度学习系统需要大量数据点(通常为数百万甚至更多)才能取得良好效果,而且训练时间通常比简单的机器学习算法长,因此开发成本往往更高。 (See: Neural network)
Diffusion 扩散技术是众多生成艺术、音乐和文本的 AI 模型背后的核心技术。受物理学启发,扩散系统通过添加噪声,逐步“破坏”数据(例如照片、歌曲等)的原始结构,直到数据的结构不复存在。在物理学中,扩散是自发且不可逆的——咖啡中扩散开的糖无法重新组合成方块。但 AI 中的扩散系统旨在学习一种“反向扩散”过程,以恢复被破坏的数据,从而具备从噪声中重构数据的能力。
Distillation 蒸馏是一种利用“师生”模型从大型 AI 模型中提取知识的技术。开发者向教师模型发送请求并记录其输出,有时会将生成的回答与数据集进行比对以检验准确性。这些输出随后用于训练学生模型,使其逐步逼近教师的行为模式。
蒸馏可以用于基于大型模型创建一个体量更小、效率更高的模型,同时引入的蒸馏损失极小。这很可能就是 OpenAI 开发出更快版本 GPT-4 Turbo(基于 GPT-4)的方式。虽然所有 AI 公司均在内部使用蒸馏技术,但某些公司也可能借此追赶前沿模型。不过,从竞争对手处进行蒸馏通常违反了 AI API 和聊天助手的服务条款。
Fine-tuning 微调是指对 AI 模型进行进一步训练,以优化其在比之前训练重点更为具体的任务或领域上的性能——通常通过引入全新、专门(即面向任务)的数据来实现。许多 AI 初创公司以大语言模型为起点构建商业产品,并通过基于自身领域特定的知识和专长,辅以微调来提升在目标行业或任务上的效用. (See: Large language model [LLM])
GAN GAN,即生成对抗网络,是一种机器学习框架,其在生成式 AI 中的重要突破体现在能够生产逼真的数据上(包括但不限于深度伪造工具)。GAN 采用一对神经网络,其中一个利用训练数据生成输出,然后将该输出传递至另一个模型进行评估。这个第二模型,即判别器,充当着分类器的角色,使生成器能够随着时间不断改进其输出。
GAN 的结构设置为一种竞争模式(因此被称为“对抗式”)——两个模型基本上被编程为相互超越:生成器试图让其生成的输出通过判别器的检验,而判别器则竭力识别出人工生成的数据。这种结构化的竞争可以在不需要额外人工干预的情况下,使 AI 输出更逼真。尽管 GAN 在生成逼真照片或视频等较窄领域的应用表现优异,但在通用 AI 方面则较为有限。
Hallucination 幻觉是 AI 行业内用来描述 AI 模型凭空捏造信息的术语,即生成不正确的信息。显然,这对 AI 的质量来说是一个极大的问题。
幻觉所产生的生成式 AI 输出可能会误导用户,甚至引发现实风险,后果可能十分危险(例如针对健康问题返回有害的医疗建议)。这就是为什么大多数生成式 AI 工具在细则中提醒用户验证 AI 生成的答案,尽管此类免责声明往往没有工具界面上一键生成信息时那样醒目。
人们认为,AI 捏造信息的问题源于训练数据的缺失。对于通用生成式 AI——也称为基础模型——来说,这似乎难以彻底解决。现有的数据根本不足以让 AI 模型涵盖所有可能被问及的问题。简言之:我们还没有发明上帝(还没有)。
幻觉问题正在推动人们转向日益专门化或垂直的 AI 模型——也就是针对特定领域、需要较窄专业知识的 AI,以降低知识空白和虚假信息风险。
Inference 推理是运行 AI 模型的过程,即让模型基于先前见过的数据进行预测或形成结论。需要明确的是,推理必须建立在训练的基础上;模型必须先学习到数据中的模式,才能有效地从中进行推断。
各种硬件设备都可以执行推理,从智能手机处理器到高性能 GPU,再到定制设计的 AI 加速器,但它们执行模型的能力并不完全相同。对于非常大的模型来说,在笔记本电脑上进行预测可能需要极长时间,而在配备高端 AI 芯片的云服务器上则能大大加速。 (See: Training)
Large language model (LLM) 大语言模型,或称 LLM,是流行 AI 助手(如 ChatGPT、Claude、Google 的 Gemini、Meta 的 AI Llama、Microsoft Copilot 或 Mistral 的 Le Chat)所采用的 AI 模型。当你与 AI 助手对话时,实际上是在与一个大语言模型直接交互,该模型可能通过网页浏览、代码解释器等多种工具来处理你的请求。
值得注意的是,AI 助手和大语言模型可能拥有不同的名称。例如,GPT 是 OpenAI 的大语言模型,而 ChatGPT 则是 AI 助手产品。
大语言模型是由数十亿个数字参数(或权重,参见下文)构成的深度神经网络,学习单词和短语之间的关系,从而构建起语言的表征——类似于一个多维单词地图。这些模型是通过对数十亿本书籍、文章和转录内容中发现的模式进行编码而生成的。当你向大语言模型输入提示时,模型会生成最符合提示的可能模式,并根据前文内容评估下一个最可能出现的单词,如此不断重复。 (See: Neural network)
Neural network 神经网络指的是支撑深度学习的多层次算法结构,也是大语言模型出现后生成式 AI 工具迅速发展的基础。虽然借鉴人脑中密集互联通路设计数据处理算法的理念可以追溯到上世纪 40 年代,但正是近年来视频游戏产业推动的图形处理硬件 (GPU) 的崛起,真正释放了这一理论的潜力。这些芯片非常适合训练层次远超以往的算法,从而使基于神经网络的 AI 系统在语音识别、自动导航和药物研发等诸多领域取得了显著性能提升。 (See: Large language model [LLM])
Training 训练是开发机器学习 AI 的过程。简单来说,这指的是通过输入数据,使模型能够从中学习模式并生成有用的输出。
在 AI 体系中,这一过程有时会引发一些哲学性思考——因为在训练之前,构成学习系统起点的数学结构仅仅是一堆层和随机数字。只有经过训练,AI 模型才真正成形,本质上是系统对数据特征做出响应,从而调整输出以达到预期目标——不论目标是识别猫的图像还是临时创作一首俳句。
需要注意的是,并非所有 AI 都需要训练。遵循预定义指令编程的规则型 AI(例如线性聊天机器人)无需训练,但这些系统通常比经过充分训练的自学习系统更为受限。
尽管如此,训练过程可能非常昂贵,因为它需要大量输入,而且所需数据量通常呈上升趋势。有时可以采用混合方法来缩短模型开发周期并降低成本,比如对规则型 AI 进行数据驱动的微调,这意味着所需的数据、计算、能耗和算法复杂度比从零开始构建要低。 (See: Inference)
Transfer learning 迁移学习是一种技术,通过使用先前训练好的 AI 模型作为开发新模型的起点,针对不同但通常相关的任务来重新利用先前训练周期中获得的知识。通过缩短模型开发过程,迁移学习能够大幅提升效率;当所需任务的数据相对有限时,它也非常有用。但需要注意的是,该方法存在局限性:依靠迁移学习获得通用能力的模型,往往需要在额外数据上进行训练,才能在目标领域中表现良好. (See: Fine tuning)
Weights 权重是 AI 训练的核心,因为它们决定了在用于训练的数据中,对不同特征(或输入变量)的重视程度,从而直接影响 AI 模型的输出。换句话说,权重是数值参数,用于定义在特定训练任务中,数据集中哪些特征最为显著。它们通过对输入进行乘法运算来实现这一功能。模型训练通常以随机分配的权重开始,但随着训练进行,权重会不断调整,以使模型输出更贴近预期目标。
例如,一个用于预测某一区域房价的 AI 模型,可能会基于该区域的历史房地产数据,为卧室数量、浴室数量、房屋是否独立或半独立、是否配备停车位、车库等特征设置权重。最终,模型对各输入赋予的权重反映了这些因素在所给数据集中对房产价值的影响程度。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。