长期以来,至少从 AI 的角度来看,人们一直在讨论大语言模型的黑盒问题。
人类天性就想要完全理解事物 - 想要看清机器的内部运作机制,无论是时钟、计算器还是机器人。
但在当今世界,有些事物我们无法完全观察。换句话说,某些复杂系统往往难以分析。
探索 AI 的冒险
我正在阅读 Alexander Kruel 在 Substack 上发表的一篇文章,他对 Claude 及其推理能力提出了一些惊人的见解,引用了一个大型团队撰写的有关该模型的一些内部资料。
看看他对这个大语言模型能力的推断中的这一要点:
"Claude 可以说数十种语言 - (它在'大脑'中使用的是什么语言,如果有的话?)"
在我深入探讨大语言模型和语言语法的具体观点之前,我想指出论文作者承认,在以这种方式探索 AI 的意识时,他们是借鉴了传统神经科学和人脑研究的方法。用他们的话说(同样来自十多位作者):
"我们从神经科学领域获得灵感,该领域长期以来一直在研究思维生物的复杂内部机制,我们试图构建一种 AI 显微镜,让我们能够识别活动模式和信息流。仅仅通过与 AI 模型对话能学到的东西是有限的——毕竟,人类(即使是神经科学家)也不完全了解我们自己大脑的运作方式。所以我们要深入内部观察。"
我认为这很贴切:是的,有机人脑确实是"复杂"的 - 这是肯定的。
那么,当你将这个 AI 显微镜应用于模型的行为时,你会看到什么?
以下是作者指出的三点,我认为这些对理解这些模型如何工作至关重要。
思维语言
首先,在研究了 Claude 3.5 Haiku 之后,一些参与该项目的人认为,Claude 有自己的通用"思维语言",这种语言结合了多种世界语言。
他们写道:"我们通过将简单句子翻译成多种语言,并追踪 Claude 处理这些句子时的重叠方式来证明这一点。"
就模型的思维方式而言,这本身就是一个重大发现。我们中的许多人可能会认为它们主要用英语思考。但这种实践探索表明情况并非如此。
例如,研究追踪了英语、中文和法语中"big"或"large"这些词的使用,并进行比较,显示了模型工作中产生这些重叠模式的各个方面。
照亮 Claude 的大脑
这里另一个重要的见解是,人类科学家无法看到 Claude 所做的一切,只能看到一部分。
他们写道:"我们认识到我们当前方法的局限性。即使在简短的提示下,我们的方法也只能捕捉到 Claude 执行的总计算的一小部分,而且我们看到的机制可能会基于我们的工具产生一些不能反映底层模型实际情况的假象。"
还有进一步的解释:
"即使对于只有几十个词的提示,目前需要几个小时的人力才能理解我们看到的电路。要扩展到支持现代模型使用的复杂思维链的数千个词,我们需要改进方法,并且(可能在 AI 的帮助下)改进我们理解所见的方式。"
为什么会这样?为什么人类不能直接读取模型的输出?一种解释是这不是线性编程。在线性编程中,你可以一步一步地观察,看到机器在做的每一件事。但正如我在过去三四年参加的大多数会议和讲座中指出的那样,我们现在已经超越了这个阶段。
探索语言之外
这里有一点与语法关系不大,而是更多地关系到当你观察大语言模型行为时在研究什么。
作为一个典型的例子,作者注意到模型通常会"回避"某些话题或对话方向,除非有什么因素抑制其默认响应,否则会拒绝回答问题。我们知道机器经常被"编程"以确保安全,远离暴力或令人反感的路径,但这似乎又远不止于此,涉及机器"偏好"拒绝某些提示。
了解那个"什么"是什么,什么是刺激因素,将有助于理解机器何时选择回答人类问题。仅此一点就将大大推进人工神经学的研究。
值得再次指出的是,就像我们无法完全理解 AI 在认知上在做什么一样,我们也不能完全理解我们的大脑在认知上在做什么。
所以在观察人类思维和 AI 思维时存在某种对等性。也许我们无法完全理解所有这些数字神经元在做什么是很恰当的。我们能做的是从外部进行观察,通过实践获取信息。
所有这些都为人们现在使用革命性模型的工作提供了信息。随着我们发现更多关于它们能力的信息,能够追踪 AI 思维的"如何"将变得非常有价值。
好文章,需要你的鼓励
该文章介绍了知名电竞组织 Evil Geniuses 与 Theta Labs 合作推出的新型 AI 聊天机器人 Meesh,通过先进云计算和数据算法,让粉丝可以全天候互动,体验电竞文化与互动娱乐的新方式。
Alphabet第一季度业绩大幅超预期,营收与净利润双双攀升,其中云计算增长亮眼,AI创新和搜索广告业务同样表现稳健。
Adobe 推出了新版文本到图像生成AI模型—Firefly 图像模型4及其 Ultra 版本,支持高达2K分辨率的图像生成,并在 Photoshop、Illustrator 等 Creative Cloud 应用中进行更新,同时集成第三方AI模型供实验使用。