生成式AI使用文本图像而非纯文本作为Token的惊人创新

研究人员提出一种颠覆传统的AI设计思路:将输入文本先转换为图像,再送入AI处理,而非直接使用纯文本。这种方法基于标记化压缩的需求,因为当前大语言模型受限于标记数量限制。实验显示,通过图像压缩可实现10倍压缩率,精度达96%。虽然这种方法看似反直觉,但在处理多语言文本和提高标记效率方面展现潜力,为突破AI内存限制提供新思路。

今天,我要探讨一个相当创新的想法,它巧妙地颠覆了生成式AI和大语言模型的传统设计。简单来说,考虑这样一个大胆的概念:与其让生成式AI直接接收纯文本,不如先将文本捕获为图像,然后将图像输入到AI中。

什么?

对于任何了解大语言模型技术基础的人来说,这似乎完全不同寻常且违反直觉。你可能已经在大声喊叫这毫无意义。原因如下:大语言模型被设计用来处理英语等自然语言,因此大量使用文本。文本是我们通常向大语言模型输入提示和问题的方式。选择使用文本图像代替实际文本,必须是一个荒谬的概念。简直是亵渎。

请稳住,因为一些认真的研究人员尝试了这种方法,并且有足够的价值让我们给这个奇思妙想一些认真的关注。

让我们谈论一下。

Token化至关重要

问题的核心涉及现代生成式AI和大语言模型的Token化方面。当你向AI输入文本时,文本会被转换为各种数字。然后这些数字在处理你的提示的其余过程中被处理。一旦AI得出答案,答案实际上是数字格式的,需要转换回文本,以便用户可读。AI继续将数字转换为文本并相应地显示响应。

整个过程被称为Token化。你输入的文本被编码为一组数字。这些数字被称为Token。数字,或者我们可以说Token,在AI中流动并用于找出你问题的答案。响应最初是Token的数字格式,需要解码回文本。

幸运的是,普通用户对Token化过程毫不知情。他们不需要了解它。这个话题对AI开发者极其重要,但对公众兴趣不大。经常采用各种数字技巧来尝试使Token化过程尽可能快,这样AI就不会在需要发生的编码和解码过程中被拖慢。

Token是一个问题

我提到公众通常不了解大语言模型的Token化方面。但情况并非总是如此。任何将AI推向极限的人可能都模糊地意识到Token和Token化。

事情是这样的。

大多数当代大语言模型,如OpenAI的ChatGPT和GPT-5、Anthropic Claude、Meta Llama、Google Gemini、xAI Grok等,由于它们一次能够充分处理的Token数量而受到一定限制。当ChatGPT首次爆红时,单次对话中允许的Token数量相当有限。

你会粗鲁地发现这个事实,因为ChatGPT突然不再能够回忆你对话的早期部分。这是由于AI在一次可以存在多少活跃Token上撞墙了。来自你对话早期的Token被立即丢弃。

如果你进行任何冗长和复杂的对话,这些限制是令人恼火的,几乎排除了生成式AI的任何大规模使用。你被限制在相对较短的对话中。当你通过RAG等方法导入文本时也出现了同样的问题。文本必须被Token化,并再次计入AI可以处理的活跃Token阈值。

对那些梦想使用生成式AI进行大规模问题解决的人来说,这是令人发狂的。

限制更高但仍然存在

ChatGPT的早期版本在任何时候的活跃Token限制少于10,000个。如果你将Token视为代表一个小词,如"the"或"dog",这意味着一旦你的对话消耗了大约一万个简单单词,你就会撞墙。对于任何冗长或复杂的使用来说,这在当时是无法忍受的。

如今,GPT-5的传统版本有大约400,000个Token的上下文窗口。这被认为是与输入Token和输出Token作为组合总计相关的总容量。上下文窗口大小可能有所不同。例如,Claude在某些模型上的限制约为200,000个Token,而其他模型则进一步扩展到约500,000个Token。

对未来的愿景是不会有与允许的Token数量相关的任何限制。在AI中有关于所谓无限或无穷记忆的最先进工作,这将几乎启用任何数量的Token。当然,在实际意义上,只能存在这么多服务器内存;因此,它不是真正无限的,但这个说法是吸引人的并且相当公平。

应对Token问题

因为Token化是大多数大语言模型设计和使用的核心,已经投入了大量努力来尝试优化Token化方面。目标是以某种方式使Token更小,如果可能的话,允许在系统具有的任何内存约束内存在更多Token。

AI设计师反复寻求压缩Token。这样做可能是一个很大的帮助。而Token窗口可能习惯性地限制在200,000个Token,如果你能将每个Token降低到其通常大小的一半,你可以将限制加倍到400,000个Token。很好。

与Token压缩相关有一个令人烦恼的问题。通常,是的,你可以将它们压缩到更小的尺寸,但当你这样做时,精度会受到损害。这很糟糕。在它们仍然可行和可用的意义上,它可能不会过度糟糕。这完全取决于牺牲了多少精度。

理想情况下,你会希望最大可能的压缩并以100%的精度保留做到这一点。这是一个崇高的目标。可能是你需要权衡压缩级别与精度准确性。就像生活中的大多数事情一样,从来没有免费的午餐。

让你大吃一惊

假设我们允许自己跳出框框思考。

大语言模型的通常方法是接受纯文本,将文本编码为Token,并以我们愉快的方式继续。我们几乎总是通过逻辑和自然地假设来自用户的输入将是纯文本来开始我们关于Token化的思维过程。他们通过键盘输入文本,文本就是转换为Token的内容。这是一种直截了当的方法。

考虑我们还能做什么。

看似从左场出来,假设我们将文本视为图像。

你已经知道你可以拍摄文本的照片,然后进行光学扫描,要么保持为图像,要么稍后转换为文本。这个过程是一个长期存在的实践,称为OCR(光学字符识别)。OCR从计算机的早期就已经存在。

通常的OCR过程包括将图像转换为文本,被称为图像到文本。有时你可能想要做相反的事,即你有文本并想要将文本转换为图像,这是文本到图像处理。有很多很多现有的软件应用程序乐意进行图像到文本和文本到图像。这是老套路。

这是关于大语言模型和Token化的疯狂想法。

我们仍然让人们输入文本,但我们将该文本转换为图像(即文本到图像)。接下来,文本图像被Token编码器使用。因此,编码器不是编码纯文本,而是基于文本图像进行编码。当AI准备向用户提供响应时,Token将从Token转换为文本,利用图像到文本转换。砰,放下麦克风。

理解这个惊喜

哇,你可能在说,这种与图像的玩耍能达到什么好处?

如果图像到Token的转换能让我们朝着更小的Token发展,我们可能能够压缩Token。这反过来意味着我们可能在有限内存的边界内有更多Token。记住,Token的压缩严肃地在我们心中。

在最近发布的题为《DeepSeek-OCR:上下文光学压缩》的研究中,研究论文做出了这些声明:

"包含文档文本的单个图像可以使用比等效数字文本少得多的Token来表示丰富信息,表明通过视觉Token的光学压缩可以实现更高的压缩比。"

"我们的方法在Fox基准测试中以9-10倍文本压缩实现96%以上的OCR解码精度,10-12倍压缩约90%,20倍压缩约60%,具有多样化的文档布局。"

如上所述,实验工作似乎表明,有时可以以96%的精度实现10倍更小的压缩比。如果这可以在整个董事会上完成,这将意味着,而今天的Token窗口限制可能是400,000个Token,限制可以提高到4,000,000个Token,尽管在96%的精度率下。

96%的精度可能是可以容忍的或不可容忍的,这取决于AI被用于什么。你不能得到免费的午餐,至少到目前为止。20倍的压缩率会更好,尽管60%的精度似乎相当不吸引人。尽管如此,可能有一些情况,人们可以勉强接受60%的20倍增长。

著名AI专家Andrej Karpathy在网上发布了他对这种方法的初步想法:"我非常喜欢新的DeepSeek-OCR论文。这是一个很好的OCR模型,对我来说更有趣的部分是像素是否比文本更好的大语言模型输入。文本Token是否在输入时是浪费的和糟糕的。也许所有大语言模型的输入都应该只是图像更有意义。"

头脑风暴是有用的

研究还尝试使用多种自然语言。这是使用图像而不是纯文本的另一个价值。如你所知,有一些自然语言使用图形字符和单词。这些语言似乎特别适合基于图像的Token化方法。

另一个有趣的方面是我们已经有VLM,由处理视觉图像而不是文本本身的AI组成(即视觉语言模型)。在大语言模型中做同样的事情时,我们不必重新发明轮子。只需借用在VLM中有效的东西并重新调整为在大语言模型中使用。这是使用整个头脑并在可行时利用重用。

这个想法值得承认和额外挖掘。我不会建议到处走并立即宣布所有大语言模型都需要切换到这种方法。陪审团仍然没有结果。我们需要更多研究来看看这能走多远,以及理解优势和劣势。

与此同时,我想我们至少可以做出这个大胆的宣告:"有时,一张图片真的值一千个字。"

Q&A

Q1:什么是Token化?它在大语言模型中起什么作用?

A:Token化是将文本转换为数字的过程。当用户输入文本时,系统会将文本编码为数字(称为Token),AI通过处理这些数字来理解和回答问题,最后再将数字转换回文本显示给用户。

Q2:为什么要用文本图像代替纯文本作为Token?

A:使用文本图像可以实现更高的压缩比,研究显示能以96%精度实现10倍压缩,这意味着在相同内存限制下可以处理更多Token,从而支持更长、更复杂的对话。

Q3:DeepSeek-OCR研究取得了什么成果?

A:DeepSeek-OCR研究显示,在9-10倍文本压缩下可以实现96%以上的OCR解码精度,在10-12倍压缩下约90%精度,在20倍压缩下约60%精度,证明了图像Token化方法的可行性。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

10/27

08:11

分享

点赞

邮件订阅