长期以来,我们一直听到科幻故事中人们接受脑部植入物以影响其心理、提升能力的描述。然而,直到大约一年前,我们才真正看到这类实验的具体案例。
当 Neuralink 在一个人的大脑中植入第一个皮层植入物的消息传出后,既然这扇大门已经打开,我们有必要了解这项技术是如何发展的。
什么是 BCI?
脑机接口 (BCI) 从概念上来说相对简单,但其实现过程却极其复杂。
电极如何读取大脑活动?需要多少连接才能真正深入地采样一个人的思维?
扩散模型与认知
在今年春季的一次 TED 演讲中,Danial Hosseintabar 讨论了基于扩散模型创建复杂结果背后的数学原理和模型。
他举例说明了具有能力的 AI 代理如何帮助自动化处理人的部分思维过程。
"假设你正在阅读文章,或者在你喜欢的社交媒体应用上浏览,或者只是在查看邮件,你收到了很多邮件,你必须逐一查看这些内容,需要花很长时间去消化每一条信息,只为了获取其中对你最重要的一小部分,"他说。
"如果有一个你的小型复制品,了解你的思维分布,能够只给你展示最重要的内容会怎样?例如,社交媒体应用背后的算法通常旨在让你在应用上停留更长时间,而不是向你展示真正对你有智力价值的内容。因此,你可以使用另一个 AI 代理来过滤内容,对于邮件或消息,你将能够看到对你最重要的内容,而忽略那些你不关心的。"
然后他进一步解释:
"想象一下,如果每个人都拥有这样一个 AI 模型,"他说。"每个模型都学习了他们的思维分布,这是一个概率分布问题。现在我们在数学上有工具可以衡量两个分布的相似度。所以在你和某人交谈之前,你就能知道他们是否与你有相似的想法。如果有,你们就在同一个频率上,如果没有,那就不是。这可以彻底革新交流方式。"
他顺理成章地提到了 BCI,并谈到了它的植入方式。
"它连接着你大脑最外层称为大脑皮层的部分,负责捕捉高层次的思维,它可以感知神经活动并通过蓝牙将其传输到笔记本电脑或其他设备,"他说。
这张幻灯片展示了扩散模式创建的一些理论及其应用。
这里还有更多数学原理...
追踪接受者
那么,如果你想知道谁是这类试验的第一批实验者呢?
你可以找到一些个案报道,比如 30 岁的四肢瘫痪患者 Noland Arbaugh 接受植入,或者 Brian Bussard 接受光学植入。
但当你询问 ChatGPT 确切有多少人植入了 Neuralink 装置时,它无法给出具体数字。它也无法回答有多少人总共接受了皮层植入。
不过,模型指出,目前粗略估计不到几百人。
我们可以思考大规模采用的未来,并试图理解这些设备将如何使用,或者研究针对此类植入物的 FDA 审批流程。
Hosseintabar 的演讲和其他资源帮助我们了解了其背后的一些理论。
"即使你的亲人有一天离世,你仍然能够将信息带入他们的意识中,或者从他们那里产生新的想法,这是难以置信的,"他说。
这是一个用例,可能在我们很多社会中都很重要。但还有更多应用,在医学、行为科学以及追求长寿和生活质量方面。我们习惯于将 AI 视为会"接管"一切的可怕存在(比如天网),但它同样可能成为人类的真正福音。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。