在充满活力的人工智能和声音克隆时代,这样的服务似乎是必然出现的:Character.AI 是一个平台,用户可以在这里与基于虚构角色或在某些情况下已故真实人物的虚拟化身进行互动。想象一下,你可以与爱因斯坦、肯尼迪或科特·柯本等已逝之人对话,提出问题,并根据神经网络对其性格和个性的最佳模拟获得他们标志性的回应。在孤独已成为一种流行病的时代,你甚至可以创建自己的有趣角色来交谈。
一段时间以来,尽管存在一些风险,但这项技术似乎在不断发展。从某种意义上说,这是一个广阔开放的游乐场,但如果没有适当的防护措施,问题就可能发生。
让我们通过这家公司的发展轨迹来研究人们如何将大语言模型这一强大的新应用运用到我们的世界中。
对有趣角色和 AI 的热情
Character.ai 的创始人 Noam Shazeer 曾是 Google 的长期员工,他离开公司创建了自己的创业公司,后来又重返 Google。具体来说,维基百科报道称 Shazeer 在 2021 年离开 Google 创建了 Character.ai,并在 2024 年重返 Google 帮助开发 Gemini。对于正在成为消费级产品的 Gemini 的技术负责人来说,Google 想要一个具有这种特殊经验的人是很有道理的。
关于他对 AI 的看法,你可以在这里看到他接受 a16z 的 Sarah Wang 采访的视频,她向他和他的聊天机器人化身提出了相同的问题。
在整个过程中,你可以看到 Shazeer 本人对大语言模型的强大能力充满热情。他指出模型架构、分布式算法和量化这三个强大要素,并表示他还没有看到任何扩展限制。
Shazeer 表示,AI 为我们带来了"许多有价值的应用",当他谈到创建 Character.ai 时,充满了积极的活力。
Shazeer 的 AI 角色似乎也拥抱新 AI 应用中潜在的机会,但这个仅限于文本交流的代理在采访结束时被问及 AI 可能的影响时,做出了一个奇怪的承认。
这个聊天机器人角色,Shazeer 的数字分身,在其预测中提到了"对社会和个人福祉的巨大破坏"。
这本身似乎很能说明问题,某种程度上预示了公司目前的处境。
应对法律责任
就在几天前,一个法院审查了一项驳回动议,Character.ai 正在为其被指控违反安全规定进行辩护。
原告 Megan Garcia 声称,她的儿子在平台上对一个 AI 角色产生了极度的情感依恋,最终导致自杀。
这些问题以及其他问题损害了该平台的声誉,并引发了关于大胆的新型通信形式与潜在危害之间交叉点的重大问题。该案件涉及言论自由的理念、对通信规范法第 230 条的审查,以及用户需要自担风险使用技术的观点。
"在驳回动议中,Character AI 的律师声称该平台受到第一修正案的保护,就像计算机代码一样,"TechCrunch 的 Kyle Wiggers 写道。"这个动议可能无法说服法官,随着案件的进展,Character AI 的法律理由可能会改变。但这个动议可能暗示了 Character AI 辩护的早期要素。"
这是通过法院的轨迹,同时也是一种社会意识,要防止使用大语言模型创造新的人物和世界带来的意外副作用。
使用和监管
如何保护用户不伤害自己?如何确保模型不会偏离到导致人类伤害的领域?
我在树莓派基金会看到这段话,这是上周才发布的:
"随着我们的生活与 AI 驱动的工具和系统越来越紧密地交织在一起,让年轻人掌握安全负责地使用 AI 所需的技能和知识变得比以往任何时候都更加重要,"Mac Bowley 写道。"AI 素养不仅仅是了解技术,还包括促进关于如何将 AI 工具整合到我们的生活中同时最小化潜在危害的关键对话 — 也就是所谓的'AI 安全'。"
因此,"AI 安全"应该成为我们生活中的一个普遍部分,而不仅仅是工程师和开发人员的关注点。
在我们继续探索大语言模型能力极限的过程中,我们必须思考这些问题和潜在的解决方案。通过适当关注伦理 AI,以及对年轻人的适当支持,我们可能能够创造那些支持个人的环境,同时也解决威胁我们整个世界的气候问题。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。