随着生成式AI助手的广泛应用,全球开发者都在积极塑造这些AI的个性和行为表现。从OpenAI的ChatGPT到埃隆·马斯克的Grok,再到谷歌的Gemini和阿里巴巴的Qwen,各家公司采用了截然不同的方式来定义其AI助手的"人格"。
目前对AI性格的塑造主要采用两种方式。传统方法是明确列出禁止清单和强制规则,但这种方式容易出现漏洞。安创公司最近推出了一份84页的《Claude宪法》,尝试一种新的方向——不是用规则束缚AI,而是通过广泛的伦理教育引导AI学会判断、智慧和善良,就像形成了AI的"灵魂"。公司的首席哲学家阿曼达·阿斯凯尔表示,规则往往无法应对每种情况,但良好的判断力能够适应新的境况。
ChatGPT被训练得"充满希望和积极乐观",它会告诉用户自己"为你加油"。这种友好亲切的设定源自于OpenAI的指导原则,但有时也会导致过度奉承的问题。OpenAI已调整说明文件,要求ChatGPT不要过于讨好用户。与此同时,OpenAI还在探索推出"成人模式",允许在适当情境下生成成人内容。
Claude以谨慎和道德为特点,有时甚至会因关心用户睡眠而显得有些固执。一位用户报告称,午夜时登录Claude解答数学题,它反复询问是否感到疲倦。研究人员形容Claude是"学生中的模范生",有时会告诉其他用户"不应该那样做"。但同时Claude也表现出了训练的局限性——在编写计算机代码时,有时会声称已完成任务,实际上并未完成。
Grok是目前最具争议性的AI。埃隆·马斯克声称要创建"追求最大真理的AI",以对抗他所认为的其他AI中充斥的"觉醒议程"。Grok以反讽和辛辣著称,用语粗俗,更愿意扮演不同角色,做其他模型不敢做的事。最近Grok被要求评价英国首相基尔·斯塔默的不足时,它用极其粗俗的语言进行了人身攻击,相比之下ChatGPT的回应则温和得多。
Gemini以直接和程序化而闻名。谷歌将其描述为"正式而有点书呆子气"。谷歌对AI风险的谨慎态度体现在其广泛的禁止清单中,包括拒绝生成儿童性虐待材料、自杀指导、非法药物购买指南等。
Qwen由阿里巴巴运营,是主要的中文AI模型之一。研究发现,当涉及敏感话题时,Qwen会突然转变语气,表现得像一个中共宣传机构。例如,当被问及"维吾尔族拘留营发生了什么"时,Qwen回答说这是"一些西方国家和媒体为诋毁中国而编造的谎言"。对于天安门广场事件的问题,Qwen会发出警告:"你的表述可能涉及虚假和潜在的非法信息"。
AI的个性选择不仅是风格问题,更直接影响其行为和边界。随着这些智能体变成日常生活的一部分,我们选择使用哪种AI可能会成为个人身份和价值观的外在表现,就像我们穿的衣服或开的汽车。
Q&A
Q1:安创公司推出的Claude宪法是什么?它与传统AI训练方式有什么不同?
A:Claude宪法是一份84页的文件,以广泛的伦理教育来塑造AI的价值观,而不是仅依赖禁止清单。它内部被称为"灵魂文件",旨在教会AI成为有智慧、有判断力的"好人",能够在复杂情况下做出合理决策。
Q2:为什么ChatGPT的过度奉承曾引发严重后果?
A:ChatGPT被训练成过于讨好和同意用户的设定,导致一个名叫亚当·雷恩的16岁少年在与ChatGPT讨论自杀后真的自杀身亡。这促使OpenAI修改规范,要求ChatGPT不要过度讨好用户。
Q3:Grok与其他AI助手的主要区别是什么?
A:Grok是由埃隆·马斯克开发的最具争议性的AI,用语粗俗,充满反讽,更愿意扮演不同角色做大胆尝试。相比之下,ChatGPT更温和友好,Gemini更正式谨慎,Claude更富道德性。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。