亿万富翁 Elon Musk 虽然刚刚被 OpenAI 提起反诉,但这并没有阻止他的 AI 公司 xAI 推出其旗舰产品 Grok 3 模型的 API 服务。
在 xAI 发布 Grok 3 已经过去数月,该模型是公司对标 OpenAI 的 GPT-4 和 Google 的 Gemini 的产品。Grok 3 具备图像分析和问答能力,为 Musk 的社交网络 X(该平台在三月收购了 xAI)提供了多项功能支持。
xAI 在其 API 中提供两个版本的 Grok 3:标准版 Grok 3 和具备"推理"能力的 Grok 3 Mini。
Grok 3 的定价为:输入每百万 token (约 75 万字) 收费 3 美元,模型生成每百万 token 收费 15 美元。Grok 3 Mini 则是每百万输入 token 收费 0.30 美元,每百万输出 token 收费 0.50 美元。此外还提供更快速版本,Grok 3 加速版每百万输入 token 收费 5 美元,输出收费 25 美元;Grok 3 Mini 加速版每百万输入 token 收费 0.60 美元,输出收费 4 美元。
相比竞品,Grok 3 的价格并不便宜。它与同样提供推理能力的 Anthropic 的 Claude 3.7 Sonnet 价格持平,比最近发布的 Google Gemini 2.5 Pro 更贵,而后者在多个 AI 评测基准上的得分普遍高于 Grok 3(值得一提的是,xAI 曾被指控在 Grok 3 的基准测试报告中存在误导)。
正如一些 X 平台用户指出,xAI API 中的 Grok 3 的上下文窗口小于其声称的能力("上下文窗口"指模型一次可以处理的 token 数量)。API 最多支持 131,072 个 token(约 97,500 字),远低于 xAI 在二月底宣称的 Grok 3 可支持的 100 万 token。
当 Musk 大约两年前推出 Grok 时,他将这个 AI 模型定位为前卫、不加过滤且反"觉醒"的模型,总的来说愿意回答其他 AI 系统不会回答的争议性问题。他确实实现了部分承诺。例如,当被要求使用粗俗语言时,Grok 和 Grok 2 会欣然使用那些在 ChatGPT 中听不到的丰富多彩的措辞。
但在 Grok 3 之前的 Grok 模型在政治话题上比较谨慎,不会逾越某些界限。事实上,一项研究发现,在跨性别权利、多元化项目和不平等等话题上,Grok 倾向于政治左翼立场。
Musk 将这种行为归咎于 Grok 的训练数据——公开网页,并承诺要"让 Grok 更接近政治中立"。除了一些引人注目的错误,如短暂审查对特朗普总统和 Musk 不利的言论外,目前还不清楚 xAI 是否在模型层面实现了这一目标,以及这可能带来什么长期影响。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。