就在刚刚,xAI正式发布3140亿参数混合专家模型Grok-1的权重和架构。
3140亿的参数,让Grok-1成为迄今参数量最大的开源LLM,是Llama 2的4倍。
目前,xAI关于Grok-1没有透露更多信息。
官网放出的信息如下——
- 基础模型在大量文本数据上训练,未针对任何特定任务进行微调。
- 314B参数的MoE,有25%的权重在给定token上处于激活状态。
- 2023年10月,xAI使用JAX和Rust之上的自定义训练堆栈从头开始训练。
一经上线GitHub,Grok就狂揽了6k星,586个Fork。
项目地址:https://github.com/xai-org/grok-1
马斯克还不忘嘲讽OpenAI一番,「告诉我们更多关于OpenAI的「open」部分...」
纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。
开源究竟会让技术更安全,还是会让它更滥用?
「开源支持者」马斯克,以身作则地卷入了AI界的这场激烈辩论,并用行动给出了答案。
小扎刚刚也对Grok做出了评价,「并没有给人留下真正深刻的印象,3140亿参数太多了,你需要一堆H100,不过我已经买下了」。
一条磁力链,全球首个最大模型开源
pip install -r requirements.txt
python run.py
这个脚本会在测试输入上,加载checkpoint和模型中的样本。
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
- tokenizer词汇量:131,072(于GPT-4类似)相当于2^17
- 嵌入大小:6144(48*128)
- Transformer层:64(每一层都有一个解码层:多头注意块和密度块)
密集块(密集前馈块):
- 宽度因子(Widening Factor):8
- 上下文长度:8192个token
网友:开源争霸战要来
AI社区已经沸腾了!
技术界指出,Grok的亮点是在前向反馈层中使用了GeGLU以及归一化方法,并且使用了有趣的三明治范式技术(sandwich norm technique)。
连OpenAI的员工,都表示了自己对Grok的强烈兴趣。
马斯克为何选择开源?
在数次嘲讽OpenAI是「CloseAI」之后,马斯克果真选择了开源自家大模型。
好文章,需要你的鼓励
VMware宣布将终止现有渠道合作伙伴计划,新计划采用邀请制,大幅减少授权合作伙伴数量。未受邀合作伙伴将于2025年7月15日收到不续约通知,可继续交易至10月31日。白标计划也将同时终止。此举是18个月内VMware第二次重大合作伙伴调整,旨在专注与少数核心云服务提供商深度合作。客户可能面临续约困难、服务质量下降和成本上升等影响。
StepFun公司推出的Step1X-Edit是首个能够媲美GPT-4o和Gemini2 Flash等商业模型的开源图像编辑AI。该模型通过整合多模态语言理解和扩散图像生成技术,能够处理11种编辑任务,在新构建的GEdit-Bench基准测试中表现优异,为图像编辑技术的民主化开辟了新道路。
谷歌DeepMind和伦敦大学学院研究发现,大语言模型在面对反驳时会迅速失去信心并改变答案,即使反驳是错误的。研究显示LLM既会对自己的答案过度自信,又对批评异常敏感,表现出与人类相似但又独特的认知偏差。这种行为对多轮对话AI系统构成威胁,最新信息可能对LLM推理产生不成比例的影响。
BluOrion公司开发的ZClip是一种智能梯度裁剪算法,解决了大型语言模型训练中的梯度爆炸和损失飙升问题。通过Z分数统计检测和动态调整策略,ZClip能够自适应地控制梯度幅度,相比传统固定阈值方法提升训练效率35%以上,同时显著降低训练失败风险,为大模型训练提供了更稳定、高效的解决方案。