2月21日,谷歌正式对外发布开源大模型Gemma。
这距离谷歌上一次大模型Gemini 1.5的发布,还不到一周的时间,事关大模型的竞争愈演愈烈。
2月15日,OpenAI发布Sora,Sora文生视频的能力,再度震惊整个行业。
彼时,就连此前在文生视频领域搅弄风云的Runway、Pika等公司的创始人,也都不得不甘拜下风。
Sora在全球形成的“病毒式”传播,再次证明了OpenAI奥特曼的天才营销能力,也让仅仅早于Sora两小时发布的Gemini 1.5没能在最佳传播时间里获得本应属于它的全球关注度。
无论二者同期发布是奥特曼有意为之,还是一场意外,在巨头之间的大模型竞争已经到了白热化的现在,谷歌都需要再亮出一张底牌,重新赢得市场的关注。
显然,昨天发布的Gemma就是谷歌的又一张底牌,不过,这次谷歌瞄准的是开源大模型。
这次谷歌发布的Gemma包含两个“小”模型,Gemma 2B和Gemma 7B,由于参数规模分别为20亿和70亿,参数规模并不大,谷歌将这两个模型归为轻量级开放模型系列。
值得注意的是,Gemma采用了和谷歌此前发布的主力大模型Gemini相同的技术架构,同时这也是一个可以直接下放到笔记本和台式机上运行的端侧大模型。
在此之前,谷歌在2023年12月首次对外发布Gemini大模型时,谷歌CEO Sundar Pichai就一口气对外公布了Ultra、Pro、Nano三个版本,并称,“这些是进入Gemini时代第一个模型,也是Google DeepMind成立时的愿景。”
这其中,Gemini Nano参数规模为1.8B和3.25B,正是被谷歌用作端侧大模型。
实际上,在2023年更早些时候谷歌发布的Pixel 8 Pro,已经因显著的AI特性被视为划时代的智能手机,站稳AI手机潮头后的谷歌,又在今年将Gemini Nano放到了三星Galaxy S24中,帮助三星进入到了“Galaxy AI时代”。
至顶网认为,在手机厂商、PC厂商联合芯片厂商一同全力推进端侧AI的这一年,谷歌此次发布的2B、7B开源大模型Gemma,更重要的功效预计将会在端侧AI领域体现出来。
从开源方面来看,谷歌Gemma并不是第一个开源大模型。
早在2023年7月,Meta就对外发布了免费可商用的大模型Llama 2,而这一动作其实是Meta和微软合作的杰作,拥有7B、13B、70B三个参数级版本的Llama 2,当时被视为是OpenAI的ChatGPT的平替产品。
就在Meta开源Llama 2时,Yann LeCun不无感慨地公开表示,Llama 2的开源可商用将极大地改变大模型的市场格局。
而从国内来看,阿里是另一个开源大模型的推动者。
2023年8月,阿里云对外开源了通义千问7B大模型,成为国内最早推动大模型开源的企业,随后,阿里云又先后对外开源了14B、72B、1.8B参数规模的大模型,参数规模最大的72B版本,甚至超过了Llama 2。
之所以科技巨头愿意开源大模型,是为了借助开源力量,加速技术发展。
这自然也是谷歌此次开源Gemma的主要目的。
因此,就在谷歌Gemma对外开源时,谷歌还公布了Gemma对一系列开发工具和系统的支持,以及跨设备的兼容,具体Gemma的兼容和支持情况如下:
多框架工具:Gemma提供Keras 3.0、原生PyTorch、JAX和Hugging Face Transformers多个框架的参考实现;
跨设备兼容:Gemma模型可以在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备类型上运行;
硬件平台支持:谷歌与NVIDIA合作,可以使用NVIDIA GPU来优化Gemma模型;
基于Google Cloud的优化:Vertex AI提供广泛的MLOps工具集,其中包含一系列微调选项和内置推理优化的一键部署功能。
基于此,谷歌抢先在Meta发布Llama新版本之前,终于推出了开源大模型,谷歌官方甚至将这一模型在关键基准测试集上的测试表现与Llama 2进行了对比,并得出了Gemma 7B完胜Llama 2 7B和13B版本的结论。
不过,出门问问创始人李志飞就谷歌开源的Gemma指出,“时间有点晚”、“开源力度不够”、“感觉这次开源还是被动防御”。
他还提到,谷歌在AI领域经常起大早赶晚集,这次的Sora借鉴的ViT、ViViT、NaVit、MAGVit等核心组件技术都是谷歌团队此前的论文。
当然,无论是“攻”还是“守”,Gemma最重要的还是表明了谷歌在AI领域的开源态度。
接下来的2024,关乎大模型的竞争,也将会愈演愈烈。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。