2月21日,谷歌正式对外发布开源大模型Gemma。
这距离谷歌上一次大模型Gemini 1.5的发布,还不到一周的时间,事关大模型的竞争愈演愈烈。
2月15日,OpenAI发布Sora,Sora文生视频的能力,再度震惊整个行业。
彼时,就连此前在文生视频领域搅弄风云的Runway、Pika等公司的创始人,也都不得不甘拜下风。
Sora在全球形成的“病毒式”传播,再次证明了OpenAI奥特曼的天才营销能力,也让仅仅早于Sora两小时发布的Gemini 1.5没能在最佳传播时间里获得本应属于它的全球关注度。
无论二者同期发布是奥特曼有意为之,还是一场意外,在巨头之间的大模型竞争已经到了白热化的现在,谷歌都需要再亮出一张底牌,重新赢得市场的关注。
显然,昨天发布的Gemma就是谷歌的又一张底牌,不过,这次谷歌瞄准的是开源大模型。
这次谷歌发布的Gemma包含两个“小”模型,Gemma 2B和Gemma 7B,由于参数规模分别为20亿和70亿,参数规模并不大,谷歌将这两个模型归为轻量级开放模型系列。
值得注意的是,Gemma采用了和谷歌此前发布的主力大模型Gemini相同的技术架构,同时这也是一个可以直接下放到笔记本和台式机上运行的端侧大模型。
在此之前,谷歌在2023年12月首次对外发布Gemini大模型时,谷歌CEO Sundar Pichai就一口气对外公布了Ultra、Pro、Nano三个版本,并称,“这些是进入Gemini时代第一个模型,也是Google DeepMind成立时的愿景。”
这其中,Gemini Nano参数规模为1.8B和3.25B,正是被谷歌用作端侧大模型。
实际上,在2023年更早些时候谷歌发布的Pixel 8 Pro,已经因显著的AI特性被视为划时代的智能手机,站稳AI手机潮头后的谷歌,又在今年将Gemini Nano放到了三星Galaxy S24中,帮助三星进入到了“Galaxy AI时代”。
至顶网认为,在手机厂商、PC厂商联合芯片厂商一同全力推进端侧AI的这一年,谷歌此次发布的2B、7B开源大模型Gemma,更重要的功效预计将会在端侧AI领域体现出来。
从开源方面来看,谷歌Gemma并不是第一个开源大模型。
早在2023年7月,Meta就对外发布了免费可商用的大模型Llama 2,而这一动作其实是Meta和微软合作的杰作,拥有7B、13B、70B三个参数级版本的Llama 2,当时被视为是OpenAI的ChatGPT的平替产品。
就在Meta开源Llama 2时,Yann LeCun不无感慨地公开表示,Llama 2的开源可商用将极大地改变大模型的市场格局。
而从国内来看,阿里是另一个开源大模型的推动者。
2023年8月,阿里云对外开源了通义千问7B大模型,成为国内最早推动大模型开源的企业,随后,阿里云又先后对外开源了14B、72B、1.8B参数规模的大模型,参数规模最大的72B版本,甚至超过了Llama 2。
之所以科技巨头愿意开源大模型,是为了借助开源力量,加速技术发展。
这自然也是谷歌此次开源Gemma的主要目的。
因此,就在谷歌Gemma对外开源时,谷歌还公布了Gemma对一系列开发工具和系统的支持,以及跨设备的兼容,具体Gemma的兼容和支持情况如下:
多框架工具:Gemma提供Keras 3.0、原生PyTorch、JAX和Hugging Face Transformers多个框架的参考实现;
跨设备兼容:Gemma模型可以在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备类型上运行;
硬件平台支持:谷歌与NVIDIA合作,可以使用NVIDIA GPU来优化Gemma模型;
基于Google Cloud的优化:Vertex AI提供广泛的MLOps工具集,其中包含一系列微调选项和内置推理优化的一键部署功能。
基于此,谷歌抢先在Meta发布Llama新版本之前,终于推出了开源大模型,谷歌官方甚至将这一模型在关键基准测试集上的测试表现与Llama 2进行了对比,并得出了Gemma 7B完胜Llama 2 7B和13B版本的结论。
不过,出门问问创始人李志飞就谷歌开源的Gemma指出,“时间有点晚”、“开源力度不够”、“感觉这次开源还是被动防御”。
他还提到,谷歌在AI领域经常起大早赶晚集,这次的Sora借鉴的ViT、ViViT、NaVit、MAGVit等核心组件技术都是谷歌团队此前的论文。
当然,无论是“攻”还是“守”,Gemma最重要的还是表明了谷歌在AI领域的开源态度。
接下来的2024,关乎大模型的竞争,也将会愈演愈烈。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。