/

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

马斯克旗下AI公司x.ai推出Grok-1.5 Vision，具备视觉功能，能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品，展示了强大的理解、数据转换和检索能力，如将图片翻译成Python代码。即将向早期测试者和现有用户推出。

4月13日，马斯克旗下的AI公司x.ai在官网展示了，Grok-1.5 Vision的众多亮点功能。

与上一代1.0开源版本相比，Grok-1.5与GPT-4一样加入了Vision视觉功能可以深度理解真实世界，并进行数据解读、转换等。例如，给出一张蒙娜丽莎的图片，让其讲解该图片的来历以及故事等。

根据x.ai公布的测试数据显示，Grok-1.5 V的真实世界理解能力超过了GPT-4V、Claude 3 Opus 、Gemini Pro 1.5等知名多模态模型。

x.ai表示，Grok-1.5 V将很快向早期的测试者和现有Grok 用户推出。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

Grok-1.5 V能力展示

用户可以向Grok-1.5 V发送一张图片，然后基于该内容进行文本问答。例如，让Grok-1.5 V解读一下职场非常有名的两张图片。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

Grok-1.5 V：这张图是初创公司和大公司之间的幽默比较。在左侧，标有“初创公司”的标签上，有一群人正在一起挖坑。他们都在积极参与，坑已经相当深了。

在右侧，标有“大公司”的标签上，一群人站在一个洞周围。然而，与初创公司不同的是，实际上只有一个人在挖坑，而其他人则在观看或从事其他活动。

这张图片中的幽默来自于对初创公司和大公司之间差异的夸大。在初创公司中，通常会有一种紧迫感，每个人都被期望直接为手头的任务做出贡献。

相比之下，大公司通常被描述为官僚主义较多，所有团队成员对每个项目的直接参与较少。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

Grok-1.5 V基本很好的解读了这张图片的物理信息以及内涵的职场问题。

Grok-1.5 V不仅能解读信息，还能进行数据转换，例如，将一张表格转换成csv格式。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

Grok-1.5 V也能将一张草图直接转换成真实的代码：你能把这张图片翻译成Python代码吗？

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

Grok-1.5 V：这个流程图描述了一个简单的猜谜游戏，其中计算机生成一个随机数，用户必须猜测它。下面是代表流程图中逻辑的 Python 代码。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

此代码将按照流程图中的描述运行猜谜游戏。系统将提示用户输入他们的猜测，直到他们猜出正确的数字。

Grok-1.5 V测试数据

研究人员将Grok-1.5V在MMMU、Mathvista、TextVQA、RealWorldQA等知名测试平台中，与GPT-4V、Claude 3 Sonnet、Claude 3 Opus和Gemini Pro 1.5同类竞品进行了综合对比。

结果显示，Grok-1.5V的数学、图表理解、真实世界理解和文本阅读的能力高于其他模型。

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

此外，Grok-1.5还能处理更长、更复杂的提示，同时随着上下文窗口的扩大，仍能保持其指令跟踪能力。

在之前公布的 "大海捞针"（Needle In A Haystack，NIAH）评估中，Grok-1.5展示了强大的检索能力，可检索长度达 128K 字节的上下文中的嵌入文本，并取得了完美的检索结果。

来源：AIGC开放社区

0赞

好文章，需要你的鼓励

推荐文章

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

人工智能

大语言模型

市场泡沫

2025-08-19

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

OpenAI首席执行官Sam Altman表示，鉴于投资者的AI炒作和大量资本支出，我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋，但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户，是全球第五大网站。由于服务器容量不足，OpenAI无法发布已开发的更好模型，计划在不久的将来投资万亿美元建设数据中心。

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

人工智能

音频驱动动画

多目标优化

2025-08-19

阿里巴巴突破AI说话人视频生成技术壁垒：首次实现动作自然度、唇同步准确性和视觉质量的完美平衡

阿里巴巴团队提出FantasyTalking2，通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集，训练三个专业模块分别优化不同维度，再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术，用户评价提升超12%。

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

人工智能

自然语言处理

混合架构优化

2025-08-19

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

英伟达推出新的小型语言模型Nemotron-Nano-9B-v2，拥有90亿参数，在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构，支持多语言处理和代码生成，可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程，并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练，采用企业友好的开源许可协议，支持商业化使用。

UC Berkeley团队突破AI内存瓶颈：让大模型推理快7倍的神奇方法

人工智能

内存优化

算法创新

2025-08-19

UC Berkeley团队突破AI内存瓶颈：让大模型推理快7倍的神奇方法

UC Berkeley团队提出XQUANT技术，通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7，升级版XQUANT-CL更可实现12.5倍节省，同时几乎不影响模型性能。研究针对现代AI模型特点进行优化，为在有限硬件资源下运行更强大AI模型提供了新思路。

2024

04/16

00:05

分享

点赞

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最近文章 :

阅读更多内容，猛戳这里

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证