夸克AI超级框上新“拍照问夸克” 加码多模态能力

夸克AI超级框发布全新AI相机，上新“拍照问夸克”功能。

4月27日，夸克AI超级框发布全新AI相机，上新“拍照问夸克”功能。基于视觉理解与思考推理的强大模型能力，夸克AI超级框从视觉出发创新下一代搜索体验，进一步理解和回答物理世界中的各类问题。作为阿里巴巴AI旗舰应用，夸克AI超级框持续快速迭代，提升超级智能体的多模态能力，打造用户生活、工作、学习的AI超级入口。

视觉交互创新，智能分析万物

在工作、学习、生活各类场景中，面对复杂物体、表格和图形时，用户往往难以准确描述真实需求。全新的夸克AI相机能深入理解用户意图，更好地实现视觉搜索、多轮问答、图像处理与创作。

基于AI超级框背后的视觉理解和推理模型能力，“拍照问夸克”能在手机和电脑上进行图片搜索、问答、思考、编辑以及创作。全新的多模态产品入口和交互体验，让AI相机成为AI时代用户表达问题和获取信息的重要方式。

“拍照问夸克”能精准识别图片中的人物、物体和诸多细节，能深入理解用户需求并联想相关问题。比如，拍照搜索文物时自动关联历史背景，上传商品图片时一键跳转淘宝同款链接。无论是人物、动物、植物、建筑、风景、美食、艺术品、商品、外文资料还是故障代码，夸克都能做到秒级识别，经过多轮问答和深度思考后，给出同类产品中的最佳回答。

深入理解意图，完成复杂任务

过去，用户需要切换多个AI工具才能完成围绕“图片”的复杂任务。现在，夸克进一步提升“超级Agent”在视觉搜索的产品体验和使用场景，满足用户对现实物理世界的解读、处理和创作。

“拍照问夸克”将搜索、扫描、修图、翻译、创作等能力聚合为统一入口。针对较为复杂的图像，用户可一次上传10张图片进行深度推理并完成各类复杂任务。目前，夸克具备超百个专业Agent和原子能力，包括搜索、健康、学习、旅游、商品、创作等，持续通过模型能力升级来优化Agent组合策略，满足用户对图像信息的个性化需求。

夸克AI超级框上新“拍照问夸克” 加码多模态能力

旅行中，“拍照问夸克”化身“专业导游”，边逛边拍获取文物讲解、景点攻略；工作中，它能辅助分析数据图表、优化代码逻辑，生成工作总结文档；在健康领域，上传体检报告，它给出指标异常分析以及康复方案建议。娱乐场景中，它支持棋牌指导、截图找剧、情头配对等趣味功能，并能一键完成高清化、去水印、原文溯源等。此外，“拍照问夸克”还支持多种语言提问和翻译解读。

今年3月，夸克发布“AI超级框”并不断迭代用户体验。随着“拍照问夸克”上线，“AI超级框”在多模态交互上极大拓展了应用场景。AI数据分析机构Xsignal最新数据显示，用户活跃率方面，夸克排名行业第一，次日留存率同样稳居榜首。分析师认为，夸克通过升级“AI超级框”，从学习到工作、生活全场景覆盖，多模态功能融合和智能交互创新，精准直击用户需求。

夸克搜索负责人张帆表示：“我们希望通过提升AI超级框的多模态能力，打造用户与现实物理世界之间的全新交互方式和产品体验。AI时代，夸克将继续围绕信息的获取、消费、编辑、传输、管理、决策和创作，由AI超级框承载更多的需求、更好的交互、更大的能力。”

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

Replit携手RevenueCat，助力“氛围编程“开发者实现应用变现

Replit与RevenueCat达成合作，将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示（如"添加订阅"），即可完成应用内购和订阅配置，无需离开平台。RevenueCat管理超8万款应用的订阅业务，每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现，月收入未达2500美元前免费使用，超出后收取1%费用。

北京大学携手北邮，教AI“感知光线“——让生成视频真正懂得光影的秘密

LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架，核心创新是将物理渲染技术与AI视频生成结合，通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理"，引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略，支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频，实验显示该方法在视频质量和控制精度上均优于现有方法。

人工智能

编程智能体

增量式响应式框架

2026-04-17

所有人都在谈AI护栏，但真正在构建它的人在哪里？

所有人都说AI需要护栏，但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年，他发现市面上多数"护栏"不过是提示词包装。为此，他打造了专为后端服务设计的AI编程智能体Skipper，基于健全的TypeScript类型系统与响应式运行时，实现增量式代码生成与测试，内部基准测试通过率超90%。他认为，编程语言的"人类可读性时代"正走向终结，面向智能体的精确工具链才是未来。

网页智能体

知识蒸馏

合成数据生成

2026-04-17

米拉-魁北克AI研究所教会小模型“聪明干活“：用更少数据超越GPT-4o的网页智能体训练秘诀

这项由蒙特利尔学习算法研究所（Mila）与麦吉尔大学联合发布的研究（arXiv:2604.07776，2026年4月）提出了AGENT-AS-ANNOTATORS框架，通过模仿人类数据标注的三种角色分工，系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型，仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调，在WebArena基准上达到41.5%成功率，超越GPT-4o和Claude 3.5 Sonnet，并在从未见过的企业平台WorkArena L1上提升18.2个百分点，验证了"数据质量远比数量重要"这一核心结论。

夸克AI超级框上新“拍照问夸克” 加码多模态能力

来源：至顶网人工智能频道

2025

04/27

12:54

分享

点赞

Replit携手RevenueCat，助力"氛围编程"开发者实现应用变现

所有人都在谈AI护栏，但真正在构建它的人在哪里？

Chrome版Gemini新增"技能"功能，支持保存并复用常用AI提示词

OpenAI推出药物研发专属AI模型GPT-Rosalind

NanoClaw携手Vercel，为AI智能体敏感操作打造一键审批机制

SaySo：专为重建新闻信任而生的短视频应用

Loop完成9500万美元C轮融资，用AI预测并化解供应链风险

使用MacBook Neo一个月后，我发现了它的性能极限

服务器机房的门锁形同虚设，安全认证险些露馅

Isabelle/HOL：驱动Nitro隔离引擎背后的形式化证明工具

鹏鼎控股泰国建厂：全球PCB龙头如何用42.97亿元押注AI服务器

Agent赋能保险理赔：从“人工苦海”到“智能闭环”

魔法原子人形机器人走出“练兵场”

魔法原子举办2025场景战略发布会 官宣“千景共创计划”落地1000个应用场景

从“解题答疑”到“培养思维”，夸克“AI解题大师”定义AI产品新价值

傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet，并发布全球首个全流程工具链

《AI启示录》：当ERP长出AI神经，胜负手在于业务扎根

新夸克告别搜索 升级为一个无边界的“AI超级框”

奢饰品行业的一个麻烦：这家法国公司想用AI来解决

北沟村的幸福蝶变：一场时间与技术的乡村交响

国产大模型崛起！ERP国产替代破局时刻到来！

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

魔法原子举办2025场景战略发布会官宣“千景共创计划”落地1000个应用场景

新夸克告别搜索升级为一个无边界的“AI超级框”