4月27日,夸克AI超级框发布全新AI相机,上新“拍照问夸克”功能。基于视觉理解与思考推理的强大模型能力,夸克AI超级框从视觉出发创新下一代搜索体验,进一步理解和回答物理世界中的各类问题。作为阿里巴巴AI旗舰应用,夸克AI超级框持续快速迭代,提升超级智能体的多模态能力,打造用户生活、工作、学习的AI超级入口。
视觉交互创新,智能分析万物
在工作、学习、生活各类场景中,面对复杂物体、表格和图形时,用户往往难以准确描述真实需求。全新的夸克AI相机能深入理解用户意图,更好地实现视觉搜索、多轮问答、图像处理与创作。
基于AI超级框背后的视觉理解和推理模型能力,“拍照问夸克”能在手机和电脑上进行图片搜索、问答、思考、编辑以及创作。全新的多模态产品入口和交互体验,让AI相机成为AI时代用户表达问题和获取信息的重要方式。
“拍照问夸克”能精准识别图片中的人物、物体和诸多细节,能深入理解用户需求并联想相关问题。比如,拍照搜索文物时自动关联历史背景,上传商品图片时一键跳转淘宝同款链接。无论是人物、动物、植物、建筑、风景、美食、艺术品、商品、外文资料还是故障代码,夸克都能做到秒级识别,经过多轮问答和深度思考后,给出同类产品中的最佳回答。
深入理解意图,完成复杂任务
过去,用户需要切换多个AI工具才能完成围绕“图片”的复杂任务。现在,夸克进一步提升“超级Agent”在视觉搜索的产品体验和使用场景,满足用户对现实物理世界的解读、处理和创作。
“拍照问夸克”将搜索、扫描、修图、翻译、创作等能力聚合为统一入口。针对较为复杂的图像,用户可一次上传10张图片进行深度推理并完成各类复杂任务。目前,夸克具备超百个专业Agent和原子能力,包括搜索、健康、学习、旅游、商品、创作等,持续通过模型能力升级来优化Agent组合策略,满足用户对图像信息的个性化需求。
旅行中,“拍照问夸克”化身“专业导游”,边逛边拍获取文物讲解、景点攻略;工作中,它能辅助分析数据图表、优化代码逻辑,生成工作总结文档;在健康领域,上传体检报告,它给出指标异常分析以及康复方案建议。娱乐场景中,它支持棋牌指导、截图找剧、情头配对等趣味功能,并能一键完成高清化、去水印、原文溯源等。此外,“拍照问夸克”还支持多种语言提问和翻译解读。
今年3月,夸克发布“AI超级框”并不断迭代用户体验。随着“拍照问夸克”上线,“AI超级框”在多模态交互上极大拓展了应用场景。AI数据分析机构Xsignal最新数据显示,用户活跃率方面,夸克排名行业第一,次日留存率同样稳居榜首。分析师认为,夸克通过升级“AI超级框”,从学习到工作、生活全场景覆盖,多模态功能融合和智能交互创新,精准直击用户需求。
夸克搜索负责人张帆表示:“我们希望通过提升AI超级框的多模态能力,打造用户与现实物理世界之间的全新交互方式和产品体验。AI时代,夸克将继续围绕信息的获取、消费、编辑、传输、管理、决策和创作,由AI超级框承载更多的需求、更好的交互、更大的能力。”
好文章,需要你的鼓励
CIO们正面临众多复杂挑战,其多样性值得关注。除了企业安全和成本控制等传统问题,人工智能快速发展和地缘政治环境正在颠覆常规业务模式。主要挑战包括:AI技术快速演进、IT部门AI应用、AI网络攻击威胁、AIOps智能运维、快速实现价值、地缘政治影响、成本控制、人才短缺、安全风险管理以及未来准备等十个方面。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
过去两年间,许多组织启动了大量AI概念验证项目,但失败率高且投资回报率令人失望。如今出现新趋势,组织开始重新评估AI实验的撒网策略。IT观察者发现,许多组织正在减少AI概念验证项目数量,IT领导转向商业AI工具,专注于有限的战略性目标用例。专家表示,组织正从大规模实验转向更专注、结果导向的AI部署,优先考虑能深度融入运营工作流程并产生可衡量结果的少数用例。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。