制造业、物流业乃至餐饮行业正加速迈向自动化,机器人被广泛应用于各类任务场景。
其中,物料搬运是机器人最关键的应用领域之一。机械臂夹持装置可用于移动汽车零部件、物流包裹、食材和餐具等物品,既能减轻工人负担,也能降低事故风险,从而提升工作场所的安全性。
然而,若要让机器人自主完成物料搬运任务,其首先需要通过摄像头精确测量场景中的三维立体形状,再规划如何抓取和移动每一个物体。
传统的三维测量系统在处理某些物体时面临较大挑战。不透明物体相对容易识别,但玻璃、透明塑料等透明物体则难度更高,物体透明度越高,测量精度往往越低。高反射率或镜面类物体同样存在类似问题。这些难题导致机器人作业出现瓶颈,往往需要人工介入,不仅拖慢了物料搬运流程,也限制了机器人的更广泛应用。
为解决上述问题,日本东京理科大学机械与航空航天工程系的副教授荒井省吾与已于2025年完成硕士学业的健仁银合作,共同研发了一种名为"HEAPGrasp"的创新方法。该名称是"Hand-Eye Active Perception to Grasp"的缩写,意为"针对多种光学特性物体的手眼主动感知抓取"方法。
相关研究成果已在顶级期刊《IEEE机器人与自动化快报》第11卷第3期上在线发表,并将在机器人领域顶级会议"2026 IEEE国际机器人与自动化大会(ICRA)"上正式报告。
"传统上,反光金属零件、透明托盘等透明或镜面(光泽)物体在使用深度传感器或传统三维测量技术时检测效果不稳定,导致机器人难以自动抓取,最终不得不依靠人工介入。"荒井副教授解释道。
"我们的方法基于这样一种思路:即便深度信息不可靠,只要能在图像中稳定捕捉到物体的轮廓或剪影,仍然可以实现对物体形状的估计和抓取。"
HEAPGrasp通过分析从多个视角拍摄的红绿蓝(RGB)图像来识别物体。首先,系统利用一种名为语义分割的计算机视觉技术,将图像中每个像素归类为"物体"或"背景",从而将目标物体从背景中分离出来。研究人员使用单个手眼RGB摄像头从不同视角拍摄图像,并应用语义分割技术提取物体轮廓。在这一步骤中,研究团队采用了基于ResNet-50骨干网络的DeepLabv3+卷积神经网络架构。
提取到的轮廓随后被用于一种名为"轮廓形状重建"(Shape from Silhouette,SfS)的三维重建技术。该技术通过分析多视角图像中的物体轮廓来估算其三维形状:每个轮廓都定义了物体可能存在的三维空间范围,通过对这些范围求交集,SfS得以估算出物体的形状及其在空间中的位置。由于整个流程仅依赖物体轮廓,因此不受透明度或反射率等光学特性的影响。
在SfS方法中,拍摄的视角数量越多,测量精度越高,机器人抓取成功率也随之提升。然而,这同时意味着摄像头需要移动至更多位置,带来更高的计算开销和时间成本。
为平衡这一矛盾,研究团队引入了一套基于深度学习的"下一步姿态规划"系统,用于确定最高效的摄像头运动轨迹,在最大化测量精度的同时,尽量减少不必要的移动。
研究团队使用真实机器人系统对HEAPGrasp进行了测试,共设计了20个不同场景,每个场景包含5个物体,涵盖纯透明物体、纯不透明物体、纯镜面物体以及三类物体混合的场景,并将HEAPGrasp与现有抓取方法进行了性能比较。
测试结果显示,使用HEAPGrasp,机器人在单摄像头条件下对各类光学特性物体的抓取成功率高达96%,显著优于现有方法。此外,与围绕场景环绕运动进行三维测量的基准方法相比,HEAPGrasp将手眼RGB摄像头的运动轨迹长度缩短了52%,执行时间减少了19%。
"我们的方法在尽量减少摄像头移动和执行时间的同时,实现了对物体的精确三维测量。"健仁银表示,"通过减少所需的预先调整工作,HEAPGrasp简化了现场部署和操作流程,尤其是其可改装至现有机器人系统这一特点,具有重要的实用价值。"
总体而言,HEAPGrasp代表了一种新颖且实用的三维测量方法,能够使机器人在面对具有复杂光学特性的物体时依然实现可靠抓取,具有广泛的应用前景。
Q&A
Q1:HEAPGrasp是什么技术?它解决了什么问题?
A:HEAPGrasp是由东京理科大学研究团队开发的机器人抓取方法,全称为"Hand-Eye Active Perception to Grasp"。它主要解决机器人在抓取透明物体(如玻璃、透明塑料)和高反射率镜面物体(如金属零件)时,传统三维测量系统精度不足、需要人工介入的难题。该方法仅依靠RGB摄像头,通过多视角图像的语义分割与轮廓重建,实现对多种光学特性物体的可靠识别与抓取。
Q2:HEAPGrasp的抓取成功率有多高?与传统方法相比有哪些优势?
A:在使用真实机器人系统进行的20个场景测试中,HEAPGrasp实现了96%的抓取成功率,显著优于现有方法。与传统围绕场景环绕运动进行三维测量的基准方法相比,HEAPGrasp将摄像头运动轨迹长度缩短了52%,整体执行时间减少了19%,在精度与效率上均有明显提升。
Q3:HEAPGrasp能否应用于现有机器人系统?
A:可以。HEAPGrasp的设计支持改装至现有机器人系统,无需对硬件进行大规模改造。该方法仅使用单个RGB摄像头,减少了对特殊深度传感器的依赖,同时通过深度学习优化摄像头运动路径,降低了现场部署和操作的复杂性,适合在制造、物流、餐饮等多个行业的现有自动化设备上推广应用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。