一项最新研究发现,通过无线连接AI系统的电子戒指,能够将多种手语翻译成文字。
韩国首尔延世大学电气与电子工程系副教授Yu Ki Jun表示:"我认为这是让手语翻译系统变得更加实用、轻便、适合真实环境使用的重要一步。"
全球目前使用的手语超过300种,许多研究项目正致力于开发翻译设备,帮助不懂手语的人与听障人士进行沟通。然而,这些项目在推进过程中遭遇了诸多挑战。
例如,部分项目采用摄像头与计算机视觉算法来识别手势,但这类方案通常只能在固定摄像头的受控环境中使用,对光线变化和其他干扰因素较为敏感。
另一些设备则依赖可穿戴传感器,通过检测手部动作或与肌肉活动相关的电信号来识别手语。其中,智能手套是一种常见的可穿戴传感器,但它会积聚热量和水分,长时间佩戴令人不适。此外,手套上的固定传感器无法适应不同用户在手掌大小、手指长度和关节位置上的个体差异,导致识别准确率下降。许多可穿戴传感器还需要通过有线方式连接电脑,严重影响手部动作的灵活性。即便部分设备最终实现了无线传输,各传感器之间往往仍通过有线方式汇聚到同一个发射器。
如今,研究人员开发了一套电子戒指系统,每枚戒指均可将动作数据无线传输至处理设备。相较于手套,戒指允许传感器灵活定位,从而更好地适应不同用户的手部特征,而无线连接也让手部动作不再受到任何限制。
Yu Ki Jun表示:"蓝牙低功耗片上系统已发展到可以将完整的无线通信协议栈、电源管理电路和传感模块集成在一块柔性基板上的水平,体积小到足以制成戒指佩戴。"
在此次研究中,研究人员分析了每根手指在手语动作中的贡献程度,发现有七根手指起到了关键作用。因此,该系统仅采用七枚戒指,以减少所需的硬件数量。
每枚戒指均配备加速度计作为惯性传感器,能够同时检测静态姿势和动态手部运动,从而捕捉手语中静态与动态成分之间复杂的过渡变化。此外,研究人员有意避免使用生物电信号,因为这类信号因人而异,需要为每位用户进行大量校准。
在戒指的研发过程中,机械可靠性是一大挑战。研究人员最初采用直线型铜互连结构,但在反复弯折后几乎断裂。为此,他们改用蛇形图案的互连结构,以承受反复的弯曲形变。
研究团队还开发了一套深度学习系统,用于从手部动作中识别手语。该系统不仅能识别训练阶段两名参与者的手语,还能识别五名未参与训练的人员的手语,表明这套系统具备一定的通用性,无需针对每位用户进行繁琐的适配。
在对五名未参与训练的受试者进行的实验中,该系统对100个常用美国手语词汇和100个常用国际手语词汇的识别准确率分别达到88.3%和88.5%。相比之下,此前大多数手语翻译系统的词汇量不足50个。
延世大学电气与电子工程系教授Dosik Hwang对此谨慎表示:"200个词汇相较于以往的无线系统而言是一大进步,但与包含数千个手势的完整手语词汇库相比,仍只是一小部分。我不想夸大现有系统在开放词汇、真实对话场景中的实际能力。"
该系统不仅能识别单个孤立词汇,还能从连续手语动作中翻译完整句子,研究人员认为这有望支持实时翻译应用。
从长远来看,Yu Ki Jun表示:"我们的目标是让系统能够与智能手机等日常设备配合使用,无需专用外部设备。戒指可以将手语信号无线传输至移动终端,由设备自动翻译并实时显示,从而使这项技术更加便携、普及,真正融入日常沟通。"
然而,Hwang也指出了现阶段最重要的局限性:"我们的系统将手部动作转化为文字,但尚未涵盖面部语法、口型、身体姿态和空间语法,而这些在手语中都具有重要的语法意义。"Yu Ki Jun补充道,如何将上述要素"融入一个无缝衔接、低功耗的架构,同时保持现有设计的轻便性",将是未来面临的重要挑战。
下一步,研究团队计划扩大训练数据规模,纳入更多参与者、更大的词汇量以及更多样的手语风格和地区方言。Yu Ki Jun提到:"鉴于我们的机构背景,韩国手语将是顺理成章的下一步研究方向。"
研究人员还希望通过进一步的小型化和功耗优化,将戒指的连续使用时长从目前的近12小时延长至全天佩戴。Yu Ki Jun表示:"一个关键优先事项是将处理流程从外部硬件(如笔记本电脑)迁移至设备端边缘计算(如手机)。这一转变不仅是实现真正移动性的必要条件,也对保护用户隐私、降低自然对话中的延迟至关重要。"
Hwang及其团队计划与听障社区组织展开合作,共同推进设备研发。他表示:"我们相信,通过纳入真正的使用者,这项技术在功能表现和社会融合两个层面都将得到显著提升。"
除手语翻译之外,Hwang表示这种新型戒指还具有广泛的应用潜力:"我们看到这项技术在手部康复监测、神经系统疾病的精细运动评估,乃至沉浸式虚拟现实和增强现实交互界面等领域都有直接的应用前景。通过在手语这一复杂领域验证其有效性,我们实际上已对系统进行了全面的压力测试,为未来众多生物医学和交互应用奠定了基础。"
该研究成果已于5月1日发表在学术期刊《Science Advances》上。
Q&A
Q1:这款AI手语翻译戒指的识别准确率有多高?
A:在对五名未参与系统训练的受试者进行测试时,该系统对100个常用美国手语词汇的识别准确率达到88.3%,对100个常用国际手语词汇的识别准确率达到88.5%。相比之下,此前大多数手语翻译系统支持的词汇量不足50个,而该系统已实现200个词汇的识别,是一项显著进步。
Q2:这套手语翻译戒指为什么选用7枚而不是10枚?
A:研究人员通过分析发现,在手语动作中起关键作用的手指共有七根,并非全部十根手指都对手势识别有重大贡献。因此,系统采用七枚戒指的设计,在保证识别效果的同时,有效减少了所需的硬件数量,使整体方案更加轻便实用。
Q3:手语翻译戒指目前有哪些局限性?未来会如何改进?
A:目前该系统仅能将手部动作转换为文字,尚不支持识别面部语法、口型、身体姿态和空间语法等在手语中同样具有语法意义的要素。此外,系统目前仍依赖外部硬件处理数据,连续使用时长约为12小时。未来团队计划扩大训练词汇量、引入更多手语风格,并将数据处理迁移至手机等移动设备,实现全天候佩戴和实时翻译。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。