苹果公司今日宣布,将通过AI技术全面提升多项无障碍功能的能力,涵盖旁白(VoiceOver)、放大器(Magnifier)、语音控制(Voice Control)以及无障碍阅读器(Accessibility Reader)。此外,电动轮椅用户现在还可以借助Vision Pro,通过眼球运动来控制轮椅。
苹果表示,在为无障碍功能引入AI能力的同时,并未对用户隐私作出任何妥协。
苹果CEO蒂姆·库克表示:"苹果在无障碍领域的方式与众不同。如今,借助Apple Intelligence,我们在保持隐私设计这一核心承诺的前提下,为无障碍功能带来了强大的全新能力。"
苹果全球无障碍政策与推进高级总监莎拉·赫林格表示:"我们用户每天依赖的无障碍功能,借助Apple Intelligence将变得更加强大。通过这些更新,我们为用户带来了全新的、直观的输入、探索与个性化选项,并在每一步都切实保护用户隐私。"
旁白与放大器功能升级
旁白和放大器是帮助盲人或低视力用户理解屏幕信息及周围环境的核心工具,此次两项功能均获得了AI能力加持。
旁白中的图像探索功能基于Apple Intelligence,可在全系统范围内提供更详细的图像描述,包括照片、扫描账单、个人记录及其他视觉内容。在实时识别功能的更新中,旁白用户可按下iPhone上的操作按钮,快速询问摄像头取景框中的内容,并获得详细回应。用户还可以用自己的语言继续追问,获取更多视觉信息。
放大器同样支持操作按钮,用户可快速提问并获取答案,还可以通过语音指令控制应用,例如"放大"或"开启手电筒"。
语音控制支持自然语言
语音控制此前要求用户记住固定的词语和短语,借助AI技术,该功能现在支持自然语言输入。
通过全新的灵活输入方式,用户无需记忆精确标签或编号,即可用自然语言描述屏幕上的按钮和控件。"说你所见"的操作方式非常适合在各类应用中导航,包括苹果地图或文件等具有视觉布局的应用,用户可使用"点击关于最佳餐厅的指南"或"点击紫色文件夹"等直观语言进行操作。该功能还可帮助用户在元素未经过正确无障碍标注时突破操作障碍。
无障碍阅读器大幅升级
对于阅读文字存在困难的用户,无障碍阅读器的智能化程度得到显著提升。
无障碍阅读器为患有阅读障碍、低视力等各类障碍的用户提供定制化阅读体验,借助Apple Intelligence,阅读体验的可及性进一步增强。该功能现已支持更复杂的内容,如包含多栏、图片和表格的科学文章。按需摘要功能让读者可在深入阅读前先获取文章概览;全新内置翻译功能则允许用户以母语阅读内容,同时保留自定义的格式、字体和颜色设置。
AI字幕自动生成
任何视频现在都可以通过AI自动生成字幕,包括从家人朋友处收到的视频片段,以及在线流媒体内容。这对于聋人或听力障碍用户而言,具有革命性的意义。为保护隐私,字幕生成采用设备端处理方式。
目前,为个人视频、亲友分享的内容及其他媒体提供对白字幕的方案仍十分有限。借助全新的自动字幕生成功能,当视频本身未提供字幕时,系统可自动显示语音转录内容,适用于在iPhone上录制的视频、从朋友和家人处收到的视频或在线流媒体内容。通过设备端语音识别技术,字幕在iPhone、iPad、Mac、Apple TV及Apple Vision Pro上自动私密生成并显示。
眼控轮椅功能正式推出
部分电动轮椅用户有足够的肢体活动能力来使用操纵杆,但并非所有用户都能做到。现在,用户可以在Vision Pro中使用眼球控制轮椅。
借助Apple Vision Pro精准的眼球追踪系统,全新电动轮椅控制功能为用户提供了一种响应灵敏的输入方式,可与兼容的辅助驾驶系统配合使用。Vision Pro的眼球追踪无需频繁重新校准,并可在多种光线条件下正常使用。该功能首先在美国与Tolt和LUCI两款辅助驾驶系统联合上线,同时支持蓝牙和有线连接。苹果表示,未来将逐步兼容更多轮椅产品。
其他无障碍改进
苹果还列举了一系列其他无障碍功能的增强措施。
AI的价值远不止于聊天机器人。尽管苹果此前因AI功能推进较慢而受到外界批评,但将无障碍功能列为优先方向无疑是极佳的选择。这也表明,苹果在幕后正悄然推进更多创新工作。期待在即将举行的WWDC上看到更多AI方面的重大进展。
Q&A
Q1:Apple Intelligence在旁白功能中具体带来了哪些新能力?
A:Apple Intelligence为旁白(VoiceOver)带来了图像探索功能,可对照片、扫描账单、个人记录等视觉内容提供更详细的描述。用户还可以通过iPhone的操作按钮,快速询问摄像头取景框中的内容,并用自己的语言继续追问,获取更多视觉信息,使盲人或低视力用户能更全面地了解周围环境与屏幕内容。
Q2:苹果Vision Pro的眼控轮椅功能支持哪些设备?
A:苹果Vision Pro的电动轮椅眼控功能目前已在美国率先推出,首批支持Tolt和LUCI两款辅助驾驶系统,同时兼容蓝牙和有线两种连接方式。该功能利用Vision Pro精准的眼球追踪系统,无需频繁重新校准,并可在多种光线条件下稳定使用。苹果表示,未来将逐步扩大兼容的轮椅产品范围。
Q3:无障碍阅读器的AI自动字幕生成功能支持哪些平台?
A:自动字幕生成功能支持iPhone、iPad、Mac、Apple TV以及Apple Vision Pro多个平台。当视频未提供字幕时,系统会通过设备端语音识别技术自动生成并显示转录内容,适用于iPhone录制的视频、亲友分享的视频及在线流媒体,全程在设备本地处理以保护用户隐私。
好文章,需要你的鼓励
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。
人形机器人正从原型验证迈向早期商业部署,汽车制造与物流领域预计成为未来十年核心需求市场。IDTechEx预测,相关市场规模将于2030年代初达到约250亿美元,2036年年出货量接近180万台。硬件成本持续下降,均价有望从2024年的约11.47万美元降至2030年的约3.7万美元。高利用率场景下运营成本有望低于5美元/小时,投资回收期可缩短至约6个月。但大规模商业化的关键,仍在于软件能力、任务泛化与系统集成的持续突破。
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。