我们介绍一种研究系统,该系统可在日常使用智能手机时,通过前置摄像头拍摄的面部视频被动测量心率(HR)与静息心率(RHR)。
心率作为核心生命体征之一,是反映生理状态的动态指标,受活动量、压力、急慢性疾病等多种因素影响。静息心率则是衡量心血管健康水平与长期健康风险的重要生物标志物。静息心率偏高或长期呈上升趋势,与主要不良心血管事件及全因死亡率密切相关。
Fitbit 设备和 Pixel Watch 等可穿戴设备让人们能够在日常生活中持续追踪上述健康指标。然而,这类设备在低资源环境下的普及程度,以及在心血管疾病高风险人群中的覆盖率,仍有较大提升空间。智能手机为拓宽健康追踪的可及性提供了独特机遇——目前全球约有 50 亿人拥有配备强大传感器的智能手机,具备监测健康状况的潜力。2022 年,谷歌已展示了通过将手指放在摄像头上按需测量心率的智能手机方案,此后的研究进一步探索了利用该测量信号辅助预测心血管疾病的可能性。
在发表于《自然》杂志的论文《日常生活中智能手机使用时的被动心率监测》中,谷歌推出了一套名为 PHRM 的研究系统,可在用户日常使用智能手机的过程中在后台持续追踪心率与静息心率。PHRM 利用前置摄像头,在人脸解锁后的数秒内捕捉用户面部视频,并通过深度学习估算心率,与心电图导出的真实值相比,平均绝对百分比误差(MAPE)低于 10%,达到行业准确度标准,且对所有肤色人群均适用。此外,该系统整合全天心率测量结果,生成每日静息心率估算值,其准确度与可穿戴设备相当,与可穿戴追踪器相比,平均绝对误差(MAE)低于每分钟 5 次(bpm)。随论文发布,谷歌同步公开了目前规模最大、多样性最高的智能手机视频研究数据集,以及预训练的"PHRM-mini"模型,符合条件的研究人员可申请访问权限。
技术原理:远程光电容积脉搏波描记法
与可穿戴设备、脉搏血氧仪及此前研究相同,PHRM 通过光电容积脉搏波描记法(PPG)测量心率,即通过感知每次血液搏动时光线与皮肤相互作用的细微变化来实现监测。研究团队开发了一套端侧软件处理流程,对 8 秒面部视频片段进行处理,并采用计算效率较高的时间位移卷积神经网络预测心率及置信度评分。该流程进一步汇聚全天心率预测结果,结合置信度评分与卡尔曼滤波算法估算每日静息心率。
用于远程 PPG(rPPG)的计算机视觉模型已有二十年历史,但此前研究多在规模较小的受控环境下开展,泛化能力有限。与此同时,既往研究严重低估了深肤色人群——由于黑色素的存在,摄像头检测此类人群的 PPG 信号难度更大。近期研究对深肤色参与者的 rPPG 模型表现开展了更为深入的评估,发现准确率显著偏低,这与脉搏血氧仪及其他基于 PPG 技术所经历的困境如出一辙。脉搏血氧仪的相关问题已促使美国食品药品监督管理局(FDA)起草指导意见,要求在验证研究中确保肤色的多样性覆盖。然而,达到类似标准的 rPPG 研究目前仍十分匮乏。
多样化数据集与包容性设计
研究团队基于来自近 700 名多样化知情研究参与者的逾 35 万段视频片段开展 PHRM 的开发工作,数据采集涵盖实验室与真实场景两类环境,并对难度较高的案例加大模型训练力度。团队采用色度测量方法与蒙克肤色量表,确保浅肤色("第一组",蒙克 1-4 级)和中等肤色("第二组",蒙克 5-7 级)参与者各占数据集的至少 25%,深肤色("第三组",蒙克 8-10 级)参与者占比至少 33%。这一抽样方案与 FDA 此后提出的肤色群组划分标准高度一致。在谷歌健康优化团队的支持下,研究团队还制定了非劣效性标准,规定各组之间 PHRM 心率 MAPE 的差异须小于 5 个百分点。上述努力使 PHRM 研究成为迄今规模最大、多样性最高的 rPPG 研究,并推动了在全肤色谱系上均能准确表现的包容性模型的开发。
实验室验证结果
研究团队在实验室研究中对 PHRM 进行了多场景训练,招募 365 名多样化参与者,在不同光照条件和活动状态下同步采集面部视频与心电图(ECG)数据。在独立的 104 人测试集上,经置信度评分筛选后,PHRM 在各肤色组的 MAPE 均显著低于 10%,即便涵盖了测试中的多种复杂条件。PHRM 在同一测试集上的表现显著优于 15 种领先的已发表 rPPG 模型,无论是否经过置信度筛选,PHRM 均是唯一在全肤色群体中实现 MAPE 低于 10% 的模型。
真实场景研究:自由生活研究
为在真实场景数据上训练 PHRM,研究团队开展了一项首创性的"自由生活"研究。231 名多样化参与者在其个人手机上安装定制数据采集应用,连续 8 天正常使用手机,同时佩戴心电图胸带和 Fitbit Charge 6 健身追踪器。应用在每次人脸解锁后立即录制 8 秒视频片段和心电图数据,平均每天采集 231 段视频。每天结束时,参与者在审查视频片段以确认排除敏感内容和其他人脸后,手动主动授权将数据上传至安全加密服务器。
在保留的 101 人验证子集上,经置信度筛选后,PHRM 整体 MAPE 达 6.09%,第一组、第二组和第三组的 MAPE 分别为 5.04%、5.12% 和 7.84%,各组均显著低于 10%,并满足预设非劣效性目标。PHRM 在自由生活条件下对同一 15 种主流 rPPG 模型的超越幅度进一步扩大,依然是唯一在全肤色群体中实现 MAPE 低于 10% 的模型。Bland-Altman 分析显示,PHRM 平均低估心率仅 0.64 bpm,95% 一致性界限介于 -11.3 至 10.3 bpm 之间;置信度评分越高,误差越小。
静息心率估算结果
研究团队进一步针对在一天或多天内拥有至少 20 次心率测量记录的参与者应用 PHRM 的静息心率算法。在符合条件的 90 名参与者中,PHRM 成功估算了 73.6% 参与者-天的静息心率。与 Fitbit Charge 6 的每日静息心率相比,PHRM 静息心率的整体 MAE 为 4.39 bpm,显著低于预设的 5 bpm 目标。Bland-Altman 分析显示,PHRM 平均低估静息心率 0.1 bpm,95% 一致性界限介于 -9.1 至 9.2 bpm 之间;随着静息心率测量天数增加,误差持续降低。各肤色组的 MAE 均显著低于 5 bpm,第三组的 MAE 从第三天起同样显著低于 5 bpm。
此外,研究进一步证实:PHRM 推算的静息心率较高的参与者,在控制协变量后更可能呈现高体重指数(BMI)和较低的心肺适能(低 VO2max),表明 PHRM 准确捕捉了心血管风险的方向性关联。
研究意义与未来展望
据研究团队所知,PHRM 是首个在日常智能手机使用中大规模验证被动心率与每日静息心率监测的系统。作为唯一在全肤色人群中——即便是在不可预测的真实环境下——达到心率准确度标准的 rPPG 方法,它为该领域树立了新的基准。同时,这也是 rPPG 技术首次用于估算每日静息心率,并在全肤色群体中实现了可穿戴设备级别的准确性。
尽管 PHRM 在各肤色群体中均达到了准确度标准,但第二组和第三组的心率测量成功率相对偏低,这可能源于深色皮肤对 PPG 信号检测的固有挑战。未来的研究可探索优化摄像头曝光参数或触发额外采样以提升测量成功率。此外,参与者说话和头部运动会带来一定离群误差,改进视频防抖技术或基于加速度计的门控策略,有望进一步降低误差并优先筛选静息状态下的采集时机。未来系统还可通过人脸身份验证和安全的端侧处理,进一步保障数据完整性与隐私安全。
为推动相关研究的深入发展,谷歌已向具备机构审查委员会(IRB)批准且满足数据保护要求的研究人员开放这一里程碑式的数据集和建模资源。为保护研究参与者隐私,所有视频均在 IRB 批准下采集,并依据参与者的明确知情同意进行处理。该数据集严格限于非商业研究用途,访问研究人员被明确禁止尝试重新识别任何个人身份或公开展示原始视频资产。谷歌诚邀研究界基于这些资源,在现有工作基础上持续探索。
本研究凝聚了谷歌团队逾七年的持续努力,感谢所有参与者与合作伙伴的支持。
Q&A
Q1:PHRM 系统是如何通过手机摄像头测量心率的?
A:PHRM 利用前置摄像头在人脸解锁后的数秒内录制面部视频,通过光电容积脉搏波描记法(PPG)感知每次血液搏动时光线与皮肤相互作用的细微变化,再利用深度学习中的时间位移卷积神经网络估算心率及置信度评分,最终汇聚全天测量结果,结合卡尔曼滤波算法估算每日静息心率,整体流程完全在后台被动运行,无需用户主动操作。
Q2:PHRM 对不同肤色人群的测量准确度是否存在差异?
A:PHRM 在所有肤色群体中的心率 MAPE 均显著低于 10%,达到行业标准。在自由生活研究中,浅肤色组、中等肤色组和深肤色组的 MAPE 分别为 5.04%、5.12% 和 7.84%。深肤色组的测量成功率相对偏低,原因在于黑色素增加了摄像头检测 PPG 信号的难度。静息心率方面,深肤色组从第三天起 MAE 也显著低于 5 bpm 的目标值。
Q3:PHRM 的数据集和模型是否对外开放?使用有哪些限制?
A:谷歌已公开了目前规模最大、多样性最高的智能手机面部视频研究数据集,以及预训练的"PHRM-mini"模型,供符合条件的研究人员申请访问。申请者须具备机构审查委员会(IRB)批准并满足数据保护要求。该数据集严格限于非商业研究用途,严禁尝试重新识别参与者身份或公开展示原始视频资产。
好文章,需要你的鼓励
思科在Cisco Live大会上推出Cloud Control,这是一个跨网络、安全、计算、可观测性与协作的统一管理平台。它提供单一登录、统一视图和共同操作模型,整合Meraki、Splunk、Intersight等产品。平台内置AI Canvas多人协作工作区,支持人机协同排障;Marketplace已接入AWS、微软、ServiceNow等50余家生态伙伴。思科将其定位为AI时代的核心运营层,致力于将庞大产品组合真正转化为统一平台。
谷歌DeepMind等机构推出3DCodeBench,评测12款顶级AI用代码生成3D模型的能力,揭示当前AI在几何推理上的核心短板与改进方向。
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
SambaNova Systems团队提出LongAttnComp,通过训练轻量级交叉注意力评分层,将超长文本压缩至关键片段后再送入大模型,在代码调试任务上超越全文本基线,并跨模型家族泛化。