在最近的一次关于 AI 的圆桌会议上,三位业内专家讨论了 AI 体适能穿戴设备方面的突破,这些突破将对跑步者和运动员产生巨大影响。
这次讨论中涌现出了许多非常有见地的观点——这些关于工程实践的背景内容让我们看到了为何 AI 能够如此有效地支持人们的运动表现。
接下来,我将逐一介绍每位专家提出的一个核心观点,展示三个设计理念,这些理念构成了我们探索 AI 在运动领域应用的重要部分。
边缘设备与原始个人数据
这一关于 AI 的观点实际上包含两个组成部分——一部分涉及我们如何部署大语言模型,另一部分则围绕我们人类语言与我们生命体征在实时测量时所“表达”的语言之间的差异展开。
Alexander Amini 对跑步(以及网球)相当了解,他同时还参与了一家正在革新当代 AI 的公司。
在讲述 AI 如何为运动员服务时,Amini 首先指出,这在于“让 AI 与数据所在的位置共存”。
他解释道——早期的大语言模型部署在互联网上,因为边缘设备没有足够的运行能力。Transformers 昂贵且复杂。
而现在,新模型使我们能够在边缘设备上安装智能大语言模型,这不仅大幅降低了成本,还能帮助那些处于无互联网接入区域的运动员。
“这为我们与 AI 互动的方式开辟了全新的维度,”他说,“AI 已不再是一个需要将你所有数据上传给第三方服务商的工具,而可以深度嵌入到你生活的每个时刻。”
他的另一个观点在于,通过使用这些穿戴设备,我们可以收集到比单纯语言交流更多、更丰富的数据。
“这一切归根结底在于我们与 AI 交流的方式,”他说。
他还进一步解释道。以下是我的理解:本质上,语言是一套用以传递思想的符号,正如他所说,是经过‘压缩’的,而非原始数据。相比之下,想想看你身体每一微秒释放的所有数据,那是一种完全不同的沟通媒介。如果 AI 能够获取并利用所有这些数据,而不只是单纯倾听你的言语,它就能更全面地了解你这个人。
“我们身体生成的数据无法通过语言进行压缩,”Amini 说,“这些数据具有高度多维性,信号表达十分丰富,并且是连续不断的。数据量巨大,在许多情况下,我们无法将所体现的全部体能复杂性实时传输给这些系统。这正是当我们谈论将 AI 引入自身时……我们所解锁的全新可能。”
我是否脱水?
另一个精彩的观点来自 Emily Capodilupo,她设计了一款名为 Whoop 的工具。
她解释说,人类在判断自己是否脱水方面表现极差。
“我们实际上在判断脱水状态上非常糟糕,”她表示,“人们往往没意识到自己正处于脱水状态。总体而言……你的身体知道许多信息,但如果你腕上运行着算法,能够帮你理解身体在努力工作的程度与运动速度之间的比例——如果这两个指标开始迅速背离,那就可能是你即将‘撞墙’或正受到脱水困扰的信号。”
作为一名跑者,我对此颇有共鸣:如果完全依靠自身感觉去判断,通常只能依据口渴、发热或皮肤状况来判断脱水。而 AI 能够精准到更细微的层面检测你身体的实际需求,这对于任何装备了这些工具的运动员来说都将是巨大的优势。
我的数字孪生体
当天,另一位发言者 Jamie 也上台发言。他采用一种叫做数字孪生(digital twinning)的技术,对自己的身体进行了大量研究。
数字孪生简单来说就是对现实中某物的一个健全模型。我常用“分身”这一词来描述这种系统,也就是对实体或模拟空间中实体事物的高度详细仿真。
这一数字孪生为我们提供了一个分析试验场,帮助我们不断改进测量技术。
Jamie 透露,他已经为自己构建了 100 个样本,每个样本的成本大约为 5000 美元。
“在过去十年中,我在测量自身生物数据变化上花费了大约 50 万美元,”他说,“这些结果变化累计构成了一个数字孪生,它不仅能预测我的未来,还能预测我面临的各种疾病风险,如今我们甚至可以通过血液测试来实现。”
谈到普及性,他引用了 William Gibson 的话:“未来已经到来——只不过分布并不均匀。”
“我们现在几乎对所有人类疾病都有血液测试,”他继续说道,“这些测试的准确率比市场上现有的预测高出五到十倍。”
更进一步,他解释称,在运用新技术的研究中发现,通过对收集到的数据进行分析,有一半接受分析的患者能够从显著的干预中获得益处。
“在我们进行的数据分析中,发现一半的个体具备了一个能改变生活、显著延长寿命的关键可操作信息——这一切都是经过计算、预测与分析得出的,”他说。这是一个了不起的统计数据。
面向未来的创新
这三项发现分别展示了 AI 在帮助我们“微调”生活(无论是在体能、长寿等方面)上的巨大潜力,使我们不再需要凭直觉或猜测。
基本上,以前我们认为只存在于科幻小说中的许多工具,如今已变为现实。某些工具可能尚未全面推向市场——目前我们还未见到所有相关技术在生活中的完全展示,但这一现状很快就会改变。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。