在庞大数据集上训练的大语言模型能够加速基因组学研究、简化临床文档记录、改善实时诊断、支持临床决策制定、加快药物发现,甚至生成合成数据来推进实验进展。
然而,这些模型在改变生物医学研究方面的承诺往往遇到瓶颈:除了医疗保健依赖的结构化数据之外,这些模型在罕见疾病和异常病症等边缘案例中表现不佳,因为可靠、有代表性的数据稀缺。
总部位于纽约的Mantis Biotech公司声称正在开发解决方案来填补这一数据可用性缺口。该公司的平台整合来自不同来源的数据,制作合成数据集,用于构建所谓的人体"数字孪生":基于物理学的解剖学、生理学和行为预测模型。
该公司正在推广这些数字孪生用于数据聚合和分析。这些数字孪生可用于研究和测试新的医疗程序、训练手术机器人,以及模拟和预测医疗问题甚至行为模式。例如,体育团队可以根据特定NFL球员的近期表现、训练负荷、饮食以及他们的活跃时间长度,预测该球员发生跟腱损伤的可能性,Mantis创始人兼首席执行官Georgia Witchel在最近接受TechCrunch采访时解释道。
为了构建这些孪生体,Mantis平台首先从各种来源收集数据,如教科书、动作捕捉摄像机、生物识别传感器、训练日志和医学成像。然后,它使用基于大语言模型的系统来路由、验证和综合各种数据流,并通过物理引擎运行所有这些信息,创建该数据集的高保真渲染,然后可用于训练预测模型。
"我们能够获取所有这些不同的数据源,然后将它们转化为人们如何表现的预测模型。因此,任何时候你想预测人类如何表现时,这都是我们技术的一个非常好的用例,"Witchel说。
Witchel告诉TechCrunch,物理引擎层在这里是关键,因为它通过基于生成的合成数据并逼真地建模解剖学物理特性来帮助平台增强可用信息。
"如果我要求你为一个缺少手指的人进行手部姿态估计,这将非常非常困难,因为没有公开可用的缺少手指的人标记手部位置的数据集。我们可以非常非常容易地生成该数据集,因为我们只需要取我们的物理模型并说,移除手指X,重新生成模型,"她说。
由于Mantis平台填补了数据源的空白,Witchel认为它有潜力在生物医学行业中广泛使用,因为该行业中有关程序或患者的信息可能难以获取、非结构化或分散在各种来源中。她强调了边缘案例或罕见疾病,在这些情况下数据很难获得,因为在将患者数据包含在公共数据集中或用于训练人工智能模型时往往存在道德和监管约束。
"你知道当你看到一个三岁的孩子跑来跑去,他们拿着一个芭比娃娃,抓着一条腿在桌子上敲打时的情景吗?我希望人们对我们的数字孪生有这种心态,"她说。"我认为这将让人们接受这样的想法:当你使用虚拟人类时,人类是可以被测试的。我觉得目前,人们的操作思维完全相反,这完全有道理,因为应该尊重人们的隐私。事实上,我真的不认为人们的数据应该被利用,特别是当你有这些数字孪生时。"
目前,Mantis在专业体育领域取得了成功,大概是因为需要对高水平运动员进行建模。Witchel说这家初创公司的主要客户之一是一支NBA球队。
"我们创建这些运动员的数字表示,基本上显示这个运动员是如何跳跃的,不仅是今天,而是过去一年中的每一天,以及他们的跳跃如何随时间变化,与他们的睡眠时间相比,或者与他们将手臂举过头顶的次数相比,"她解释道。
这家初创公司最近筹集了740万美元的种子资金,由Decibel VC领投,Y Combinator、一些天使投资者和Liquid 2参与投资。这笔资金将用于招聘、广告、营销和进入市场功能。
Witchel说,Mantis的下一步是继续构建技术,并最终向公众发布平台,目标是预防性医疗保健。该公司还致力于为制药实验室和从事FDA试验的研究人员提供服务,旨在深入了解患者对治疗的反应情况。
Q&A
Q1:Mantis Biotech的数字孪生技术是什么?
A:Mantis Biotech开发的数字孪生是基于物理学的人体预测模型,包括解剖学、生理学和行为建模。该技术整合来自教科书、动作捕捉、生物传感器、医学成像等不同数据源,通过大语言模型系统处理后,利用物理引擎创建高保真渲染,用于训练预测模型。
Q2:数字孪生技术能解决什么医学难题?
A:主要解决医学数据可用性问题,特别是罕见疾病和异常病症的数据稀缺问题。由于伦理和监管约束,这些领域的患者数据难以获取和使用。数字孪生可以生成合成数据集,填补数据空白,用于研究测试医疗程序、训练手术机器人、模拟预测医疗问题等。
Q3:Mantis Biotech目前主要服务哪些客户?
A:目前主要在专业体育领域取得成功,主要客户包括NBA球队。他们为运动员创建数字表示,分析运动员的表现变化趋势,比如跳跃能力与睡眠时间、训练强度的关系,帮助预测运动损伤风险。公司计划未来拓展到预防性医疗保健和制药研发领域。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。