视频AI基础模型开发商TwelveLabs今日宣布完成1亿美元早期融资,旨在突破简单的视频理解边界,向全面智能化迈进。
本轮B轮融资由NEA与NAVER Ventures联合领投,亚马逊、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital以及Red Bull Ventures参与跟投。此轮融资完成后,TwelveLabs累计融资总额已超过2.07亿美元。
"五年前,我们做出了一个逆向押注:机器智能的底层基础是运动中被记录的现实,而非语言。"联合创始人兼首席执行官Jae Lee表示,"语言是理解的下游产物,视频才是理解真正需要回答的数据。"
TwelveLabs凭借自研技术,在视频AI领域构建了前沿基础模型,具备真正的视频理解能力。该公司从底层出发,打造了原生理解视频的多模态模型,而非简单在大语言模型上叠加视频处理能力。
公司旗下核心产品包括Marengo模型系列(去年底发布了3.0版本)以及Pegasus 1.5模型。
Marengo实现了对视频、音频、文本及内容构成的真实AI向量嵌入,能够解析多种类型的内容,并将其存入向量数据库等机器可读数据结构,从而使AI模型能够大规模理解和检索相关信息。
Pegasus则与Marengo协同工作,将视频转化为结构化数据。它能够识别场景边界、实体对象、时间片段以及事件内容,使大语言模型得以对视觉信息进行推理。其工作方式类似于大语言模型处理长文档和图像的机制——通过标记语言对内容进行摘要,以便于理解。
当前的大语言模型无法一次性处理完整视频,只能将其切分为一系列截图帧再进行推理。TwelveLabs表示,公司构建了一种原生理解时序变化的推理能力——模型在多次查询之间保持持续记忆,而非每次查询后清空状态,使智能随着处理视频数量的增加不断积累深化。
公司表示,借助上述模型,将致力于建立视频感知的全新范式,打造一套能够让机器分析、检索和利用视频素材的完整系统。
该技术的应用场景横跨安全监控、广告营销、体育分析和汽车行业等多个领域,这些行业均拥有海量的视频信息资产。
在本轮融资的同时,TwelveLabs也进一步深化了与亚马逊云科技(AWS)的合作关系。公司服务自2025年起已在AWS Marketplace上线,并可通过Amazon Bedrock托管访问基础模型。AWS目前已是TwelveLabs的首选云服务提供商。随着此次投资落地,公司还签署了一项多年期承诺,将视频推理工作负载专项优化至AWS Trainium芯片上,未来新一代前沿模型也将率先在AWS平台发布。
Q&A
Q1:TwelveLabs的Marengo和Pegasus模型分别有什么功能?
A:Marengo负责对视频、音频和文本进行AI向量嵌入,将内容存入向量数据库,让AI模型能够大规模理解和搜索信息。Pegasus则将视频转化为结构化数据,识别场景边界、实体对象和时间片段,使大语言模型能够对视觉内容进行推理,类似大语言模型处理长文档的方式。两者协同工作,共同构建完整的视频理解能力。
Q2:TwelveLabs的视频AI技术和普通大语言模型处理视频有什么区别?
A:普通大语言模型无法直接处理视频,只能将视频切分成一系列截图帧再进行推理,且每次查询后记忆会清空。TwelveLabs则从底层构建了原生理解视频的多模态模型,能够理解时序变化趋势,并在多次查询间保持持续记忆,让模型随处理视频数量增加而不断积累智能。
Q3:TwelveLabs的视频理解技术主要用在哪些行业?
A:TwelveLabs的视频AI技术应用场景广泛,主要覆盖安全监控、广告营销、体育分析和汽车行业等视频数据密集型领域。这些行业拥有大量视频资产,借助TwelveLabs的技术,可实现对视频内容的自动分析、智能检索和业务化应用,大幅提升视频数据的利用效率。
好文章,需要你的鼓励
跑分只是基准,情绪才是真相。我们整理了 1500 条海外开发者对 GLM-5.2 的评价,发现这个号称能“平替顶级闭源模型”的开源巨兽,最大的争议点竟然是“硬件成本”。当部署一个模型需要“一套房”时,你还愿意本地化吗?
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。
电动自行车频繁出现在负面新闻中——危险骑行、电池火灾、立法管制。这些问题确实存在,需要通过教育、执法和安全标准加以解决。但更大的图景常被忽视:数百万人因此骑车通勤、重拾运动、减少开车,带来健康、减排和出行独立性等多重效益。研究也表明,电动自行车骑行具有显著心肺锻炼价值。正如汽车不能只以醉驾定义,电动自行车也不应仅凭最坏案例被评判。
清华大学提出VG-GUI-Bench评测视频引导操作能力,并设计TASKER关键帧搜索算法,在视频问答和GUI智能体任务上均实现性能与效率的双重提升。