企业正在产生比以往更多的视频数据。从多年的广播档案到数千个商店摄像头,再到无数小时的制作素材,大部分视频数据都闲置在服务器上,无人观看和分析。这些就是"暗数据":企业自动收集但几乎从未有效利用的巨大未开发资源。
为了解决这个问题,Aza Kai(CEO)和Hiraku Yanagita(COO)这两位前谷歌员工决定构建自己的解决方案。他们曾在谷歌日本公司共事近十年,随后共同创立了总部位于东京的初创公司InfiniMind,专门开发将PB级未观看视频和音频转换为结构化可查询商业数据的基础设施。
"我的联合创始人在谷歌日本领导品牌和数据解决方案团队近十年,我们在谷歌工作时就看到了这个拐点的到来,"Kai表示。到2024年,技术已经成熟,市场需求也变得足够明确,促使联合创始人们决定自己创建这家公司。
Kai曾在谷歌日本从事云计算、机器学习、广告系统和视频推荐模型工作,后来领导数据科学团队。他解释说,当前的解决方案存在权衡问题。早期的方法可以标记单个帧中的对象,但无法跟踪叙述、理解因果关系,或回答关于视频内容的复杂问题。对于拥有数十年广播档案和PB级素材的客户来说,即使是关于内容的基本问题也往往无法得到解答。
真正改变游戏规则的是2021年到2023年间视觉语言模型的进步。Kai指出,这时候视频AI开始超越简单的对象标记。过去十年中GPU成本下降和每年约15-20%的性能提升有所帮助,但更重要的是能力突破——直到最近,模型才真正能够胜任这项工作。
InfiniMind最近获得了580万美元的种子轮融资,由UTEC领投,CX2、Headline Asia、Chiba Dojo以及a16z Scout的AI研究员参投。公司正将总部迁至美国,同时继续在日本运营办公室。日本提供了完美的测试平台:强大的硬件、有才华的工程师和支持性的创业生态系统,让团队在全球化之前能够与要求苛刻的客户一起优化技术。
其首款产品TV Pulse于2025年4月在日本推出。这个AI驱动的平台实时分析电视内容,帮助媒体和零售公司"跟踪产品曝光、品牌存在感、客户情感和公关影响"。在与主要广播公司和代理商进行试点项目后,已经拥有付费客户,包括批发商和媒体公司。
现在,InfiniMind已准备好进军国际市场。其旗舰产品DeepFrame是一个长视频智能平台,能够处理200小时的素材以精确定位特定场景、说话者或事件,计划于3月进行beta测试,随后于2026年4月全面推出。
视频分析领域高度分散。TwelveLabs等公司为包括消费者、专业用户和企业在内的广泛用户群体提供通用视频理解API,而InfiniMind专门专注于企业用例,包括监控、安全、安防以及深度视频内容分析。
"我们的解决方案无需编码;客户带来数据,我们的系统处理并提供可操作的洞察,"Kai说。"我们还整合了音频、声音和语音理解,不仅仅是视觉。我们的系统可以处理无限长度的视频,成本效率是主要差异化因素。大多数现有解决方案优先考虑准确性或特定用例,但不能解决成本挑战。"
种子资金将帮助团队继续开发DeepFrame模型,扩展工程基础设施,招聘更多工程师,并在日本和美国接触更多客户。
"这是一个令人兴奋的领域,是通往通用人工智能的路径之一,"Kai说。"理解通用视频智能就是理解现实。工业应用很重要,但我们的最终目标是推动技术边界,更好地理解现实,帮助人类做出更好的决策。"
Q&A
Q1:InfiniMind是什么公司?主要做什么业务?
A:InfiniMind是一家由前谷歌员工创立的东京初创公司,专门开发将PB级未观看视频和音频转换为结构化可查询商业数据的基础设施,帮助企业理解和分析大量闲置的视频数据。
Q2:DeepFrame产品有什么特点和优势?
A:DeepFrame是InfiniMind的旗舰产品,是一个长视频智能平台,能够处理200小时的素材以精确定位特定场景、说话者或事件。它无需编码,整合音频和语音理解,可处理无限长度视频,在成本效率方面具有显著优势。
Q3:视频AI技术发展的关键转折点是什么?
A:关键转折点是2021年到2023年间视觉语言模型的进步。这时候视频AI开始超越简单的对象标记,能够跟踪叙述、理解因果关系,回答关于视频内容的复杂问题,真正具备了处理企业级视频分析任务的能力。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。