每年春天,河鲱鱼群从马萨诸塞州沿海水域开始它们的年度旅程,游向河流和溪流的淡水产卵栖息地。在过去几十年中,河鲱鱼种群面临严重衰退,该地区对其迁徙进行了广泛监测,主要通过传统的视觉计数和志愿者项目。
监测鱼类运动和了解种群动态对于指导保护工作和支持渔业管理至关重要。随着今年的年度鲱鱼洄游本月开始,研究人员和资源管理者再次面临尽可能准确计数和估算迁徙鱼类种群的挑战。
来自伍德韦尔气候研究中心、麻省理工学院海洋资助计划、麻省理工学院计算机科学与人工智能实验室(CSAIL)、麻省理工学院林肯实验室和Intuit公司的研究团队探索了一种使用水下视频和计算机视觉来补充公民科学工作的新监测方法。这些研究人员包括来自伍德韦尔气候研究中心的钟奇陈和琳达·迪根,来自麻省理工学院海洋资助计划的罗伯特·文森特和凯文·贝内特,来自麻省理工学院CSAIL的萨拉·比里和蒂姆·豪克,来自Intuit的奥斯汀·鲍威尔,以及来自麻省理工学院林肯实验室的莉迪亚·祖埃索。他们在今年2月的《生态与保护遥感》期刊上发表了描述这项工作的论文。
这篇开放获取论文题为"从快照到连续估算:用计算机视觉增强公民科学鱼类监测",概述了计算机视觉和深度学习的最新进展,从目标检测和跟踪到物种分类,如何为自动化鱼类计数提供有前景的现实解决方案,提高效率和数据质量。
传统监测方法受到时间、环境条件和劳动强度的限制。志愿者视觉计数仅限于短暂的白天采样窗口,错过了夜间活动和短暂的迁徙高峰期,这时数百条鱼会在几分钟内通过。虽然被动声学监测和成像声纳等技术已经在某些条件下推进了连续鱼类监测,但最有前景且成本低廉的选择——手动审查水下视频——仍然是劳动密集型和耗时的。随着对自动化视频处理解决方案需求的增长,这项研究提出了一个可扩展、成本效益高且高效的基于深度学习的系统,用于可靠的自动化鱼类监测。
团队构建了一个端到端的流水线——从现场水下摄像头到视频标注和模型训练——实现自动化、计算机视觉驱动的鱼类计数。视频从马萨诸塞州三条河流收集:法尔茅斯的库纳梅塞特河、伊普斯威奇河(伊普斯威奇)和马什皮的桑图伊特河。
为了准备训练数据集,团队选择了在光照、水质清晰度、鱼类种类和密度、一天中的时间和季节方面有变化的视频片段,以确保计算机视觉模型能在各种真实世界场景下可靠工作。他们使用开源网络平台手动逐帧标注视频,用边界框跟踪鱼类运动。总共标注了1,435个视频片段和59,850帧。
研究人员将计算机视觉计数与人工视频审查、河流边视觉计数以及被动集成转发器(PIT)标记数据进行比较和验证。他们得出结论,在多样化多站点和多年数据上训练的模型表现最佳,产生了与传统建立估算一致的全季节高分辨率计数。更进一步,该系统提供了与环境因素相关的迁徙行为、时间和运动模式洞察。使用2024年库纳梅塞特河迁徙的视频,该系统计数了42,510条河鲱鱼,并揭示了上游迁徙在黎明时分达到高峰,而下游迁徙主要在夜间进行,鱼类利用更黑暗、更安静的时期来避免捕食者。
通过这一现实应用,研究人员旨在推进计算机视觉在渔业管理中的应用,并为将该技术整合到广泛水生物种保护工作中提供框架和最佳实践。"麻省理工学院海洋资助计划已经资助这个主题的工作一段时间了,钟奇陈及其同事的这项出色工作将推进渔业监测能力,并改善渔业管理者和保护组织的鱼类种群评估,"文森特说。"它还将为学生、公众和公民科学团体提供教育和培训,支持沿海生态和文化上重要的河鲱鱼种群。"
然而,持续的传统监测对于维持长期数据集的一致性仍然至关重要,直到渔业管理机构完全实施自动计数系统。即使如此,计算机视觉和公民科学应被视为互补的。志愿者对于摄像头维护以及直接参与计算机视觉工作流程仍然是必要的,从视频标注到模型验证。研究人员设想,整合公民观察和计算机视觉生成的数据将有助于创建更全面和整体的环境监测方法。
这项工作由麻省理工学院海洋资助计划资助,还得到了东北气候适应科学中心、麻省理工学院阿卜杜勒·拉蒂夫·贾米尔水和食物系统种子资助、AI与生物多样性变化全球中心(由美国国家科学基金会和加拿大自然科学与工程研究理事会支持)以及麻省理工学院本科生研究机会计划的额外支持。
Q&A
Q1:计算机视觉技术在鱼类监测中具体能做什么?
A:计算机视觉技术可以通过处理水下视频自动计数和跟踪鱼类,提供24小时连续监测,克服传统人工计数只能在白天短时间采样的局限性。该技术还能分析鱼类的迁徙行为、时间模式和运动轨迹,为保护工作提供更全面的数据。
Q2:这种自动化监测系统的准确性如何?
A:研究团队通过与人工视频审查、现场视觉计数和被动集成转发器标记数据对比验证了系统准确性。使用多站点多年数据训练的模型表现最佳,能产生与传统方法一致的高分辨率计数结果,在2024年测试中成功计数了42,510条河鲱鱼。
Q3:这项技术会完全取代传统的鱼类监测方法吗?
A:不会完全取代。研究人员强调传统监测对于维持长期数据集一致性仍然重要,计算机视觉和公民科学应被视为互补关系。志愿者在摄像头维护、视频标注和模型验证方面仍发挥重要作用,两种方法结合能创建更全面的环境监测体系。
好文章,需要你的鼓励
谷歌在I/O开发者大会上发布"通用购物车"功能,基于通用商务协议(UCP)整合YouTube、Gmail、Gemini等平台的购物数据,支持Target、Shopify、Wayfair等主流零售商。AI代理可自动检测商品兼容性、推荐优惠信用卡、比价提醒,并在用户授权下自动完成日常采购。该功能旨在打通"加入购物车"到"完成结账"的全流程,实现个性化、无摩擦的购物体验。
这项联合研究提出了COVER方法和CM-EVS数据集,用贪心算法从3D场景中智能筛选全景视角,每场景仅需25帧即可完整覆盖室内场景,并附完整溯源日志。
HolderPO通过引入可调参数p的霍尔德均值替代固定的算术平均,解决了大模型推理训练中信号放大与稳定性之间的根本矛盾,配合动态退火策略在数学推理和代理任务上均创造了新的最优记录。