医学图像分割技术是借助先进的计算机视觉算法,针对医学影像数据进行智能识别与精确剪裁的核心手段,在医学诊断、治疗设计以及深入的图像分析等方面扮演着至关重要的作用。医学图像分割算法融合了众多方法论,从传统的基于阈值、区域生长、分裂合并、边缘检测等原理出发,逐步发展至包含区域相似性分析的水平集、区域竞争等高级算法,再到当今前沿的机器学习和深度学习技术,诸如 U-Net、全卷积网络 (FCN)、Mask R-CNN、DeepLab 等深度学习模型的广泛应用,极大地提升了分割的精度与效率。
这个项目使用主流的深度学习框架 Pytorch + UNet来实现,项目的特点是支持训练、分割算法特别轻量化、能够一键执行训练+预测,能够适应分割结构复杂的医学图像。项目提供完整的代码,包括训练 + 预测代码、一键执行脚本、训练好的分割模型权重 (当然也支持自己训练)、项目三方依赖库 (requirements.txt)、训练标注图片、待检测的测试图片、检测后的效果图等。
在拿到项目代码后,进行开发环境的配置,老习惯用 Anaconda3 管理 py 环境,如下,
# 安装 Anaconda3,过程略 ~
# 创建conda py环境
conda create -n aipro_py39 python=3.9
# 激活conda py环境
conda activate aipro_py39
然后自行安装 pytorch,然后直接运行 run.sh
一键执行脚本即可进行三方依赖安装 + 执行训练 + 执行推理测试。run.sh
的内容很简单,如下:
# 安装三方依赖
pip install -r requirements.txt
# 执行训练 + 执行推理
python main.py
执行训练过程如下:
预测结果保存在 res
文件夹下,下面展示医学图像分割效果,分割结果以 mask 二值图的形式展示,部分分割结果如下 (左边为原图,右边为分割图),可以看到即使是边界不太清楚的结构也是可以分割的比较清楚,且项目在增加 + 丰富训练数据集后,分割效果会进一步提升。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。