首页> 新闻动态> 行业资讯> Mask R-CNN 算法原理： "整体框架→核心模块→创新点"

Mask R-CNN 算法原理： "整体框架→核心模块→创新点"

作者：万物纵横

发布时间：2025-10-29 09:04

阅读量：

Mask R-CNN 的核心设计思路是 “两阶段并行任务”：第一阶段生成高质量的目标候选框（RoI，Region of Interest），第二阶段在候选框基础上，同时完成 “目标分类、目标位置回归、目标像素级掩码（Mask）生成” 三个任务。其原理可拆解为 “整体框架→核心模块→创新点” 三部分。

Mask R-CNN 算法原理： "整体框架→核心模块→创新点"(图1)

一、整体框架：继承与创新

Mask R-CNN 并非完全从零设计，而是在Faster R-CNN的基础上扩展而来，结构上分为 “特征提取→区域提议→检测 + 分割” 三大模块，核心创新是在第二阶段新增了 “Mask 分支”。

整体流程如下图所示（简化版）：

输入图像 → Backbone（特征提取）→ 特征图 → 1. 区域提议阶段（RPN）→ 候选框（RoI） → 2. 检测与分割阶段（RoIAlign + 三分支）→ 输出（类别、位置、Mask）

继承部分：沿用 Faster R-CNN 的 “Backbone+RPN” 架构，保证了目标候选框的高质量，为后续检测和分割提供可靠基础。

创新部分：将 Faster R-CNN 第二阶段的 “RoIPooling” 替换为 “RoIAlign”（解决位置误差），并新增 “Mask 分支”，实现 “检测 + 分割” 并行输出。

二、核心模块拆解（按流程）

1. 第一阶段：区域提议网络（RPN）—— 生成候选框

RPN 的作用是从 Backbone 提取的特征图上，快速生成大量 “可能包含目标” 的候选框（RoI），避免对全图像素逐一检测，提升效率。

（1）输入与输出

输入：Backbone（如 ResNet50/101）提取的深层特征图（如原图尺寸为 800×800，特征图尺寸为 25×25，步长 32）。

输出：

每个候选框的 “前景 / 背景分数”（判断是否包含目标）。

每个候选框的 “位置偏移量”（初步修正候选框坐标，使其更接近真实目标）。

最终筛选出的 2000 个高质量候选框（RoI），进入第二阶段。

Mask R-CNN 算法原理： "整体框架→核心模块→创新点"(图2)

（2）核心机制：Anchor（锚点）

RPN 通过 “Anchor 机制” 生成候选框，具体步骤如下：

预设 Anchor：在特征图的每个像素点上，预设 3 种尺度（如 128×128、256×256、512×512）和 3 种长宽比（1:1、1:2、2:1），共 9 个 Anchor（候选框模板）。

滑动窗口计算：用一个 3×3 的滑动窗口遍历特征图，对每个像素点的 9 个 Anchor，分别计算 “前景分数” 和 “位置偏移量”。

筛选与修正：通过非极大值抑制（NMS）去除重叠度高的候选框，再根据前景分数筛选出 2000 个候选框，并用位置偏移量修正坐标，得到最终的 RoI。

2. 第二阶段：检测与分割并行 ——RoIAlign + 三分支

这是 Mask R-CNN 的核心创新阶段，通过 “RoIAlign” 解决了传统 RoIPooling 的位置误差问题，并新增 Mask 分支，实现 “分类、回归、分割” 三任务并行。

（1）关键改进：RoIAlign—— 解决位置量化误差

传统 Faster R-CNN 使用RoIPooling处理 RoI，但会产生 “两次量化误差”，导致特征图与原图的位置不匹配，严重影响分割精度。Mask R-CNN 用RoIAlign替代 RoIPooling，彻底解决此问题。

RoIPooling 的问题：

第一步量化：将 RoI 在特征图上的浮点数坐标（如 10.3×12.6）取整为整数（10×12），导致位置偏移。

第二步量化：将 RoI 划分为固定大小的子区域（如 7×7），对每个子区域取最大值，再次丢失位置细节。

RoIAlign 的解决方案（双线性插值）：

不量化坐标：直接使用 RoI 的浮点数坐标，确定其在特征图上的精确位置。

采样插值：将 RoI 划分为 7×7 的子区域后，在每个子区域内均匀采样 4 个点，通过双线性插值计算这 4 个点的特征值，再取最大值作为子区域的特征值。

结果：RoIAlign 输出的 7×7 特征图，与原图目标的位置完全对齐，无偏移，为后续 Mask 生成提供精准的空间特征。

Mask R-CNN 算法原理： "整体框架→核心模块→创新点"(图3)

（2）三并行分支：分类、回归、Mask

RoIAlign 输出 7×7 的特征图后，分为三个并行分支处理，分别完成不同任务：

分支名称	输入	输出	核心作用
分类分支	7×7 特征图→全连接层	目标类别概率（如猫、狗、背景）	判断 RoI 内目标的具体类别
回归分支	7×7 特征图→全连接层	候选框位置偏移量（x,y,w,h）	进一步修正 RoI 坐标，得到精准的目标边界框
Mask 分支	7×7 特征图→全卷积层（FCN）	28×28 的二进制掩码（0/1）	生成像素级掩码，0 表示背景，1 表示目标