摘要
随着计算机辅助医疗诊断系统和医学图像分割技术的快速发展,结直肠镜检查性能得到了极大的提升,可有效帮助临床医生对息肉病变作出快速准确的判断并制定治疗方案。然而,在临床实践中,息肉分割面临众多挑战,如不同患者的息肉所处肠道环境不同,息肉大小不同、形状各异等。为了应对这些挑战,提升结直肠息肉分割模型的泛化能力和学习能力,提出了一种泛化增强与动态感知网络(Generalization enhancement and dynamic perception network,GEDPNet)。GEDPNet使用金字塔视觉Tranformer(PVT_v2)作为主干,重点设计了泛化增强(Generalization enhancement,GE)模块、动态感知(Dynamic perception,DP)模块和级联聚合(Cascade aggregation,CA)模块。首先,GE模块创新性地从提取息肉域不变特征的角度来提升模型的泛化性,从而有效缓解不同患者的息肉所处肠道环境不同导致的分割性能不佳问题;同时,该模块还通过提取丰富的层内多尺度信息来应对息肉尺寸多样化的挑战。其次,DP模块能够有效地动态感知全局信息和局部信息,捕获息肉的语义位置信息和边界纹理等细节信息。最后,CA模块将不同层级的含有不同语义信息的多尺度特征有效聚合,保证息肉信息的完整性,进一步提升了分割性能。所提GEDPNet模型在5个息肉数据集Kvasir‑SEG、CVC‑ClinicDB、CVC‑T、CVC‑ColonDB和ETIS上进行了测试,mDice分别达到0.930、0.946、0.911、0.825和0.806;mIoU分别达到0.883、0.902、0.848、0.747和0.733;MAE分别达到0.019、0.005、0.005、0.025和0.013。此外,所提方法与20种经典及先进的息肉图像分割方法进行了性能比较,比经典息肉分割方法PraNet 的mIoU分别提高了 4.3%、5.3%、5.1%、10.7%和16.6% 。结果表明,本文所提的GEDPNet对肠道环境差异大、尺寸不一及形状各异的息肉具有较好的感知能力,可有效提升模型的息肉分割精度和泛化能力。
结直肠癌(Colorectal cancer,CRC)是全球第三大常见癌症,在癌症致死率中排名第二。结直肠癌通常从息肉病变发展而来,通过结肠镜检查及早发现息肉病变,能够有效降低结直肠癌的发病率,从而挽救更多的生命。传统手工结直肠镜检查高度依赖于医生的经验水平,且费时费
近年,卷积神经网络(Convolutional neural network,CNN)被广泛应用于医学图像分割,如Ronneberger
随着Transformer在计算机视觉领域的发展与应用,视觉Transformer(Vision Transformer,ViT
针对上述问题,Yue
因此,针对息肉环境差异大和尺寸形状各异等问题,本文提出了一种息肉分割模型,即泛化增强与动态感知网络(Generalization enhancement and dynamic perception network,GEDPNet),通过提取息肉的域不变特征来提升模型的泛化性,同时提取丰富的层内多尺度信息,以及动态感知全局信息和局部信息,来进一步提升模型分割息肉的精度。GEDPNet以PVT_v2为主干,着重设计了泛化增强(Generalization enhancement,GE)模块、动态感知(Dynamic perception,DP)模块和级联聚合(Cascade aggregation,CA)模块。GE模块通过设计的域不变特征提取子模块有效提取息肉域不变特征,增强模型的泛化能力,同时能够有效关注层内多尺度信息;DP模块利用全局感知子模块和局部与空间感知子模块来动态感知精准的全局信息和局部信息,避免层级差异;CA模块通过有效聚合不同层级的多尺度特征,充分捕获息肉的语义位置和细节纹理等信息。所提模型GEDPNet在多个息肉数据集上进行了丰富的实验,实验结果验证了所提模型优于其他经典以及最新的模型,取得了良好的息肉分割性能。
总体来说,本文的主要贡献总结如下:
(1)提出一种新的息肉分割方法GEDPNet,创新地提取息肉域不变特征来提升模型的泛化性;同时通过获取丰富的层间和层内多尺度信息,动态感知全局和局部信息,进一步提升息肉分割精度。
(2)设计GE模块,通过在其内部设计域不变特征提取子模块来提取息肉域不变特征,增强模型的泛化性,同时有效获取层内多尺度信息;
(3)设计DP模块来动态感知全局和局部信息,设计CA模块获取丰富的层间多尺度信息,进而捕获息肉的语义和细节信息;
(4)在多个息肉数据集上进行实验,实验结果表明GEDPNet在息肉分割任务上具有出色的学习能力和泛化能力。
面对息肉在不同患者肠道内所处环境差异大、尺寸多变且形状各异等困难,为进一步提升息肉分割的性能,本文提出GEDPNet,其结构如

图1 泛化增强与动态感知网络结构图
Fig.1 Structural diagram of generalization enhancement and dynamic perception network (GEDPNet)
GEDPNet模型主要由PVT_v2主干和解码器组成,其中着重设计了解码器中的GE、DP和CA模块。GEDPNet模型具体工作过程如下:输入一幅息肉图像,使用带有预训练权重的主干PVT_v2进行特征提取,获得4个不同层级的多尺度原始特征 ,其中和分别为输入图像的高度和宽度,为第层的通道数。将原始特征与分别输入到两个GE模块,分别实现层内多尺度特征增强,并且提取该层的息肉域不变特征,得到多尺度泛化增强特征。接着,原始特征和多尺度泛化增强特征分别输入到3个DP模块,动态感知精准的全局和局部信息并将其进行有效融合,避免由层级语义差异导致的信息丢失,得到感知融合特征。然后,利用卷积和批归一化(Convolution and batch normalization,CB)对感知融合特征进行通道对齐和特征规范,得到规范对齐特征,其中和再分别经过上采样进行空间尺度对齐,得到空间尺度对齐特征和。最后,将特征输入到CA模块进行特征聚合,充分聚合不同层级的含有不同语义信息的多尺度特征,充分捕获息肉语义及细粒度信息,得到级联聚合特征。
综上,本文重点设计的GE、DP和CA模块分别从3个角度对特征进行增强,在三者共同协作下能够有效提升息肉分割性能。首先,GE模块能够提取息肉域不变特征和层内多尺度特征,为DP模块提供包含丰富上下文信息的多尺度泛化增强特征;然后,DP模块利用全局感知子模块和局部与空间感知子模块来动态感知GE模块提供的特征中的全局信息,以及包含边界和纹理细节的局部信息;最后,CA模块有效融合不同层级DP模块输出的具有不同的空间分辨率和语义信息的多尺度特征,从而充分捕获息肉的语义位置和纹理细节,提升模型的息肉分割性能。
由于每个患者肠道环境差异大,且采集息肉图像时受光线、角度等因素影响,导致息肉分割困难;另外,结直肠息肉大小不同、形状各异,尽管采用PVT_v2主干获得了4层多尺度特征,但是每一层的层内特征仅有一个尺度,不足以应对尺寸多变的息肉目标。因此,本文设计GE模块,提取域不变特征和丰富的层内多尺度信息,有效提升模型的泛化能力和分割精度。GE模块具体结构如

图2 泛化增强模块结构图
Fig.2 Structural diagram of generalization enhancement (GE) module
具体工作过程如下:
首先,进行层内多尺度特征增强,采用3个并行分支来处理原始特征,每个分支经过不同空洞率的卷积,且3个分支间相加连接,从而使每一层特征获得更为丰富的层内多尺度信息。具体来说,每个分支先分别经过1个的常规卷积,再经过1个的空洞卷积(空洞率分别为1、3和5),得到第层中层内多尺度特征增强的第个分支的输出,所有卷积均进行补零操作,维持特征图尺寸。最后,将3个分支结果逐像素相加,获得层内多尺度增强特征。和的获取可以分别表示为
(1) |
(2) |
式中:表示卷积,表示扩张率。
其次,为了提升模型对不同患者肠道环境中的息肉分割的泛化能力,同时去除层内多尺度增强特征中包含的冗余和噪声,设计了域不变特征提取(Domain invariant feature extraction,DIFE)子模块。DIFE采用可切换白化(Switchable whitening,SW)方法和压缩与激励的操作,去除特征中的冗余和相关性,从而提取息肉域不变特征。SW内部包含5种归一化和白化方法,分别是批归一化、实例归一化、层归一化、批白化和实例白化,通过动态调整这些归一化和白化方法的权重来适应不同的任务。在面对不同域时,SW更多地选择实例白化和实例归一化来减少源域和目标域之间的差异,从而有效地应对不同患者肠道内部的息肉外观差异。实例白化针对单个样本进行操作,计算每个样本的均值和协方差矩阵,并利用这些统计量对特征进行白化处理,旨在去除单个样本内部特征之间的相关
DIFE子模块的具体工作过程如下:层内多尺度增强特征经过可切换白化,获得去除相关性的白化特征,再经过一个压缩与激励的通道权重分配过程,以保留更重要的信息,从而获得域不变特征,该过程可以表示为
(3) |
(4) |
式中:表示可切换白化,“”表示元素乘法,表示自适应平均池化,表示全连接层,表示激活函数,表示函数。
最后,采用特征空间和通道重构注意力SSCon
(5) |
式中:表示特征空间和通道重构注意力操作。
在解码器逐层恢复分辨率的过程中,需要融合原始特征和多尺度泛化增强特征来保证输入图像信息的完整。但是,不同层级间存在信息差异,直接融合容易造成信息丢失。因此,本文设计了DP模块,其中设计了全局感知(Global perception,GP)子模块和局部与空间感知(Local and spatial perception,LSP)子模块来动态感知精准的全局信息和局部信息。设计基于Transformer的GP子模块和基于CNN的LSP子模块来分别获取长期依赖关系和边界及纹理细节信息,同时捕获小息肉目标。DP整体结构如

图3 动态感知模块结构图
Fig.3 Structural diagram of dynamic perception (DP) module
具体工作过程如下:DP模块有两个输入。首先,输入1经过卷积对齐通道,得到通道对齐特征,将其与输入2同时输入到GP子模块,得到全局感知特征;输入1和输入2同时直接输入到LSP子模块,得到局部与空间感知特征;最后将与相乘得到特征。其次,经过通道注意力模块MSC
为了使两个特征图在融合时能更加关注全局信息,获得长距离依赖关系,设计了GP子模块,其整体结构如

图4 全局感知子模块结构图
Fig.4 Structural diagram of global perception (GP) sub‑module
具体工作过程如下:
首先,使用卷积层和归一化对两个输入分别分块后再展平,得到具有序列化的和。然后,对和分别进行归一化,并输入到线性层进行线性映射,计算出查询矩阵,键矩阵()和值矩阵()。不同于传统自注意力机制中、和都来自相同的输入,本文中的由输入2计算得到,和由通对齐特征计算得到。
为了减少计算复杂度,对和分别进行平均池
(6) |
式中为键向量的维度,用于缩放点积。
接着,注意力特征与和相加之后得到,将其归一化后输入到前馈层得到前馈特征,该求取过程可表示为
(7) |
式中:表示深度卷积,和表示线性全连接映射,表示激活函数。
最后,将注意力特征和前馈特征相加,得到GP子模块输出,即全局感知特征,此过程可表示为
(8) |
为了更好地捕捉到息肉目标的几何形状、局部细节信息以及小息肉目标,提高特征表示的灵活性,本文利用可变形卷积设计了LSP子模块,其结构如

图5 局部与空间感知子模块结构图
Fig.5 Structural diagram of local and spatial perception(LSP)sub‑module
具体工作过程如下:
首先,输入1经过卷积增强局部建模能力,同时提取偏移量;然后,输入1和输入2同时利用共享的偏移量进行可变形卷积,相比于常规卷积能够更准确地拟合息肉形状,

图6 常规卷积与可变形卷积对息肉拟合的对比图
Fig.6 Comparison of polyp fitting between ordinary and deformable convolutions
(9) |
(10) |
(11) |
(12) |
(13) |
式中:表示卷积,表示可变形卷积。
为了有效融合不同层级的具有不同的空间分辨率和语义信息的多尺度特征,本文设计了CA模块,充分捕获息肉的语义位置和纹理细节等信息,保证信息的完整性来进一步提升模型分割性能。CA整体流程如

图7 级联聚合模块结构图
Fig.7 Structural diagram of cascade aggregation (CA) module
具体工作过程如下:
CA模块接收经过通道对齐且规范后的特征以及再经过空间对齐的特征。首先与进行拼接、卷积、相乘操作得到低层融合特征,因为低层特征富含的细节信息较多,但同时存在更多的噪声,这些操作能尽可能地捕获与在空间和通道上的有效细节特征并去除不相关的噪声;其次,特征与相乘,并经过卷积去除噪声得到高层融合特征,最大限度地保留了高层特征中的语义信息,再与低层融合特征相乘得到初步聚合特征;最后用噪声最少的高层特征与进行拼接、卷积和相乘操作得到高层指导特征,用高层特征指导去除初步聚合特征的冗余信息,实现全局和局部信息的交互,在不增加干扰噪声的同时,全面获得息肉整体语义信息和边缘纹理等细节信息;最后用两个的卷积和BN以及ReLU激活函数,进一步过滤聚合后的特征,减少冗余并规范特征数值,得到最后的输出。上述过程可表示为
(14) |
(15) |
(16) |
(17) |
式中:表示上采样,表示按通道维度拼接,表示元素乘法。
综上可知,级联聚合模块能够有效聚合富含语义位置信息及细节信息的不同层级的多尺度特征。
本节对所提GEDPNet模型在5个数据集上进行了实验验证。首先,对所用数据集、评估指标和实验设置等进行简单介绍,然后着重对实验结果和消融实验等进行分析。
为了评估所提模型GEDPNet的学习能力和泛化能力,本文在 Kvasir‑SE
数据集 | 图片尺寸/(像素×像素) | 样本总数/张 | 训练样本/张 | 测试样本/张 |
---|---|---|---|---|
Kvasir‑SEG | 332×487~ 1 920×1 072 | 1 000 | 900 | 100 |
CVC‑ClinicDB | 384×288 | 612 | 550 | 62 |
CVC‑T | 574×500 | 60 | — | 60 |
CVC‑ColonDB | 574×500 | 380 | — | 380 |
ETIS | 1 225×966 | 196 | — | 196 |
注: “—”表示该数据集不用于训练。
实验采用3个广泛应用的评价指标来评估模型的分割性能,包括:平均Dice系数(mean Dice coefficient, mDice)、平均交并比(mean Intersection over union, mIoU)和平均绝对误差(Mean average error, MAE)。mDice用来衡量预测分割与真实分割之间的相似度,其值范围在0到1之间;mIoU(也称为Jaccard指数)计算预测区域与真实区域的交集与并集之比,同样取值于0到1之间;MAE评估预测分割图与真值图之间的像素级精度,它计算预测值与真实值之间的平均绝对差异,MAE值越小,表示分割越精确。
本文实验在 NVIDIA RTX 3090 GPU (24 GB)上进行,CUDA版本为11.8。所提模型基于PyTorch框架开发,并使用在ImageNet上预训练的PVT_v2作为整个网络的主干。训练过程中采用Adam优化算法,学习率最初设置为,分别在30、50、80个迭代时以0.5倍下降,批大小设置为8,共迭代150次。与PraNe
医学图像分割任务不仅关注模型的学习能力,同时也关注模型的泛化能力,从而更好地应用于临床实践。因此,为了更加全面地验证所提模型的有效性,与文献[
为了验证所提模型GEDPNet的学习能力,本实验在Kvasir‑SEG和CVC‑ClinicDB数据集上进行。数据集被划分为训练集和测试集,其中测试集属于模型学习能力测试样本。实验中所提方法GEDPNet与其他先进方法的比较结果如
模型 | 年份 | Kvasir‑SEG | CVC‑ClinicDB | ||||
---|---|---|---|---|---|---|---|
mDice↑ | mIoU↑ | MAE↓ | mDice↑ | mIoU↑ | MAE↓ | ||
U‑Ne | 2015 | 0.818 | 0.746 | 0.055 | 0.823 | 0.755 | 0.019 |
PraNe | 2020 | 0.898 | 0.840 | 0.030 | 0.899 | 0.849 | 0.009 |
SANe | 2021 | 0.904 | 0.847 | — | 0.916 | 0.859 | — |
UACANet‑ | 2021 | 0.905 | 0.852 | 0.026 | 0.916 | 0.870 | 0.008 |
MSNe | 2021 | 0.907 | 0.862 | 0.028 | 0.921 | 0.879 | 0.008 |
BDG‑Ne | 2022 | 0.915 | 0.865 | 0.021 | 0.916 | 0.864 | — |
CaraNe | 2022 | 0.918 | 0.865 | 0.023 | 0.936 | 0.887 | 0.007 |
ECTransNe | 2023 | 0.901 | 0.847 | — | 0.923 | 0.878 | — |
HarDNet‑CP | 2023 | 0.911 | 0.856 | 0.025 | 0.917 | 0.887 | 0.008 |
CFANe | 2023 | 0.915 | 0.861 | 0.023 | 0.933 | 0.883 | 0.007 |
RA‑DENe | 2023 | 0.918 | 0.870 | 0.021 | 0.921 | 0.865 | 0.011 |
PPNe | 2023 | 0.920 | 0.874 | 0.024 | 0.921 | 0.878 | 0.008 |
ConvMLPSe | 2023 | 0.920 | 0.869 | — | 0.924 | 0.870 | — |
CCFNe | 2024 | 0.910 | 0.855 | 0.024 | 0.920 | 0.870 | 0.007 |
NPD‑Ne | 2024 | 0.910 | 0.855 | 0.026 | 0.928 | 0.878 | 0.008 |
IC‑PolypSeg‑EF | 2024 | 0.910 | 0.859 | 0.026 | 0.938 | 0.890 | 0.007 |
MEGANe | 2024 | 0.913 | 0.863 | 0.025 | 0.938 | 0.894 | 0.006 |
BRNe | 2024 | 0.918 | 0.871 | 0.026 | 0.921 | 0.878 | 0.005 |
RTA‑Former‑ | 2024 | 0.923 | 0.875 | — | 0.938 | 0.888 | — |
CIFG‑Ne | 2024 | 0.925 | 0.876 | 0.021 | 0.938 | 0.891 | 0.006 |
GEDPNet(ours) | 2024 | 0.930(0.033) | 0.883(0.021) | 0.019(0.018) | 0.946(0.030) | 0.902(0.024) | 0.005(0.010) |
注: “↑”表示数据越高越好,“↓”表示数据越低越好;加粗数据为最优值;“—”表示无法获取的数据,( )中为标准差。
由
实验结果表明,本文所提模型GEDPNet相比于其他方法在学习能力上有着明显优势,这主要归因于GEDPNet中本文设计的3个模块:GE模块赋予了模型更多的多尺度信息,适应尺寸多变的息肉;DP模块能够动态感知精准的全局信息和局部信息,从而有效获取息肉的整体定位和细节信息;CA模块能够有效聚合富含语义及细节信息的不同层级的多尺度特征。3个模块相辅相成,使得模型GEDPNet具有出色的学习能力。
为了验证所提模型的泛化能力,本实验将在Kvasir‑SEG和CVC‑ClinicDB训练集上训练得到的模型GEDPNet,在CVC‑T、CVC‑ColonDB和ETIS数据集上进行测试。另外,实验中所提模型GEDPNet还与其他先进方法进行性能比较,实验结果如
模型 | 年份 | CVC‑ColonDB | ETIS | CVC‑T | ||||||
---|---|---|---|---|---|---|---|---|---|---|
mDice↑ | mIoU↑ | MAE↓ | mDice↑ | mIou↑ | MAE↓ | mDice↑ | mIoU↑ | MAE↓ | ||
U‑Ne | 2015 | 0.512 | 0.444 | 0.061 | 0.398 | 0.335 | 0.036 | 0.710 | 0.627 | 0.022 |
PraNe | 2020 | 0.709 | 0.640 | 0.045 | 0.628 | 0.567 | 0.031 | 0.871 | 0.797 | 0.010 |
SANe | 2021 | 0.753 | 0.670 | — | 0.750 | 0.654 | — | 0.888 | 0.815 | — |
UACANet‑ | 2021 | 0.783 | 0.704 | 0.034 | 0.694 | 0.615 | 0.023 | 0.902 | 0.837 | 0.006 |
MSNe | 2021 | 0.755 | 0.678 | 0.041 | 0.719 | 0.664 | 0.020 | 0.869 | 0.807 | 0.010 |
BDG‑Ne | 2022 | 0.804 | 0.725 | — | 0.756 | 0.679 | — | 0.899 | 0.831 | — |
CaraNe | 2022 | 0.773 | 0.689 | 0.042 | 0.747 | 0.672 | 0.017 | 0.903 | 0.838 | 0.007 |
ECTransNe | 2023 | 0.766 | 0.687 | — | 0.722 | 0.655 | — | 0.907 | 0.840 | — |
HarDNet‑CP | 2023 | 0.729 | 0.658 | 0.037 | 0.690 | 0.619 | 0.014 | 0.891 | 0.826 | 0.008 |
CFANe | 2023 | 0.743 | 0.665 | 0.039 | 0.732 | 0.655 | 0.014 | 0.893 | 0.827 | 0.008 |
RA‑DENe | 2023 | 0.768 | 0.686 | 0.032 | 0.760 | 0.688 | 0.019 | 0.891 | 0.821 | 0.007 |
PPNe | 2023 | 0.791 | 0.726 | 0.028 | 0.784 | 0.716 | 0.013 | 0.899 | 0.839 | 0.006 |
ConvMLPSe | 2023 | 0.793 | 0.717 | 0.033 | 0.723 | 0.676 | 0.014 | 0.893 | 0.822 | 0.007 |
CCFNe | 2024 | 0.768 | 0.683 | 0.035 | 0.747 | 0.669 | 0.014 | 0.892 | 0.827 | 0.007 |
NPD‑Ne | 2024 | 0.812 | 0.729 | 0.029 | 0.782 | 0.700 | 0.017 | 0.876 | 0.803 | 0.011 |
IC‑PolypSeg‑EF | 2024 | 0.799 | 0.728 | 0.030 | 0.758 | 0.670 | 0.015 | 0.907 | 0.846 | 0.009 |
MEGANe | 2024 | 0.793 | 0.714 | 0.040 | 0.739 | 0.665 | 0.037 | 0.899 | 0.834 | 0.007 |
BRNe | 2024 | 0.795 | 0.723 | 0.031 | 0.760 | 0.696 | 0.005 | 0.898 | 0.836 | 0.007 |
RTA‑Former‑ | 2024 | 0.818 | 0.734 | — | 0.795 | 0.714 | — | 0.891 | 0.815 | — |
CIFG‑Net | 2024 | 0.815 | 0.733 | 0.030 | 0.806 | 0.726 | 0.013 | 0.901 | 0.834 | 0.007 |
GEDPNet(ours) | 2024 |
0.825 (0.045) |
0.747 (0.040) |
0.025 (0.030) |
0.806 (0.040) |
0.733 (0.032) |
0.013 (0.031) |
0.911 (0.021) |
0.848 (0.016) |
0.005 (0.016) |
上述结果表明,针对不同患者肠道环境差异较大,以及光照、角度等对息肉图像采集的影响,所提GEDPNet表现出了比其他模型更好的泛化能力,这主要归因于所设计的GE模块能够有效去除特征之间的相关性,提取息肉域不变特征。尽管如此,GEDPNet在部分数据集上的泛化能力仍有待进一步提升。
为了更直观地展示息肉分割效果,本节对所提方法GEDPNet进行了定性分析,通过实验给出了尺寸不同、形状各异、环境差异大等不同形态的息肉分割结果视觉图,同时与其他6种方法U‑Net、SANet、PraNet、CFANet、ECTransNet和MEGANet进行了比较,结果如

图9 视觉比较结果
Fig.9 Visual comparison results
从
虽然所提模型GEDPNet在绝大多数场景下表现出了较好的分割性能,但在部分特定场景下,也会产生错误的分割结果,

图10 错误分割示例
Fig.10 Examples of incorrect segmentation
本实验对所提模型GEDPNet中设计的GE、DP及CA模块在CVC‑ClinicDB和ETIS数据集上分别进行消融实验,两个数据集上的结果分别体现了各个模块对模型学习能力和泛化能力的影响。实验中基线以PVT_v2作为主干,解码器仅采用上采样和拼接操作的跳跃连接,构成U型网络。实验采用控制变量法,分别添加GE、DP、CA模块和其任意组合。实验中采用mDice、mIoU两个指标,结果如
模型 | GE | DP | CA | CVC‑ClinicDB | ETIS | ||
---|---|---|---|---|---|---|---|
mDice↑ | mIoU↑ | mDice↑ | mIoU↑ | ||||
Baseline | — | — | — | 0.910 | 0.861 | 0.765 | 0.684 |
#1 | √ | 0.935 | 0.887 | 0.793 | 0.715 | ||
#2 | √ | 0.935 | 0.891 | 0.779 | 0.699 | ||
#3 | √ | 0.923 | 0.872 | 0.784 | 0.709 | ||
#4 | √ | √ | 0.942 | 0.896 | 0.796 | 0.720 | |
#5 | √ | √ | 0.941 | 0.893 | 0.800 | 0.724 | |
#6 | √ | √ | 0.941 | 0.895 | 0.798 | 0.720 | |
GEDPNet | √ | √ | √ | 0.946 | 0.902 | 0.806 | 0.733 |
注: 加粗数据为最优值。
从
(1)从CVC‑ClinicDB数据集上可以看出,GE、DP和CA单个模块均能使模型的学习能力得到提升。与基线模型相比,加入GE模块后,模型的mDice和mIoU均提升了2.5%,这是因为GE模块能应对尺寸多变的息肉目标,提取域丰富的层内多尺度信息,有效提升模型的分割精度;加入DP模块后,模型的mDice和mIoU分别提升2.5%和3.0%,这是因为DP模块能够获取全局和局部精准信息来提升模型分割性能,避免了直接融合从而造成信息丢失;加入CA模块后,模型的mDice和mIoU分别提升了1.3%和1.1%,这是因为CA模块能够有效聚合多层特征,利用息肉的语义位置和纹理细节等信息来保证信息的完整性从而提升模型分割性能。
(2)从 ETIS数据集上可以看出,GE、DP和CA单个模块均能使模型的泛化能力得到提升。与基线模型相比,加入GE模块后,模型的mDice和mIoU 分别提升了2.8%和3.1%,主要是因为GE模块能够去除特征相关性,提取息肉域不变特征,以适应不同环境下的息肉分割,使模型的泛化能力大幅提升;加入DP模块后,模型的mDice和mIoU分别提升1.4%和1.5%,因为其可以动态感知未训练图像的全局和局部特征;加入CA模块后,模型的mDice和mIoU分别提升1.9%和2.5%,其能够充分聚合原始图像的高维语义信息与息肉的纹理信息,从而有效识别分割模型未见过的息肉区域。
(3)在CVC‑ClinicDB数据集和ETIS数据集上,GE、DP和CA两两模块组合比单独使用一个模块时更能促进模型学习能力和泛化能力的提升。如同时采用GE和DP模块的模型,比基线模型的mIoU分别提升了3.5%和3.6%;同时采用GE和CA模块,模型的mIoU指标分别提升了3.2%和4.0%;同时采用DP和CA模块,模型的mIoU指标分别提升了3.4%和3.6%。
(4)当同时使用GE、DP和CA这3个模块时,也即本文所提模型GEDPNet,在 CVC‑ClinicDB和ETIS数据集上,比基线方法的mDice分别提升3.6%和4.1%,mIoU分别提升4.1%和4.9%。这表明GE模块的泛化能力、DP模块的动态信息感知能力、CA模块的语义与纹理信息聚合能力同时发挥作用,有效提升了所提模型的整体学习能力和泛化性能。
为了清晰展示所设计模块对分割性能的影响,本实验对GE、DP和CA这3个模块的消融结果进行了可视化分析。实验结果如

图11 消融可视化结果
Fig.11 Ablation visualization results
从
为了验证GE模块中SW对模型泛化性能的影响,本节在CVC‑ClinicDB和ETIS数据集上分别对SW进行了消融实验分析,同时将所提方法GEDPNet和基线方法进行了比较,结果如
模型 | 方法 | CVC‑ClinicDB | ETIS | ||
---|---|---|---|---|---|
mDice↑ | mIoU↑ | mDice↑ | mIoU↑ | ||
#1 | Baseline(B) | 0.910 | 0.861 | 0.765 | 0.684 |
#2 | B+GE (w/o SW) | 0.932 | 0.886 | 0.784 | 0.708 |
#3 | B+GE | 0.935 | 0.887 | 0.793 | 0.715 |
#4 | GEDPNet (w/o SW) | 0.943 | 0.897 | 0.800 | 0.724 |
#5 | GEDPNet | 0.946 | 0.902 | 0.806 | 0.733 |
注: 加粗数据为最优值。
从
为了验证本文设计的GE、DP和CA模块对不同主干的迁移性,本实验对各个模块进行了迁移性分析。实验中对基于Transformer的主干PVT_v2和Swintransformer_base以及基于CNN的主干Res2Net_50和Convnext_tiny这4个不同主干在5个数据集(Kvasir‑SEG、CVC‑ClinicDB、CVC‑T、CVC‑ColonDB和ETIS)上分别进行了实验。实验采用mDice和mIoU作为指标,结果如图

图12 迁移性分析(Res2Net_50)
Fig.12 Transferability analysis(Res2Net_50)

图13 迁移性分析(Convnext_tiny)
Fig.13 Transferability analysis(Convnext_tiny)

图14 迁移性分析(Swintransformer_base)
Fig.14 Transferability analysis(Swintransformer_base)

图15 迁移性分析(PVT_v2)
Fig.15 Transferability analysis(PVT_v2)
从图
本文提出了一种泛化增强与动态感知的息肉分割网络GEDPNet来提升息肉分割性能。首先,设计GE模块,创新性地从提取息肉域不变特征的角度提升模型的泛化性,同时获取层内多尺度信息;然后设计DP模块,动态感知精准的全局信息和局部信息,获取长期依赖关系和局部细节信息;最后设计CA模块,聚合不同层级且含有不同语义信息的多尺度特征,充分捕获息肉的语义位置和细节纹理等信息,提升分割性能。该模型在不同数据集上进行了实验验证,同时与其他相关方法进行了比较。结果表明,所提模型能有效提升息肉分割性能。特别地,所提模型GEDPNet具有良好的泛化能力,在存在域差异的复杂结直肠息肉分割场景下依然能够有效分割息肉。总之,GEDPNet不仅能够提升息肉分割的准确性,还为解决结直肠息肉分割中的多尺度信息处理和泛化能力增强提供了新思路,能够进一步促进结直肠息肉临床辅助诊断效果。
尽管所提模型GEDPNet能够提升复杂场景下结直肠息肉分割精度,但模型的参数量和计算复杂度仍然存在较大局限。因此,未来工作中,将针对这一问题进行模型轻量化设计与研究,有效提高模型分割效率,以满足结直肠息肉分割临床实际需求。此外,也将对模型的泛化性和鲁棒性进一步深入研究,以满足其他医学图像分割任务和医学场景的需要。
参考文献
考文涛, 李明, 马金刚. 卷积神经网络在结直肠息肉辅助诊断中的应用综述[J]. 计算机科学与探索, 2024, 18(3): 627‑645. [百度学术]
KAO Wentao, LI Ming, MA Jingang. Review of application of convolutional neural network in auxiliary diagnosis of colorectal polyps[J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(3): 627-645. [百度学术]
RONNEBERGER O, FISCHER P, BROX T. U‑Net: Convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer‑Assisted Intervention‑‑MICCAI 2015. Munich, Germany: Springer International Publishing, 2015: 234‑241. [百度学术]
ZHOU Z, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: A nested U‑Net architecture for medical image segmentation[C]//Proceedings of Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Granada, Spain: Springer International Publishing, 2018: 3‑11. [百度学术]
JHA D, SMEDSRUD P H, RIEGLER M A, et al. ResUNet++: An advanced architecture for medical image segmentation[C]//Proceedings of 2019 IEEE International Symposium on Multimedia (ISM). [S.l.]: IEEE, 2019. [百度学术]
FAN D P, JI G P, ZHOU T, et al. PraNet: Parallel reverse attention network for polyp segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer‑Assisted Intervention. Cham: Springer International Publishing, 2020: 263‑273. [百度学术]
KIM T, LEE H, KIM D. UACANet: Uncertainty augmented context attention for polyp segmentation[C]//Proceedings of the 29th ACM International Conference on Multimedia. [S.l.]: ACM, 2021: 2167‑2175. [百度学术]
LOU A, GUAN S, KO H, et al. CaraNet: Context axial reverse attention network for segmentation of small medical objects[C]//Proceedings of Medical Imaging 2022: Image Processing. [S.l.]: SPIE, 2022, 12032: 81‑92. [百度学术]
林佳俐,李永强,徐希舟,等.边缘概率分布引导的结直肠息肉高分辨率分割网络[J].中国图象图形学报, 2023, 28(12): 3897‑3910. [百度学术]
LIN Jiali, LI Yongqiang, XU Xizhou, et al. Edge-distribution-guided high-resolution network for colorectal polyp segmentation[J]. Journal of Image and Graphics, 2023, 28(12): 3897-3910. [百度学术]
杨瑞君,陈丽叶,程燕.基于多尺度边缘感知和增强的息肉图像分割[J].计算机工程与应用, 2025, 61(1): 272‑281. [百度学术]
YANG Ruijun, CHEN Liye, CHENG Yan. Polyp image segmentation based on multi-scale edge perception and enhancement[J]. Computer Engineering and Applications, 2025, 61(1): 272-281. [百度学术]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2020-10-22). https://doi.org/10.48550/arXiv.2010.11929. [百度学术]
WANG W, XIE E, LI X, et al. PVT v2: Improved baselines with pyramid vision transformer[J]. Computational Visual Media, 2022, 8(3): 415‑424. [百度学术]
DONG B, WANG W, FAN D P, et al. Polyp‑PVT: Polyp segmentation with pyramid vision transformers[EB/OL]. (2021‑08‑16). https://doi.org/10.26599/AIR.2023.9150015. [百度学术]
WANG J, HUANG Q, TANG F, et al. Stepwise feature fusion: Local guides global[C]//Proceedings of International Conference on Medical Image Computing and Computer‑Assisted Intervention. Cham: Springer Nature Switzerland, 2022: 110‑120. [百度学术]
RAHMAN M M, MARCULESCU R. Medical image segmentation via cascaded attention decoding[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. [S.l.]: IEEE, 2023: 6222‑6231. [百度学术]
庞飞翔,丁德锐,罗康.一种并行注意力的金字塔视觉Transformer的结肠息肉分割网络[J/OL].小型微型计算机系统,1-9[2024-05-11].http://kns.cnki.net/kcms/detail/21.1106.TP.20240510.1838.006.html. [百度学术]
PANG Feixiang, DING Derui, LUO Kang. Parallel attention pyramid visual Transformer for colon polyp segmentation network[J/OL]. Journal of Chinese Computer Systems, 1-9[2024-05-11]. http://kns.cnki.net/kcms/detail/21.1106.TP.20240510.1838.006.html. [百度学术]
YUE G, LI Y, JIANG W, et al. Boundary refinement network for colorectal polyp segmentation in colonoscopy images[J]. IEEE Signal Processing Letters, 2024, 31: 954‑958. [百度学术]
CAI D, ZHAN K, TAN Y, et al. Cross‑level context fusion network for polyp segmentation in colonoscopy images[J]. IEEE Access, 2024,12: 35366‑35377. [百度学术]
PAN X, ZHAN X, SHI J, et al. Switchable whitening for deep representation learning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]: IEEE, 2019: 1863‑1871. [百度学术]
LI W, HUANG Z, LI F, et al. CIFG‑Net: Cross‑level information fusion and guidance network for polyp segmentation[J]. Computers in Biology and Medicine, 2024, 169: 107931. [百度学术]
吴港, 全海燕. 一种基于特征融合的息肉分割双解码模型[J]. 数据采集与处理, 2024, 39(4): 954‑966. [百度学术]
WU Gang, QUAN Haiyan. A double-decoding model for polyp segmentation based on feature fusion[J]. Journal of Data Acquisition and Processing, 2024, 39(4): 954-966. [百度学术]
XIAO B, HU J, LI W, et al. CTNet: Contrastive transformer network for polyp segmentation[J]. IEEE Transactions on Cybernetics, 2024,54(9): 5040‑5053. [百度学术]
LI J, WEN Y, HE L. SCConv: Spatial and channel reconstruction convolution for feature redundancy[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2023: 6153‑6162. [百度学术]
DAI Y, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. [S.l.]: IEEE, 2021: 3560‑3569. [百度学术]
JHA D, SMEDSRUD P H, RIEGLER M A, et al. Kvasir‑SEG: A segmented polyp dataset[C]//Proceedings of the 26th International Conference on MultiMedia Modeling. Daejeon, South Korea: Springer International Publishing, 2020: 451‑462. [百度学术]
BERNAL J, SÁNCHEZ F J, FERNÁNDEZ‑ESPARRACH G, et al. WM‑DOVA maps for accurate polyp highlighting in colonoscopy: Validation vs. saliency maps from physicians[J]. Computerized Medical Imaging and Graphics, 2015, 43: 99‑111. [百度学术]
TAJBAKHSH N, GURUDU S R, LIANG J. Automated polyp detection in colonoscopy videos using shape and context information[J]. IEEE Transactions on Medical Imaging, 2015, 35(2): 630‑644. [百度学术]
SILVA J, HISTACE A, ROMAIN O, et al. Toward embedded detection of polyps in WCE images for early diagnosis of colorectal cancer[J]. International Journal of Computer Assisted Radiology and Surgery, 2014, 9: 283‑293. [百度学术]
VÁZQUEZ D, BERNAL J, SÁNCHEZ F J, et al. A benchmark for endoluminal scene segmentation of colonoscopy images[J]. Journal of Healthcare Engineering, 2017, 2017(1): 4037190. [百度学术]
WEI J, HU Y, ZHANG R, et al. Shallow attention network for polyp segmentation[C]//Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention—MICCAI 2021. Strasbourg, France: Springer International Publishing, 2021: 699‑708. [百度学术]
WANG S, CONG Y, ZHU H, et al. Multi‑scale context‑guided deep network for automated lesion segmentation with endoscopy images of gastrointestinal tract[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 25(2): 514‑525. [百度学术]
QIU Z, WANG Z, ZHANG M, et al. BDG‑Net: Boundary distribution guided network for accurate polyp segmentation[C]//Proceedings of Medical Imaging 2022: Image Processing. [S.l.]: SPIE, 2022, 12032: 792‑799. [百度学术]
LIU W, LI Z, LI C, et al. ECTransNet: An automatic polyp segmentation network based on multi‑scale edge complementary[J]. Journal of Digital Imaging, 2023, 36(6): 2427‑2440. [百度学术]
YU T, WU Q. HarDNet‑CPS: Colorectal polyp segmentation based on harmonic densely united network[J]. Biomedical Signal Processing and Control, 2023, 85: 104953. [百度学术]
ZHOU T, ZHOU Y, HE K, et al. Cross‑level feature aggregation network for polyp segmentation[J]. Pattern Recognition, 2023, 140: 109555. [百度学术]
WANG K, LIU L, FU X, et al. RA‑DENet: Reverse attention and distractions elimination network for polyp segmentation[J]. Computers in Biology and Medicine, 2023, 155: 106704. [百度学术]
HU K, CHEN W, SUN Y Z, et al. PPNet: Pyramid pooling based network for polyp segmentation[J]. Computers in Biology and Medicine, 2023, 160: 107028. [百度学术]
JIN Y, HU Y, JIANG Z, et al. Polyp segmentation with convolutional MLP[J]. The Visual Computer, 2023, 39(10): 4819‑4837. [百度学术]
YU Z, ZHAO L, LIAO T, et al. A novel non‑pretrained deep supervision network for polyp segmentation[J]. Pattern Recognition, 2024, 154: 110554. [百度学术]
CHEN Z, WANG K, LIU Y. Efficient polyp segmentation via integrity learning[C]//Proceedings of 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S.l.]: IEEE, 2024: 1826‑1830. [百度学术]
BUI N T, HOANG D H, NGUYEN Q T, et al. MEGANet: Multi‑scale edge‑guided attention network for weak boundary polyp segmentation[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. [S.l.]: IEEE, 2024: 7985‑7994. [百度学术]
LI Z, YI M, UNERI A, et al. RTA‑Former: Reverse transformer attention for polyp segmentation[C]//Proceedings of the 46th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). [S.l.]: IEEE, 2024. [百度学术]