ESKNet: 一种增强的自适应选择核卷积用于超声乳腺肿瘤分割
作者
Gongping Chen a,b,*, Lu Zhou a, Jianxun Zhang a, Xiaotao Yin c, Liang Cui d, Yu Dai a
a 人工智能学院,南开大学,天津,中国
b 生物医学工程与技术学院,天津医科大学,天津,中国
c 泌尿外科,中国人民解放军总医院第四医学中心,北京,中国
d 泌尿外科,民航总医院,北京,中国
- 通讯作者:人工智能学院,南开大学,天津,中国。
E-mail: cgp110@mail.nankai.edu.cn (G. Chen), zhoulu@nankai.edu.cn (L. Zhou), zhangjx@nankai.edu.cn (J. Zhang), yxtfwy@163.com (X. Yin), daiyu@nankai.edu.cn (Y. Dai).
文章信息
关键词:
乳腺肿瘤
超声图像
选择核卷积
注意力模块
深度监督
DOI: https://doi.org/10.1016/j.eswa.2024.123265
接收日期: 2023年10月4日
修订日期: 2024年1月12日
接受日期: 2024年1月15日
在线发布日期: 2024年1月20日
出版商: Elsevier Ltd.
摘要
乳腺癌已成为威胁女性生命的最可怕疾病之一。准确的目标病灶分割对于早期临床干预和术后随访至关重要。最近,许多用于从超声图像中分割乳腺肿瘤的卷积神经网络(CNN)已被提出。然而,复杂的超声模式以及肿瘤形状和大小的可变性给乳腺病灶的准确分割带来了挑战。受选择核卷积的启发,我们引入了一种增强的选择核卷积用于乳腺肿瘤分割,该方法整合多个特征图区域表示,并从通道和空间维度自适应地重新校准这些特征图区域的权重。这种区域重新校准策略使网络更关注高贡献区域特征,并缓解低有用区域的干扰。最后,将增强的选择核卷积集成到带有深度监督约束的U-net中,以自适应地捕捉乳腺肿瘤的鲁棒表示。我们使用三个公开的乳腺超声数据集,与许多先进的深度学习分割方法进行了广泛实验。在第一个超声数据集(BUSI)的分割中,Jaccard、Precision、Recall、Specificity和Dice的值分别为70.20%、79.57%、82.41%、97.47%和78.71%。在第二个超声数据集(Dataset B)上,我们方法的Jaccard、Precision、Recall、Specificity和Dice值为71.65%、81.01%、82.66%、99.01%和79.92%。对于外部超声数据集(STU),Jaccard、Precision、Recall、Specificity和Dice的平均值分别为75.14%、84.73%、89.25%、97.53%和84.76%。实验结果充分证明了我们方法在分割乳腺超声图像方面的优越性能。源代码可在以下网站获取:https://github.com/CGPxy/ESKNet。
1. 引言
乳腺癌是女性中最常见的恶性疾病之一,它严重威胁着她们的健康甚至生命(Chen et al., 2023a)。由于乳腺癌的隐蔽性强且诱因众多,定期早期筛查对于制定医疗方案和降低死亡率至关重要(Xian et al., 2018)。目前,超声成像因其无创、廉价和快速的优势已成为临床筛查乳腺癌的最常见技术手段之一(Ilesanmi et al., 2021)。遗憾的是,由于超声图像的复杂性,即使是经验丰富的放射科医生也难以准确且快速标注病灶区域,如图1(a)所示。为了克服这一问题,各种计算机辅助诊断系统(CAD)已被建立,以帮助医生解读乳腺超声图像(Huang et al., 2023a; Li et al., 2022; Xu et al., 2019)。众所周知,医学图像分割有助于定位和评估病理区域(Chen et al., 2021)。因此,医学图像分割是CAD系统中的不可或缺步骤之一(Huang et al., 2023b; Huang et al., 2023c)。
实现超声图像中乳腺肿瘤区域的准确分割一直是广泛研究的课题(Abdelrahman et al., 2021)。以前,常使用手动先验方法来拟合乳腺肿瘤的轮廓。Xue et al. 指出,人工先验的有限表示能力容易导致在复杂超声图像中对乳腺病灶的误识别(Xue et al., 2021)。此外,基于手动先验的方法需要大量时间和人力。最近,许多代表性的CNN已被成功且广泛应用于医学图像分割(Fu et al., 2022)。在众多优秀的分割方法中,FCN和U-net(Ronneberger et al., 2015)是两个独特的代表性作品,并被广泛应用于医学图像分割。Almajalid et al. 首次使用U-net完成乳腺超声图像分割任务(Almajalid et al., 2018)。随后,Yap et al. 全面分析了三个基准网络:U-net、FCN-AlexNet和基于补丁的LeNet在处理乳腺病灶时的分割性能(Yap et al., 2018)。同样,Mishra et al. 使用FCN设计了一个深度监督网络用于超声图像分割(Deepak et al., 2018)。然而,由于复杂的超声模式和相似的强度分布,乳腺病灶分割是一项极具挑战性的工作(Ning et al., 2021)。因此,简单地将现有框架(如U-net、FCN等)应用于乳腺超声图像难以获得满意的分割结果,如图1(b)所示。
对于乳腺超声,阻碍乳腺病灶准确分割的主要干扰因素如下:1)相似的强度分布和模糊边界,尤其在恶性病灶中;2)乳腺肿瘤的形态和位置显著变化(Chen et al., 2022a)。如果要从超声图像中获得精确的分割结果,分割网络设计不仅要适应不同尺度的乳腺肿瘤,还需要提高对病灶区域的关注。注意力机制和多尺度卷积的好处已在许多低级任务中得到证明(Elmoufidi, 2022; Tomar et al., 2022)。注意力策略可以帮助网络提取更好地表征目标的有用信息,同时减少无用信息的引入。多尺度卷积通过使用不同卷积核从不同尺度的接收域捕捉感兴趣的目标特征来提高对象的表示能力(Joshua et al., 2020)。基于注意力机制和多尺度卷积的CNN架构在乳腺超声图像分割任务中被广泛采用(Abdelrahman et al., 2021)。例如,Yan et al. 使用基于注意力U-net的混合膨胀卷积提出了一种新型注意力增强U-net(AE U-net)来自动分割超声图像中的乳腺肿瘤(Yan et al., 2022)。为了在变化的接收场中捕捉目标特征,Zhuang et al. 在Att U-net中引入了膨胀卷积和残差学习(Zhuang et al., 2019)。然而,在更深的卷积层中使用膨胀卷积无法捕捉足够的上下文信息(Xue et al., 2021)。为了更好地捕捉乳腺肿瘤的多尺度信息,Punn et al.(Punn and Agarwal, 2022)用由inception卷积层构建的残差块替换Att U-net的卷积块。Abraham et al.(Abraham and Khan, 2019)通过将多尺度图像输入金字塔和深度监督机制引入Att U-net,构建了一个新的U形网络(MADU-net)来分割乳腺超声图像。多图像输入可以提供更细粒度的特征图,但引入过多低级特征图会影响高级语义特征的表征,并降低分割网络的表示能力。虽然这些方法在不同程度上提高了乳腺肿瘤的分割准确性,但它们仍有两个明显的局限性:(i) 多尺度信息更依赖于人工设置的卷积核大小,无法自适应地捕捉乳腺肿瘤的多尺度信息(Li et al., 2019)。(ii) 它们倾向于使用单一注意力机制来校准目标特征。最近,Li et al. 设计了一种选择核卷积(SK)来自适应地在不同接收场下选择有用特征信息,如图2(a)所示(Li et al., 2019)。虽然引入SK块提高了网络的分割性能,但该策略有两个明显的局限性:(i) 忽略了空间维度特征的校准,以及(ii) 降低了模块中特征的相关性。

为了克服上述局限性,我们首先将空间注意力引入选择核卷积模块中来校准空间维度特征,如图2(b)所示。然后,将残差学习添加到选择核卷积模块中,以加强长距离特征的相关性,如图2(b)所示。最后,我们使用增强的选择核卷积模块(ESK)构建了一个新型深度监督U-net(命名为ESKNet,如图3所示)来自适应地分割超声图像中的乳腺病灶。总体而言,本文提出的方法可以总结为以下特点:
- 首先,设计了一种增强的选择核卷积,它不仅从通道和空间维度自适应地选择不同尺度接收场下的特征,还进一步加强了远程特征信息的相关性。
- 其次,开发了一种新型深度监督U-net,集成了增强的选择核卷积模块,用于分割超声图像中的乳腺病灶。该网络可以通过从乳腺超声图像中学习病灶特定表征来提高乳腺病灶分割准确性。
- 此外,我们在可用数据集上与许多先进的深度学习分割方法进行了广泛实验。实验结果充分证明了我们方法在分割乳腺超声图像方面的优越性能。
2. 相关工作
2.1. 用于乳腺超声分割的CNN
许多先进的CNN在乳腺病灶分割中取得了比传统分割方法更好的结果(Houssein et al., 2021; Xian et al., 2018)。Lei et al. 通过引入边界正则化策略,提高了编码器-解码器网络对整个乳腺超声图像的分割性能(Lei et al., 2018)。为了缓解远处特征低相关性的问题,Xue et al. 使用边界检测模块和全局指导块开发了一个全局指导网络来实现乳腺病灶的自动分割(Xue et al., 2021)。同样,Chen et al. 通过设计一个双向注意力网络构建了一个级联网络架构来分割乳腺超声图像,该网络可以从更全局的视角约束分割结果(Chen et al., 2022a)。在乳腺病灶分割过程中,引入边界约束可以在不同程度上细化网络的预测结果,但从严重级联或阴影遮挡区域获取精确边界仍然具有挑战性。为了应对分割小乳腺肿瘤的挑战,Shareef et al. 使用共享权重的多尺度卷积模块从超声图像中捕捉乳腺病灶的特征(Shareef et al., 2020)。为了自适应地在不同接收场下捕捉乳腺肿瘤的特征信息,Byra et al. 使用SK块开发了一个选择核U-net(SKU-net)来分割乳腺肿瘤(Byra et al., 2020)。Luo et al. 使用通道注意力模块校准从两个并行网络提取的特征,用于乳腺肿瘤的自动诊断(Luo et al., 2022)。Lyu et al. 设计了一个结合注意力机制和多尺度特征的改进金字塔注意力网络(AMS-PAN)用于乳腺超声图像分割(Lyu et al., 2023)。受Att U-net的启发,在Att U-net中添加了残差学习和多尺度卷积策略来提高病灶组织的分割精度。具体来说,Tong et al. 设计了一个残差卷积块来替换原始卷积模块(Tong et al., 2021)。Zhuang et al. 通过不同膨胀率的膨胀卷积设计了一个残差块来替换原始卷积模块(Zhuang et al., 2019)。Moon et al. 开发了一个集成多个CNN架构的CAD系统来自动化乳腺超声图像的诊断(Moon et al., 2020)。然而,该方法受限于现有网络在乳腺超声图像上的分割性能。Wang et al. 使用深度监督策略约束U-net每个阶段捕捉的特征图来分割乳腺病灶(Wang et al., 2019)。引入深度监督组件进一步提高了网络的性能。在本工作中,我们也探索了一个带有深度监督的新型U形框架来分割乳腺病灶,其中深度监督机制仅添加到解码阶段。
2.2. 注意力机制
受人类视觉注意力的启发,许多注意力算法已被开发来提升CNN捕捉目标表征的能力(Guo et al., 2022)。Oktay et al. 开发了一个空间注意力组件来权衡低级语义特征图和高实例特征图,该组件已被成功应用(Oktay et al., 2018)。Hu et al. 开发了一个称为squeeze & excitation(SE)块的架构组件,它可以校准输入特征图以选出更好地表征目标的有用通道(Hu et al., 2020)。然而,这些架构往往在编码和解码阶段以固定卷积模式学习特征信息(Roy et al., 2018)。根据SE块,Roy et al. 设计了一个新型scSE块,同时沿着空间和通道维度挤压特征图(Roy et al., 2018)。同样,Zhong et al. 基于SE块开发了一个新的squeeze-and-attention网络(SANet)用于分割任务(Zhong et al., 2020)。Hatamizadeh et al. 提出了一种新的基于transformer的医学图像分割模型(UNETR),它使用跳跃连接直接将transformer的编码表示连接到解码器(Hatamizadeh et al., 2022)。Cao et al. 基于swin-transformer块构建了一个带有跳跃连接的编码器-解码器架构(Swin-Unet)用于医学图像分割(Cao et al., 2022)。Xu et al. 提出了一种多尺度自注意力网络(MSSA-Net)以在小数据集上实现更好的分割准确性(Xu et al., 2021)。Zhao et al. 开发了一个配备焦点自注意力块的新型分割网络,用于改善乳腺病灶分割的性能(Zhao et al., 2022)。虽然许多改进工作考虑了通过空间和通道特征融合来提高网络分割性能,但这些方法无法自适应地在不同接收场下选择有用特征。为了缓解这一挑战,Li et al. 设计了一种选择核卷积(SK)来从通道维度自适应地在不同尺度选择有用特征信息(Li et al., 2019)。在本工作中,我们引入了一种增强的选择核卷积(ESK),它可以同时从空间和通道维度校准不同接收场下的特征来升级表示能力。
3. 方法
图3展示了用于乳腺病灶分割的带有增强选择核卷积的深度监督U-net(ESKNet)。类似于U-net的核心结构(Ronneberger et al., 2015),我们的ESKNet使用了四个下采样、四个上采样和四个跳跃连接操作。最大的区别在于引入了增强的选择核卷积模块(ESK)来代替U-net中的原始卷积层,以从超声图像中获得更精确的乳腺病灶预测掩码。ESK包含不同卷积核大小的卷积层,可以提供更多尺度的接收场。从不同尺度接收场捕捉目标特征有助于加强网络的泛化能力和鲁棒性。如图2(b)所示,在ESK中同时进行的通道校准和空间校准可以帮助网络从复杂的乳腺超声图像中捕捉病灶区域的更鲁棒表征。此外,每个ESK模块中的残差连接可以增强长距离特征信息的相关性,并进一步提高网络的分割效率。为了进一步细化分割结果,我们使用ground-truth掩码约束每个解码阶段。
3.1. 增强的选择核卷积(ESK)
原始选择核卷积模块可以粗略地视为一个带有不同核大小的多尺度卷积块和一个通道注意力块,如图2(a)所示。开发的增强选择核卷积模块由三个关键组件组成:一个带有不同卷积核维度的多尺度卷积块、一个通道注意力模块和一个空间注意力模块。更详细地说,给定的中间特征图 F \in \mathbb{R}^{C \times H \times W} 首先经过两个并行卷积操作。这两个并行卷积操作分别是核大小为 5 \times 5 的卷积操作和核大小为 3 \times 3 的膨胀卷积操作,膨胀率为3。从两个卷积操作中重新提取的特征图表示为:
F_1 = W_{5 \times 5} \times F \quad (1)
F_2 = W_{3 \times 3} \times F \quad (2)
其中 F \in \mathbb{R}^{C \times H \times W} 表示给定的中间特征图, W_{5 \times 5} 和 W_{3 \times 3} 分别表示核大小为 5 \times 5 的卷积操作和核大小为 3 \times 3 的膨胀卷积操作的矩阵。 F_1 \in \mathbb{R}^{C \times H \times W} 和 F_2 \in \mathbb{R}^{C \times H \times W} 表示通过核大小为 5 \times 5 的卷积计算和核大小为 3 \times 3 的膨胀卷积计算提取的特征图。随后, F_1 \in \mathbb{R}^{C \times H \times W} 和 F_2 \in \mathbb{R}^{C \times H \times W} 沿着通道维度整合,并输入到通道注意力模块(见3.2节)和空间注意力模块(见3.3节)。合并的特征图可以表示为:
F_M = F_1 \oplus F_2 \quad (3)
其中 \oplus 表示元素-wise求和。特征图 F_M \in \mathbb{R}^{C \times H \times W} 分别进行通道和空间维度校准。最后,通过通道和空间注意力校准的特征图与初始特征图 F \in \mathbb{R}^{C \times H \times W} 融合,以获得一组新的特征图 F_{CS} \in \mathbb{R}^{C \times H \times W}:
F_{CS} = F \oplus (\text{SAM}(F_M) \oplus \text{CAM}(F_M)) \quad (4)
其中 \oplus 表示元素-wise加法。 \text{SAM}(\cdot) 定义为引入的空间注意力模块。 \text{CAM}(\cdot) 表示设计的通道注意力模块。

3.2. 通道注意力模块
根据图2(a和b),我们可以看到本文使用的通道注意力与SK模块中的通道注意力相同。通道注意力可以通过通道维度的校准帮助网络选择更有用的病灶特征。具体来说,首先通过全局平均池化(GAP)操作获得通道-wise统计信息。获取的特征图表示为:
S_C = \text{GAP}(F_M) = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} F_M(i,j) \quad (5)
然后,对特征图 S_C 执行全卷积操作、批标准化操作和ReLU激活操作,以产生一组新的特征图:
Z_C = \delta_r(B(W_{fc} \cdot S_C)) \quad (6)
其中 W_{fc} \in \mathbb{R}^{32 \times 1} 表示全卷积操作的矩阵,矩阵维度大小为32, B(\cdot) 是批标准化操作。 \delta_r(\cdot) 表示ReLU激活操作。我们再次对特征图 Z_C 执行全卷积操作以获得新的特征图:
Z = W_{fc} \cdot Z_C \quad (7)
其中 W_{fc} \in \mathbb{R}^{C \times 1} 表示全连接(FC)层的矩阵,矩阵维度大小为 C。最后,对特征图 Z 执行sigmoid操作以获得通道注意力模型的激活图:
\beta = \sigma_s(Z) \quad (8)
本文中, \beta \in [0, 1]^{C \times 1 \times 1} 被视为对 F_2 执行通道校准的激活图。同样, 1 - \beta \in [0, 1]^{C \times 1 \times 1} 被视为对 F_1 执行通道校准的激活图。 \beta 和 1 - \beta 中的每个值可以指示 F_1/F_2 中对应体积的通道信息的重要性。经过通道激活图校准 F_1 和 F_2 后获得的特征图可以表示为:
F_{C1} = (1 - \beta) \cdot F_1 \quad (9)
F_{C2} = \beta \cdot F_2 \quad (10)
其中 F_{C1} \in \mathbb{R}^{C \times h \times w} 和 F_{C2} \in \mathbb{R}^{C \times h \times w} 是通道注意力模块的最终输出。在通道特征校准过程中,通道激活图执行重塑操作。
3.3. 空间注意力模块
通道上的校准澄清了每个通道的重要性,但没有强调目标的位置。Woo et al. 指出,同时在通道和空间维度上执行校准操作更有利于提取有用特征(Woo et al., 2018)。在本工作中,我们基于原始SK模块开发了一个空间注意力机制来校准空间特征,如图2(b)所示。它类似于SK模块中的通道注意力组件,我们设计的空间注意力组件也包括两个分支。特别是,对特征图 F_M 执行ReLU操作、核大小为 1 \times 1 的卷积操作和sigmoid操作,以产生空间维度的激活图:
\alpha = \sigma_s(W \cdot \delta_r(F_M)) \quad (11)
其中 \delta_r(\cdot) 和 \sigma_s(\cdot) 分别表示ReLU操作和sigmoid操作。 W \in \mathbb{R}^{1 \times h \times w} 表示 1 \times 1 卷积的矩阵。本文中, \alpha \in [0, 1]^{1 \times h \times w} 被视为对 F_2 执行空间校准的激活图。同样, 1 - \alpha \in [0, 1]^{1 \times h \times w} 被视为对 F_1 执行通道校准的激活图。 \alpha 和 1 - \alpha 中的每个值可以指示 F_1/F_2 中对应体积的通道信息的重要性。经过空间激活图校准 F_1 和 F_2 后获得的特征图可以表示为:
F_{S1} = (1 - \alpha) \cdot F_1 \quad (12)
F_{S2} = \alpha \cdot F_2 \quad (13)
其中 F_{S1} \in \mathbb{R}^{C \times h \times w} 和 F_{S2} \in \mathbb{R}^{C \times h \times w} 是空间注意力模块的最终输出。在空间特征校准过程中,空间激活图执行重塑操作。同时经过通道和空间激活图校准的特征图与输入特征图融合,并馈送到下一阶段处理。最后,合并的特征图可以表示为:
F_{CS} = F \oplus F_{C1} \oplus F_{C2} \oplus F_{S1} \oplus F_{S2} \quad (14)
其中 \oplus 表示元素-wise加法, F_{CS} \in \mathbb{R}^{C \times h \times w} 表示由增强选择核卷积模块获得的特征图。
3.4. 深度监督
为了使乳腺病灶的分割掩码更类似于ground truth掩码,添加了深度监督策略来细化解码阶段捕捉的特征,如图3所示。通过引入深度监督约束,解码器可以学习生成更准确的分割结果。具体来说,每个解码阶段捕捉的特征图首先通过核大小为 1 \times 1 的卷积操作处理。然后,使用sigmoid操作预测分割结果。最后,对预测的分割掩码进行上采样以与参考乳腺病灶掩码比较。根据图3的描述,我们的方法可以预测五个分割掩码,可以表示为:
S_i = U^{16/i}(\sigma_s(W \cdot F_{D_i})) \quad (15)
其中 S_i 表示第 i 个解码阶段的预测掩码, W \in \mathbb{R}^{1 \times h \times w} 表示 1 \times 1 卷积的矩阵。 U^{16/i}(\cdot) 和 \sigma_s(\cdot) 分别表示上采样操作和sigmoid激活操作。虽然解码阶段预测的四个乳腺病灶掩码执行了上采样操作,但最后一个分割结果 S_5 具有更高的准确性,因此它被定义为我们网络的最终分割结果。

3.5. 损失函数
在本工作中,常用的BCE函数被用作我们分割网络的损失。该方法的损失可以表示为:
L = \sum_{i=1}^{5} \ell_{BCE}^{i} \quad (16)
其中 \ell_{BCE}^{i} 表示第 i 个解码阶段的分割损失。
4. 材料和实验
4.1. 数据集
本文中使用三个广泛使用的公开乳腺超声数据集来评估分割网络性能。Al-Dhabyani et al. 的780张使用两种超声机器获取的乳腺超声图像被采用作为本研究的第一个数据集(表示为BUSI)(Al-Dhabyani et al., 2020)。这些图像分为正常、良性和恶性,但正常图像未用于训练和测试。Yap et al. 的163张图像作为第二个数据集(Dataset B)(Yap et al., 2018)。Zhuang et al. 的42张图像作为第三个数据集(STU)(Zhuang et al., 2019)。详细分布见表1。
4.2. 实现细节
实验使用PyTorch框架实现。训练使用Adam优化器,初始学习率为0.001,批量大小为16。所有模型在NVIDIA RTX 3090 GPU上训练200个周期。
4.3. 评估指标
使用Jaccard、Precision、Recall、Specificity和Dice指标评估性能:
Jaccard = \frac{TP}{FP + TP + FN} \times 100 \quad (17)
Precision = \frac{TP}{TP + FP} \times 100 \quad (18)
Recall = \frac{TP}{TP + FN} \times 100 \quad (19)
Specificity = \frac{TN}{TN + FP} \times 100 \quad (20)
Dice = 2 \times \frac{Precision \cdot Recall}{Precision + Recall} \quad (21)
4.4. 定量结果
在BUSI数据集上,ESKNet的Jaccard、Precision、Recall、Specificity和Dice分别为70.20%、79.57%、82.41%、97.47%和78.71%。在Dataset B上分别为71.65%、81.01%、82.66%、99.01%和79.92%。在STU数据集上,平均值为75.14%、84.73%、89.25%、97.53%和84.76%。
4.5. 消融研究
消融实验验证了ESK模块、空间注意力和残差连接的有效性。去除ESK后,Dice分数下降约3%。添加深度监督提高了边界精度。
4.6. 定性结果
可视化结果显示,ESKNet在模糊边界和异质结构上优于U-net和FCN,如图1所示。
5. 结论
本文提出了一种增强的选择核卷积(ESK),并将其集成到深度监督U-net(ESKNet)中,用于乳腺超声肿瘤分割。该方法通过通道和空间维度的自适应校准以及残差学习,提高了分割准确性和鲁棒性。实验结果证明了其优越性。未来工作可探索更多数据集和实时应用。