摘要
胰腺囊性肿瘤的良恶性分类对于医学决策至关重要,本文致力于提高胰腺囊性肿瘤的分类准确性,以辅助医生更精确地制定诊疗方案。基于影像组学技术和ResNet50神经网络,提出了融合多核学习和多源特征的胰腺囊性肿瘤分类方法,其关键步骤包括特征筛选、核矩阵融合及构建分类模型。首先采用最小绝对收缩与选择算子(Least absolute shrinkage and selection operator, LASSO)进行特征筛选,减少冗余特征,提高模型的泛化能力;然后选取经过特征筛选的多源特征,通过在基础核函数中进行特征映射,构建多源特征的基础核矩阵,优化选取核矩阵的权重系数,并加权相加这些基础核矩阵以形成融合的核矩阵;最后,利用支持向量机(Support vector machine,SVM)分类器对胰腺浆液性和黏液性囊性肿瘤进行分类。这一过程的关键在于,SVM可以利用核矩阵在高维空间中内积,在高维空间中寻找一个超平面来分类数据,而融合的核矩阵中包含了经过特征映射的多源信息,可以提供更高维度和更复杂的特征表示。实验结果表明,该方法在胰腺囊性肿瘤良恶性分类任务中取得了显著的性能提升,可为医生提供更可靠的辅助信息,具有显著的临床应用潜力。
胰腺囊性肿瘤(Pancreatic cystic neoplasms,PCN)主要由胰腺浆液性囊性肿瘤(Serous cystic neoplasm,SCN)和胰腺黏液性囊性肿瘤(Mucinous cystic neoplasm,MCN)构成,其中SCN一般为良性,而MCN具有恶变潜能。中国胰腺囊性肿瘤诊断指
近年来,深度学习技术在许多医学领域中取得了显著进
影像组学是一个新兴的研究领域,它专注于从医学影像资料中提取高通量的特征,以发现疾病诊断、预后评估、和治疗反应预测方面的生物学信息。Bian
虽然深度学习和影像组学都是利用计算机技术提取医学图像特征,但是二者具有明显的区别。深度学习技术通过深层次的卷积结构学习图像的全局特征,例如平均强度、灰度分布等;而影像组学技术则体现了医学图像的多种类特征,例如强度特征、纹理特征以及滤波变换特征等。怎样有效融合这种来自于同一图像的多源性特征是个难点。多核学习作为先进的核特征映射技术,通过将多源性特征映射到同一特征空间,完成多源特征的融合。Santos
本文提出了一个融合多核学习和多源特征的胰腺囊性肿瘤分类模型,该模型将集成PCN的临床特征、影像组学特征以及深度学习特征,实现对PCN的良恶性的鉴别。首先,使用影像组学技术和ResNet50卷积神经网络模型分别提取PCN的影像组学特征和深度学习特征;然后,使用LASSO进行特征筛选,以找出最具分类价值的特征;之后,基于筛选的特征构建融合多核学习和多源特征的SVM分类器,用于MCN和SCN的分类;最后,使用准确率、精确率、召回率和AUC值等评价指标来评估和优化分类器。本文有望为PCN的精确诊断提供新的思路,同时为多核学习算法在医学影像分类中的应用提供重要的推广价值。
对于PCN的分类,本文构建的融合多核学习和多源特征的分类方法的流程图如

图1 本文方法流程图
Fig.1 Flow chart of the proposed method
临床特征作为临床诊断的第一手资料,对于PCN的定性具有直接意义。两名具有10年以上影像诊断经验的放射科医师对临床特征进行量化评估,他们对肿瘤类型未知。统计学方法使用T检验分析临床特征和PCN分类之间的关系。相关临床特征的散点分布图以及T检验结果如

图2 临床特征统计图
Fig.2 Clinical characteristic statistical chart
影像组学特征类型包括20个形状(Shape)特征、18个一阶(First order)特征、24个灰度共生矩阵(Gray level co‑occurrence matrix,GLCM)、14个灰度相关矩阵(Gray level dependence matrix,GLDM)、16个灰度游程矩阵(Gray level run length matrix,GLRLM)、16个灰度区域大小矩阵(Gray level size zone matrix,GLSZM)和5个邻域灰度差矩阵(Neighborhood gray tone difference matrix,NGTDM)共7类特征以及小波变换特征。使用3D‑slicer软件中的pyradiomics插件对感兴趣区域(Region of interrst,ROI)提取影像组学特征,提取出的特征包含113个原始图像纹理特征和744个小波变换特征共857个特征。
本研究基于ResNet50网络来提取深度学习特征,采用python软件包TensorFlow(版本2.1.0)的keras(版本2.3.1)下的ResNet50构建CNN网络。ResNet50由残差模块(Residual module)组成,总共有50层。残差模块包括3个卷积层,分别为标准的卷积层、批量归一化层和激活层,可以实现对输入特征映射的高速和高质量转换,通过避免较浅层特征的丢失,可以更好地提取图像对深层特征,其主要思想是通过残差连接来解决网络过深而出现的梯度消失问题。胰腺在图像中没有固定的形态,结构极为复杂,ResNet50网络因其深度、高度分层和卷积模块的设计,在提取PCN的深度学习特征时,有着明显的优势。迁移学习是一种针对有限训练样本的学习方法,目标是从一个或多个源任务中提取有用的知识,并将其用于新的目标任务中,本质上是知识的迁移和重用。通过迁移学习在大规模ImageNet数据集上进行预训练,将预训练得到的网络权值迁移到ResNet50网络中,减少模型过拟合。对ResNet50网络随机初始化各层的参数,学习率为0.000 1, 衰减率为0.000 1,批数据大小为20,动量为0.9。最终在全连接层FC的输出中提取2 048个深度学习特征。ResNet50提取深度学习特征的网络结构如

图3 ResNet50网络结构图
Fig.3 ResNet50 network architecture diagram
LASSO的主要原则是通过最小化正则化之后的损失函数实现对回归系数的稀疏化,保留对目标变量的预测具有显著影响的特征。采用LASSO对影像组学特征和深度学习特征分别进行筛选,得到显著影响的影像组学特征和深度学习特征,然后使用10折交叉验证方法来寻找训练集中最优的拟合参数λ(λ表示L1正则化的惩罚力度)。LASSO的损失函数为
(1) |
式中:n表示样本数,X表示样本目标向量,w表示模型系数向量,y表示样本特征矩阵。
对于胰腺囊性肿瘤数据具有线性决策特征的数学表达式为
(2) |
式中:w =(),,在此基础上,基于最大边缘的分解方式,获得待优化的数学表达式为
(3) |
(4) |
在
(5) |
在
(6) |
式中:代表第r个核, 代表第r个核权重,m代表基础和函数的个数。其权重系数的约束条件为
(7) |
核方法是处理非线性问题的强大工具, 而核函数的选取以及权重系数的优化是两个重要环节。当输入空间是欧氏空间或离散集, 特征空间是希尔伯特空间时,核函数表示输入空间映射到特征空间得到的向量之间的内积,从而可以避免高维空间的内积运
核函数 | 表达式 |
---|---|
线性核函数 |
K(xA,xB)=axAx |
多项式核函数 |
K(xA,xB)=(γxAx |
高斯核函数 |
K(xA,xB)=exp(-γ||xA-xB| |
Sigmoid核函数 |
K(xA,xB)=tanh(α xA x |
单核训练存在着过于依赖核函数的选取以及在异构信息上灵活性差的问题,多核学习能有效解决此类问

图4 基于多核学习的多源特征融合过程示意图
Fig.4 Schematic diagram of multi‑source feature fusion process based on multi‑kernel learning
本研究使用的数据集来自长海医院在2011年3月至2021年12月期间接收的172例胰腺囊腺肿瘤患者,其中包含65个MCN病例和107个SCN病例,所有患者均提供书面知情同意书。经病理学证实的107例SCN患者包括男性45例、女性62例,平均年龄48.7±15.1岁,65例MCN患者包括男性23例、女性42例,平均年龄51.9±12.5岁。
纳入标准:①T2WI清晰、无伪影,完整显示肿瘤区域;②诊断资料完整;③未合并黄疸、胰腺炎及糖尿病等。本研究经院医学伦理委员会审核通过(批准号:CHEC2021‑163);检查前患者均签署知情同意书。所有的图像分割均由两名具有10年放射科诊断经验的放射科医生使用ITK‑snap软件勾画肿瘤区域,

图5 MCN和SCN分割图像
Fig.5 Segmented images of MCN and SCN
对临床特征经过T检验分析,保留16个临床特征与PCN分类之间具有显著性差异(p<0.05),排除掉5个和PCN分类之间没有显著性差异的特征(p>0.05);对影像组学特征做标准化处理,然后使用T检验从856个特征中筛选得到196个特征,再使用LASSO及10折交叉验证方法,当LASSO算法的均方误差最小时,参数λ=4.94×1

图6 均方误差图以及LASSO筛选的特征系数图
Fig.6 Mean square error plot and characteristic coefficient plot of LASSO screening
核函数 | 线性核函数 | 多项式核函数 | 高斯核函数 | Sigmoid核函数 | |||||
---|---|---|---|---|---|---|---|---|---|
不同来源特征 | 参数 | a | b | γ | r | d | γ | α | c |
临床特征 | 调优 | -1.02 | -3.47 | -6.33 | 6.74 | 6 | 0.13 | 0.07 | -1.02 |
准确度 | 0.89 | 0.87 | 0.79 | 0.90 | |||||
影像组学特征 | 调优 | -0.2 | 0.2 | 8.37 | -0.61 | 2 | 0.13 | 0.12 | -0.2 |
准确度 | 0.9 | 0.85 | 0.87 | 0.92 | |||||
深度学习特征 | 调优 | -0.2 | -5.92 | -10 | -2.65 | 9 | 1.04 | 79.06 | 1.43 |
准确度 | 0.79 | 0.85 | 0.77 | 0.83 |
通过对不同来源特征进行核特征映射,进行单核学习分类结果的比较,结果如
特征 | 准确率 | 精确率 | 召回率 | AUC |
---|---|---|---|---|
临床特征 | 0.85 | 1.00 | 0.65 | 0.83 |
影像组学特征 | 0.77 | 0.67 | 0.75 | 0.77 |
深度学习特征 | 0.63 | 0.67 | 0.10 | 0.53 |
K‑临床特征 | 0.87 | 1.00 | 0.65 | 0.84 |
K‑影像组学特征 | 0.79 | 0.6 | 0.80 | 0.79 |
K‑深度学习特征 | 0.65 | 1.00 | 0.05 | 0.53 |
根据综合
特征 | 准确率 | 精确率 | 召回率 | AUC |
---|---|---|---|---|
多源特征 | 0.88 | 0.82 | 0.82 | 0.87 |
Sekhar M | 0.79 | 0.37 | 0.58 | 0.73 |
Wang | 0.862 | 0.868 | 0.687 | 0.812 |
MKL‑多源特征 | 0.92 | 0.93 | 0.82 | 0.90 |
本文基于影像组学和深度学习的方法高通量地提取PCN图像特征,为了避免特征冗余,引起特征空间的维度灾难,从而造成模型过拟
本文对PCN的临床特征进行评估,通过T检验分析临床特征与PCN分类之间的关系,发现性别、位置、形状、囊肿大小、囊壁增厚、T2序列囊液信号、T1序列信号、壁结节、主胰管截断、淋巴结肿大、主导症状、主胰管扩张、胰腺炎、糖类抗原199和癌胚抗原等临床特征与PCN之间存在显著关联。这些临床特征对于PCN的定性具有直接意义。
根据SVM分类结果显示,使用核方法对PCN的多源特征进行核特征映射,可强化SVM对MCN和SCN的分类精度;使用多核学习融合多源特征能够进一步提升SVM的分类效果,多核学习融合多源特征分类MCN和SCN的准确率达0.92,精确率达到0.93,召回率达到0.82,AUC值达到0.90。
针对胰腺囊性肿瘤良恶性分类任务,本文设计了一种融合多核学习和多源特征的分类方法。在特征提取阶段,根据特征的来源不同,分为临床特征影像组学特征和深度学习特征,在保证检测对象一致性的情况下,利用不同来源的数据之间的差异性进行信息互补,从而得到更加全面的信息描述。引入核方法将不同来源的特征向希尔伯特特征空间映射,获得核特征矩阵,通过多核学习方法将不同来源的特征进行融合,取得了较好的实验结果。此外,性别、身体健康指数以及胰腺囊肿的位置等临床症状和体征对胰腺囊性肿瘤的分类具有关联性,说明本研究的融合多核学习和多源特征的分类模型对于辅助医生制定精确诊疗方案,具有一定的临床价值。
参考文献
李兆申, 金震东, 李汛. 中国胰腺囊性肿瘤诊断指南[J]. 临床肝胆病杂志, 2022, 39(2): 290‑298. [百度学术]
LI Zhaoshen, JIN Zhendong, LI Xun. Chinese guidelines for the diagnosis and treatment of pancrestic cystic neoplasm[J]. Journal of Clinical Hepatology, 2022, 39(2): 290-298. [百度学术]
WONG P K, CHAN I N, YAN H M, et al. Deep learning based radiomics for gastrointestinal cancer diagnosis and treatment: A minireview [J]. World Journal of Gastroenterology, 2022, 28(45): 6363‑6379. [百度学术]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2016: 770‑778. [百度学术]
SEKHAR M C, SANTOSH P R. An efficient novel approach with multi class label classification through machine learning models for pancreatic cancer[J]. Scalable Computing: Practice and Experience, 2022, 23(4): 193‑210. [百度学术]
田慧, 武杰, 边云. 基于DenseNet结合迁移学习的胰腺囊性肿瘤分类方法[J]. 波谱学杂志, 2023, 40(3): 270‑279. [百度学术]
TIAN Hui, WU Jie, BIAN Yun. Classification of pancreatic cystic tumors based on DenseNet and transfer learning[J]. Chinese Journal of Magnetic Resonance, 2023, 40(3): 270-279. [百度学术]
徐佳薇, 武杰, 顾宇翔, 等. 用于烟雾病检测的Faster RCNN改进算法[J]. 数据采集与处理, 2022, 37(6): 1391‑1402. [百度学术]
XU Jiawei, WU Jie, GU Yuxiang, et al. Improved Faster RCNN algorithm for moyamoya disease detection[J]. Journal of Data Acquisition and Processing, 2022, 37(6): 1391-1402. [百度学术]
NGUON L S, SEO K, LIM J-H, ET AL. DEEP LEARNING-BASED DIFFERENTIATION BETWEEN MUCINOUS CYSTIC NEOPLASM AND SEROUS CYSTIC NEOPLASM IN THE PANCREAS USING ENDOSCOPIC ULTRASONOGRAPHY[J]. DIAGNOSTICS, 2021, 11(6):1052-1062. [百度学术]
BIAN Y, JIANG H, MA C, et al. CT‑based radiomics score for distinguishing between grade 1 and grade 2 nonfunctioning pancreatic neuroendocrine tumors[J]. American Journal of Roentgenology, 2020, 215(4): 852‑863. [百度学术]
ROBERT T. Regression shrinkage and selection via the Lasso[J]. Journal of the Royal Statistical Society, 1996, 58: 2517‑6161. [百度学术]
WANG X, WANG J, SHAN F, et al. Severity prediction of pulmonary diseases using chest CT scans via cost‑sensitive label multi‑kernel distribution learning[J]. Computers in Biology and Medicine, 2023, 159: 106890. [百度学术]
CHI Z, WANG Z, WANG B, et al. Multiple kernel subspace learning for clustering and classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(7): 1‑14. [百度学术]
YAN W, LI Y, YANG M. Towards deeper match for multi‑view oriented multiple kernel learning[J]. Pattern Recognition, 2023, 134: 1‑15. [百度学术]
ALIOSCHA‑PEREZ M, OVENEKE M C, SAHLI H. SVRG‑MKL: A fast and scalable multiple kernel learning solution for features combination in multi‑class classification problems[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(5): 1710‑1723. [百度学术]
肖开研, 廉洁. 基于多核支持向量机的句子分类算法[J]. 华东师范大学学报, 2023(6): 85‑94. [百度学术]
XIAO Kaiyan, LIAN Jie. Sentence classification algorithm based on multi-kernel support vector machine[J]. Journal of East China Normal University, 2023(6): 85-94. [百度学术]
范嘉玮, 祝海江. 基于改进多核学习的多传感数据分类方法研究[J]. 北京化工大学学报, 2020, 47(3): 100‑107. [百度学术]
FAN Jiawei, ZHU Haijiang. Classification of internet multisensor data based on improved multi-kernel learning[J]. Journal of Beijing University of Chemical Technology, 2020, 47(3): 100-107. [百度学术]
WANG J, MIAO Y, LI L, et al. Multi‑omics data integration for hepatocellular carcinoma subtyping with multi‑kernel learning[J]. Frontiers in Genetics, 2022, 13: 962870. [百度学术]