摘要
稀疏主成分分析是一种用于降维和特征选择的无监督方法。由于计算多个主成分时主载荷向量间不具有相同的稀疏模式,导致难以从原始特征空间中确定出对主成分贡献最大的小部分变量,为解决此问题,提出一种自适应稀疏主成分分析(Adaptive sparse principal component analysis, ASPCA)算法。首先使用组套索模型,通过在载荷向量上施加块稀疏约束得出自适应稀疏主成分分析公式,随后对稀疏矩阵的不同列使用不同的调整参数获得自适应惩罚,最后运用块坐标下降法对自适应稀疏主成分分析公式进行两阶段优化,从而找到稀疏载荷矩阵和正交矩阵,实现降维的最优化。对稀疏主成分分析(Sparse principal component analysis, SPCA)算法、结构化且稀疏的主成分分析(Structured and sparse principal component analysis, SSPCA)算法和ASPCA算法进行仿真比较,结果表明ASPCA算法的降维性能更优,能提取更有价值的特征,从而显著提高了分类模型的平均分类准确率。
主成分分析(Principal component analysis, PCA)是数据分析中一种流行的特征提取和降维技
在以上研究的基础上,本文提出了一种自适应稀疏PCA算法(Adaptive sparse principal component analysis, ASPCA)。该算法通过使用组套索模型,在载荷向量上施加块稀疏约束找到最小化的稀疏载荷矩阵和正交矩阵,得出自适应稀疏PCA公式;对稀疏矩阵的不同列使用不同的调整参数以获得自适应惩罚,使得稀疏矩阵不同列具有不同的收缩量,从而在主载荷向量上保留稀疏模式;采用块坐标下降法对自适应稀疏PCA公式进行两阶段优化,找到稀疏载荷矩阵和正交矩阵,提高特征选择的能力。仿真结果表明,相比SPCA算法和SSPCA算法,ASPCA算法的降维效果显著,且能提取更有价值的特征,有力的提高了分类模型的平均分类准确率。
令表示秩为的数据矩阵,其中为数据样本数,为变量数。对于,的行表示为,假定其以0为中心且,为的正定矩阵,可以分解为
(1) |
式中:表示的第个最大特征值;为关联的特征向量。PCA通过将原始变量替换为主成分的个线性组合,从而将数据的维数从减少到,通过最大化其方差获得主载荷向量,即
(2) |
式中:为第个主载荷向量;的投影为第个主成分;表示随机变量的方差。当使用的分量来解释数据的大部分差异,进而解释基础数据结构时,PCA最为理想。协方差矩阵从数据上进行估计,载荷向量从估计矩阵的特征值‑特征向量分解进行估计。
基于投影框架导出PCA的替代公式,其中主载荷矩阵(定义为包含主要载荷向量的矩阵)通过最小二乘法估计
(3) |
式中为主载荷矩阵。
使用X的奇异值分解(Singular value decomposition, SVD)计算PCA为
(4) |
式中:的列是主成分;而的列是相应的载荷向量。矩阵是有序奇异值的对角矩阵,并且和的列正交,因此。
(5) |
这个秩近似也对应于个秩1近似,即
(6) |
式中:,向量和分别为和的矩阵,且。本文用
(7) |
式中为的分量。在
为了在所有主载荷向量上保留稀疏模式,本文采用组套索模型惩罚分组变
(8) |
式中:为与矩阵的第列相对应的向量,其中用于相对于向量的维数来调整惩罚。
(9) |
传统的稀疏PCA是
命题1 对于给定的秩矩阵,代价函数
证明:假设是
假设和是
命题1指出代价函数
命题2 从代价函数
证明:假设和是
在
(10) |
式中是从的第1个右奇异向量乘以相关的第1个奇异值且得到的未惩罚解。
代价函数
第1阶段对应于
(11) |
(12) |
式中为的第列,其为。
关于的次梯度方程为
(13) |
式中: 如果,则; 如果,则是满足的维度的向量。
如果,
(14) |
的解为
(15) |
对
(16) |
将此解代入
(17) |
当时,的次梯度方程变为
(18) |
解为
(19) |
因此,如果成立,则。结合
(20) |
对应于向量软阈值规则,当时,运算符设置为0。根据
(21) |
这是一个正交的Procrustes问
根据命题1和命题2对自适应稀疏PCA公式解的说明以及调整参数的计算公式,利用块坐标下降法两阶段优化的结果,ASPCA算法伪代码如算法1所示。
算法1 自适应稀疏PCA算法(ASPCA)
输入 数据矩阵,稀疏主成分的数量,调整参数,阈值。
输出 稀疏载荷矩阵,正交矩阵。
(1) 作为第1个右奇异向量乘以的第1个奇异值;
(2) 使用
(3) 使用
(4) For ~
(5)
(6) 使用的SVD更新
(7) 重复步骤(3~6),当时,停止迭代,得到更新后的和。
通过算法1可知,将数据矩阵、稀疏主成分的数量、调整参数以及阈值作为输入端,首先计算出调整参数,然后迭代计算得出矩阵和,最后得到稀疏载荷矩阵。ASPCA算法使用块坐标下降法几次迭代后达到合理的收敛容限,因此该算法是稳定并保证收敛的。
对于ASPCA算法,复杂性主要取决于迭代次数。对于非迭代部分,计算调整参数所需的SVD的计算复杂度为。更新,SVD的计算复杂度为,矩阵乘积计算复杂度为。因此,矩阵的计算复杂度由SVD决定。更新,的计算复杂度为,使用
与其他类似算法的仿真研究一致,本文将ASPCA算法应用到3种MNIST数据条件的数字分类任务中来评估算法降维的有效性。MNIST数据
(1) 无背景时的准确率分析
如

图1 无背景时准确率随主成分数量的变化
Fig.1 Variation of average classification accuracy with the number of principal components in no background
(2) 背景中有均匀随机噪声的准确率分析
如

图2 背景中有随机噪声时准确率随主成分数量的变化
Fig.2 Variation of average classification accuracy with the number of principal components in the background with random noise
(3) 背景中随机出现无法识别图像的准确率分析
如

图3 背景中随机出现无法识别图像时准确率随主成分数量的变化
Fig.3 Variation of average classification accuracy with the number of principal components in the background appearing unrecognizable images randomly
可见,在对3种MNIST数据条件的数字进行分类的过程中,ASPCA算法的降维效果优于SPCA算法和SSPCA算法,尤其是在存在噪声情况下提取具有相同稀疏性模式的载荷向量是重要的。
为了解决主载荷稠密的问题,本文提出了一种ASPCA算法。通过在载荷向量上施加块稀疏约束得出ASPCA公式,对稀疏矩阵的不同列使用不同的调整参数获得自适应惩罚,使主载荷向量在所有主成分上都具有相同的稀疏性模式;然后,通过块坐标下降法进行优化找到最小化的稀疏载荷矩阵和正交矩阵,实现降维的最优化。仿真结果表明,ASPCA算法的降维性能更优,能提取更有价值的特征,从而有力地提高了分类模型的准确率。
参考文献
谢昆明, 罗幼喜. 一种改进的主成分分析特征抽取算法:YJ-MICPCA[J]. 武汉科技大学学报, 2019, 42(3): 220-226. [百度学术]
XIE Kunming, LUO Youxi. An improved PCA algorithm for feature extraction: YJ-MICPCA[J]. Journal of Wuhan University of Science & Technology, 2019, 42(3): 220-226. [百度学术]
JOLLIFFE I T, CADIMA J. Principal component analysis: A review and recent developments[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2016, 374(2065): 1-16. [百度学术]
VASWANI N, CHELLAPPA R. Principal components null space analysis for image and video classification[J]. IEEE Transactions on Image Processing, 2006, 15(7): 1816-1830. [百度学术]
PYATYKH S, HESSER J, ZHENG L. Image noise level estimation by principal component analysis[J]. IEEE Transactions on Image Processing, 2013, 22(2): 687-699. [百度学术]
刘作军, 高尚兵. 基于结构化低秩表示和低秩投影的人脸识别算法[J]. 计算机工程与科学, 2018, 40(1): 108-115. [百度学术]
LIU Zuojun, GAO Shangbing. Face recognition based on structured low rank representation and low rank projection[J]. Computer Engineering & Science, 2018, 40(1): 108-115. [百度学术]
MIN Feng, YE Xianyi, ZHANG Yanduo. Method of hand written digit recognition based on improved PCANet[J]. Huazhong University of Science & Technology (Natural Science Edition), 2018, 46(12): 101-105. [百度学术]
HASTIE T, TIBSHIRANI R, WAINWRIGHT M. Statistical learning with sparsity: The LASSO and generalizations[M]. London: Chapman & Hall, 2015. [百度学术]
ZOU H, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J].Journal of Computational and Graphical Statistics, 2006, 15(2): 265-286. [百度学术]
Jenatton R,Audibert J Y, Bach F.Structured variable selection with sparsity-inducing norms[J].Journal of Machine Learning Research,2011,12: 2777-2824. [百度学术]
RAO N, NOWAK R, COX C, et al. Classification with the sparse group LASSO[J]. IEEE Transactions on Signal Processing, 2016, 64(2): 448-463. [百度学术]
CATALINA A, ALAÍZ C M, DORRONSORO J R. Accelerated block coordinate descent for sparse group lasso[C]//Proceedings of the 2018 International Joint Conference on Neural Networks (IJCNN). Rio de Janeiro, Brazil: IEEE, 2018. [百度学术]
WANG H, LENG C. A note on adaptive group lasso[J]. Computational Statistics & Data Analysis, 2008, 52(12): 5277-5286. [百度学术]
薛芳. 组Lasso模型及坐标下降算法研究[D]. 秦皇岛:燕山大学, 2015. [百度学术]
XUE Fang. Study on group Lasso model and coordinate descent algorithm[D]. Qinhuangdao: Yanshan University, 2015. [百度学术]
GOLUB G H, VAN LOAN C F. Matrix computations[M]. [S.l.]: Johns Hopkins University Press, 2012. [百度学术]
LAROCHELLE H, ERHAN D, COURVILLE A, et al. An empirical evaluation of deep architectures on problems with many factors of variation[C]//Proceedings of the 24th International Conference on Machine Learning. [S.l.]: ACM, 2007: 473-480. [百度学术]