人工智能(机器学习与模式识别)

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  基于知识蒸馏的缅甸语光学字符识别方法
    毛存礼,谢旭阳,余正涛,高盛祥,王振晗,刘福浩
    2022, 37(1):173-182. DOI: 10.16337/j.1004-9037.2022.01.015
    [摘要](388) [HTML](1587) [PDF 1.40 M](1741)
    摘要:
    与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition, OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战。为了解决该问题,提出了一种基于知识蒸馏的缅甸语OCR方法,构建了使用卷积神经网络(Convolutional neural networks, CNN)+循环神经网络(Recurrent neural network, RNN)框架的教师网络和学生网络,以集成学习的方式进行训练的模型架构,在训练过程中通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取。实验结果表明,在没有背景噪声图像和有背景噪声图像作为训练数据集的情况下,本文模型的性能分别优于基线2.9%和2.7%。
    2  基于多标签学习的创伤救治层链决策研究
    赵鹏飞,刘华
    2022, 37(2):446-455. DOI: 10.16337/j.1004-9037.2022.02.017
    [摘要](566) [HTML](243) [PDF 725.83 K](1456)
    摘要:
    在现代创伤救治中,根据患者伤情进行合理而准确的院前评估并制定相应的救治决策对降低患者伤残率与死亡率具有重要意义。为了改善人工制定决策的缺陷,实现准确合理的标准化创伤救治决策制定,本文利用多标签学习思想,在对创伤救治决策进行深入分析与研究的基础上,将整体救治决策进行子决策划分,并提取出子决策对应的判定因素作为标签集。为了更好地考虑标签间的关联,将Classifier Chains算法的链式思想与多标签K近邻(Multi-label K-nearest neighbor,ML-KNN)算法融合,提出一种层链多标签学习算法,称为层链多标签K近邻算法(Layer chain ML-KNN,LCML-KNN)。LCML-KNN算法将标签依特点划分为两个层链,在第一层链的预测标签信息输出后对其进行独热编码,转化后的标签看作新特征放入第二层链进行预测与判断。LCML-KNN算法不仅更好地考虑了标签间的关联性,而且通过标签转化扩充了特征维数。在两个创伤类数据集上与现有各类多标签算法进行实验对比,结果验证了LCML-KNN算法的鲁棒性和优越性。
    3  基于局部特征的二维白化重构
    田甲略,朱玉莲,陈飞玥,刘佳慧
    2022, 37(2):308-320. DOI: 10.16337/j.1004-9037.2022.02.005
    [摘要](440) [HTML](1059) [PDF 3.45 M](1869)
    摘要:
    白化是一种能够去除数据各属性间相关性的数据预处理方法。最近提出的二维白化重构方法(Two-dimensional whitening reconstruction, TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped-based TWR, RTWR)方法和基于块的TWR(Patch-based TWR, PTWR)方法。RTWR首先将图像进行重新组合使得每个列向量对应着原始图像的子块,然后将TWR预处理作用在重组后的图像上;而PTWR方法则将TWR直接作用在图像的每个子块上。在ORL、CMU PIE、AR三个人脸数据集上的实验结果表明,RTWR和PTWR预处理比TWR预处理更有利于后续分类性能的提高。
    4  基于XGBoost的微博流行度预测算法
    任敏捷,靳国庆,王晓雯,陈睿东,袁运新,聂为之,刘安安
    2022, 37(2):383-395. DOI: 10.16337/j.1004-9037.2022.02.011
    [摘要](498) [HTML](1015) [PDF 1.60 M](1889)
    摘要:
    随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。
    5  基于深度学习的计算机视觉研究新进展
    卢宏涛,罗沐昆
    2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
    [摘要](2080) [HTML](3156) [PDF 12.48 M](4745)
    摘要:
    近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
    6  基于对比预测编码模型的多任务学习语种识别方法
    赵建川,杨浩铨,徐勇,吴恋,崔忠伟
    2022, 37(2):288-297. DOI: 10.16337/j.1004-9037.2022.02.003
    [摘要](464) [HTML](1288) [PDF 754.63 K](1607)
    摘要:
    语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络(Time-delayed neural network, TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能。本文提出一种ECAPA(Emphasized channel attention)-TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络。ECAPA-TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA-TDNN提取的帧级特征进行对比预测学习,通过联合损失函数进行优化训练。在东方语种竞赛数据集AP17-OLR的10类语种上进行了实验。实验结果表明,本文提出的网络在1 s,3 s和全长(All)测试集测得的识别准确率相比于基础网络都有明显的提高。
    7  基于多关系网络的话题意见领袖挖掘
    段震,倪云鹏,陈洁,张燕平,赵姝
    2022, 37(3):576-585. DOI: 10.16337/j.1004-9037.2022.03.008
    [摘要](326) [HTML](334) [PDF 1.41 M](4422)
    摘要:
    社交网络中的意见领袖在信息传播过程中起着重要的作用。传统的意见领袖挖掘仅基于网络结构,没有考虑特定话题或者事件下的作用,且目前基于话题的意见领袖挖掘仅基于单一的网络结构,并没有考虑到节点间的多种交互关系。本文提出一种基于多关系网络的话题意见领袖挖掘方法(Multi-relational networks, MRTRank),融合话题因素和节点间多种交互关系,通过一种属性网络表示学习算法,得到不同节点在多关系网络上的相似性,形成节点的转移概率矩阵,最终通过PageRank算法得到top-k个意见领袖。在真实Twitter数据集上的实验结果验证了本文提出的方法优于传统的意见领袖挖掘算法。
    8  基于特征扩展的微博短文本流热点话题检测方法
    李艳红,谢梦娜,王素格,李德玉
    2022, 37(3):621-632. DOI: 10.16337/j.1004-9037.2022.03.012
    [摘要](391) [HTML](211) [PDF 1.00 M](5138)
    摘要:
    随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection, FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection, T-TD)和基于突发词的话题检测(Burst words-based topic detection, BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
    9  基于粗糙超立方体和离散粒子群的特征选择算法
    王思朝,罗川,李天瑞,陈红梅
    2022, 37(3):668-679. DOI: 10.16337/j.1004-9037.2022.03.016
    [摘要](381) [HTML](152) [PDF 1.99 M](4753)
    摘要:
    特征选择指在保持数据分类性能不变的同时,选出不含冗余特征的特征子集。粗糙超立方体方法可从特征相关度、依赖度和重要度这3方面对特征子集进行综合评估,已成功用于特征选择。特征子集组合的计算是一个NP-难问题,而传统的前向搜索策略只能得到局部最优结果。因此,本文设计了一种新的离散粒子群优化与粗糙超立方体方法相结合的算法。该算法首先引入相关度用以生成一组粒子,然后对粗糙超立方体方法的目标函数改进后作为优化函数,最后由粒子群迭代优化,找到最优的特征子集。实验结果表明,相比传统粗糙超立方体方法和采用粒子群优化的粗糙集方法,本文算法能够得到具有更小特征数量和更高分类性能的特征子集。
    10  基于深度学习的域适应方法综述
    田青,朱雅喃,马闯
    2022, 37(3):512-541. DOI: 10.16337/j.1004-9037.2022.03.004
    [摘要](949) [HTML](2042) [PDF 2.90 M](10678)
    摘要:
    域适应主要应对跨不同数据分布的相似任务决策问题。作为机器学习领域的一个新兴分支,域适应受到了众多的研究和关注。随着近年深度学习的兴起,深度学习和域适应相结合的深度域适应研究得到了更多的关注。尽管已有各种深度域适应方法被提出,却鲜有系统的综述工作发表。为此,本文重点对现有的深度域适应方法进行全面回顾、分析和总结,为相关研究人员提供借鉴和参考。本文主要贡献包括以下方面:首先,对域适应的背景、概念和应用领域进行概括总结。其次,根据模型是否涉及对抗训练机制,将现有深度域适应划分为深度对抗域适应和深度非对抗域适应两大类方法,并逐类回顾和分析。然后,对常用的实验基准数据集进行归类和总结。最后,对现有深度域适应工作存在的问题和不足进行了归纳分析,并讨论了将来的可行研究方向。
    11  基于几何-语义联合约束的动态环境视觉SLAM算法
    沈晔湖,陈嘉皓,李星,蒋全胜,谢鸥,牛雪梅,朱其新
    2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010
    [摘要](781) [HTML](394) [PDF 1.53 M](8455)
    摘要:
    传统视觉同步定位和地图构建(Simultaneous localization and mapping, SLAM)算法建立在静态环境假设的基础之上,当场景中出现动态物体时,会影响系统稳定性,造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响,但是当场景中动态物体较多时,这些方法失效。针对这一问题,本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络,结合几何约束,在有效地分离静态特征点和动态特征点的同时,进一步实现多目标跟踪,改善跟踪结果,并能够获得运动物体的轨迹和速度矢量信息,从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明,该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。
    12  基于深度学习的频分复用大规模多输入多输出下行信道状态信息获取技术
    桂冠,王洁,杨洁,刘淼,孙金龙
    2022, 37(3):502-511. DOI: 10.16337/j.1004-9037.2022.03.003
    [摘要](789) [HTML](279) [PDF 1.82 M](8568)
    摘要:
    大规模多输入多输出(Multiple input multiple output, MIMO)技术的演进是第6代(The sixth generation, 6G)无线通信系统性能进一步提升的重要支撑。随着天线阵列规模的持续扩大,频分复用(Fvequency division duplexing, FDD)大规模MIMO系统获取下行信道状态信息(Channel state information, CSI)面临着严峻挑战。深度学习具有强大的学习及处理高维数据的能力,能够为解决这一挑战提供新的方案。本文综述了基于深度学习的FDD大规模MIMO下行CSI获取技术,包括CSI反馈和预测技术。首先给出了基于深度学习的CSI反馈和预测的原理框架,其次分析比较了国内外相关研究成果的优越性能,为解决面向6G的FDD大规模MIMO系统获取下行CSI问题提供了可行的参考方案。最后讨论了FDD大规模MIMO下行CSI获取的有待进一步解决的开放性问题以及所对应的潜在研究方案。
    13  基于粒计算的支持向量数据描述分类方法
    方宇,曹雪梅,杨梅,王轩,闵帆
    2022, 37(3):633-642. DOI: 10.16337/j.1004-9037.2022.03.013
    [摘要](623) [HTML](199) [PDF 1.21 M](7384)
    摘要:
    分类学习效果与有限训练样本的分布情况密切相关。支持向量数据描述(Support vector data description, SVDD)作为单一边界求解模型,不能良好刻画数据实际分布特征,从而导致部分目标对象落在超球以外。为了提高其分类能力,本文提出一种基于粒计算的支持向量数据描述(Granular computing-driven SVDD, GrC-SVDD)分类方法,构造多粒度层次的属性集合以及相应的多粒度超球。首先通过邻域自信息对当前粒度层的属性集合重要度进行计算,然后选择最佳属性集合对上一粒度层未达到纯度阈值的超球再训练,直到所有超球满足条件或者属性耗尽。实验部分讨论了算法参数对分类性能的影响,并通过学习获得超参数。结果表明,与SVDD及流行的分类算法相比,本文方法具有较好的分类性能。
    14  基于排序学习的城市设施选址方法
    韩文军,张亚平,陈红,陈丹,孙婉婷,赵斌
    2022, 37(3):609-620. DOI: 10.16337/j.1004-9037.2022.03.011
    [摘要](383) [HTML](251) [PDF 4.02 M](5769)
    摘要:
    提出一种采用排序学习技术解决城市设施选址问题的方法,并引入人类移动性特征提升选址的质量。首先对人类移动行为进行特征提取与分析,使用双流自编码器融合人类移动性特征与其他特征,提取表征向量;然后基于候选集的表征向量与排序学习网络进行地块排序;最后,基于真实的多源数据集进行实验,结果验证了本文提出的排序学习选址方法的有效性。
    15  融合主题模型和动态路由的小样本学习方法
    张淑芳,唐焕玲,郑涵,刘孝炎,窦全胜,鲁明羽
    2022, 37(3):586-596. DOI: 10.16337/j.1004-9037.2022.03.009
    [摘要](693) [HTML](383) [PDF 1.89 M](8115)
    摘要:
    针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA, SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA, DRP-SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR-Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP-SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。
    16  用于迁移学习的多尺度领域对抗网络
    林佳伟,王士同
    2022, 37(3):555-565. DOI: 10.16337/j.1004-9037.2022.03.006
    [摘要](423) [HTML](490) [PDF 757.29 K](5245)
    摘要:
    深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。
    17  数据科学:从数字世界到数智世界
    张清华,高渝,申秋萍
    2022, 37(3):471-487. DOI: 10.16337/j.1004-9037.2022.03.001
    [摘要](857) [HTML](449) [PDF 1.63 M](9758)
    摘要:
    随着大数据的持续发展,数据已经成为国家的重大战略资源,对社会影响日益明显。为了更深入地挖掘和研究大数据背后所蕴藏的基本科学问题,新的研究领域——数据科学被提出。本文从大数据的发展历程出发,介绍了数据科学的兴起和内涵;分析了大数据和数据科学的研究现状,以及数据在各行业中的应用;简述了为探索数据科学本身的内涵和规律而建设的大数据试验场;讨论了数据科学的关键问题,以及在研究数据时应具有的新思维和新观念,以推动数据科学的发展,促进现实世界向数字世界的转型,最终实现社会生活的真正智能化。
    18  雷达辐射源信号分选识别特征性能评价的改进灰色关联模型
    普运伟,吴海潇,姜萤,余永鹏
    2022, 37(3):657-667. DOI: 10.16337/j.1004-9037.2022.03.015
    [摘要](381) [HTML](207) [PDF 1.45 M](1920)
    摘要:
    为解决雷达辐射源信号分选识别特征评价不够客观和缺乏评价依据等问题,构建了一种结合区间直觉模糊思想的改进灰色关联的特征评价模型。该模型引入信噪比维度来考察不同层次数据的动态差异,以区间型数据描述特征信息,建立区间直觉模糊综合决策矩阵;其次,采用特征间总离差最大化的优化模型来确定各指标权重;最后基于改进灰色关联框架,结合逼近理想点方法实现特征方案排序。仿真实验结果表明,所提方法能够给出与实际情况相一致的分选识别特征评价排序结果,并和未改进的灰色关联法分析结果基本一致,验证了所提方法的可行性和有效性。
    19  基于关键词结构编码的涉案微博评价对象抽取模型
    王静赟,余正涛,相艳,陈龙
    2022, 37(5):1026-1035. DOI: 10.16337/j.1004-9037.2022.05.008
    [摘要](346) [HTML](166) [PDF 960.79 K](1378)
    摘要:
    涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。
    20  可解释的深度TSK模糊系统综述
    王士同,谢润山,周尔昊
    2022, 37(5):935-951. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](888) [HTML](364) [PDF 840.68 K](3216)
    摘要:
    深度神经网络在多个领域取得了突破性的成功,然而这些深度模型大多高度不透明。而在很多高风险领域,如医疗、金融和交通等,对模型的安全性、无偏性和透明度有着非常高的要求。因此,在实际中如何创建可解释的人工智能(Explainable artificial intelligence, XAI)已经成为了当前的研究热点。作为探索XAI的一个有力途径,模糊人工智能因其语义可解释性受到了越来越多的关注。其中将高可解释的Takagi-Sugeno-Kang(TSK)模糊系统和深度模型相结合,不仅可以避免单个TSK模糊系统遭受规则爆炸的影响,也可以在保持可解释性的前提下取得令人满意的测试泛化性能。本文以基于栈式泛化原理的可解释的深度TSK模糊系统为研究对象,分析其代表模型,总结其实际应用场景,最后剖析其所面临的挑战与机遇。
    21  基于两阶段分层抽样的近似聚合查询方法
    房俊,赵博,左昌麒
    2022, 37(5):1049-1058. DOI: 10.16337/j.1004-9037.2022.05.010
    [摘要](460) [HTML](385) [PDF 1.41 M](1511)
    摘要:
    以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。
    22  主成分分析阈值选择差异性分析研究
    张婧,刘倩
    2022, 37(5):1012-1017. DOI: 10.16337/j.1004-9037.2022.05.006
    [摘要](469) [HTML](297) [PDF 1.77 M](1704)
    摘要:
    主成分分析是特征提取和数据降维中常用的方法,在很多应用中一般选择平均特征值作为主成分选择的标准。但是主成分的多少与应用结果之间的关系目前还没有具体的分析结果。因此,提出一种主成分阈值选择差异性的实验分析方法,为不同应用中主成分分析阈值的选择提供依据。将本文分析方法应用于手写数字样本集MNIST进行降维处理,根据不同的阈值构建不同的神经网络进行分类,分析不同阈值下分类准确率的变化情况。实验结果表明主成分阈值选择在79%~81%之间(维度为41~50)时,分类准确率最高;低于或高于该区间,准确率随之下降。实验结果证明了主成分分析阈值的选择与应用结果之间不为正相关关系,且平均特征值不是一个硬性的选择标准。
    23  改进的自步深度不完备多视图聚类
    崔金荣,黄诚
    2022, 37(5):1036-1048. DOI: 10.16337/j.1004-9037.2022.05.009
    [摘要](419) [HTML](173) [PDF 1.96 M](1833)
    摘要:
    随着数据量的增大,多视图聚类中出现带有缺失视图数据的情况愈发常见,此问题被称为不完备多视图聚类,而引入深度模型进行聚类通常可以获得比浅层模型更为出色的表现。本文提出一种新颖的深度不完备多视图聚类模型,称为改进的自步深度不完备多视图聚类。在该模型中,充分考虑多视图数据之间的互补性,利用基于多视图特性的最近邻填充方案将缺失视图补全。使用多个自编码器分别获取多个视图数据的低维潜在特征,同时引入图嵌入策略保持潜在特征之间的几何结构。运用一致性原则将来自不同的视图潜在特征融合以获得一致潜在特征,在此基础上运用自步学习的方法来增强聚类效果。实验结果表明,对比现有的不完备多视图聚类模型,本文模型可以更加灵活且高效地应对各种不完备多视图聚类情况,提升了不完备多视图聚类的鲁棒性与表现效果。
    24  深度学习在有限视角稀疏采样光声图像重建中的应用
    孙正,候英飒
    2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](630) [HTML](297) [PDF 4.04 M](3582)
    摘要:
    光声成像(Photoacoustic imaging, PAI)是一种多物理场耦合的新型功能成像技术,高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时,若采用标准重建方法(如反投影、时间反演和延迟求和等)会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题,但存在计算成本高、需合理选择正则化方法等缺点。近年来,深度学习已经成为医学成像领域的首选方法,其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结,对主要方法进行分类归纳,并讨论不同方法的优势和不足。
    25  基于相同稀疏模式的稀疏主成分分析算法
    邵剑飞,浦蓉,黄伟,季建杰,郭鹏
    2022, 37(5):1084-1091. DOI: 10.16337/j.1004-9037.2022.05.013
    [摘要](457) [HTML](158) [PDF 966.74 K](1351)
    摘要:
    稀疏主成分分析是一种用于降维和特征选择的无监督方法。由于计算多个主成分时主载荷向量间不具有相同的稀疏模式,导致难以从原始特征空间中确定出对主成分贡献最大的小部分变量,为解决此问题,提出一种自适应稀疏主成分分析(Adaptive sparse principal component analysis, ASPCA)算法。首先使用组套索模型,通过在载荷向量上施加块稀疏约束得出自适应稀疏主成分分析公式,随后对稀疏矩阵的不同列使用不同的调整参数获得自适应惩罚,最后运用块坐标下降法对自适应稀疏主成分分析公式进行两阶段优化,从而找到稀疏载荷矩阵和正交矩阵,实现降维的最优化。对稀疏主成分分析(Sparse principal component analysis, SPCA)算法、结构化且稀疏的主成分分析(Structured and sparse principal component analysis, SSPCA)算法和ASPCA算法进行仿真比较,结果表明ASPCA算法的降维性能更优,能提取更有价值的特征,从而显著提高了分类模型的平均分类准确率。
    26  基于句法和全文信息增强的中文事件检测方法
    王红,吴浩正
    2022, 37(5):1059-1069. DOI: 10.16337/j.1004-9037.2022.05.011
    [摘要](370) [HTML](167) [PDF 923.46 K](1395)
    摘要:
    针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。
    27  基于图卷积深浅特征融合的跨语料库情感识别
    杨子秀,金赟,马勇,戴妍妍,俞佳佳,顾煜
    2023, 38(1):111-120. DOI: 10.16337/j.1004-9037.2023.01.009
    [摘要](364) [HTML](179) [PDF 2.53 M](1362)
    摘要:
    语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用 OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。
    28  基于预训练与音素字节对编码的越南语识别
    沈之杰,郭武
    2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008
    [摘要](434) [HTML](344) [PDF 893.81 K](1366)
    摘要:
    基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
    29  融合矩阵分解和代价敏感的微生物数据扩增算法
    王曦,温柳英,闵帆
    2023, 38(2):401-412. DOI: 10.16337/j.1004-9037.2023.02.015
    [摘要](109) [HTML](171) [PDF 3.49 M](1214)
    摘要:
    微生物会对人类健康产生直接影响,对相关数据的分析有助于疾病诊断。然而,采集到的数据存在类不平衡与高稀疏性两个问题。现有的过采样方法在一定程度上可缓解数据的类不平衡,但是难以应对微生物数据的高稀疏性。本文提出了一种融合矩阵分解和代价敏感的数据扩增算法,其包含3个技术。首先,将原始矩阵分解为样本子空间和特征子空间;其次,利用样本子空间的正向量及其近邻向量生成合成向量;最后,根据合成向量与所有负向量的距离对其过滤。实验在8个微生物数据集上进行,同时与5种过采样算法对比,结果表明本文所提算法能够增强正样本的多样性,在识别出更多正样本的同时,分类结果的代价更低。
    30  基于改进型Transformer编码器和特征融合的行人重识别
    赵倩,薛超晨,赵琰
    2023, 38(2):375-385. DOI: 10.16337/j.1004-9037.2023.02.013
    [摘要](208) [HTML](348) [PDF 2.69 M](1427)
    摘要:
    为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。
    31  基于非局部融合的多尺度目标检测研究
    马倩,曾凯,吴家文,沈韬
    2023, 38(2):364-374. DOI: 10.16337/j.1004-9037.2023.02.012
    [摘要](225) [HTML](111) [PDF 3.56 M](1276)
    摘要:
    针对现有的多尺度目标检测模型在面对尺度变换和遮挡场景时所使用的融合方法融合不充分,且没有捕捉长距离依赖关系的问题,本文设计了通道融合增强模块和非局部特征交互模块,用于学习不同通道特征之间的相关性和捕捉特征图之间的长距离依赖关系。此外,针对当前检测架构都是基于单金字塔检测结构,存在信息丢失的情况,设计了双金字塔结构,并将提出的融合方法与双金字塔结构结合,在保留原始特征信息的基础上,补充融合后的特征信息。实验结果表明,提出的方法在公共数据集KITTI与PASCAL VOC上与其他先进工作相比具有更高的检测精度,证明了该方法在目标检测任务中的有效性。
    32  学习几何结构特征的真实点云场景语义分割
    李嘉祥,宣士斌,刘丽霞,王款
    2023, 38(2):336-349. DOI: 10.16337/j.1004-9037.2023.02.010
    [摘要](278) [HTML](213) [PDF 3.32 M](1269)
    摘要:
    有效获取点云数据在空间上的结构性特征是点云语义分割的关键。针对以往方法没有很好综合利用全局和局部特征问题,提出一种新的空间结构特征——点的盒子特征用于语义分割,设计一种编码-解码结构的网络框架,下采样过程中使用几何结构特征模块学习点云的全局空间特征和局部邻域特征,上采样过程中按分辨率逐级恢复成完整尺寸特征图进行语义分割。其中,几何结构特征模块包含两个子模块,一个是全局特征模块,该模块学习点的“盒子(box)”特征以表现点云在采样空间内概括的粗糙几何特征;另一个是局部特征模块,该模块使用特征提取——注意力机制结构表现点云在局部邻域内精确的细粒度几何特征。在公开数据集S3DIS、Semantic3D上进行了实验并与其他方法比较,实验结果表明mIoU均领先目前大部分主流的方法,部分细则类IoU取得最高。
    33  基于联合图学习的多通道语音增强方法
    张鹏程,郭海燕,王婷婷,杨震
    2023, 38(2):283-292. DOI: 10.16337/j.1004-9037.2023.02.005
    [摘要](177) [HTML](122) [PDF 1.30 M](1134)
    摘要:
    考虑到通道间存在的空间关系影响着其降噪问题,图信号处理可以捕获该潜在关系,若直接采用其空间物理分布图,无法实时反映其时变特性,因此本文提出了一种基于联合图学习的多通道语音增强方法。首先,提出一种联合时间-空间图学习方法,以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标,优化阵列空间图和语音帧内图。基于学习的空间图和帧内图,构建多通道语音信号的时间-空间联合图。在此基础上,将多通道语音图信号进行联合图傅里叶变换,进而采用固定波束形成(Fixed beam forming,FBF)方法进行增强。实验结果表明,与传统的FBF方法相比,所提出的基于联合图学习的FBF(Joint graph learning based FBF, JGL-FBF)方法显著提升了增强语音的信噪比(Signal-to-noise ratio, SNR)和主观语音质量评估(Perceptual evaluation of speech quality, PESQ)。另外,实验结果也表明,JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。
    34  基于粒计算的多源信息融合方法综述
    徐伟华,黄旭东,蔡可
    2023, 38(2):245-261. DOI: 10.16337/j.1004-9037.2023.02.002
    [摘要](523) [HTML](461) [PDF 1.33 M](1940)
    摘要:
    多源数据是一种综合多个信息源或数据集的复杂数据类型,其主要特点是不同的信息源隐含不同的知识结构,且从不同的角度刻画和描述了样本以及样本之间的关系。如何协同地融合与集成多源数据,并从不同视角快速地为用户挖掘出整体决策知识,成为数据科学领域亟待破解的科学问题。经典粗糙集理论、多粒度方法、证据理论和信息熵是常见的、有效的多源信息融合方法,已取得较为丰硕的成果。本文基于粒计算的角度对多源信息融合工作进行综述研究,介绍了每种信息融合方法的基本概念以及主要研究思路,并提出了多源信息融合领域中存在的若干问题,为该领域的后续研究提供理论参考。
    35  基于深度域适应CNN决策树的跨语料库情感识别
    孙林慧,赵敏,王舜
    2023, 38(3):704-716. DOI: 10.16337/j.1004-9037.2023.03.018
    [摘要](155) [HTML](98) [PDF 1.39 M](689)
    摘要:
    在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。
    36  基于传染病模型的突发事件网民情感演变分析
    仲兆满,李恒,杨洪,管燕
    2023, 38(3):676-689. DOI: 10.16337/j.1004-9037.2023.03.016
    [摘要](140) [HTML](211) [PDF 2.14 M](670)
    摘要:
    突发事件发生后,准确地分析网民的情感状态,实现对网民情感状态演变的引导,对管控突发事件舆情、维护社会稳定有重大的现实意义。依据网民对突发事件的评论特性构建了网民情感状态的完备集,并从突发事件利益相关者和突发事件本身两个角度建立不同情绪集。依据传染病模型的传播方式,建立了基于SIS(Susceptible-infectious-susceptible)传染病模型的网民情感状态演变模型EP-SIS和EO-SIS。利用网民对“新型肺炎病毒”的微博评论对模型进行了实证研究,获取影响因子的权重,模型对网民负面情感转换率为0.72。本文构建的突发事件网民情感演变模型可以从不同角度干预,使突发事件中网民负面情感状态发生演变。
    37  视觉注意与语义感知联合推理实现场景文本识别
    佟国香,董田荣,胡珩彰
    2023, 38(3):665-675. DOI: 10.16337/j.1004-9037.2023.03.015
    [摘要](274) [HTML](120) [PDF 2.82 M](758)
    摘要:
    场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。
    38  基于Tukey规则与初始中心点优化的K-means聚类改进算法
    柳菁,邱紫滢,郭茂祖,余冬华
    2023, 38(3):643-651. DOI: 10.16337/j.1004-9037.2023.03.013
    [摘要](233) [HTML](112) [PDF 941.15 K](769)
    摘要:
    针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。
    39  基于多特征融合的无监督真值发现方法
    陈华凤,董永权,杨昊霖,张国玺
    2023, 38(3):629-642. DOI: 10.16337/j.1004-9037.2023.03.012
    [摘要](202) [HTML](124) [PDF 1020.11 K](697)
    摘要:
    真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。
    40  基于随机傅里叶特征空间的高斯核近似模型选择算法
    张凯,门昌骞,王文剑
    2023, 38(3):616-628. DOI: 10.16337/j.1004-9037.2023.03.011
    [摘要](141) [HTML](133) [PDF 1.45 M](793)
    摘要:
    核方法是一种把低维空间的线性不可分问题转化为高维空间中线性可分问题的方法,其广泛应用于多种学习模型。然而现有的核模型选择方法在大规模数据中计算效率较低,时间成本很大。针对这一问题,本文引入随机傅里叶特征变换,将原始核特征空间转换为另一个相对低维的显式随机特征空间,并给出核近似误差上界理论分析以及在核近似的随机特征空间中训练学习模型的误差上界,得到核近似的收敛一致性和误差上界与核近似参数之间的关系。基于随机傅里叶特征空间选择出最优模型参数,避免了对最优原始高斯核模型参数的大规模搜索,从而大幅降低原始高斯核模型选择所需的时间成本。实验表明,本文给出的误差上界确由核近似参数控制,核近似选择的最优模型相较于原始高斯核模型有较高的准确率,并且模型选择时间相对网格搜索法大幅减小。
    41  融合类别注意力的铝硅合金显微图像分割方法
    沈韬,金凯,司昌凯,郑剑锋,刘英莉
    2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007
    [摘要](123) [HTML](93) [PDF 4.29 M](823)
    摘要:
    为了提取铝硅合金显微图像的初晶硅区域,提出一种结合类别注意力块(Class attention block, CAB)的改进模型类别注意力网络(Class attention network, CA-Net)。类别注意力块从特征图中计算各通道与每个类别的相关性信息,并将不同类别的相关性信息融合产生注意力权重,以使特征通道的权重与其对任务类别的贡献相关,从而增强重要特征的表达,并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验,本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法,CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。
    42  Multi-shapelet:一种基于shapelet的多变量时间序列分类方法
    詹熙,黎维,潘志松
    2023, 38(2):386-400. DOI: 10.16337/j.1004-9037.2023.02.014
    [摘要](311) [HTML](429) [PDF 1.85 M](1389)
    摘要:
    shapelet是时间序列中最具有辨识性的子序列,其一经提出就被来自各个领域的研究人员广泛研究,并在此过程中提出了许多有效的shapelet发现技术用于进行时间序列分类。然而,多变量时间序列的候选shapelet可能长度不同且变量来源不同,故很难直接对其进行比较,这对基于shapelet多变量时间序列分类方法提出了独特的挑战。为了应对这一挑战,提出了一种基于无监督表示学习和shapelet的多变量时间序列分类方法Multi-shapelet。Multi-shapelet首先使用混合模型DC-GNN(Dilated convolution neural network and graph neural network, DC-GNN)作为编码器,将不同长度的候选shapelet嵌入统一的shapelet选择空间,以进行shapelet之间的比较;其次,提出了一种新的损失函数以无监督学习方式训练该编码器,使得DC-GNN对shapelet编码得到相应的嵌入(Embedding)后,属于同类shapelet对应的嵌入之间的相对位置形成的拓扑与原空间中shapelet之间相对位置形成的拓扑之间的关系更接近于一种等比例的缩小,这对后续基于相似性的剪枝过程十分重要;最后,使用K-means聚类和模拟退火算法进行shapelet剪枝和选择操作。在UEA的18个多变量时间序列数据集上的实验结果表明,Multi-shapelet的整体精度相比于其他方法得到了显著提升。
    43  特征分块重构的视频行人重识别算法
    王锦华,周非,白梦林,舒浩峰
    2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006
    [摘要](125) [HTML](110) [PDF 1.48 M](703)
    摘要:
    基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配,从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性,采集到的行人轨迹会存在严重的外观丢失和错位,传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题,提出三维特征分块重构模型,利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息,在特征重构模型后加入三维卷积核,并且将它与现有的三维卷积网络相结合。此外,还引入一种由粗到细的特征分块重构网络,不仅能使模型在两种不同尺度的空间维度上进行特征重构,还能进一步减少计算开销。实验表明,由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。
    44  基于超像素块聚类与低秩特性的高光谱图像降噪
    张明华,武玄,宋巍,梅海彬,贺琪,苏诚
    2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005
    [摘要](165) [HTML](104) [PDF 10.70 M](942)
    摘要:
    高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰,因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果,但由于其只利用了局部相似性或非局部自相似性,而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法,实现了分块的自适应划分与聚类,在较好地保留了局部细节的同时又充分利用了非局部空间自相似性,且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割,再对超像素块进行聚类,得到同物分块;然后对其建立低秩矩阵恢复模型并求解,最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验,并与其他基于低秩特性的方法进行比较,结果表明:本文方法对混合噪声,尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。
    45  基于标记补充的多标记特征选择算法
    余鹰,张志强,钱进,万明
    2023, 38(3):539-548. DOI: 10.16337/j.1004-9037.2023.03.004
    [摘要](179) [HTML](126) [PDF 1.67 M](778)
    摘要:
    已有的多标记特征选择方法主要根据特征与标记之间的依赖度以及特征与特征之间的冗余度确定每个特征的重要度,然后根据重要度进行特征选择,常常忽略标记关系对特征选择的影响。针对上述问题,引入邻域互信息设计了基于标记补充的多标记特征选择算法(Multi-label feature selection algorithm based on label complementarity,MLLC),该算法将依赖度、冗余度以及标记关系作为特征重要度的评价要素,然后基于这3个要素重新设计特征重要度评估函数,使得选取的特征能够获得更佳的分类性能。最后,在6个多标记数据集上验证了MLLC算法的有效性和鲁棒性。
    46  基于统计感知策略的高斯混合模型求解方法
    陈佳琪,何玉林,黄哲学,FOURNIER-VIGER Philippe
    2023, 38(3):525-538. DOI: 10.16337/j.1004-9037.2023.03.003
    [摘要](222) [HTML](143) [PDF 3.72 M](832)
    摘要:
    高斯混合模型(Gaussian mixture model,GMM)是一种经典的概率模型,常被用于无监督学习领域来确定无类别标记样本点的类别分布。作为求解GMM参数的重要技术,期望最大化(Expectation maximization,EM)算法通过计算GMM对应似然函数的最优解确定基模型自身参数以及基模型的混合系数。利用EM算法求解GMM存在如下两个缺陷:EM算法易于陷入局部最优解以及EM算法确定GMM基模型相关参数的不稳定,尤其是针对多维随机变量。本文提出了一种基于统计感知(Statistical-aware,SA)策略的GMM求解方法——SA-GMM方法。该方法从估计给定数据集的未知概率密度函数入手,建立了核密度估计(Kernel density estimation,KDE)与GMM之间的关联。为避免KDE对“过平滑”窗口的选取,设计了同时最小化KDE与GMM之间的经验风险和KDE窗口结构风险的目标函数,进而确定了GMM的最优参数。在11个标准概率分布上的实验证明了SA-GMM方法的可行性、合理性和有效性,同时结果也表明SA-GMM能够获得显著优于基于EM算法的GMM及其变体的概率密度函数估计表现。
    47  基于局部实例匹配无监督式学习的行人重识别
    吴海丽,张月琴,庞俊奇
    2023, 38(4):947-958. DOI: 10.16337/j.1004-9037.2023.04.017
    [摘要](190) [HTML](188) [PDF 2.44 M](596)
    摘要:
    无监督域适应(Unsupervised domain adaptation,UDA)方法通过全局特征分布匹配实现源域到目标域的知识迁移,但忽略了细粒度的局部实例信息。本文提出了一种基于双层域自适应(Two-tiered domain adaptation,TTDA)的无监督行人重识别方法,使用全尺寸网络(Omni-scale network,OSNet)作为骨干网络,在端到端深度学习框架中联合执行源域和目标域之间的全局特征分布匹配和局部实例匹配,从源域和目标域之间不同行人ID的关联中挖掘可迁移的有用知识,并通过知识选择机制提高了跨域适应性。在多个大型公开数据集上的实验结果表明,与其他先进方法相比,所提方法在源域到目标域的无监督行人重识别的平均精度均值(mean Average precision,mAP)和top-k命中率均取得显著提升。
    48  融合残差Inception与双向ConvGRU的皮肤病变智能分割
    顾敏杰,李雪,陈思光
    2023, 38(4):937-946. DOI: 10.16337/j.1004-9037.2023.04.016
    [摘要](206) [HTML](209) [PDF 1.32 M](544)
    摘要:
    由于皮肤病病灶的形状、颜色以及纹理差异极大,且边界不明确,使得传统深度学习方法很难对其进行准确分割。因此本文提出了一种融合残差Inception与双向卷积门控循环单元 (Convolutional gated recurrent unit, ConvGRU)的皮肤病变智能分割模型。首先设计了一种云边协同的皮肤病变智能分割服务网络模型,通过该网络模型,用户可以获得快速、准确的分割服务;其次,构建了一种新的皮肤病变智能分割模型,通过融合残差Inception与双向ConvGRU,该模型能融合不同尺度特征,提高模型特征提取能力,并能充分利用底层特征与语义特征之间的关系,捕获更丰富的全局上下文信息,取得更好的分割性能;最后,在ISIC 2018数据集上的实验结果表明,所提出的智能分割模型与近期提出的几种U-Net扩展模型相比,取得了更高的准确率与Jaccard系数。
    49  融合多特征和双向图分类的专家推荐方法
    丁婧娴,李翔,孙纪舟,周泓
    2023, 38(5):1214-1225. DOI: 10.16337/j.1004-9037.2023.05.019
    [摘要](225) [HTML](275) [PDF 1.15 M](495)
    摘要:
    专家推荐是推荐系统领域的一个研究热点,专家信息特征提取的合理性直接影响到推荐的准确性。然而多数专家推荐方法未对多源信息构建特征关系文本图,忽略了属性特征之间的相关性,以及无法依据关联性拓展知识领域特征。针对以上问题本文提出了一种融合多特征和双向图分类的专家推荐方法CMFBG。首先通过多源信息融合获取专家个体多特征信息,并对不同属性特征构建类内文本图;然后分别使用基于Transformer的双向编码器表示(Bidirectional encoder representation from transformer, BERT)模型和图卷积神经网络(Graph convolutional network, GCN)模型对特征提取并融合;最后通过双向注意力机制增强源数据对图特征的扩展,实现图结构上的分类。在同一专家数据集上进行实验分析,结果表明在图分类任务中CMFBG精确率高于其他算法,达到了91.71%。
    50  基于交互注意力的突发事件评论对象情感分析
    仲兆满,黄贤波,熊玉龙
    2023, 38(5):1206-1213. DOI: 10.16337/j.1004-9037.2023.05.018
    [摘要](243) [HTML](166) [PDF 1.35 M](560)
    摘要:
    现有突发事件网民情感分析研究多为粗粒度的情感分析,为了精准地分析突发事件中网民对不同对象的情感,提出一种基于RoBERTa词嵌入和交互注意力的突发事件细粒度情感分析方法。通过构建RoBERTa-CRF评论对象抽取模型,完成突发事件相关评论对象的抽取。利用交互注意力机制和预训练模型构建RoBBETa-IAN模型,实现评论对象的情感分析。最后,分析突发事件中网民对不同对象的情感,并可视化展示。在构建的微博新闻评论数据集上,RoBERTa-CRF评论对象抽取模型和RoBERTa-IAN情感分析模型的F1值分别为0.76和0.79。
    51  数据驱动的犹豫模糊语言信息策略优先权排序方法
    朱军,陈璐,徐海燕
    2023, 38(5):1191-1205. DOI: 10.16337/j.1004-9037.2023.05.017
    [摘要](235) [HTML](127) [PDF 1.08 M](447)
    摘要:
    数据挖掘使得决策者获取信息更为方便有效。本文在冲突分析图模型理论框架下,首先基于数据对冲突策略进行挖掘,实现了冲突策略的合理构建。其次,考虑到现实冲突中决策者对某策略的选择更多表现为一种被选择的可能性,将犹豫模糊语言信息和冲突分析图模型理论进行有效交叉融合,采用犹豫模糊语言信息进行评估,并基于粗糙集思想对犹豫模糊语义评价信息进行集结以代表这种可能性;进一步地,提出一种新的基于犹豫模糊语言信息的冲突分析图模型策略优先权排序法。最后,对沭河跨境水污染进行建模分析,对沭河水污染治理提出建议,并且就状态排序结果对比了新旧两种方法,结果验证本文提出方法的合理性。
    52  基于改进DAN的自然场景下越南文字的识别
    王利兵,俸亚特,文益民
    2023, 38(5):1058-1068. DOI: 10.16337/j.1004-9037.2023.05.005
    [摘要](216) [HTML](118) [PDF 3.88 M](526)
    摘要:
    越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。
    53  结构约束下的生成对抗深度图修复
    卢奇,龚勋
    2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004
    [摘要](198) [HTML](117) [PDF 2.89 M](538)
    摘要:
    不同于纹理图像,深度图像中的像素点代表采集设备到场景各点的距离,直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构,本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络(Generative adversarial networks,GAN)模型不同,本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度,替换待修复深度图像缺失区域,保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构,保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题,设计结构一致注意力模块(Structure coherent attention,SCA)加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证,利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用,有效改善了深度图像修复效果。
    54  基于深度学习的显著性目标检测综述
    孙涵,刘译善,林昱涵
    2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002
    [摘要](1269) [HTML](494) [PDF 5.89 M](3889)
    摘要:
    显著性目标检测通过模仿人的视觉感知系统,寻找最吸引视觉注意的目标,已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展,显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作,全面回顾了3类不同模态的显著性目标检测任务,包括基于RGB图像、基于RGB-D/T(Depth/Thermal)图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点,并概述了研究难点;然后就各分支的研究技术路线和优缺点进行阐述和分析,并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后,对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。
    55  基于深度残差神经网络的GNSS接收机干扰抑制方案
    张国梅,张欣,尹佳文,王华
    2023, 38(2):293-303. DOI: 10.16337/j.1004-9037.2023.02.006
    [摘要](204) [HTML](275) [PDF 2.47 M](1353)
    摘要:
    在各种压制式和欺骗式干扰随机存在的全球卫星导航系统(Global navigation satellite system, GNSS)复杂应用环境下,传统先估计干扰信号参数再抵消的干扰抑制方法需要针对不同类型的干扰设计专门的参数估计和抵消算法,设计工作量大且缺乏通用性。为此本文提出了一种基于深度残差神经网络的干扰抑制方案。首先,针对典型的GNSS干扰类型搭建和训练了相应的残差神经网络,实现从受扰接收信号中直接提取有用卫星信号。然后,结合干扰分类识别结果,将对一维接收信号进行短时傅里叶变换(Short-time fourier transform, STFT)预处理后的时频谱二维信号送入与干扰类型相对应的残差网络,网络输出消除了干扰信号影响的有用卫星信号的时频二维谱。该方案无需对不同类型的干扰采用不同的参数估计和干扰抵消方法,对各类压制干扰和欺骗信号均采用相同的处理流程。实验结果表明相比于先估计干扰信号参数再进行抵消的干扰抑制方案,所提方案对各种GNSS干扰类型均具有较好的抑制效果,具备一定的通用性。
    56  基于上下文共指实体依赖的文档级关系抽取
    夏正新,苏翀,刘勇
    2023, 38(5):1226-1234. DOI: 10.16337/j.1004-9037.2023.05.020
    [摘要](139) [HTML](191) [PDF 1.50 M](454)
    摘要:
    文档级关系提取(Document relationship extraction,DRE)旨在多条句子中识别实体间的关系,而实体可能对应于跨越句子边界的多次提及,其中代词实体提及是因句子之间连接而普遍存在的语法现象,也是影响句子推理的一个重要因素。然而,以往的研究大多侧重于普通实体提及之间的关系,却很少关注代词实体提及的共指和关系捕获。本文提出了基于上下文共指实体依赖(Contextual coreference entity dependency,CCED)的文档级关系抽取模型,即通过融合普通实体和代词实体表示来构建共指实体依赖关系的上下文图结构,并在图上进行实体对间的全局交互推理,从而对实体关系的相互依赖进行建模。分别在公共数据集DocRED、DialogRE和MPDD上对CCED模型进行评估,结果显示在DocRED数据集上,与表现最好的基线模型DocuNet-BERT相比,CCED模型在测试集上的Ign F1性能提高0.55%,F1性能提高0.35%。在DialogRE和MPDD数据集上,与表现最好的基线模型COLN相比,CCED模型在DialogRE测试集上的F1性能提高1.02%,在MPDD测试集上的ACC性能提高1.19%。实验结果验证了新模型对于文档级关系抽取的有效性。
    57  基于高斯神经元的自组织映射网络研究
    刘达,陈松灿
    2023, 38(1):85-92. DOI: 10.16337/j.1004-9037.2023.01.006
    [摘要](271) [HTML](103) [PDF 1.66 M](626)
    摘要:
    自组织映射网络(Self-organizing map network,SOM)是一种经典的无监督学习方法,具有自组织和联机学习功能。由于其简明与实用等特点,不断涌现出SOM变体以适应各类问题。然而,这些工作基本都采纳了确定性神经元建立网络,忽略了数据本身隐含的不确定性信息,导致这些模型的结果缺乏由置信度反映的可解释性,意味着SOM神经元的不确定性刻画能力不足。本文提出了一种高斯神经元SOM网络(Ganssian neuron som network, GNSOM),其神经元节点不再是确定性的,而是建模为高斯分布的高斯神经元,为SOM配备了不确定性功能用于表述数据的不确定性。在实现时,将输入数据同样高斯化,并用Jensen-Shannon(JS)散度代替SOM学习中的欧氏距离作为GNSOM学习中的相似性匹配度量,由此获得了不确定性表示。实验结果表明,GNSOM具有更好的训练效果,并能通过神经元节点的协方差矩阵反映数据的不确定性。由于这种对神经元的高斯化独立于SOM本身,因此能拓展应用于其他神经元模型。
    58  基于声学模型共享的零资源韩语语音识别
    王皓宇,JEON Eunah,张卫强,李科,黄宇凯
    2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007
    [摘要](387) [HTML](246) [PDF 1.22 M](1506)
    摘要:
    精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。
    59  基于深度强化学习的雷达智能抗干扰决策FPGA加速器设计
    李梓瑜,葛芬,张劲东,赵家琛
    2023, 38(5):1151-1161. DOI: 10.16337/j.1004-9037.2023.05.013
    [摘要](315) [HTML](245) [PDF 1.67 M](599)
    摘要:
    针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络(Deep Q network,DQN)模型,并在此基础上提出了一种基于现场可编程门阵列(Field programmable gate array,FPGA)的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。
    60  基于深度展开和双流网络的高光谱图像融合
    刘丛,姚佳浩
    2023, 38(6):1406-1421. DOI: 10.16337/j.1004-9037.2023.06.015
    [摘要](241) [HTML](49) [PDF 3.02 M](640)
    摘要:
    针对基于深度学习的高光谱图像融合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题,提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型,该模型将低分辨率高光谱图像(Low-resolution hyperspectral images, LR-HSI)和高分辨率多光谱图像(high-resolution multispectral images, HR-MSI)映射到低维子空间中。在融合模型设计中,考虑了LR-HSI和HR-MSI的共有信息以及LR-HSI的独有信息,并将HR-MSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后,使用双流网络获取更精确的高分辨率高光谱图像(High-resolution hyperspectral images, HR-HSI)。实验表明,该网络在高光谱图像融合中可以获得出色的效果。
    61  基于深度学习的自动睡眠分期研究综述
    刘颖,储浩然,章浩伟
    2023, 38(4):759-776. DOI: 10.16337/j.1004-9037.2023.04.002
    [摘要](629) [HTML](457) [PDF 5.02 M](1728)
    摘要:
    睡眠分期是为了分析多导睡眠图记录而进行的重要过程,在睡眠监测和睡眠障碍诊疗中发挥着关键作用。传统的手动睡眠分期需要专业知识,繁琐且耗时;而深度学习通过模拟人脑解释信息的机制来构建模型,具有强大的自动特征提取及特征表达功能。将深度学习方法应用于睡眠分期研究,不依赖于手工特征设计,能够实现睡眠分期的自动化。本文着眼于2017年以来的一些典型的自动睡眠分期研究,重点从单视图和多视图输入两个方面系统回顾了应用于自动睡眠分期中的深度学习模型,并分析了多视图模型存在的难点,指出了其具有的潜在研究价值。最后,对自动睡眠分期未来的研究方向进行了探讨。
    62  基于局部相似性学习的鲁棒非负矩阵分解
    侯兴荣,彭冲
    2023, 38(5):1125-1141. DOI: 10.16337/j.1004-9037.2023.05.011
    [摘要](211) [HTML](100) [PDF 2.38 M](481)
    摘要:
    现有的非负矩阵分解方法往往聚焦于数据全局结构信息的学习,在很多情况下忽略了对数据局部信息的学习,而局部学习的方法也通常局限于流行学习,存在一些缺陷。为解决这一问题,提出了一种基于数据局部相似性学习的鲁棒非负矩阵分解算法(Robust nonnegative matrix factorization with local similarity learning, RLS-NMF)。采用一种新的数据局部相似性学习方法,它与流形方法存在显著区别,能够同时学习数据的全局结构信息,从而能挖掘数据类内相似和类间相离的性质。同时,考虑到现实应用中的数据存在异常值和噪声,该算法还使用l2,1范数拟合特征残差,过滤冗余的噪声信息,保证了算法的鲁棒性。多个基准数据集上的实验结果显示了该算法的最优性能,进一步证明了该算法的有效性。
    63  基于机器学习的超声造影分析综述
    万鹏,刘晗,赵俊勇,薛海燕,刘春蕊,邵伟,孔文韬,张道强
    2023, 38(4):741-758. DOI: 10.16337/j.1004-9037.2023.04.001
    [摘要](472) [HTML](370) [PDF 3.62 M](1201)
    摘要:
    超声造影(Contrast-enhanced ultrasound, CEUS)通过外周静脉注入超声造影剂,显著增强来自肿瘤微血管的血流信号,便于临床医生以实时、动态的方式评估肿瘤血管生成、周边浸润等,广泛应用于多器官病变诊断、预后评估和治疗方案规划等方面。近年来,以深度学习为代表的机器学习方法快速发展,为动态超声造影智能分析带来新的机遇。深度学习方法很大程度上拓宽了超声造影临床应用范围,提高了其诊疗效能。但与常规超声影像类似,超声造影仍然存在斑点噪声、呼吸运动干扰和标准化程度低等问题,使得动态灌注时间、空间信息挖掘面临挑战。本文系统性回顾了近年来超声造影智能分析相关工作,涵盖良恶性鉴别、恶性分级、疗效预测和诊疗方案选择等方面应用,总结了当前影像组学及深度学习方法在超声造影分析领域的最新进展,并指出当前研究的局限性和未来发展方向。