人工智能(机器学习与模式识别)

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  基于知识蒸馏的缅甸语光学字符识别方法
    毛存礼,谢旭阳,余正涛,高盛祥,王振晗,刘福浩
    2022, 37(1):173-182. DOI: 10.16337/j.1004-9037.2022.01.015
    [摘要](480) [HTML](1652) [PDF 1.40 M](1831)
    摘要:
    与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition, OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战。为了解决该问题,提出了一种基于知识蒸馏的缅甸语OCR方法,构建了使用卷积神经网络(Convolutional neural networks, CNN)+循环神经网络(Recurrent neural network, RNN)框架的教师网络和学生网络,以集成学习的方式进行训练的模型架构,在训练过程中通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取。实验结果表明,在没有背景噪声图像和有背景噪声图像作为训练数据集的情况下,本文模型的性能分别优于基线2.9%和2.7%。
    2  基于多标签学习的创伤救治层链决策研究
    赵鹏飞,刘华
    2022, 37(2):446-455. DOI: 10.16337/j.1004-9037.2022.02.017
    [摘要](629) [HTML](280) [PDF 725.83 K](1525)
    摘要:
    在现代创伤救治中,根据患者伤情进行合理而准确的院前评估并制定相应的救治决策对降低患者伤残率与死亡率具有重要意义。为了改善人工制定决策的缺陷,实现准确合理的标准化创伤救治决策制定,本文利用多标签学习思想,在对创伤救治决策进行深入分析与研究的基础上,将整体救治决策进行子决策划分,并提取出子决策对应的判定因素作为标签集。为了更好地考虑标签间的关联,将Classifier Chains算法的链式思想与多标签K近邻(Multi-label K-nearest neighbor,ML-KNN)算法融合,提出一种层链多标签学习算法,称为层链多标签K近邻算法(Layer chain ML-KNN,LCML-KNN)。LCML-KNN算法将标签依特点划分为两个层链,在第一层链的预测标签信息输出后对其进行独热编码,转化后的标签看作新特征放入第二层链进行预测与判断。LCML-KNN算法不仅更好地考虑了标签间的关联性,而且通过标签转化扩充了特征维数。在两个创伤类数据集上与现有各类多标签算法进行实验对比,结果验证了LCML-KNN算法的鲁棒性和优越性。
    3  基于局部特征的二维白化重构
    田甲略,朱玉莲,陈飞玥,刘佳慧
    2022, 37(2):308-320. DOI: 10.16337/j.1004-9037.2022.02.005
    [摘要](526) [HTML](1130) [PDF 3.45 M](1949)
    摘要:
    白化是一种能够去除数据各属性间相关性的数据预处理方法。最近提出的二维白化重构方法(Two-dimensional whitening reconstruction, TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped-based TWR, RTWR)方法和基于块的TWR(Patch-based TWR, PTWR)方法。RTWR首先将图像进行重新组合使得每个列向量对应着原始图像的子块,然后将TWR预处理作用在重组后的图像上;而PTWR方法则将TWR直接作用在图像的每个子块上。在ORL、CMU PIE、AR三个人脸数据集上的实验结果表明,RTWR和PTWR预处理比TWR预处理更有利于后续分类性能的提高。
    4  基于XGBoost的微博流行度预测算法
    任敏捷,靳国庆,王晓雯,陈睿东,袁运新,聂为之,刘安安
    2022, 37(2):383-395. DOI: 10.16337/j.1004-9037.2022.02.011
    [摘要](629) [HTML](1051) [PDF 1.60 M](1981)
    摘要:
    随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。
    5  基于深度学习的计算机视觉研究新进展
    卢宏涛,罗沐昆
    2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
    [摘要](2456) [HTML](3367) [PDF 12.48 M](4893)
    摘要:
    近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
    6  基于对比预测编码模型的多任务学习语种识别方法
    赵建川,杨浩铨,徐勇,吴恋,崔忠伟
    2022, 37(2):288-297. DOI: 10.16337/j.1004-9037.2022.02.003
    [摘要](555) [HTML](1347) [PDF 754.63 K](1682)
    摘要:
    语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络(Time-delayed neural network, TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能。本文提出一种ECAPA(Emphasized channel attention)-TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络。ECAPA-TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA-TDNN提取的帧级特征进行对比预测学习,通过联合损失函数进行优化训练。在东方语种竞赛数据集AP17-OLR的10类语种上进行了实验。实验结果表明,本文提出的网络在1 s,3 s和全长(All)测试集测得的识别准确率相比于基础网络都有明显的提高。
    7  基于多关系网络的话题意见领袖挖掘
    段震,倪云鹏,陈洁,张燕平,赵姝
    2022, 37(3):576-585. DOI: 10.16337/j.1004-9037.2022.03.008
    [摘要](447) [HTML](432) [PDF 1.41 M](4527)
    摘要:
    社交网络中的意见领袖在信息传播过程中起着重要的作用。传统的意见领袖挖掘仅基于网络结构,没有考虑特定话题或者事件下的作用,且目前基于话题的意见领袖挖掘仅基于单一的网络结构,并没有考虑到节点间的多种交互关系。本文提出一种基于多关系网络的话题意见领袖挖掘方法(Multi-relational networks, MRTRank),融合话题因素和节点间多种交互关系,通过一种属性网络表示学习算法,得到不同节点在多关系网络上的相似性,形成节点的转移概率矩阵,最终通过PageRank算法得到top-k个意见领袖。在真实Twitter数据集上的实验结果验证了本文提出的方法优于传统的意见领袖挖掘算法。
    8  基于特征扩展的微博短文本流热点话题检测方法
    李艳红,谢梦娜,王素格,李德玉
    2022, 37(3):621-632. DOI: 10.16337/j.1004-9037.2022.03.012
    [摘要](550) [HTML](297) [PDF 1.00 M](5241)
    摘要:
    随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection, FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection, T-TD)和基于突发词的话题检测(Burst words-based topic detection, BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
    9  基于粗糙超立方体和离散粒子群的特征选择算法
    王思朝,罗川,李天瑞,陈红梅
    2022, 37(3):668-679. DOI: 10.16337/j.1004-9037.2022.03.016
    [摘要](487) [HTML](217) [PDF 1.99 M](4837)
    摘要:
    特征选择指在保持数据分类性能不变的同时,选出不含冗余特征的特征子集。粗糙超立方体方法可从特征相关度、依赖度和重要度这3方面对特征子集进行综合评估,已成功用于特征选择。特征子集组合的计算是一个NP-难问题,而传统的前向搜索策略只能得到局部最优结果。因此,本文设计了一种新的离散粒子群优化与粗糙超立方体方法相结合的算法。该算法首先引入相关度用以生成一组粒子,然后对粗糙超立方体方法的目标函数改进后作为优化函数,最后由粒子群迭代优化,找到最优的特征子集。实验结果表明,相比传统粗糙超立方体方法和采用粒子群优化的粗糙集方法,本文算法能够得到具有更小特征数量和更高分类性能的特征子集。
    10  基于深度学习的域适应方法综述
    田青,朱雅喃,马闯
    2022, 37(3):512-541. DOI: 10.16337/j.1004-9037.2022.03.004
    [摘要](1212) [HTML](2459) [PDF 2.90 M](10995)
    摘要:
    域适应主要应对跨不同数据分布的相似任务决策问题。作为机器学习领域的一个新兴分支,域适应受到了众多的研究和关注。随着近年深度学习的兴起,深度学习和域适应相结合的深度域适应研究得到了更多的关注。尽管已有各种深度域适应方法被提出,却鲜有系统的综述工作发表。为此,本文重点对现有的深度域适应方法进行全面回顾、分析和总结,为相关研究人员提供借鉴和参考。本文主要贡献包括以下方面:首先,对域适应的背景、概念和应用领域进行概括总结。其次,根据模型是否涉及对抗训练机制,将现有深度域适应划分为深度对抗域适应和深度非对抗域适应两大类方法,并逐类回顾和分析。然后,对常用的实验基准数据集进行归类和总结。最后,对现有深度域适应工作存在的问题和不足进行了归纳分析,并讨论了将来的可行研究方向。
    11  基于几何-语义联合约束的动态环境视觉SLAM算法
    沈晔湖,陈嘉皓,李星,蒋全胜,谢鸥,牛雪梅,朱其新
    2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010
    [摘要](975) [HTML](552) [PDF 1.53 M](8596)
    摘要:
    传统视觉同步定位和地图构建(Simultaneous localization and mapping, SLAM)算法建立在静态环境假设的基础之上,当场景中出现动态物体时,会影响系统稳定性,造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响,但是当场景中动态物体较多时,这些方法失效。针对这一问题,本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络,结合几何约束,在有效地分离静态特征点和动态特征点的同时,进一步实现多目标跟踪,改善跟踪结果,并能够获得运动物体的轨迹和速度矢量信息,从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明,该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。
    12  基于深度学习的频分复用大规模多输入多输出下行信道状态信息获取技术
    桂冠,王洁,杨洁,刘淼,孙金龙
    2022, 37(3):502-511. DOI: 10.16337/j.1004-9037.2022.03.003
    [摘要](984) [HTML](386) [PDF 1.82 M](8749)
    摘要:
    大规模多输入多输出(Multiple input multiple output, MIMO)技术的演进是第6代(The sixth generation, 6G)无线通信系统性能进一步提升的重要支撑。随着天线阵列规模的持续扩大,频分复用(Fvequency division duplexing, FDD)大规模MIMO系统获取下行信道状态信息(Channel state information, CSI)面临着严峻挑战。深度学习具有强大的学习及处理高维数据的能力,能够为解决这一挑战提供新的方案。本文综述了基于深度学习的FDD大规模MIMO下行CSI获取技术,包括CSI反馈和预测技术。首先给出了基于深度学习的CSI反馈和预测的原理框架,其次分析比较了国内外相关研究成果的优越性能,为解决面向6G的FDD大规模MIMO系统获取下行CSI问题提供了可行的参考方案。最后讨论了FDD大规模MIMO下行CSI获取的有待进一步解决的开放性问题以及所对应的潜在研究方案。
    13  基于粒计算的支持向量数据描述分类方法
    方宇,曹雪梅,杨梅,王轩,闵帆
    2022, 37(3):633-642. DOI: 10.16337/j.1004-9037.2022.03.013
    [摘要](748) [HTML](299) [PDF 1.21 M](7506)
    摘要:
    分类学习效果与有限训练样本的分布情况密切相关。支持向量数据描述(Support vector data description, SVDD)作为单一边界求解模型,不能良好刻画数据实际分布特征,从而导致部分目标对象落在超球以外。为了提高其分类能力,本文提出一种基于粒计算的支持向量数据描述(Granular computing-driven SVDD, GrC-SVDD)分类方法,构造多粒度层次的属性集合以及相应的多粒度超球。首先通过邻域自信息对当前粒度层的属性集合重要度进行计算,然后选择最佳属性集合对上一粒度层未达到纯度阈值的超球再训练,直到所有超球满足条件或者属性耗尽。实验部分讨论了算法参数对分类性能的影响,并通过学习获得超参数。结果表明,与SVDD及流行的分类算法相比,本文方法具有较好的分类性能。
    14  基于排序学习的城市设施选址方法
    韩文军,张亚平,陈红,陈丹,孙婉婷,赵斌
    2022, 37(3):609-620. DOI: 10.16337/j.1004-9037.2022.03.011
    [摘要](447) [HTML](345) [PDF 4.02 M](5926)
    摘要:
    提出一种采用排序学习技术解决城市设施选址问题的方法,并引入人类移动性特征提升选址的质量。首先对人类移动行为进行特征提取与分析,使用双流自编码器融合人类移动性特征与其他特征,提取表征向量;然后基于候选集的表征向量与排序学习网络进行地块排序;最后,基于真实的多源数据集进行实验,结果验证了本文提出的排序学习选址方法的有效性。
    15  融合主题模型和动态路由的小样本学习方法
    张淑芳,唐焕玲,郑涵,刘孝炎,窦全胜,鲁明羽
    2022, 37(3):586-596. DOI: 10.16337/j.1004-9037.2022.03.009
    [摘要](823) [HTML](504) [PDF 1.89 M](8248)
    摘要:
    针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA, SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA, DRP-SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR-Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP-SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。
    16  用于迁移学习的多尺度领域对抗网络
    林佳伟,王士同
    2022, 37(3):555-565. DOI: 10.16337/j.1004-9037.2022.03.006
    [摘要](517) [HTML](625) [PDF 757.29 K](5351)
    摘要:
    深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。
    17  数据科学:从数字世界到数智世界
    张清华,高渝,申秋萍
    2022, 37(3):471-487. DOI: 10.16337/j.1004-9037.2022.03.001
    [摘要](1025) [HTML](608) [PDF 1.63 M](9970)
    摘要:
    随着大数据的持续发展,数据已经成为国家的重大战略资源,对社会影响日益明显。为了更深入地挖掘和研究大数据背后所蕴藏的基本科学问题,新的研究领域——数据科学被提出。本文从大数据的发展历程出发,介绍了数据科学的兴起和内涵;分析了大数据和数据科学的研究现状,以及数据在各行业中的应用;简述了为探索数据科学本身的内涵和规律而建设的大数据试验场;讨论了数据科学的关键问题,以及在研究数据时应具有的新思维和新观念,以推动数据科学的发展,促进现实世界向数字世界的转型,最终实现社会生活的真正智能化。
    18  雷达辐射源信号分选识别特征性能评价的改进灰色关联模型
    普运伟,吴海潇,姜萤,余永鹏
    2022, 37(3):657-667. DOI: 10.16337/j.1004-9037.2022.03.015
    [摘要](444) [HTML](292) [PDF 1.45 M](2001)
    摘要:
    为解决雷达辐射源信号分选识别特征评价不够客观和缺乏评价依据等问题,构建了一种结合区间直觉模糊思想的改进灰色关联的特征评价模型。该模型引入信噪比维度来考察不同层次数据的动态差异,以区间型数据描述特征信息,建立区间直觉模糊综合决策矩阵;其次,采用特征间总离差最大化的优化模型来确定各指标权重;最后基于改进灰色关联框架,结合逼近理想点方法实现特征方案排序。仿真实验结果表明,所提方法能够给出与实际情况相一致的分选识别特征评价排序结果,并和未改进的灰色关联法分析结果基本一致,验证了所提方法的可行性和有效性。
    19  基于关键词结构编码的涉案微博评价对象抽取模型
    王静赟,余正涛,相艳,陈龙
    2022, 37(5):1026-1035. DOI: 10.16337/j.1004-9037.2022.05.008
    [摘要](408) [HTML](249) [PDF 960.79 K](1440)
    摘要:
    涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。
    20  可解释的深度TSK模糊系统综述
    王士同,谢润山,周尔昊
    2022, 37(5):935-951. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](1169) [HTML](569) [PDF 840.68 K](3520)
    摘要:
    深度神经网络在多个领域取得了突破性的成功,然而这些深度模型大多高度不透明。而在很多高风险领域,如医疗、金融和交通等,对模型的安全性、无偏性和透明度有着非常高的要求。因此,在实际中如何创建可解释的人工智能(Explainable artificial intelligence, XAI)已经成为了当前的研究热点。作为探索XAI的一个有力途径,模糊人工智能因其语义可解释性受到了越来越多的关注。其中将高可解释的Takagi-Sugeno-Kang(TSK)模糊系统和深度模型相结合,不仅可以避免单个TSK模糊系统遭受规则爆炸的影响,也可以在保持可解释性的前提下取得令人满意的测试泛化性能。本文以基于栈式泛化原理的可解释的深度TSK模糊系统为研究对象,分析其代表模型,总结其实际应用场景,最后剖析其所面临的挑战与机遇。
    21  基于两阶段分层抽样的近似聚合查询方法
    房俊,赵博,左昌麒
    2022, 37(5):1049-1058. DOI: 10.16337/j.1004-9037.2022.05.010
    [摘要](566) [HTML](502) [PDF 1.41 M](1595)
    摘要:
    以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。
    22  主成分分析阈值选择差异性分析研究
    张婧,刘倩
    2022, 37(5):1012-1017. DOI: 10.16337/j.1004-9037.2022.05.006
    [摘要](551) [HTML](425) [PDF 1.77 M](1846)
    摘要:
    主成分分析是特征提取和数据降维中常用的方法,在很多应用中一般选择平均特征值作为主成分选择的标准。但是主成分的多少与应用结果之间的关系目前还没有具体的分析结果。因此,提出一种主成分阈值选择差异性的实验分析方法,为不同应用中主成分分析阈值的选择提供依据。将本文分析方法应用于手写数字样本集MNIST进行降维处理,根据不同的阈值构建不同的神经网络进行分类,分析不同阈值下分类准确率的变化情况。实验结果表明主成分阈值选择在79%~81%之间(维度为41~50)时,分类准确率最高;低于或高于该区间,准确率随之下降。实验结果证明了主成分分析阈值的选择与应用结果之间不为正相关关系,且平均特征值不是一个硬性的选择标准。
    23  改进的自步深度不完备多视图聚类
    崔金荣,黄诚
    2022, 37(5):1036-1048. DOI: 10.16337/j.1004-9037.2022.05.009
    [摘要](508) [HTML](306) [PDF 1.96 M](1961)
    摘要:
    随着数据量的增大,多视图聚类中出现带有缺失视图数据的情况愈发常见,此问题被称为不完备多视图聚类,而引入深度模型进行聚类通常可以获得比浅层模型更为出色的表现。本文提出一种新颖的深度不完备多视图聚类模型,称为改进的自步深度不完备多视图聚类。在该模型中,充分考虑多视图数据之间的互补性,利用基于多视图特性的最近邻填充方案将缺失视图补全。使用多个自编码器分别获取多个视图数据的低维潜在特征,同时引入图嵌入策略保持潜在特征之间的几何结构。运用一致性原则将来自不同的视图潜在特征融合以获得一致潜在特征,在此基础上运用自步学习的方法来增强聚类效果。实验结果表明,对比现有的不完备多视图聚类模型,本文模型可以更加灵活且高效地应对各种不完备多视图聚类情况,提升了不完备多视图聚类的鲁棒性与表现效果。
    24  深度学习在有限视角稀疏采样光声图像重建中的应用
    孙正,候英飒
    2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](822) [HTML](439) [PDF 4.04 M](3762)
    摘要:
    光声成像(Photoacoustic imaging, PAI)是一种多物理场耦合的新型功能成像技术,高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时,若采用标准重建方法(如反投影、时间反演和延迟求和等)会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题,但存在计算成本高、需合理选择正则化方法等缺点。近年来,深度学习已经成为医学成像领域的首选方法,其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结,对主要方法进行分类归纳,并讨论不同方法的优势和不足。
    25  基于相同稀疏模式的稀疏主成分分析算法
    邵剑飞,浦蓉,黄伟,季建杰,郭鹏
    2022, 37(5):1084-1091. DOI: 10.16337/j.1004-9037.2022.05.013
    [摘要](588) [HTML](250) [PDF 966.74 K](1422)
    摘要:
    稀疏主成分分析是一种用于降维和特征选择的无监督方法。由于计算多个主成分时主载荷向量间不具有相同的稀疏模式,导致难以从原始特征空间中确定出对主成分贡献最大的小部分变量,为解决此问题,提出一种自适应稀疏主成分分析(Adaptive sparse principal component analysis, ASPCA)算法。首先使用组套索模型,通过在载荷向量上施加块稀疏约束得出自适应稀疏主成分分析公式,随后对稀疏矩阵的不同列使用不同的调整参数获得自适应惩罚,最后运用块坐标下降法对自适应稀疏主成分分析公式进行两阶段优化,从而找到稀疏载荷矩阵和正交矩阵,实现降维的最优化。对稀疏主成分分析(Sparse principal component analysis, SPCA)算法、结构化且稀疏的主成分分析(Structured and sparse principal component analysis, SSPCA)算法和ASPCA算法进行仿真比较,结果表明ASPCA算法的降维性能更优,能提取更有价值的特征,从而显著提高了分类模型的平均分类准确率。
    26  基于句法和全文信息增强的中文事件检测方法
    王红,吴浩正
    2022, 37(5):1059-1069. DOI: 10.16337/j.1004-9037.2022.05.011
    [摘要](425) [HTML](233) [PDF 923.46 K](1464)
    摘要:
    针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。
    27  基于图卷积深浅特征融合的跨语料库情感识别
    杨子秀,金赟,马勇,戴妍妍,俞佳佳,顾煜
    2023, 38(1):111-120. DOI: 10.16337/j.1004-9037.2023.01.009
    [摘要](417) [HTML](245) [PDF 2.53 M](1459)
    摘要:
    语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用 OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。
    28  基于预训练与音素字节对编码的越南语识别
    沈之杰,郭武
    2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008
    [摘要](547) [HTML](449) [PDF 893.81 K](1440)
    摘要:
    基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
    29  融合矩阵分解和代价敏感的微生物数据扩增算法
    王曦,温柳英,闵帆
    2023, 38(2):401-412. DOI: 10.16337/j.1004-9037.2023.02.015
    [摘要](180) [HTML](257) [PDF 3.49 M](1301)
    摘要:
    微生物会对人类健康产生直接影响,对相关数据的分析有助于疾病诊断。然而,采集到的数据存在类不平衡与高稀疏性两个问题。现有的过采样方法在一定程度上可缓解数据的类不平衡,但是难以应对微生物数据的高稀疏性。本文提出了一种融合矩阵分解和代价敏感的数据扩增算法,其包含3个技术。首先,将原始矩阵分解为样本子空间和特征子空间;其次,利用样本子空间的正向量及其近邻向量生成合成向量;最后,根据合成向量与所有负向量的距离对其过滤。实验在8个微生物数据集上进行,同时与5种过采样算法对比,结果表明本文所提算法能够增强正样本的多样性,在识别出更多正样本的同时,分类结果的代价更低。
    30  基于改进型Transformer编码器和特征融合的行人重识别
    赵倩,薛超晨,赵琰
    2023, 38(2):375-385. DOI: 10.16337/j.1004-9037.2023.02.013
    [摘要](344) [HTML](451) [PDF 2.69 M](1497)
    摘要:
    为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。
    31  基于非局部融合的多尺度目标检测研究
    马倩,曾凯,吴家文,沈韬
    2023, 38(2):364-374. DOI: 10.16337/j.1004-9037.2023.02.012
    [摘要](340) [HTML](198) [PDF 3.56 M](1327)
    摘要:
    针对现有的多尺度目标检测模型在面对尺度变换和遮挡场景时所使用的融合方法融合不充分,且没有捕捉长距离依赖关系的问题,本文设计了通道融合增强模块和非局部特征交互模块,用于学习不同通道特征之间的相关性和捕捉特征图之间的长距离依赖关系。此外,针对当前检测架构都是基于单金字塔检测结构,存在信息丢失的情况,设计了双金字塔结构,并将提出的融合方法与双金字塔结构结合,在保留原始特征信息的基础上,补充融合后的特征信息。实验结果表明,提出的方法在公共数据集KITTI与PASCAL VOC上与其他先进工作相比具有更高的检测精度,证明了该方法在目标检测任务中的有效性。
    32  学习几何结构特征的真实点云场景语义分割
    李嘉祥,宣士斌,刘丽霞,王款
    2023, 38(2):336-349. DOI: 10.16337/j.1004-9037.2023.02.010
    [摘要](380) [HTML](335) [PDF 3.32 M](1351)
    摘要:
    有效获取点云数据在空间上的结构性特征是点云语义分割的关键。针对以往方法没有很好综合利用全局和局部特征问题,提出一种新的空间结构特征——点的盒子特征用于语义分割,设计一种编码-解码结构的网络框架,下采样过程中使用几何结构特征模块学习点云的全局空间特征和局部邻域特征,上采样过程中按分辨率逐级恢复成完整尺寸特征图进行语义分割。其中,几何结构特征模块包含两个子模块,一个是全局特征模块,该模块学习点的“盒子(box)”特征以表现点云在采样空间内概括的粗糙几何特征;另一个是局部特征模块,该模块使用特征提取——注意力机制结构表现点云在局部邻域内精确的细粒度几何特征。在公开数据集S3DIS、Semantic3D上进行了实验并与其他方法比较,实验结果表明mIoU均领先目前大部分主流的方法,部分细则类IoU取得最高。
    33  基于联合图学习的多通道语音增强方法
    张鹏程,郭海燕,王婷婷,杨震
    2023, 38(2):283-292. DOI: 10.16337/j.1004-9037.2023.02.005
    [摘要](279) [HTML](197) [PDF 1.30 M](1215)
    摘要:
    考虑到通道间存在的空间关系影响着其降噪问题,图信号处理可以捕获该潜在关系,若直接采用其空间物理分布图,无法实时反映其时变特性,因此本文提出了一种基于联合图学习的多通道语音增强方法。首先,提出一种联合时间-空间图学习方法,以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标,优化阵列空间图和语音帧内图。基于学习的空间图和帧内图,构建多通道语音信号的时间-空间联合图。在此基础上,将多通道语音图信号进行联合图傅里叶变换,进而采用固定波束形成(Fixed beam forming,FBF)方法进行增强。实验结果表明,与传统的FBF方法相比,所提出的基于联合图学习的FBF(Joint graph learning based FBF, JGL-FBF)方法显著提升了增强语音的信噪比(Signal-to-noise ratio, SNR)和主观语音质量评估(Perceptual evaluation of speech quality, PESQ)。另外,实验结果也表明,JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。
    34  基于粒计算的多源信息融合方法综述
    徐伟华,黄旭东,蔡可
    2023, 38(2):245-261. DOI: 10.16337/j.1004-9037.2023.02.002
    [摘要](732) [HTML](677) [PDF 1.33 M](2182)
    摘要:
    多源数据是一种综合多个信息源或数据集的复杂数据类型,其主要特点是不同的信息源隐含不同的知识结构,且从不同的角度刻画和描述了样本以及样本之间的关系。如何协同地融合与集成多源数据,并从不同视角快速地为用户挖掘出整体决策知识,成为数据科学领域亟待破解的科学问题。经典粗糙集理论、多粒度方法、证据理论和信息熵是常见的、有效的多源信息融合方法,已取得较为丰硕的成果。本文基于粒计算的角度对多源信息融合工作进行综述研究,介绍了每种信息融合方法的基本概念以及主要研究思路,并提出了多源信息融合领域中存在的若干问题,为该领域的后续研究提供理论参考。
    35  基于深度域适应CNN决策树的跨语料库情感识别
    孙林慧,赵敏,王舜
    2023, 38(3):704-716. DOI: 10.16337/j.1004-9037.2023.03.018
    [摘要](210) [HTML](191) [PDF 1.39 M](772)
    摘要:
    在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。
    36  基于传染病模型的突发事件网民情感演变分析
    仲兆满,李恒,杨洪,管燕
    2023, 38(3):676-689. DOI: 10.16337/j.1004-9037.2023.03.016
    [摘要](235) [HTML](289) [PDF 2.14 M](716)
    摘要:
    突发事件发生后,准确地分析网民的情感状态,实现对网民情感状态演变的引导,对管控突发事件舆情、维护社会稳定有重大的现实意义。依据网民对突发事件的评论特性构建了网民情感状态的完备集,并从突发事件利益相关者和突发事件本身两个角度建立不同情绪集。依据传染病模型的传播方式,建立了基于SIS(Susceptible-infectious-susceptible)传染病模型的网民情感状态演变模型EP-SIS和EO-SIS。利用网民对“新型肺炎病毒”的微博评论对模型进行了实证研究,获取影响因子的权重,模型对网民负面情感转换率为0.72。本文构建的突发事件网民情感演变模型可以从不同角度干预,使突发事件中网民负面情感状态发生演变。
    37  视觉注意与语义感知联合推理实现场景文本识别
    佟国香,董田荣,胡珩彰
    2023, 38(3):665-675. DOI: 10.16337/j.1004-9037.2023.03.015
    [摘要](387) [HTML](192) [PDF 2.82 M](840)
    摘要:
    场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。
    38  基于Tukey规则与初始中心点优化的K-means聚类改进算法
    柳菁,邱紫滢,郭茂祖,余冬华
    2023, 38(3):643-651. DOI: 10.16337/j.1004-9037.2023.03.013
    [摘要](332) [HTML](190) [PDF 941.15 K](870)
    摘要:
    针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。
    39  基于多特征融合的无监督真值发现方法
    陈华凤,董永权,杨昊霖,张国玺
    2023, 38(3):629-642. DOI: 10.16337/j.1004-9037.2023.03.012
    [摘要](330) [HTML](209) [PDF 1020.11 K](776)
    摘要:
    真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。
    40  基于随机傅里叶特征空间的高斯核近似模型选择算法
    张凯,门昌骞,王文剑
    2023, 38(3):616-628. DOI: 10.16337/j.1004-9037.2023.03.011
    [摘要](219) [HTML](227) [PDF 1.45 M](864)
    摘要:
    核方法是一种把低维空间的线性不可分问题转化为高维空间中线性可分问题的方法,其广泛应用于多种学习模型。然而现有的核模型选择方法在大规模数据中计算效率较低,时间成本很大。针对这一问题,本文引入随机傅里叶特征变换,将原始核特征空间转换为另一个相对低维的显式随机特征空间,并给出核近似误差上界理论分析以及在核近似的随机特征空间中训练学习模型的误差上界,得到核近似的收敛一致性和误差上界与核近似参数之间的关系。基于随机傅里叶特征空间选择出最优模型参数,避免了对最优原始高斯核模型参数的大规模搜索,从而大幅降低原始高斯核模型选择所需的时间成本。实验表明,本文给出的误差上界确由核近似参数控制,核近似选择的最优模型相较于原始高斯核模型有较高的准确率,并且模型选择时间相对网格搜索法大幅减小。
    41  融合类别注意力的铝硅合金显微图像分割方法
    沈韬,金凯,司昌凯,郑剑锋,刘英莉
    2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007
    [摘要](175) [HTML](172) [PDF 4.29 M](891)
    摘要:
    为了提取铝硅合金显微图像的初晶硅区域,提出一种结合类别注意力块(Class attention block, CAB)的改进模型类别注意力网络(Class attention network, CA-Net)。类别注意力块从特征图中计算各通道与每个类别的相关性信息,并将不同类别的相关性信息融合产生注意力权重,以使特征通道的权重与其对任务类别的贡献相关,从而增强重要特征的表达,并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验,本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法,CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。
    42  Multi-shapelet:一种基于shapelet的多变量时间序列分类方法
    詹熙,黎维,潘志松
    2023, 38(2):386-400. DOI: 10.16337/j.1004-9037.2023.02.014
    [摘要](424) [HTML](575) [PDF 1.85 M](1461)
    摘要:
    shapelet是时间序列中最具有辨识性的子序列,其一经提出就被来自各个领域的研究人员广泛研究,并在此过程中提出了许多有效的shapelet发现技术用于进行时间序列分类。然而,多变量时间序列的候选shapelet可能长度不同且变量来源不同,故很难直接对其进行比较,这对基于shapelet多变量时间序列分类方法提出了独特的挑战。为了应对这一挑战,提出了一种基于无监督表示学习和shapelet的多变量时间序列分类方法Multi-shapelet。Multi-shapelet首先使用混合模型DC-GNN(Dilated convolution neural network and graph neural network, DC-GNN)作为编码器,将不同长度的候选shapelet嵌入统一的shapelet选择空间,以进行shapelet之间的比较;其次,提出了一种新的损失函数以无监督学习方式训练该编码器,使得DC-GNN对shapelet编码得到相应的嵌入(Embedding)后,属于同类shapelet对应的嵌入之间的相对位置形成的拓扑与原空间中shapelet之间相对位置形成的拓扑之间的关系更接近于一种等比例的缩小,这对后续基于相似性的剪枝过程十分重要;最后,使用K-means聚类和模拟退火算法进行shapelet剪枝和选择操作。在UEA的18个多变量时间序列数据集上的实验结果表明,Multi-shapelet的整体精度相比于其他方法得到了显著提升。
    43  特征分块重构的视频行人重识别算法
    王锦华,周非,白梦林,舒浩峰
    2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006
    [摘要](184) [HTML](202) [PDF 1.48 M](769)
    摘要:
    基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配,从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性,采集到的行人轨迹会存在严重的外观丢失和错位,传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题,提出三维特征分块重构模型,利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息,在特征重构模型后加入三维卷积核,并且将它与现有的三维卷积网络相结合。此外,还引入一种由粗到细的特征分块重构网络,不仅能使模型在两种不同尺度的空间维度上进行特征重构,还能进一步减少计算开销。实验表明,由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。
    44  基于超像素块聚类与低秩特性的高光谱图像降噪
    张明华,武玄,宋巍,梅海彬,贺琪,苏诚
    2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005
    [摘要](239) [HTML](184) [PDF 10.70 M](977)
    摘要:
    高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰,因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果,但由于其只利用了局部相似性或非局部自相似性,而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法,实现了分块的自适应划分与聚类,在较好地保留了局部细节的同时又充分利用了非局部空间自相似性,且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割,再对超像素块进行聚类,得到同物分块;然后对其建立低秩矩阵恢复模型并求解,最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验,并与其他基于低秩特性的方法进行比较,结果表明:本文方法对混合噪声,尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。
    45  基于标记补充的多标记特征选择算法
    余鹰,张志强,钱进,万明
    2023, 38(3):539-548. DOI: 10.16337/j.1004-9037.2023.03.004
    [摘要](239) [HTML](207) [PDF 1.67 M](885)
    摘要:
    已有的多标记特征选择方法主要根据特征与标记之间的依赖度以及特征与特征之间的冗余度确定每个特征的重要度,然后根据重要度进行特征选择,常常忽略标记关系对特征选择的影响。针对上述问题,引入邻域互信息设计了基于标记补充的多标记特征选择算法(Multi-label feature selection algorithm based on label complementarity,MLLC),该算法将依赖度、冗余度以及标记关系作为特征重要度的评价要素,然后基于这3个要素重新设计特征重要度评估函数,使得选取的特征能够获得更佳的分类性能。最后,在6个多标记数据集上验证了MLLC算法的有效性和鲁棒性。
    46  基于统计感知策略的高斯混合模型求解方法
    陈佳琪,何玉林,黄哲学,FOURNIER-VIGER Philippe
    2023, 38(3):525-538. DOI: 10.16337/j.1004-9037.2023.03.003
    [摘要](299) [HTML](276) [PDF 3.72 M](889)
    摘要:
    高斯混合模型(Gaussian mixture model,GMM)是一种经典的概率模型,常被用于无监督学习领域来确定无类别标记样本点的类别分布。作为求解GMM参数的重要技术,期望最大化(Expectation maximization,EM)算法通过计算GMM对应似然函数的最优解确定基模型自身参数以及基模型的混合系数。利用EM算法求解GMM存在如下两个缺陷:EM算法易于陷入局部最优解以及EM算法确定GMM基模型相关参数的不稳定,尤其是针对多维随机变量。本文提出了一种基于统计感知(Statistical-aware,SA)策略的GMM求解方法——SA-GMM方法。该方法从估计给定数据集的未知概率密度函数入手,建立了核密度估计(Kernel density estimation,KDE)与GMM之间的关联。为避免KDE对“过平滑”窗口的选取,设计了同时最小化KDE与GMM之间的经验风险和KDE窗口结构风险的目标函数,进而确定了GMM的最优参数。在11个标准概率分布上的实验证明了SA-GMM方法的可行性、合理性和有效性,同时结果也表明SA-GMM能够获得显著优于基于EM算法的GMM及其变体的概率密度函数估计表现。
    47  基于局部实例匹配无监督式学习的行人重识别
    吴海丽,张月琴,庞俊奇
    2023, 38(4):947-958. DOI: 10.16337/j.1004-9037.2023.04.017
    [摘要](273) [HTML](298) [PDF 2.44 M](658)
    摘要:
    无监督域适应(Unsupervised domain adaptation,UDA)方法通过全局特征分布匹配实现源域到目标域的知识迁移,但忽略了细粒度的局部实例信息。本文提出了一种基于双层域自适应(Two-tiered domain adaptation,TTDA)的无监督行人重识别方法,使用全尺寸网络(Omni-scale network,OSNet)作为骨干网络,在端到端深度学习框架中联合执行源域和目标域之间的全局特征分布匹配和局部实例匹配,从源域和目标域之间不同行人ID的关联中挖掘可迁移的有用知识,并通过知识选择机制提高了跨域适应性。在多个大型公开数据集上的实验结果表明,与其他先进方法相比,所提方法在源域到目标域的无监督行人重识别的平均精度均值(mean Average precision,mAP)和top-k命中率均取得显著提升。
    48  融合残差Inception与双向ConvGRU的皮肤病变智能分割
    顾敏杰,李雪,陈思光
    2023, 38(4):937-946. DOI: 10.16337/j.1004-9037.2023.04.016
    [摘要](284) [HTML](316) [PDF 1.32 M](582)
    摘要:
    由于皮肤病病灶的形状、颜色以及纹理差异极大,且边界不明确,使得传统深度学习方法很难对其进行准确分割。因此本文提出了一种融合残差Inception与双向卷积门控循环单元 (Convolutional gated recurrent unit, ConvGRU)的皮肤病变智能分割模型。首先设计了一种云边协同的皮肤病变智能分割服务网络模型,通过该网络模型,用户可以获得快速、准确的分割服务;其次,构建了一种新的皮肤病变智能分割模型,通过融合残差Inception与双向ConvGRU,该模型能融合不同尺度特征,提高模型特征提取能力,并能充分利用底层特征与语义特征之间的关系,捕获更丰富的全局上下文信息,取得更好的分割性能;最后,在ISIC 2018数据集上的实验结果表明,所提出的智能分割模型与近期提出的几种U-Net扩展模型相比,取得了更高的准确率与Jaccard系数。
    49  融合多特征和双向图分类的专家推荐方法
    丁婧娴,李翔,孙纪舟,周泓
    2023, 38(5):1214-1225. DOI: 10.16337/j.1004-9037.2023.05.019
    [摘要](277) [HTML](375) [PDF 1.15 M](596)
    摘要:
    专家推荐是推荐系统领域的一个研究热点,专家信息特征提取的合理性直接影响到推荐的准确性。然而多数专家推荐方法未对多源信息构建特征关系文本图,忽略了属性特征之间的相关性,以及无法依据关联性拓展知识领域特征。针对以上问题本文提出了一种融合多特征和双向图分类的专家推荐方法CMFBG。首先通过多源信息融合获取专家个体多特征信息,并对不同属性特征构建类内文本图;然后分别使用基于Transformer的双向编码器表示(Bidirectional encoder representation from transformer, BERT)模型和图卷积神经网络(Graph convolutional network, GCN)模型对特征提取并融合;最后通过双向注意力机制增强源数据对图特征的扩展,实现图结构上的分类。在同一专家数据集上进行实验分析,结果表明在图分类任务中CMFBG精确率高于其他算法,达到了91.71%。
    50  基于交互注意力的突发事件评论对象情感分析
    仲兆满,黄贤波,熊玉龙
    2023, 38(5):1206-1213. DOI: 10.16337/j.1004-9037.2023.05.018
    [摘要](309) [HTML](285) [PDF 1.35 M](614)
    摘要:
    现有突发事件网民情感分析研究多为粗粒度的情感分析,为了精准地分析突发事件中网民对不同对象的情感,提出一种基于RoBERTa词嵌入和交互注意力的突发事件细粒度情感分析方法。通过构建RoBERTa-CRF评论对象抽取模型,完成突发事件相关评论对象的抽取。利用交互注意力机制和预训练模型构建RoBBETa-IAN模型,实现评论对象的情感分析。最后,分析突发事件中网民对不同对象的情感,并可视化展示。在构建的微博新闻评论数据集上,RoBERTa-CRF评论对象抽取模型和RoBERTa-IAN情感分析模型的F1值分别为0.76和0.79。
    51  数据驱动的犹豫模糊语言信息策略优先权排序方法
    朱军,陈璐,徐海燕
    2023, 38(5):1191-1205. DOI: 10.16337/j.1004-9037.2023.05.017
    [摘要](302) [HTML](214) [PDF 1.08 M](504)
    摘要:
    数据挖掘使得决策者获取信息更为方便有效。本文在冲突分析图模型理论框架下,首先基于数据对冲突策略进行挖掘,实现了冲突策略的合理构建。其次,考虑到现实冲突中决策者对某策略的选择更多表现为一种被选择的可能性,将犹豫模糊语言信息和冲突分析图模型理论进行有效交叉融合,采用犹豫模糊语言信息进行评估,并基于粗糙集思想对犹豫模糊语义评价信息进行集结以代表这种可能性;进一步地,提出一种新的基于犹豫模糊语言信息的冲突分析图模型策略优先权排序法。最后,对沭河跨境水污染进行建模分析,对沭河水污染治理提出建议,并且就状态排序结果对比了新旧两种方法,结果验证本文提出方法的合理性。
    52  基于改进DAN的自然场景下越南文字的识别
    王利兵,俸亚特,文益民
    2023, 38(5):1058-1068. DOI: 10.16337/j.1004-9037.2023.05.005
    [摘要](290) [HTML](194) [PDF 3.88 M](584)
    摘要:
    越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。
    53  结构约束下的生成对抗深度图修复
    卢奇,龚勋
    2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004
    [摘要](252) [HTML](190) [PDF 2.89 M](592)
    摘要:
    不同于纹理图像,深度图像中的像素点代表采集设备到场景各点的距离,直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构,本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络(Generative adversarial networks,GAN)模型不同,本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度,替换待修复深度图像缺失区域,保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构,保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题,设计结构一致注意力模块(Structure coherent attention,SCA)加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证,利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用,有效改善了深度图像修复效果。
    54  基于深度学习的显著性目标检测综述
    孙涵,刘译善,林昱涵
    2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002
    [摘要](1556) [HTML](642) [PDF 5.89 M](4342)
    摘要:
    显著性目标检测通过模仿人的视觉感知系统,寻找最吸引视觉注意的目标,已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展,显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作,全面回顾了3类不同模态的显著性目标检测任务,包括基于RGB图像、基于RGB-D/T(Depth/Thermal)图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点,并概述了研究难点;然后就各分支的研究技术路线和优缺点进行阐述和分析,并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后,对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。
    55  基于深度残差神经网络的GNSS接收机干扰抑制方案
    张国梅,张欣,尹佳文,王华
    2023, 38(2):293-303. DOI: 10.16337/j.1004-9037.2023.02.006
    [摘要](327) [HTML](391) [PDF 2.47 M](1442)
    摘要:
    在各种压制式和欺骗式干扰随机存在的全球卫星导航系统(Global navigation satellite system, GNSS)复杂应用环境下,传统先估计干扰信号参数再抵消的干扰抑制方法需要针对不同类型的干扰设计专门的参数估计和抵消算法,设计工作量大且缺乏通用性。为此本文提出了一种基于深度残差神经网络的干扰抑制方案。首先,针对典型的GNSS干扰类型搭建和训练了相应的残差神经网络,实现从受扰接收信号中直接提取有用卫星信号。然后,结合干扰分类识别结果,将对一维接收信号进行短时傅里叶变换(Short-time fourier transform, STFT)预处理后的时频谱二维信号送入与干扰类型相对应的残差网络,网络输出消除了干扰信号影响的有用卫星信号的时频二维谱。该方案无需对不同类型的干扰采用不同的参数估计和干扰抵消方法,对各类压制干扰和欺骗信号均采用相同的处理流程。实验结果表明相比于先估计干扰信号参数再进行抵消的干扰抑制方案,所提方案对各种GNSS干扰类型均具有较好的抑制效果,具备一定的通用性。
    56  基于上下文共指实体依赖的文档级关系抽取
    夏正新,苏翀,刘勇
    2023, 38(5):1226-1234. DOI: 10.16337/j.1004-9037.2023.05.020
    [摘要](223) [HTML](323) [PDF 1.50 M](528)
    摘要:
    文档级关系提取(Document relationship extraction,DRE)旨在多条句子中识别实体间的关系,而实体可能对应于跨越句子边界的多次提及,其中代词实体提及是因句子之间连接而普遍存在的语法现象,也是影响句子推理的一个重要因素。然而,以往的研究大多侧重于普通实体提及之间的关系,却很少关注代词实体提及的共指和关系捕获。本文提出了基于上下文共指实体依赖(Contextual coreference entity dependency,CCED)的文档级关系抽取模型,即通过融合普通实体和代词实体表示来构建共指实体依赖关系的上下文图结构,并在图上进行实体对间的全局交互推理,从而对实体关系的相互依赖进行建模。分别在公共数据集DocRED、DialogRE和MPDD上对CCED模型进行评估,结果显示在DocRED数据集上,与表现最好的基线模型DocuNet-BERT相比,CCED模型在测试集上的Ign F1性能提高0.55%,F1性能提高0.35%。在DialogRE和MPDD数据集上,与表现最好的基线模型COLN相比,CCED模型在DialogRE测试集上的F1性能提高1.02%,在MPDD测试集上的ACC性能提高1.19%。实验结果验证了新模型对于文档级关系抽取的有效性。
    57  基于高斯神经元的自组织映射网络研究
    刘达,陈松灿
    2023, 38(1):85-92. DOI: 10.16337/j.1004-9037.2023.01.006
    [摘要](370) [HTML](147) [PDF 1.66 M](729)
    摘要:
    自组织映射网络(Self-organizing map network,SOM)是一种经典的无监督学习方法,具有自组织和联机学习功能。由于其简明与实用等特点,不断涌现出SOM变体以适应各类问题。然而,这些工作基本都采纳了确定性神经元建立网络,忽略了数据本身隐含的不确定性信息,导致这些模型的结果缺乏由置信度反映的可解释性,意味着SOM神经元的不确定性刻画能力不足。本文提出了一种高斯神经元SOM网络(Ganssian neuron som network, GNSOM),其神经元节点不再是确定性的,而是建模为高斯分布的高斯神经元,为SOM配备了不确定性功能用于表述数据的不确定性。在实现时,将输入数据同样高斯化,并用Jensen-Shannon(JS)散度代替SOM学习中的欧氏距离作为GNSOM学习中的相似性匹配度量,由此获得了不确定性表示。实验结果表明,GNSOM具有更好的训练效果,并能通过神经元节点的协方差矩阵反映数据的不确定性。由于这种对神经元的高斯化独立于SOM本身,因此能拓展应用于其他神经元模型。
    58  基于声学模型共享的零资源韩语语音识别
    王皓宇,JEON Eunah,张卫强,李科,黄宇凯
    2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007
    [摘要](480) [HTML](358) [PDF 1.22 M](1639)
    摘要:
    精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。
    59  基于深度强化学习的雷达智能抗干扰决策FPGA加速器设计
    李梓瑜,葛芬,张劲东,赵家琛
    2023, 38(5):1151-1161. DOI: 10.16337/j.1004-9037.2023.05.013
    [摘要](456) [HTML](355) [PDF 1.67 M](725)
    摘要:
    针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络(Deep Q network,DQN)模型,并在此基础上提出了一种基于现场可编程门阵列(Field programmable gate array,FPGA)的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。
    60  基于深度展开和双流网络的高光谱图像融合
    刘丛,姚佳浩
    2023, 38(6):1406-1421. DOI: 10.16337/j.1004-9037.2023.06.015
    [摘要](334) [HTML](119) [PDF 3.02 M](716)
    摘要:
    针对基于深度学习的高光谱图像融合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题,提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型,该模型将低分辨率高光谱图像(Low-resolution hyperspectral images, LR-HSI)和高分辨率多光谱图像(high-resolution multispectral images, HR-MSI)映射到低维子空间中。在融合模型设计中,考虑了LR-HSI和HR-MSI的共有信息以及LR-HSI的独有信息,并将HR-MSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后,使用双流网络获取更精确的高分辨率高光谱图像(High-resolution hyperspectral images, HR-HSI)。实验表明,该网络在高光谱图像融合中可以获得出色的效果。
    61  基于深度学习的自动睡眠分期研究综述
    刘颖,储浩然,章浩伟
    2023, 38(4):759-776. DOI: 10.16337/j.1004-9037.2023.04.002
    [摘要](1022) [HTML](687) [PDF 5.02 M](1972)
    摘要:
    睡眠分期是为了分析多导睡眠图记录而进行的重要过程,在睡眠监测和睡眠障碍诊疗中发挥着关键作用。传统的手动睡眠分期需要专业知识,繁琐且耗时;而深度学习通过模拟人脑解释信息的机制来构建模型,具有强大的自动特征提取及特征表达功能。将深度学习方法应用于睡眠分期研究,不依赖于手工特征设计,能够实现睡眠分期的自动化。本文着眼于2017年以来的一些典型的自动睡眠分期研究,重点从单视图和多视图输入两个方面系统回顾了应用于自动睡眠分期中的深度学习模型,并分析了多视图模型存在的难点,指出了其具有的潜在研究价值。最后,对自动睡眠分期未来的研究方向进行了探讨。
    62  基于局部相似性学习的鲁棒非负矩阵分解
    侯兴荣,彭冲
    2023, 38(5):1125-1141. DOI: 10.16337/j.1004-9037.2023.05.011
    [摘要](298) [HTML](170) [PDF 2.38 M](531)
    摘要:
    现有的非负矩阵分解方法往往聚焦于数据全局结构信息的学习,在很多情况下忽略了对数据局部信息的学习,而局部学习的方法也通常局限于流行学习,存在一些缺陷。为解决这一问题,提出了一种基于数据局部相似性学习的鲁棒非负矩阵分解算法(Robust nonnegative matrix factorization with local similarity learning, RLS-NMF)。采用一种新的数据局部相似性学习方法,它与流形方法存在显著区别,能够同时学习数据的全局结构信息,从而能挖掘数据类内相似和类间相离的性质。同时,考虑到现实应用中的数据存在异常值和噪声,该算法还使用l2,1范数拟合特征残差,过滤冗余的噪声信息,保证了算法的鲁棒性。多个基准数据集上的实验结果显示了该算法的最优性能,进一步证明了该算法的有效性。
    63  基于机器学习的超声造影分析综述
    万鹏,刘晗,赵俊勇,薛海燕,刘春蕊,邵伟,孔文韬,张道强
    2023, 38(4):741-758. DOI: 10.16337/j.1004-9037.2023.04.001
    [摘要](727) [HTML](554) [PDF 3.62 M](1475)
    摘要:
    超声造影(Contrast-enhanced ultrasound, CEUS)通过外周静脉注入超声造影剂,显著增强来自肿瘤微血管的血流信号,便于临床医生以实时、动态的方式评估肿瘤血管生成、周边浸润等,广泛应用于多器官病变诊断、预后评估和治疗方案规划等方面。近年来,以深度学习为代表的机器学习方法快速发展,为动态超声造影智能分析带来新的机遇。深度学习方法很大程度上拓宽了超声造影临床应用范围,提高了其诊疗效能。但与常规超声影像类似,超声造影仍然存在斑点噪声、呼吸运动干扰和标准化程度低等问题,使得动态灌注时间、空间信息挖掘面临挑战。本文系统性回顾了近年来超声造影智能分析相关工作,涵盖良恶性鉴别、恶性分级、疗效预测和诊疗方案选择等方面应用,总结了当前影像组学及深度学习方法在超声造影分析领域的最新进展,并指出当前研究的局限性和未来发展方向。
    64  基于时空依赖关系和特征融合的弱监督视频异常检测
    柳德云,李莹,周震,吉根林
    2024, 39(1):204-214. DOI: 10.16337/j.1004-9037.2024.01.018
    [摘要](204) [HTML](243) [PDF 2.44 M](607)
    摘要:
    弱监督视频异常检测由于抗干扰性强、数据标注要求低,成为视频异常事件检测研究的热点。在现有的工作中,大多数弱监督视频异常检测方法认为各个视频段独立同分布,单独判断每个视频段是否异常,忽略了视频段间的时空依赖关系。为此,提出了一种基于时空依赖关系和特征融合的弱监督视频异常检测方法,在保留视频段原始特征的同时,使用视频段之间的索引距离和特征相似程度拟合视频段的时间和空间依赖关系,构建视频段的关系特征。通过融合原始特征和关系特征,更好地表达视频的动态特性和时序关系。在UCF-Crime和ShanghaiTech 两个基准数据集上进行了大量实验,实验结果表明所提方法的AUC指标优于其他方法,AUC值分别达到了80.1%和94.6%。
    65  一种面向大规模资源发现的分布式局部聚类方法
    孟新宇,潘文宇,马艺宁
    2024, 39(1):215-222. DOI: 10.16337/j.1004-9037.2024.01.019
    [摘要](155) [HTML](161) [PDF 701.27 K](582)
    摘要:
    在大规模资源环境下,传统的资源索引机制导致Peer结点数量急剧增加和负载均衡性能下降,影响查询效率和系统稳定性。本文提出了一种质心模型的局部资源聚类方法,通过将相近资源聚类于单一结点并选出代表性键,有效减少了P2P(Peer-to-peer)网络中的Peer结点规模。此外,局部聚类机制集中处理距离相近的键,避免了资源覆盖的过度膨胀。实验结果显示,基于质心模型的Skip Graph算法不仅降低了查询复杂度,提高了负载均衡性能,而且在网络规模、数据量及查询复杂度方面展现出优秀的扩展性,更好地适应大规模资源发现的需求。
    66  基于多重注意力和schatten-p范数的息肉分割网络
    李苏,刘国奇,刘栋,赵曼琪
    2024, 39(1):223-235. DOI: 10.16337/j.1004-9037.2024.01.020
    [摘要](211) [HTML](153) [PDF 4.76 M](568)
    摘要:
    自动准确的息肉定位分割方法可以在结直肠癌病变早期及时地发现息肉,大大降低癌变几率。编解码结构作为近年来息肉分割中最主流的网络结构,已经得到了很大的改进,如提高模型捕获全局上下文特征和局部特征的能力,使用深层特征对浅层解码做指导。但是息肉形状和大小不一,在编码时,由于卷积特性容易过于陷入局部信息挖掘,而失去远程信息依赖关系;还有一些息肉图像存在对比度低、空间复杂的特性,导致息肉与背景两者极易混淆。本文提出了基于多重注意力和schatten-p 范数的息肉分割网络。其中,轴向多重注意力模块利用轴向注意力补充图像中的远程上下文关系,同时补充对边缘、背景信息的关注以实现特征互补,在注意全局特征的同时加强对局部细节特征的捕捉;利用矩阵奇异值和矩阵隐含信息的关联性,引入schatten-p 范数作约束,从矩阵角度分析数据,辅助模型辨别前景和背景。通过设置大量实验,证明了本文提出方法的有效性,并且MASNet在Kvasir-SEG数据集上对比不同的方法,取得了较好的分割结果。
    67  基于数字孪生和强化学习的低空智联网协同认知干扰
    沈高青,蔡圣所,雷磊,贲德
    2024, 39(1):15-30. DOI: 10.16337/j.1004-9037.2024.01.003
    [摘要](905) [HTML](1810) [PDF 2.45 M](957)
    摘要:
    针对低空智联网协同认知干扰决策过程中,多架电子干扰无人机对抗多部多功能雷达的干扰资源分配问题,提出了一种基于数字孪生和深度强化学习的认知干扰决策方法。首先,将协同电子干扰问题建模为马尔可夫决策问题,建立认知干扰决策系统模型,综合考虑干扰对象、干扰功率和干扰样式选择约束,构建智能体动作空间、状态空间和奖励函数。其次,在近端策略优化(Proximal policy optimization, PPO)深度强化学习算法的基础上,提出了自适应学习率近端策略优化(Adaptive learning rate proximal policy optimization, APPO)算法。同时,为了以高保真的方式提高深度强化学习算法的训练速度,提出了一种基于数字孪生的协同电子干扰决策模型训练方法。仿真结果表明,与已有的深度强化学习算法相比,APPO算法干扰效能提升30%以上,所提训练方法能够提高50%以上的模型训练速度。
    68  基于图神经网络的无人机网络表征与优化技术
    承楠,傅连浩,王秀程,尹志胜
    2024, 39(1):44-59. DOI: 10.16337/j.1004-9037.2024.01.005
    [摘要](275) [HTML](1735) [PDF 1.77 M](849)
    摘要:
    无人机作为低空智联网的重要组成部分,在无线通信领域已经被广泛应用,然而在无人机网络规模和拓扑结构的不断变化时,现有解决方案常常遭遇诸多挑战,如收敛速度缓慢、实时响应能力不足、训练成本高昂以及泛化能力受限等。针对这些问题,本文提出了一种基于图神经网络(Graph neural network, GNN)的无人机网络观测表征和决策方案。研究首先通过图建模方法对无人机与其观测实体之间的关系进行建模,设计了一种基于GNN的表征方案,并利用机器学习算法进行预训练,以适应动态变化的观测空间。针对决策空间的动态特性,进一步提出了一种基于边决策的GNN模型,该模型通过图建模及边权重拟合,以增强对动态决策空间的适应性。此外,通过两个无人机网络案例的研究,本文验证了所提出方案的有效性和先进性,展现了其在实际无人机网络应用中的潜力。
    69  基于事件信息与深度学习的高动态范围三维重建
    王杰,魏振东,王启江,张启灿,王亚军
    2024, 39(2):337-347. DOI: 10.16337/j.1004-9037.2024.02.007
    [摘要](372) [HTML](317) [PDF 3.90 M](699)
    摘要:
    采用光学三维成像技术测量金属零件、黑色物体以及半透明物体等高动态范围(High dynamic range,HDR)表面的三维轮廓是一个极具挑战性的问题。目前,传统方法对存在较低反射以及半透明区域的场景进行重建还有一定的局限性,半透明物体的内部反射噪声很难消除。现有基于深度学习的方法通常使用相对较强的激光强度,这可能会损坏样品,同时会出现采集图像过曝现象,需要对激光强度进行繁琐的调整。针对这些问题,本文提出基于事件信息和深度学习算法的高动态场景三维测量方法。事件相机通过异步记录单个像素的亮度变化,无需等待全局曝光时间,具有高动态响应范围,能够充分采集到HDR场景的激光条纹反射信息。引入深度卷积神经网络(Deep convolutional neural network,DCNN)来消除半透明物体的内部噪声以及金属物体高反光的过曝影响,同时增强弱激光条纹图像质量。实验结果表明,本文方法能够应用低功率线激光扫描成功实现HDR场景的高质量三维重建。
    70  一种跳转向量的隐性加权分数傅里叶变换通信方法
    刘芳,黄珂婷,侯宇,冯永新
    2024, 39(2):445-455. DOI: 10.16337/j.1004-9037.2024.02.017
    [摘要](232) [HTML](137) [PDF 2.76 M](508)
    摘要:
    加权分数傅里叶变换(Weighted fractional Fourier transform,WFRFT)技术可以极大地改变信号的特性,使信号的统计特性多样化,从而有效地保障通信信息安全。为解决单参数WFRFT通信抗扫描能力不足的问题,以单参数WFRFT为切入点,深入研究单参数分数域的形成机理,分析其潜在的微观特征和暗特征,从而提出了一种基于跳转向量的隐性WFRFT通信方法(Implicit WFRFT communication method of jump vector,IWVJ)。利用调制阶数与星座图的关系,建立了跳变矩阵和跳变向量,并以此制定了控制规则。此外,通过跳变向量控制获得动态调制阶数,从而达到安全通信的目的。仿真结果表明,IWVJ方法对授权接收机具有较高的反变换解调相似度和较低的误码率,相比于具有普适扫描能力的非授权接收机性能更优。同时对解调阶数误差、基础调制阶数和跳转频率等参数的设置给出了适用的建议,使IWVJ方法能够更好地应用于通信系统,为具有抗干扰、抗截获和抗欺骗能力的保密通信提供技术依据。
    71  一种半监督金融事件多标签分类方法
    杨卓峰,李旸,李德玉
    2024, 39(2):385-394. DOI: 10.16337/j.1004-9037.2024.02.011
    [摘要](245) [HTML](198) [PDF 1.09 M](543)
    摘要:
    随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。
    72  基于多任务学习的语音情感识别
    李云峰,闫祖龙,高天,方昕,邹亮
    2024, 39(2):424-432. DOI: 10.16337/j.1004-9037.2024.02.015
    [摘要](385) [HTML](206) [PDF 1.60 M](730)
    摘要:
    在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。
    73  多粒度三支决策研究进展
    钱进,郑明晨,周川鹏,刘财辉,岳晓冬
    2024, 39(2):361-375. DOI: 10.16337/j.1004-9037.2024.02.009
    [摘要](397) [HTML](245) [PDF 2.79 M](1081)
    摘要:
    多粒度三支决策利用三支决策理论,从多视角、多层次对复杂问题进行数据分析与处理,逐渐成为一种高效、可靠的智能决策方法。本文对多粒度三支决策的研究工作进行综述,主要介绍了多粒度融合策略、多视角三支决策和多层次三支决策,以及从定性和定量两个角度探讨了多粒度三支决策,讨论了不同多粒度三支决策模型之间的关系,并指出了多粒度三支决策研究中存在的若干问题,为该领域的深入研究提供参考。
    74  基于自注意力机制的音频对抗样本生成方法
    李珠海,郭武
    2024, 39(2):416-423. DOI: 10.16337/j.1004-9037.2024.02.014
    [摘要](280) [HTML](244) [PDF 1.40 M](613)
    摘要:
    随着个人语音数据在网络上的传播以及自动说话人识别算法的发展,个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下,使得自动说话人识别算法失效,从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法FoolHD模型的基础上引入了自注意力机制来改进对抗样本生成,该方法称为FoolHD-MHSA。首先,使用卷积神经网络作为编码器来提取输入音频频谱的对抗扰动谱图;然后利用自注意力机制从全局角度提取扰动谱不同部分特征的关联特征,同时将网络聚焦到扰动谱中的关键信息、抑制无用信息;最后,使用解码器将处理后的扰动谱隐写到输入频谱中得到对抗样本频谱。实验结果表明,FoolHD-MHSA方法生成的对抗样本相比FoolHD方法有着更高的攻击成功率和平均客观语音质量评估(Perceptual evaluation of speech quality,PESQ)得分。
    75  分布式稀疏软大间隔聚类
    谢云轩,陈松灿
    2024, 39(2):376-384. DOI: 10.16337/j.1004-9037.2024.02.010
    [摘要](161) [HTML](156) [PDF 712.48 K](422)
    摘要:
    虽然软大间隔聚类(Soft large margin clustering,SLMC)相比其他诸如K-Means等算法具有更优的聚类性能与某种程度的可解释性,然而当面对大规模分布存储数据时,均遭遇了同样的可扩展瓶颈,其涉及的核矩阵计算需要高昂的时间代价。消减此代价的有效策略之一是采用随机Fourier特征变换逼近核函数,而逼近精度所依赖的特征维度常常过高,隐含着可能过拟合的风险。本文将稀疏性嵌入核SLMC,结合交替方向乘子法(Alternating direction method of multipliers, ADMM),给出了一个分布式稀疏软大间隔聚类算法(Distributed sparse SLMC, DS-SLMC)来克服可扩展问题,同时通过稀疏化获得更好的可解释性。
    76  垂直领域大模型的定制化:理论基础与关键技术
    陈浩泷,陈罕之,韩凯峰,朱光旭,赵奕晨,杜滢
    2024, 39(3):524-546. DOI: 10.16337/j.1004-9037.2024.03.003
    [摘要](1078) [HTML](523) [PDF 2.11 M](2517)
    摘要:
    随着 ChatGPT 等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。
    77  联合张量补全与循环神经网络的时间序列插补法
    何军,赖赵远,时勘
    2024, 39(3):598-608. DOI: 10.16337/j.1004-9037.2024.03.008
    [摘要](326) [HTML](244) [PDF 1.48 M](698)
    摘要:
    现存的插补方法大致分为基于统计的插补法和基于深度学习的插补法。基于统计的插补法只能捕捉线性时间关系,导致无法精准建模时间序列的非线性关系;基于深度学习的插补法往往没有考虑到不同时间序列之间的相关性。针对现有方法的问题,本文提出了联合张量补全与循环神经网络的时间序列插补法。首先,将多元时间序列建模成张量,通过张量的低秩补全捕获不同时间序列之间的关系。其次,提出了一个基于时间的动态权重,将张量插补结果和循环神经网络的预测结果进行融合,避免因为连续缺失导致的预测误差累积。最后,在多个真实的时间序列数据集上对所提方法进行了实验评估,结果显示该模型优于已有相关模型,且基于插补后的时间序列可以提升时间序列预测效果。
    78  基于特征融合与嵌入的人脸图像盲修复算法
    霍智勇,胡山林
    2024, 39(3):609-616. DOI: 10.16337/j.1004-9037.2024.03.009
    [摘要](245) [HTML](188) [PDF 2.70 M](443)
    摘要:
    人脸图像盲修复是从未知退化中恢复出高质量的人脸图像,其不适定性往往会造成修复出的图像出现局部纹理缺失或面部成分不匹配的结果,为此提出基于特征融合与嵌入的人脸图像盲修复算法。通过提取退化输入的面部先验特征,采用多头交叉注意力进行特征交互融合和全局上下文建模,将面部先验嵌入预训练生成网络的潜在空间中,并基于损失函数进行优化,修复因退化而丢失或损坏的局部纹理,实现真实性与忠实度之间的平衡。数值实验在3个真实退化图像数据集上进行,本文方法在客观指标和主观质量上都优于现有方法,最后的消融实验验证了退化人脸图像盲修复算法的有效性。
    79  基于直觉模糊相似关系的三支决策模型
    吕明明,薛占熬,杨梦丽,辛现伟,孙林
    2024, 39(3):617-633. DOI: 10.16337/j.1004-9037.2024.03.010
    [摘要](232) [HTML](142) [PDF 2.38 M](420)
    摘要:
    针对一些直觉模糊相似关系使直觉模糊集中对象间的相似度过于集中或者相异度过高,导致不合理的分类结果的问题,以及在构造直觉模糊相似关系时,对象间的相似度和相异度容易受到不重要属性条件信息影响的问题,本文在直觉模糊集和可能性理论基础上,提出一种基于直觉模糊相似关系的三支决策模型。首先,给出可能性测度和必要性测度的定义,结合Hausdorff度量,构造一种距离公式,并证明其性质,定义了直觉模糊集中对象间的相似度和相异度,构造了新的直觉模糊相似关系;然后定义了直觉模糊相似关系下的(λ1λ2)-截集及其直觉模糊(λ1λ2)-截集下的相似类,并进一步求出目标集的正域、负域和边界域;最后通过UCI数据集和实例验证了该模型的合理性和有效性。
    80  基于增强生长型神经气的高维多目标进化算法
    薛明,王鹏,童向荣
    2024, 39(3):634-648. DOI: 10.16337/j.1004-9037.2024.03.011
    [摘要](225) [HTML](165) [PDF 1.04 M](383)
    摘要:
    随着对高维多目标优化问题的深入研究,带有不规则Pareto前沿的高维多目标优化问题因其复杂的Pareto前沿分布,给现有方法的求解带来了挑战。针对上述问题,提出一种基于增强生长型神经气的高维多目标进化算法,该算法综合生长型神经气网络的学习特性与二元质量指标的优化特性来增强种群在不规则Pareto前沿的收敛压力。首先,设计了一种增强的生长型神经气网络,该网络利用Pareto最优前沿的拓扑信息指导种群向Pareto最优前沿方向收敛。然后,提出了一种联合度量指标以配合Pareto支配信息来综合评价个体的收敛性。最后,提出一种基于自适应参考点的环境选择增强种群在高维目标空间的多样性。为验证所提算法的性能,在DTLZ和WFG基准问题集中的44个不规则高维多目标优化问题与5种先进的高维多目标进化算法进行对比实验。实验结果表明,所提出的基于增强生长型神经气的高维多目标进化算法的整体性能优于对比算法。
    81  一种基于稀疏优化和Nesterov动量策略的模型剪枝算法
    周强,陈军,鲍蕾,陶卿
    2024, 39(3):659-667. DOI: 10.16337/j.1004-9037.2024.03.013
    [摘要](245) [HTML](149) [PDF 1.51 M](433)
    摘要:
    随着深度学习快速发展,模型的参数量和计算复杂度爆炸式增长,在移动终端上部署面临挑战,模型剪枝成为深度学习模型落地应用的关键。目前,基于正则化的剪枝方法通常采用L2正则化并结合基于数量级的重要性标准,是一种经验性的方法,缺乏理论依据,精度难以保证。受Proximal梯度方法求解稀疏优化问题的启发,本文提出一种能够在深度神经网络上直接产生稀疏解的Prox-NAG优化方法,并设计了与之配套的迭代剪枝算法。该方法基于L1正则化,利用Nesterov动量求解优化问题,克服了原有正则化剪枝方法对L2正则化和数量级标准的依赖,是稀疏优化从传统机器学习向深度学习的自然推广。在CIFAR10数据集上对ResNet系列模型进行剪枝实验,实验结果证明Prox-NAG剪枝算法较原有剪枝算法性能有所提升。
    82  显式知识注入的任务型对话理解模型
    李帅鹏,王平辉,孙望淳,杨阳,杜友田,马小科,杜永杰
    2024, 39(3):668-677. DOI: 10.16337/j.1004-9037.2024.03.014
    [摘要](258) [HTML](172) [PDF 1.52 M](429)
    摘要:
    传统对话理解模型依赖对话历史识别用户意图,由于缺乏丰富的知识信息,对生僻或特有内容的理解能力欠佳。通过隐式编码将知识加入模型的方法将知识注入与模型训练高度绑定,难以适应知识库的更新迭代,也会导致知识噪声,引入无关知识破坏原有语义。为解决上述问题,本文提出一种显式知识注入的多任务学习对话理解模型。将知识以自然语言形式插入到对话文本中,即插即用,满足知识源动态发展的需要;通过对话理解的主任务,关联知识识别的辅助任务,进行多任务学习,减少知识噪声。实验结果表明,与现有方法相比,本文提出的模型在意图识别和语义槽填充任务上的宏F1值分别提升了4.87%和2.09%。
    83  基于Transformer的路网轨迹重建方法
    梅宇生,赵卓峰
    2024, 39(3):678-688. DOI: 10.16337/j.1004-9037.2024.03.015
    [摘要](374) [HTML](266) [PDF 1.46 M](600)
    摘要:
    轨迹重建是针对低采样轨迹数据进行轨迹补充还原的一类轨迹数据处理研究。为了提高轨迹重建的准确性,一些工作通过引入Seq2Seq等深度学习模型来提升轨迹重建的效率与精度,但由于现有工作忽略了轨迹间的长距离依赖问题,导致轨迹还原中还存在准确率不高等问题。本文提出一种基于Transformer的轨迹重建模型ZTrajRec(Zero-based trajectory recovery),通过Transformer编码器捕获轨迹间的长距离依赖,注意力机制用于当前轨迹和历史轨迹相似性查询来进行轨迹在路网上的重建。实验结果表明,在真实北京出租车数据集上,ZTrajRec比基准模型最好效果在召回率上提升3%~4%。本文最后对重建结果进行了可视化分析以展示其合理性。
    84  融合类增强与多尺度自适应的小样本学习方法
    董驰静,张孙杰,任涵
    2024, 39(3):689-698. DOI: 10.16337/j.1004-9037.2024.03.016
    [摘要](225) [HTML](141) [PDF 1.55 M](467)
    摘要:
    为了解决小样本学习存在特征信息提取不足、难以准确地捕获局部明显特征信息的问题,提出了一种融合类增强与多尺度自适应的小样本学习方法。首先在特征的层面上对图像进行类增强,通过将特征图的每次激活与其邻域相关联来编码丰富的语义结构,使提取后的类内特征明显,更利于当前的分类任务。其次通过多尺度特征生成来提取不同尺度上图像特征的低层表示。最后对每个尺度上的语义相关矩阵进行权重分配与相似元素最大化计算查询图像与各支持集类别图像之间的语义相似度,多尺度信息进行融合后,对目标图像进行分类。在5-way 1-shot和5-way 5-shot设置中,该方法在miniImageNet数据集上的均值平均精度(mean Average precision,mAP)分别为56.83%和75.76%,在常用细粒度图像数据集Stanford Cars和CUB-200-2011分类基准上分别达到了79.33%和93.92%、66.33%和85.78%,均优于现有方法的最好结果。
    85  融合多特征和表情情感词典的性别对立言论识别方法
    马子晨,张顺香,刘云朵,朱广丽
    2024, 39(3):699-709. DOI: 10.16337/j.1004-9037.2024.03.017
    [摘要](226) [HTML](192) [PDF 2.24 M](433)
    摘要:
    为识别相关极端言论,提出了一种融合多特征和表情情感词典的性别对立言论识别方法。首先,使用BERT(Bidirectional encoder representation from transformer)提取输入文本的字符特征,并使用Word2Vec提取输入文本中五笔、郑码以及拼音3个方面的特征;然后,将这4个方面的特征进行融合,再输入到Bi-GRU(Bi-directional gated recurrent unit)网络中学习更深层次的语义信息;最后,通过全连接层加SoftMax函数计算出情感极性概率,并融合表情情感词典判别输入文本是否为性别对立言论。通过在自行收集的中文性别对立数据集上进行实验,与未加入特征和表情情感词典的方法相比,在F1值上有5.19%的提升。同时,在公开中文情感分析数据集Weibo_senti_100k上进行验证,证明了本方法的泛化性。
    86  基于多模态多粒度融合网络的癫痫识别方法
    戚晓雨,丁卫平,鞠恒荣,程学云,黄嘉爽
    2024, 39(3):710-723. DOI: 10.16337/j.1004-9037.2024.03.018
    [摘要](423) [HTML](150) [PDF 2.10 M](581)
    摘要:
    结构脑网络(Structural brain network, SC)和功能脑网络(Functional brain network, FC)能从不同角度反映癫痫对大脑结构信息的改变。目前,融合两类脑网络信息进行癫痫的辅助诊断已成为领域内的重要研究之一。然而,常见的融合模型仅在单一粒度上融合两类脑网络信息,忽略了脑网络的多粒度属性。本文提出一种基于多模态多粒度融合网络(Multi-modal multi-grained fusion network,MMFN)的癫痫识别方法,从全局和局部两个粒度对多模态脑网络特征进行融合,充分利用两类脑网络信息。局部粒度上,设计了连接边特征融合和节点特征融合,用以重构两类脑网络的连接边层和节点层的特征图,使两个模态交互式地学习特征;全局粒度上,设计了多模态分解双线性池化模块,学习两类脑网络的联合表示。实验结果表明,相比主流方法,所提方法可以显著提高对癫痫识别的准确率,辅助医生进行癫痫诊断。
    87  大语言模型评估技术研究进展
    赵睿卓,曲紫畅,陈国英,王坤龙,徐哲炜,柯文俊,汪鹏
    2024, 39(3):502-523. DOI: 10.16337/j.1004-9037.2024.03.002
    [摘要](779) [HTML](431) [PDF 1.54 M](2922)
    摘要:
    随着大语言模型的广泛应用,针对大语言模型的评估工作变得至关重要。除了大语言模型在下游任务上的表现情况需要评估外,其存在的一些潜在风险更需要评估,例如大语言模型可能违背人类的价值观并且被恶意输入诱导引发安全问题等。本文通过分析传统软件、深度学习模型与大模型的共性与差异,借鉴传统软件测评和深度学习模型评估的指标体系,从大语言模型功能评估、性能评估、对齐评估和安全性评估几个维度对现有工作进行总结,并对大模型的评测基准进行介绍。最后依据现有研究与潜在的机遇和挑战,对大语言模型评估技术方向和发展前景进行了展望。
    88  基于大模型的联动处置多智能代理协同框架
    吴晓宁,李瑞欣,王浪,刘文杰,王宏伟,朱新立,宋江帆,袁梦
    2024, 39(3):559-576. DOI: 10.16337/j.1004-9037.2024.03.005
    [摘要](400) [HTML](463) [PDF 3.29 M](697)
    摘要:
    针对指挥员应对重大突发情况时的处置决策难题,提出一种基于大模型的联动处置多智能代理协同框架。该框架通过智能代理角色生成、多层级蒙特卡洛树与交互式提示学习等策略,优化群体决策效率与动作规划,同时引入分层机制与工作流管理理念,通过强化学习奖励函数共享提升协同效率,设计显式与隐式通信模式确保节点状态一致。实验表明,该框架在多种场景下表现优异,与传统任务分配手段相比,大大提高了面对突发事件时的反应速度和处置效率。
    89  “艾武大模型+”:一种军事大模型系统的开发与实证
    崔翛龙,高志强,姬纬通,沈佳楠,张敏,邱鑫源
    2024, 39(3):588-597. DOI: 10.16337/j.1004-9037.2024.03.007
    [摘要](1181) [HTML](640) [PDF 1.90 M](2097)
    摘要:
    智能化指挥是新型指挥控制理论研究的重要方向,大模型是智能交互、任务规划和辅助决策等智能化指挥能力实现的重要支撑。本文兼顾理论与实践,梳理大模型军事能力需求,设计面向智能化指挥的大模型应用框架,提出“艾武大模型+”的系统架构、信息流程和协同架构,梳理工程实现的关键技术,以智能化指挥实证案例及选型分析验证“艾武大模型+”系统在多模态交互和特定任务军语理解的能力优势,拓展有/无人平台的末端协同和指令控制,为重大国防军事专项、智能化指挥研究与落地应用提供参考。
    90  基于思维链的大语言模型知识蒸馏
    李荣涵,浦荣成,沈佳楠,李栋栋,苗启广
    2024, 39(3):547-558. DOI: 10.16337/j.1004-9037.2024.03.004
    [摘要](607) [HTML](478) [PDF 1.65 M](822)
    摘要:
    思维链(Chain of thought, CoT)提示使大语言模型能够按照具体推理步骤处理复杂的任务,让大语言模型在常识推理、数学逻辑推理和可解释性等方面表现出更强的能力。然而,CoT方法的主要缺点在于其对庞大语言模型的依赖,这些模型通常拥有数百亿的参数,在大规模部署方面面临挑战。为此,本文提出一种基于思维链的大模型知识蒸馏方法,主要目标在于充分利用大型语言模型的思维推理能力,通过知识蒸馏技术,引导小模型解决复杂任务。以大型模型为教师模型,小型模型为学生模型,通过获取教师模型的推理数据来微调学生模型。通过更改数据生成方式、基于聚类的问答示例采样、示例启发式纠错以及答案的自适应生成等一系列精心设计的方法,使教师模型的生成过程更高效,生成的推理数据质量更高、数量更多,从而更好地微调学生模型,使其获得强大的推理能力,实现高效的知识蒸馏。这一研究框架旨在建立一个有效的知识传递机制,使得大模型的深度思考能够有效指导小模型,为解决复杂任务提供更为智能且高效的解决方案。通过这种方式,希望能够克服大模型部署的挑战,并促进语言模型在现实世界中的应用和进步。
    91  基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法
    谢思静,文鼎柱
    2024, 39(3):577-587. DOI: 10.16337/j.1004-9037.2024.03.006
    [摘要](404) [HTML](267) [PDF 1.26 M](528)
    摘要:
    微调后的大语言模型(Large language models, LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险。联邦学习(Federated learning, FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难。结合分割学习(Split learning, SL),联邦分割学习可以有效解决这一问题。基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low-rank adaption, LoRA)进一步降低资源开销和提升安全性。因此,在设备端,仅对最后几层进行低秩适应和训练,然后上传至服务器进行聚合。为了降低开销并保证模型性能,本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法。通过联合优化边缘设备的计算频率和模型微调的秩,在资源受限的情况下最大化秩,提高模型的准确率。仿真结果显示,仅训练LLMs最后3层的情况下,在一定范围内(1~32)增加秩的取值可以提高模型的准确率。同时,增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率。
    92  人工智能辅助的磁共振成像在评估乳腺癌新辅助化疗中的应用综述
    刘凯文,金莹莹,王守巨
    2024, 39(4):794-812. DOI: 10.16337/j.1004-9037.2024.04.003
    [摘要](307) [HTML](295) [PDF 2.75 M](573)
    摘要:
    新辅助化疗已成为乳腺癌标准治疗策略,而磁共振成像是评估乳腺癌对新辅助化疗反应的首选影像学方法。虽然磁共振成像能提供关于肿瘤位置、大小及微环境等详细信息,但肿瘤的多样性变化给乳腺癌新辅助化疗的精准评估带来挑战。基于机器学习和深度学习的人工智能方法展现出识别磁共振成像数据中复杂模式的能力。通过临床影像特征分析、影像组学分析和生境分析等方法,人工智能技术已显著提升乳腺癌新辅助化疗评估的性能和效率,有助于实现个性化治疗策略。本文介绍了乳腺癌新辅助化疗评估所用的磁共振成像数据及性能指标,总结了人工智能技术在此领域的应用进展,同时探讨了当前人工智能技术在实际应用中的挑战和未来可能的研究方向。
    93  一种基于特征融合的息肉分割双解码模型
    吴港,全海燕
    2024, 39(4):954-966. DOI: 10.16337/j.1004-9037.2024.04.015
    [摘要](156) [HTML](187) [PDF 2.84 M](398)
    摘要:
    在结直肠癌的早期筛查中,通过对结肠镜图像进行自动化的息肉检测和分割可以提高诊断效率和准确性。由于肠道内部环境的复杂性以及图像质量的限制,自动化的息肉分割仍然是一个具有挑战性的问题。针对这一问题,提出了一种基于Transformer和空洞卷积特征融合的息肉分割双解码模型(Dual decoded polyp segmentation model fusing Transformer and dilated convolution, FTDC-Net)。该模型以ResNet50作为编码器,以便能够更好地提取图像深层次特征。使用 Transformer 编码模块,它的自注意力(Self-attention)机制能够捕捉输入之间的长距离依赖关系,模型中使用了不同的空洞卷积(Dilated-convolution)来扩大模型的感受野,让模型能捕捉到结肠镜图像更大范围内的信息。本文网络模型的解码部分使用双解码结构,包含一个自动编码器分支,自动编码器可以重构输入,另一个编码分支用于分割结果。模型中,自动编码器的输出被用于生成一个注意力图作为注意力机制,该图将被用于指导分割结果。在Kvasir-SEG和ETIS-LARIBPOLYPDB标准数据集上进行了实验验证,实验结果表明FTDC-Net能有效地分割出结肠息肉,相比目前主流息肉分割模型,在各项评价指标上均取得了较高的提升。
    94  多视图低秩子空间的图结构学习多站点自闭症诊断方法
    黄剑辉,马迪,张礼
    2024, 39(4):984-995. DOI: 10.16337/j.1004-9037.2024.04.017
    [摘要](121) [HTML](146) [PDF 2.19 M](218)
    摘要:
    自闭症谱系障碍(Autism spectrum disorder,ASD)是一种最常见且具有遗传性的神经发育障碍疾病,具有社交沟通缺陷等多种症状。准确识别生物标记物对ASD的早期干预起到至关重要的作用。现有大量方法利用了多站点影像数据来增加样本量,从而提高了方法诊断的准确性,但是多站点间由于成像装置、成像参数和数据处理流程存在的差异造成的数据异质性影响往往被忽略。为了解决上述问题,本文提出了一种基于多视图低秩子空间的图结构学习多站点自闭症诊断方法(MVLL-GSL)。首先构建具有不同拓扑结构信息的多视图脑网络,然后分别将视图中不同类的样本分别投影到各自的低秩子空间,从而降低数据异质性的影响,最后使用图结构学习和多任务图嵌入学习相结合,并融入先验子网络和多视图一致性正则化约束,旨在从多视图低秩子空间中获得更具判别性和一致性的特征。使用自闭症公开数据库 ABIDE(Autism brain imaging data exchange)对提出的方法进行验证。实验结果表明,MVLL-GSL方法提高了ASD的诊断性能,并解释了不同先验子网络与ASD发病机制的关联性。
    95  提示学习框架下融合多层级特征信息的中文命名实体识别
    王昕,魏楚元,张蕾,万珊珊
    2024, 39(4):1020-1032. DOI: 10.16337/j.1004-9037.2024.04.020
    [摘要](206) [HTML](143) [PDF 1.46 M](289)
    摘要:
    目前基于预训练-微调模式下的命名实体识别任务预训练与微调之间会出现差距,难以有效地对实体与上下文之间的关系进行建模,并且当前中文命名实体识别方法不能获取足够的字形或词义。针对上述问题,本文提出一种基于提示学习且融合多层级特征信息的命名实体识别方法。首先根据提示学习机制构建提示文本,再将输入文本的字符、词和实体级别特征信息与之拼接作为预训练模型的输入,以有效捕捉上下文之间的语义信息,缩小预训练模型与下游任务之间的差距,提高模型对命名实体识别的感知能力。本文提出的方法充分利用先验知识,提升模型的学习质量,提高在中文复杂多变语义环境下命名实体识别的效果。在人民日报、MSRA、Weibo、Resume和CMeEE数据集上的F1值分别达到了97.09%、96.68%、83.44%、97.48%和76.05%。实验结果表明,本文提出方法总体优于目前主流的中文命名实体识别方法。
    96  基于小样本学习的滚动轴承故障检测
    曹荧荧,郇战,陈震,陈瑛
    2024, 39(4):1033-1042. DOI: 10.16337/j.1004-9037.2024.04.021
    [摘要](159) [HTML](242) [PDF 1.57 M](361)
    摘要:
    轴承故障类型复杂,并且在不同工况下每种故障类型都很难获得足够的训练样本。因此,本文提出一种基于深度神经网络的小样本学习分类算法,引入第1层具有宽卷积核网络(Convolutional neural network with training interference,TICNN)作为孪生网络的子网络用于提取特征,减少工业环境噪声影响。孪生网络是一种常用于小样本学习的结构,通过输入相同或不同类别的样本对进行训练,学习不同属性样本与特征之间的映射关系,并采用相似度进行度量。测试样本通过寻找最近邻的类别来实现分类。在标准凯斯西储大学轴承故障诊断基准数据集上的实验结果表明,在数据有限的情况下,本文模型在故障诊断中表现出更好的效果。当使用最少的训练数据在不同的噪声环境中进行测试时,本文小样本学习模型的性能超过了具有合理噪声水平的基线模型,故障诊断准确率达到了94.41%。当在具有新故障类型或新工作条件的测试集上进行评估时,本文模型仍然有效。
    97  基于感知推理和外部空间先验特征的图像修复
    吴鹏,张孙杰,王永雄,陈远峰,覃海旺
    2024, 39(4):933-943. DOI: 10.16337/j.1004-9037.2024.04.013
    [摘要](175) [HTML](165) [PDF 4.41 M](291)
    摘要:
    在基于深度学习的图像修复算法中,当存在大面积掩码时,由于缺乏合理的先验信息指导,修复结果往往会出现伪影和模糊纹理等现象。针对此问题,提出将先验特征与图像预测滤波相结合的图像修复算法。该算法包含两个分支:图像滤波核预测分支和特征推理与图像滤波分支。从图像滤波核预测分支的解码器部分提取特征,利用多尺度外部空间特征融合对掩码区域特征进行重建,并传递给另一分支的解码阶段作为先验特征,为图像修复提供更为丰富的语义信息。然后,在特征推理和图像滤波分支部分引入空间特征感知推理块,它能够过滤掉分散注意力的特征,同时捕捉信息丰富的远距离图像上下文进行推理。最后,使用图像预测滤波核进行过滤消除伪影。在CelebA和Places2数据集上与其他修复网络进行对比实验,证明了该方法在修复质量上的优越性。
    98  基于图学习的缺失脑网络生成及多模态融合诊断方法
    龚荣芳,黄麟雅,朱旗,李胜荣
    2024, 39(4):843-862. DOI: 10.16337/j.1004-9037.2024.04.006
    [摘要](274) [HTML](264) [PDF 6.06 M](402)
    摘要:
    融合大脑结构和功能网络的多模态脑网络能够挖掘不同模态间的互补信息,有效提高癫痫等神经系统疾病的诊断准确率,在神经疾病诊断上具有优势。然而,由于多模态数据采集时间长、成本高,在实际应用中常面临模态缺失问题,导致可用数据量减少,模型的诊断精度和泛化能力下降。针对某一模态数据完全缺失问题,提出了基于图学习与循环一致生成对抗网络(Cycle-consistent generative adversarial networks, CycleGAN)的图CycleGAN方法。该方法通过引入图卷积神经网络与图注意力机制等图学习方法捕捉脑网络不同脑区间的特征信息,强化生成框架对图形式脑网络的特征提取能力,实现脑结构网络与功能网络的相互生成。此外,针对目前较少利用诊断结果评估生成数据质量的情况,提出了一种融合真实脑网络与生成脑网络的多模态融合分类模型,以进一步评估生成脑网络的有效性。在癫痫数据集上的实验结果表明,图CycleGAN方法能够有效利用已有的模态信息,实现缺失脑网络的生成。
    99  融合多时间维度视觉与语义信息的图像描述方法
    陈善学,王程
    2024, 39(4):922-932. DOI: 10.16337/j.1004-9037.2024.04.012
    [摘要](175) [HTML](175) [PDF 1.01 M](254)
    摘要:
    传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维度视觉与语义信息的图像描述方法,有效地融合了过去时刻的视觉信息和语义信息,并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证,结果表明该方法能够更准确地生成描述语句,和当前最主流的图像描述方法进行对比,性能在各项评价指标上都得到了可观的提升。
    100  融合细粒度特征编码的点云分类分割网络
    陶志勇,豆淼森,李衡,林森
    2024, 39(4):944-953. DOI: 10.16337/j.1004-9037.2024.04.014
    [摘要](205) [HTML](135) [PDF 1.41 M](304)
    摘要:
    有效获取点云特征是分析和处理三维点云场景的关键。针对目前深度学习方法特征信息提取不充分,难以捕捉深层次语义信息的问题,提出了一种融合细粒度特征编码的网络来提高点云分类与分割任务的准确率。首先,特征提取模块包含2个子模块:一个是扩张图卷积模块,相比图卷积能够提取更丰富的几何信息;另一个是细粒度特征编码模块,能够获取局部区域的细节特征。其次,通过可学习参数将二者动态融合,有效地学习每个点的上下文信息。最后,将提取的所有特征相加,通过通道亲和注意力模块来强调不同通道,协助特征图来避免可能的冗余。在ModelNet40及ScanObjectNN数据集上进行点云分类实验,总体分类精度分别为93.3%和80.0%。在ShapeNet Part数据集上进行点云部件分割实验,平均交并比为85.6%。实验结果表明,与目前主流方法相比,该网络具有较优的性能。
    101  基于多尺度残差融合图卷积网络的脑疾病诊断研究
    郝小可,何子龙,卢欣楚,马明明,刘时宇
    2024, 39(4):827-842. DOI: 10.16337/j.1004-9037.2024.04.005
    [摘要](332) [HTML](219) [PDF 2.38 M](402)
    摘要:
    近年来,功能性脑网络已被用于自闭症谱系障碍(Autism spectrum disorder, ASD)等脑部疾病的诊断。现有研究表明,将静息态功能磁共振成像(Resting-state functional magnetic resonance imaging, rs-fMRI)数据以及非影像信息结合起来构成人口图,然后采用图神经网络(Graph neural network, GNN)进行学习和分类的方法对ASD的诊断十分有效。然而,大多数研究仍然面临两个挑战:一是仅使用皮尔森相关系数等方法构建功能连接矩阵无法有效地识别和分析与疾病相关的局部脑区和生物标志物;二是无法在GNN上有效地学习人口图中节点特征的多尺度信息。为解决这些问题,提出了一种基于注意力机制的多尺度残差融合图卷积网络(Multi-scale residual fusion graph convolutional networks, MSRF-GCN)。该算法通过设计一个功能连接生成器来提取具有远程依赖关系的时间相关特征,从而有效地定位和识别对诊断有益的脑区。同时,通过设计多尺度残差融合算法,学习人口图中的多尺度信息。此外,还引入了Edge Sparse策略,通过随机丢弃初始人口图中的边,以增加节点连接的稀疏性,进而减少训练期间过拟合的风险。通过在自闭症脑影像数据交换项目(Autism brain imaging data exchange, ABIDE)上进行实验的结果证明了MSRF-GCN在ASD诊断方面的有效性。
    102  融合神经网络的卡尔曼滤波啸叫抑制路径突变检测算法
    郭昊诚,陈锴,卢晶
    2024, 39(5):1126-1134. DOI: 10.16337/j.1004-9037.2024.05.006
    [摘要](303) [HTML](166) [PDF 1.89 M](406)
    摘要:
    分区频域卡尔曼滤波(Partitioned block frequency domain Kalman filtering, PBFDKF)因其收敛速度快、稳态误差小的优势被应用在自适应滤波声反馈抑制(Adaptive feedback cancellation, AFC)。然而,当声反馈路径发生突变时,卡尔曼滤波会进入锁死状态,难以再次跟踪。本文提出一种融合神经网络的卡尔曼滤波啸叫抑制状态检测算法(Kalman-filter-based AFC with state detection model, KFSD)。该系统将卡尔曼滤波声反馈抑制系统的传声器采集信号、残差信号和滤波器更新量作为输入特征,通过神经网络对卡尔曼滤波的状态误差协方差矩阵进行修正,从而实现路径突变情况下的再次跟踪和收敛。仿真实验结果验证了所提算法具有较高的正判率、较低的虚警率和较短的延迟帧数,算法同时具备快速再跟踪性能,提高了声反馈抑制效果。
    103  基于改进级联R-CNN的钢材带状碳化物检测与分级
    郝亮,周诗洋,莫允扬,陈勇勇,徐勇,苏敬勇
    2024, 39(5):1228-1239. DOI: 10.16337/j.1004-9037.2024.05.014
    [摘要](155) [HTML](149) [PDF 4.23 M](362)
    摘要:
    在钢铁行业中,碳化物是钢材中一种非常重要的组成成分,其在钢材中的分布对于评估钢材的质量具有很高的参考价值。然而,目前棒材碳化物的检测手段主要为人工检测,成本高昂且缺乏稳定性。引入人工智能领域的深度学习技术,收集并标注了3 192张高质量钢铁棒材带状碳化物图像与11个完整样品数据,创建了工业场景下的棒材带状碳化物目标检测数据集(Banded carbide dataset on object detection for steel bar, BCDOD)。使用深度学习领域中常见的目标检测方法对数据集进行了实验分析,针对应用场景与数据的特点,引入旋转数据增强、Focal Loss函数与负样本微调对级联R-CNN模型进行改进,提升了模型的性能,平均精度达到96%。同时,在完整样品数据取得了100%的识别准确率,取得了较为理想的效果,弥补了人工智能技术在碳化物金相检测领域的空缺。
    104  集成自注意力机制的医学图像分割方法
    赵凡,张学典
    2024, 39(5):1240-1250. DOI: 10.16337/j.1004-9037.2024.05.015
    [摘要](258) [HTML](139) [PDF 2.15 M](436)
    摘要:
    针对UNet架构在医学图像分割中捕捉局部特征及保留边缘细节的局限性,提出了一种融合自注意力机制的改进型UNet算法。该算法基于传统编码-解码结构,引入多尺度卷积(Multi-scale convolution, MSC)模块以实现多粒度特征提取,同时集成卷积-自注意力(Convolution mixer attention, CMA)模块,结合卷积层的局部特征建模和自注意力层的全局上下文建模。在BUSI和DDTI数据集分割任务中,相比现有经典网络架构,大量实验数据验证了本模型优异的分割能力。此外,统计学数据分析、消融实验进一步验证了MSC和CMA模块的有效性。该研究为高精度医学图像分割提供了一种创新方法,对于促进医学诊断的精确性和效率具有重要的理论与实践意义。
    105  智能反射面辅助的星地认知网络多播传输鲁棒优化设计
    马彪,赵柏,季铭仪,丁昌峰,林敏
    2024, 39(5):1251-1259. DOI: 10.16337/j.1004-9037.2024.05.016
    [摘要](167) [HTML](101) [PDF 1.40 M](353)
    摘要:
    针对智能反射面(Intelligent reflecting surface, IRS)辅助的星地认知网络(Cognitive satellite and terrestrial networks, CSTN),提出了一种基于用户非完美信道状态信息的鲁棒多播传输算法,进一步提高了系统频谱效率。卫星采用多播技术服务多个主用户,同时共享频谱资源的地面基站(Base station, BS)通过空分多址和智能反射面分别服务直达用户和遮挡用户。然后,以地面网络发射功率最小化为优化目标,同时将地面用户的中断概率和主用户所受的最大干扰功率作为约束条件,提出联合优化问题。针对此非凸问题,首先借助指数分布的累积分布函数将非凸的中断概率约束转化为可解形式。接着,提出了一种结合交替优化与半正定松弛的鲁棒波束成形算法,以获得较优性能的解。计算机仿真结果证明了所提算法的鲁棒性和优越性。
    106  基于稀疏贝叶斯学习的混合mMIMO系统波达方向估计
    慕欣茹,傅海军,戴继生
    2024, 39(5):1260-1270. DOI: 10.16337/j.1004-9037.2024.05.017
    [摘要](154) [HTML](104) [PDF 820.57 K](325)
    摘要:
    波达方向估计是混合mMIMO系统波束成形得以应用的前提,基于协方差矩阵重构的子空间方法在相干信号和有限快拍数条件下性能损失较大。为了应对上述挑战,提出了一种基于稀疏贝叶斯学习的混合mMIMO系统波达方向估计方法,主要创新之处在于:将混合mMIMO系统的波达方向估计问题转化为稀疏信号恢复问题,从而绕过空间协方差矩阵重构,避免了其带来的性能损失。为了便于进行贝叶斯推断,进一步利用变分贝叶斯近似思想,在恢复稀疏信号的同时,自适应估计出未知参数,显著改善了对噪声和相干信号的鲁棒性,提升了有限快拍数情况下的波达方向估计性能。数值模拟结果验证了所提方法的优越性。
    107  数据驱动下图模型冲突分析决策支持系统构建研究
    徐海燕,孔杨,戴思凡
    2024, 39(5):1147-1162. DOI: 10.16337/j.1004-9037.2024.05.008
    [摘要](254) [HTML](155) [PDF 3.87 M](412)
    摘要:
    当今世界由于经济、科技、地缘战略、国际秩序等问题频繁爆发冲突事件,冲突规模正由个体冲突、小规模群体冲突向复杂大规模群体冲突转变。相较于个体间的冲突,大规模群体冲突事件持续时间更长、波及范围更广,易对我国的社会秩序以及经济发展造成恶劣影响。图模型冲突分析(Graph model for conflict resolution,GMCR)理论提供了分析冲突、解决矛盾的有效方案,作为一门专业解决冲突问题的理论工具已经在水资源、环境管理和经济政策等领域得到广泛应用,并取得良好效果。然而,随着冲突事件参与者日渐增多、主体的策略日趋复杂形成了指数级增加的局势,以及主体的偏好行为不确定性加强,传统的决策支持系统GMCRⅡ难以求解此类复杂冲突问题。基于强度偏好冲突分析理论的代数表达,开发了基于.NET平台的冲突分析WEB系统SP-GMCRDSS,该系统包括可行状态生成、状态转移设置、强度偏好序列生成和稳定性分析引擎4个模块,对比现有的系统,SP-GMCRDSS能更高效地辅助冲突分析者解决数据驱动下的大型、复杂的冲突。并且运用文本挖掘技术提取决策者策略数据,辅助分析者确定决策支持系统建模信息的输入,降低模型构建的主观性。最后,通过“兰州水污染冲突事件”演示了该系统的建模、求解以及分析的功能。
    108  基于深度学习的说话人确认方法研究现状及展望
    李建琛,韩纪庆
    2024, 39(5):1062-1084. DOI: 10.16337/j.1004-9037.2024.05.003
    [摘要](313) [HTML](322) [PDF 1.60 M](605)
    摘要:
    随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。
    109  基于双向融合纹理和深度信息的目标位姿检测
    张亚炜,付东翔
    2024, 39(5):1214-1227. DOI: 10.16337/j.1004-9037.2024.05.013
    [摘要](161) [HTML](91) [PDF 4.29 M](359)
    摘要:
    针对在硬件设备资源有限的情况下,深度相机在非结构化场景如何获取物体精确的位姿信息问题,提出一种基于双向融合纹理和深度信息的目标位姿检测方法。在学习阶段,两个网络采用全流双向融合(FFB6D)模块,纹理信息提取部分引入轻量的 Ghost 模块,减少了网络的计算量,并加入能增强有用特征的注意力机制CBAM,深度信息提取部分扩展了局部特征并多层次特征融合,获取更全面的特征;在输出阶段,为提高效率利用实例语义分割结果过滤背景点,再进行3D关键点检测,最终通过最小二乘拟合算法得到位姿信息。在LINEMOD、Occlusion LINEMOD和YCB-Video公共数据集上验证,其精度分别达到了99.8%、66.3%和94%,且参数量减少了31%,表明改进的位姿估计方法在保证精度的同时,也减少了参数量。
    110  基于多核扩展卷积的无监督视频行人重识别
    刘仲民,张长凯,胡文瑾
    2024, 39(5):1192-1203. DOI: 10.16337/j.1004-9037.2024.05.011
    [摘要](183) [HTML](110) [PDF 3.15 M](333)
    摘要:
    行人重识别旨在跨监控摄像头下检索出特定的行人目标。由于存在姿态变化、物体遮挡和背景干扰的不同成像条件等问题,导致行人特征提取不充分。本文提出一种利用多核扩展卷积的无监督视频行人重识别方法,使得提取到的行人特征能够更全面、更准确地表达个体差异和特征信息。首先,采用预训练的ResNet50作为编码器,为了进一步提升编码器的特征提取能力,引入了多核扩展卷积模块,通过增加卷积核的感受野,使得网络能够更有效地捕获到局部和全局的特征信息,从而更全面地描述行人的外貌特征;其次,通过解码器将高级语义信息还原为更为底层的特征表示,从而增强特征表示,提高系统在复杂成像条件下的性能;最后,在解码器的输出中引入多尺度特征融合模块融合相邻层中的特征,进一步减少不同特征通道层之间的语义差距,以产生更鲁棒的特征表示。在3个主流数据集上进行离线实验,结果表明该方法在准确性和鲁棒性上均取得了显著的改进。
    111  基于多任务强化学习的地形自适应模仿学习方法
    余昊,梁宇宸,张驰,刘跃虎
    2024, 39(5):1182-1191. DOI: 10.16337/j.1004-9037.2024.05.010
    [摘要](211) [HTML](146) [PDF 1.74 M](375)
    摘要:
    地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学习各类地形中的相关性。事实上,复杂地形自适应任务可以认为是一种多任务,子任务间的关系可以用不同地形影响因素来衡量,通过子任务模型的相互学习解决数据分布信息获取不全面的问题。基于此,本文提出一种多任务强化学习方法。该方法包含1个由子任务预训练模型组成的执行层和1个基于强化学习方法、采用软约束融合执行层模型的决策层。在LeggedGym地形仿真器上的实验证明,本文方法训练的智能体运动更加稳定,在复杂地形上的摔倒次数更少,并且表现出更好的泛化性能。
    112  基于智能合约和联邦存储的异步联邦学习模型
    刘星辰,杜军平,梁美玉,李昂
    2024, 39(6):1532-1542. DOI: 10.16337/j.1004-9037.2024.06.020
    [摘要](138) [HTML](129) [PDF 1.11 M](140)
    摘要:
    公共安全突发事件中对数据安全的重视程度越来越高,联邦学习由于不再需要上传数据到中心服务器进行计算,减少了隐私泄露的可能而受到广泛关注。然而当前基于智能合约的联邦学习由于运算较大,存在着效率低等缺陷,因此本文提出了一种面向公共卫生突发事件检测的智能合约与联邦存储的异步联邦学习方法。该方法允许联邦节点在任何时间加入和退出联邦学习;依托智能合约与分布存储,进一步增加了公共卫生安全领域的数据安全与训练效率;同时采用自适应的差分隐私对其上传到分布式存储节点的梯度进行动态保护,进一步降低了隐私泄露的风险。在公共数据集和公共卫生安全数据集上大量的实验表明,本文提出的方法在精度上优于已知的对比方法,且在达到相同精度的情况下所需时间更少。
    113  基于金字塔分割注意力和联合损失的表情识别模型
    谷瑞,顾家乐,宋翠玲
    2024, 39(6):1493-1504. DOI: 10.16337/j.1004-9037.2024.06.017
    [摘要](96) [HTML](96) [PDF 2.10 M](147)
    摘要:
    如何提取多尺度特征和建模远程通道间的语义依赖仍是表情识别网络面临的挑战。本文提出一种基于金字塔分割注意力的残差网络(Residual network based on pyramid split attention, PSA-ResNet)模型,该模型将ResNet50残差模块中的3×3卷积替换成金字塔分割注意力,以有效提取多尺度特征,增强跨通道语义信息的相关性。同时,为缩小同类表情之间的差异,扩大不同类表情之间的距离,在训练过程中引入了Softmax loss和Center loss联合损失函数优化模型参数。本文所提出的方法在Fer2013和CK+两个公开的数据集上进行仿真实验,分别取得了74.26%和98.35%的准确率,进一步证实了该方法相比前沿算法具有更好的表情识别效果。
    114  基于深度强化学习的不确定作业车间调度方法
    吴新泉,燕雪峰,魏明强,关东海
    2024, 39(6):1517-1531. DOI: 10.16337/j.1004-9037.2024.06.019
    [摘要](205) [HTML](238) [PDF 2.47 M](162)
    摘要:
    作业车间调度是具有非确定性多项式(Non-deterministic polynomial,NP)难的经典组合优化问题。在作业车间调度中,通常假设调度环境信息已知且在调度过程中保持不变,然而实际调度过程往往受到诸多不确定因素影响(如机器故障、工序变化)。本文提出基于混合优先经验重放的近端策略优化(Proximal policy optimization with hybrid prioritized experience replay,HPER-PPO)调度算法,用于求解不确定条件下的作业车间调度问题。将作业车间调度问题建模为马尔科夫决策过程,设计作业车间的状态特征、回报函数、动作空间和调度策略网络。为了提高深度强化学习模型的收敛性,提出一种新的混合优先经验重放模型训练方法。在标准数据集和基于标准数据集生成的数据集上评估了提出的调度方法,结果表明:在静态调度试验中,本文提出的调度模型比现有的深度强化学习方法和优先调度规则取得了更精确的结果。在动态调度试验中,针对作业车间的工序不确定性,本文所提出的调度模型可以在合理的时间内获得更精确的调度结果。
    115  多级注意力特征优化的道路场景实时语义分割
    张鹏,彭宗举,张文瑞,罗英国,韦玮,王培容
    2024, 39(6):1505-1516. DOI: 10.16337/j.1004-9037.2024.06.018
    [摘要](146) [HTML](112) [PDF 3.81 M](151)
    摘要:
    针对复杂多变道路场景下目标重叠导致图像边缘难以分割、小目标特征提取困难等问题,提出一种多级注意力特征优化的道路场景实时语义分割方法。首先,设计深度残差注意力模块,考虑不同层级下特征权重的差异性,通过压缩注意力机制来优化图像局部特征,从而改善像素之间的边缘效应;然后,设计通道注意力和深度聚合金字塔池化模块进一步加强语义上下文信息的提取,小目标信息丢失问题得到了改善;最后,设计注意力融合模块自上而下地融合不同尺度下的特征信息,实现全局特征信息下的有效交互,增强网络对重要特征的表达。Cityscapes和CamVid道路场景数据集上进行的实验测试分别达到74.4%和67.7%的分割精度,138帧/s和148帧/s的推理速度。与近几年其他优秀方法相比,该方法改善了图像边缘信息丢失,优化了对图像中小目标的分割准确度。
    116  基于多域信息融合的卷积Transformer脑电情感识别模型
    张学军,王天晨,王泽田
    2024, 39(6):1543-1552. DOI: 10.16337/j.1004-9037.2024.06.021
    [摘要](209) [HTML](135) [PDF 1.93 M](178)
    摘要:
    当前脑电信号的情感识别方法很少融合空间、时间和频率信息,并且大多数识别方法只能提取局部的脑电特征,在全局信息关联方面存在着局限性。本文提出了一种基于多域信息融合的三维特征卷积神经网络Transformer 机制(3D-CNN-Transformer mechanism, 3D-CTM)模型的脑电情感识别方法。该方法首先根据脑电信号的特性设计了一种三维特征结构,同时融合脑电信号的空间、时间以及频率信息;然后采用卷积神经网络模块学习多域信息融合的深层特征,再连接Transformer自注意力模块,提取特征信息内的全局关联性;最后利用全局平均池化整合特征信息进行分类。实验结果表明,3D-CTM模型在SEED数据集上的三分类平均准确率达到96.36%,在SEED-Ⅳ数据集上的四分类平均准确率达到87.44%,有效地提高了情感识别精度。