虚拟专辑

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  基于知识蒸馏的缅甸语光学字符识别方法
    毛存礼,谢旭阳,余正涛,高盛祥,王振晗,刘福浩
    2022, 37(1):173-182. DOI: 10.16337/j.1004-9037.2022.01.015
    [摘要](888) [HTML](2147) [PDF 1.40 M](2342)
    摘要:
    与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition, OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战。为了解决该问题,提出了一种基于知识蒸馏的缅甸语OCR方法,构建了使用卷积神经网络(Convolutional neural networks, CNN)+循环神经网络(Recurrent neural network, RNN)框架的教师网络和学生网络,以集成学习的方式进行训练的模型架构,在训练过程中通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取。实验结果表明,在没有背景噪声图像和有背景噪声图像作为训练数据集的情况下,本文模型的性能分别优于基线2.9%和2.7%。
    2  基于多标签学习的创伤救治层链决策研究
    赵鹏飞,刘华
    2022, 37(2):446-455. DOI: 10.16337/j.1004-9037.2022.02.017
    [摘要](978) [HTML](556) [PDF 725.83 K](1958)
    摘要:
    在现代创伤救治中,根据患者伤情进行合理而准确的院前评估并制定相应的救治决策对降低患者伤残率与死亡率具有重要意义。为了改善人工制定决策的缺陷,实现准确合理的标准化创伤救治决策制定,本文利用多标签学习思想,在对创伤救治决策进行深入分析与研究的基础上,将整体救治决策进行子决策划分,并提取出子决策对应的判定因素作为标签集。为了更好地考虑标签间的关联,将Classifier Chains算法的链式思想与多标签K近邻(Multi-label K-nearest neighbor,ML-KNN)算法融合,提出一种层链多标签学习算法,称为层链多标签K近邻算法(Layer chain ML-KNN,LCML-KNN)。LCML-KNN算法将标签依特点划分为两个层链,在第一层链的预测标签信息输出后对其进行独热编码,转化后的标签看作新特征放入第二层链进行预测与判断。LCML-KNN算法不仅更好地考虑了标签间的关联性,而且通过标签转化扩充了特征维数。在两个创伤类数据集上与现有各类多标签算法进行实验对比,结果验证了LCML-KNN算法的鲁棒性和优越性。
    3  基于局部特征的二维白化重构
    田甲略,朱玉莲,陈飞玥,刘佳慧
    2022, 37(2):308-320. DOI: 10.16337/j.1004-9037.2022.02.005
    [摘要](1059) [HTML](1557) [PDF 3.45 M](2444)
    摘要:
    白化是一种能够去除数据各属性间相关性的数据预处理方法。最近提出的二维白化重构方法(Two-dimensional whitening reconstruction, TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped-based TWR, RTWR)方法和基于块的TWR(Patch-based TWR, PTWR)方法。RTWR首先将图像进行重新组合使得每个列向量对应着原始图像的子块,然后将TWR预处理作用在重组后的图像上;而PTWR方法则将TWR直接作用在图像的每个子块上。在ORL、CMU PIE、AR三个人脸数据集上的实验结果表明,RTWR和PTWR预处理比TWR预处理更有利于后续分类性能的提高。
    4  基于XGBoost的微博流行度预测算法
    任敏捷,靳国庆,王晓雯,陈睿东,袁运新,聂为之,刘安安
    2022, 37(2):383-395. DOI: 10.16337/j.1004-9037.2022.02.011
    [摘要](1121) [HTML](1434) [PDF 1.60 M](2481)
    摘要:
    随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。
    5  基于深度学习的计算机视觉研究新进展
    卢宏涛,罗沐昆
    2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
    [摘要](4325) [HTML](4613) [PDF 12.48 M](6371)
    摘要:
    近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
    6  基于对比预测编码模型的多任务学习语种识别方法
    赵建川,杨浩铨,徐勇,吴恋,崔忠伟
    2022, 37(2):288-297. DOI: 10.16337/j.1004-9037.2022.02.003
    [摘要](927) [HTML](1753) [PDF 754.63 K](2145)
    摘要:
    语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络(Time-delayed neural network, TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能。本文提出一种ECAPA(Emphasized channel attention)-TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络。ECAPA-TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA-TDNN提取的帧级特征进行对比预测学习,通过联合损失函数进行优化训练。在东方语种竞赛数据集AP17-OLR的10类语种上进行了实验。实验结果表明,本文提出的网络在1 s,3 s和全长(All)测试集测得的识别准确率相比于基础网络都有明显的提高。
    7  基于多关系网络的话题意见领袖挖掘
    段震,倪云鹏,陈洁,张燕平,赵姝
    2022, 37(3):576-585. DOI: 10.16337/j.1004-9037.2022.03.008
    [摘要](858) [HTML](820) [PDF 1.41 M](5027)
    摘要:
    社交网络中的意见领袖在信息传播过程中起着重要的作用。传统的意见领袖挖掘仅基于网络结构,没有考虑特定话题或者事件下的作用,且目前基于话题的意见领袖挖掘仅基于单一的网络结构,并没有考虑到节点间的多种交互关系。本文提出一种基于多关系网络的话题意见领袖挖掘方法(Multi-relational networks, MRTRank),融合话题因素和节点间多种交互关系,通过一种属性网络表示学习算法,得到不同节点在多关系网络上的相似性,形成节点的转移概率矩阵,最终通过PageRank算法得到top-k个意见领袖。在真实Twitter数据集上的实验结果验证了本文提出的方法优于传统的意见领袖挖掘算法。
    8  基于特征扩展的微博短文本流热点话题检测方法
    李艳红,谢梦娜,王素格,李德玉
    2022, 37(3):621-632. DOI: 10.16337/j.1004-9037.2022.03.012
    [摘要](1063) [HTML](707) [PDF 1.00 M](5755)
    摘要:
    随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection, FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection, T-TD)和基于突发词的话题检测(Burst words-based topic detection, BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
    9  基于粗糙超立方体和离散粒子群的特征选择算法
    王思朝,罗川,李天瑞,陈红梅
    2022, 37(3):668-679. DOI: 10.16337/j.1004-9037.2022.03.016
    [摘要](992) [HTML](588) [PDF 1.99 M](5337)
    摘要:
    特征选择指在保持数据分类性能不变的同时,选出不含冗余特征的特征子集。粗糙超立方体方法可从特征相关度、依赖度和重要度这3方面对特征子集进行综合评估,已成功用于特征选择。特征子集组合的计算是一个NP-难问题,而传统的前向搜索策略只能得到局部最优结果。因此,本文设计了一种新的离散粒子群优化与粗糙超立方体方法相结合的算法。该算法首先引入相关度用以生成一组粒子,然后对粗糙超立方体方法的目标函数改进后作为优化函数,最后由粒子群迭代优化,找到最优的特征子集。实验结果表明,相比传统粗糙超立方体方法和采用粒子群优化的粗糙集方法,本文算法能够得到具有更小特征数量和更高分类性能的特征子集。
    10  基于深度学习的域适应方法综述
    田青,朱雅喃,马闯
    2022, 37(3):512-541. DOI: 10.16337/j.1004-9037.2022.03.004
    [摘要](2301) [HTML](3793) [PDF 2.90 M](11737)
    摘要:
    域适应主要应对跨不同数据分布的相似任务决策问题。作为机器学习领域的一个新兴分支,域适应受到了众多的研究和关注。随着近年深度学习的兴起,深度学习和域适应相结合的深度域适应研究得到了更多的关注。尽管已有各种深度域适应方法被提出,却鲜有系统的综述工作发表。为此,本文重点对现有的深度域适应方法进行全面回顾、分析和总结,为相关研究人员提供借鉴和参考。本文主要贡献包括以下方面:首先,对域适应的背景、概念和应用领域进行概括总结。其次,根据模型是否涉及对抗训练机制,将现有深度域适应划分为深度对抗域适应和深度非对抗域适应两大类方法,并逐类回顾和分析。然后,对常用的实验基准数据集进行归类和总结。最后,对现有深度域适应工作存在的问题和不足进行了归纳分析,并讨论了将来的可行研究方向。
    11  基于几何-语义联合约束的动态环境视觉SLAM算法
    沈晔湖,陈嘉皓,李星,蒋全胜,谢鸥,牛雪梅,朱其新
    2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010
    [摘要](2014) [HTML](1313) [PDF 1.53 M](9383)
    摘要:
    传统视觉同步定位和地图构建(Simultaneous localization and mapping, SLAM)算法建立在静态环境假设的基础之上,当场景中出现动态物体时,会影响系统稳定性,造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响,但是当场景中动态物体较多时,这些方法失效。针对这一问题,本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络,结合几何约束,在有效地分离静态特征点和动态特征点的同时,进一步实现多目标跟踪,改善跟踪结果,并能够获得运动物体的轨迹和速度矢量信息,从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明,该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。
    12  基于深度学习的频分复用大规模多输入多输出下行信道状态信息获取技术
    桂冠,王洁,杨洁,刘淼,孙金龙
    2022, 37(3):502-511. DOI: 10.16337/j.1004-9037.2022.03.003
    [摘要](2002) [HTML](970) [PDF 1.82 M](9630)
    摘要:
    大规模多输入多输出(Multiple input multiple output, MIMO)技术的演进是第6代(The sixth generation, 6G)无线通信系统性能进一步提升的重要支撑。随着天线阵列规模的持续扩大,频分复用(Fvequency division duplexing, FDD)大规模MIMO系统获取下行信道状态信息(Channel state information, CSI)面临着严峻挑战。深度学习具有强大的学习及处理高维数据的能力,能够为解决这一挑战提供新的方案。本文综述了基于深度学习的FDD大规模MIMO下行CSI获取技术,包括CSI反馈和预测技术。首先给出了基于深度学习的CSI反馈和预测的原理框架,其次分析比较了国内外相关研究成果的优越性能,为解决面向6G的FDD大规模MIMO系统获取下行CSI问题提供了可行的参考方案。最后讨论了FDD大规模MIMO下行CSI获取的有待进一步解决的开放性问题以及所对应的潜在研究方案。
    13  基于粒计算的支持向量数据描述分类方法
    方宇,曹雪梅,杨梅,王轩,闵帆
    2022, 37(3):633-642. DOI: 10.16337/j.1004-9037.2022.03.013
    [摘要](1619) [HTML](585) [PDF 1.21 M](8137)
    摘要:
    分类学习效果与有限训练样本的分布情况密切相关。支持向量数据描述(Support vector data description, SVDD)作为单一边界求解模型,不能良好刻画数据实际分布特征,从而导致部分目标对象落在超球以外。为了提高其分类能力,本文提出一种基于粒计算的支持向量数据描述(Granular computing-driven SVDD, GrC-SVDD)分类方法,构造多粒度层次的属性集合以及相应的多粒度超球。首先通过邻域自信息对当前粒度层的属性集合重要度进行计算,然后选择最佳属性集合对上一粒度层未达到纯度阈值的超球再训练,直到所有超球满足条件或者属性耗尽。实验部分讨论了算法参数对分类性能的影响,并通过学习获得超参数。结果表明,与SVDD及流行的分类算法相比,本文方法具有较好的分类性能。
    14  基于排序学习的城市设施选址方法
    韩文军,张亚平,陈红,陈丹,孙婉婷,赵斌
    2022, 37(3):609-620. DOI: 10.16337/j.1004-9037.2022.03.011
    [摘要](762) [HTML](719) [PDF 4.02 M](6384)
    摘要:
    提出一种采用排序学习技术解决城市设施选址问题的方法,并引入人类移动性特征提升选址的质量。首先对人类移动行为进行特征提取与分析,使用双流自编码器融合人类移动性特征与其他特征,提取表征向量;然后基于候选集的表征向量与排序学习网络进行地块排序;最后,基于真实的多源数据集进行实验,结果验证了本文提出的排序学习选址方法的有效性。
    15  融合主题模型和动态路由的小样本学习方法
    张淑芳,唐焕玲,郑涵,刘孝炎,窦全胜,鲁明羽
    2022, 37(3):586-596. DOI: 10.16337/j.1004-9037.2022.03.009
    [摘要](1701) [HTML](848) [PDF 1.89 M](8862)
    摘要:
    针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA, SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA, DRP-SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR-Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP-SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。
    16  用于迁移学习的多尺度领域对抗网络
    林佳伟,王士同
    2022, 37(3):555-565. DOI: 10.16337/j.1004-9037.2022.03.006
    [摘要](1012) [HTML](1398) [PDF 757.29 K](5857)
    摘要:
    深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。
    17  数据科学:从数字世界到数智世界
    张清华,高渝,申秋萍
    2022, 37(3):471-487. DOI: 10.16337/j.1004-9037.2022.03.001
    [摘要](2190) [HTML](1231) [PDF 1.63 M](10753)
    摘要:
    随着大数据的持续发展,数据已经成为国家的重大战略资源,对社会影响日益明显。为了更深入地挖掘和研究大数据背后所蕴藏的基本科学问题,新的研究领域——数据科学被提出。本文从大数据的发展历程出发,介绍了数据科学的兴起和内涵;分析了大数据和数据科学的研究现状,以及数据在各行业中的应用;简述了为探索数据科学本身的内涵和规律而建设的大数据试验场;讨论了数据科学的关键问题,以及在研究数据时应具有的新思维和新观念,以推动数据科学的发展,促进现实世界向数字世界的转型,最终实现社会生活的真正智能化。
    18  雷达辐射源信号分选识别特征性能评价的改进灰色关联模型
    普运伟,吴海潇,姜萤,余永鹏
    2022, 37(3):657-667. DOI: 10.16337/j.1004-9037.2022.03.015
    [摘要](848) [HTML](601) [PDF 1.45 M](2577)
    摘要:
    为解决雷达辐射源信号分选识别特征评价不够客观和缺乏评价依据等问题,构建了一种结合区间直觉模糊思想的改进灰色关联的特征评价模型。该模型引入信噪比维度来考察不同层次数据的动态差异,以区间型数据描述特征信息,建立区间直觉模糊综合决策矩阵;其次,采用特征间总离差最大化的优化模型来确定各指标权重;最后基于改进灰色关联框架,结合逼近理想点方法实现特征方案排序。仿真实验结果表明,所提方法能够给出与实际情况相一致的分选识别特征评价排序结果,并和未改进的灰色关联法分析结果基本一致,验证了所提方法的可行性和有效性。
    19  基于关键词结构编码的涉案微博评价对象抽取模型
    王静赟,余正涛,相艳,陈龙
    2022, 37(5):1026-1035. DOI: 10.16337/j.1004-9037.2022.05.008
    [摘要](758) [HTML](555) [PDF 960.79 K](1908)
    摘要:
    涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。
    20  可解释的深度TSK模糊系统综述
    王士同,谢润山,周尔昊
    2022, 37(5):935-951. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](2054) [HTML](1340) [PDF 840.68 K](4227)
    摘要:
    深度神经网络在多个领域取得了突破性的成功,然而这些深度模型大多高度不透明。而在很多高风险领域,如医疗、金融和交通等,对模型的安全性、无偏性和透明度有着非常高的要求。因此,在实际中如何创建可解释的人工智能(Explainable artificial intelligence, XAI)已经成为了当前的研究热点。作为探索XAI的一个有力途径,模糊人工智能因其语义可解释性受到了越来越多的关注。其中将高可解释的Takagi-Sugeno-Kang(TSK)模糊系统和深度模型相结合,不仅可以避免单个TSK模糊系统遭受规则爆炸的影响,也可以在保持可解释性的前提下取得令人满意的测试泛化性能。本文以基于栈式泛化原理的可解释的深度TSK模糊系统为研究对象,分析其代表模型,总结其实际应用场景,最后剖析其所面临的挑战与机遇。
    21  基于两阶段分层抽样的近似聚合查询方法
    房俊,赵博,左昌麒
    2022, 37(5):1049-1058. DOI: 10.16337/j.1004-9037.2022.05.010
    [摘要](985) [HTML](1186) [PDF 1.41 M](2033)
    摘要:
    以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。
    22  主成分分析阈值选择差异性分析研究
    张婧,刘倩
    2022, 37(5):1012-1017. DOI: 10.16337/j.1004-9037.2022.05.006
    [摘要](1106) [HTML](1185) [PDF 1.77 M](2360)
    摘要:
    主成分分析是特征提取和数据降维中常用的方法,在很多应用中一般选择平均特征值作为主成分选择的标准。但是主成分的多少与应用结果之间的关系目前还没有具体的分析结果。因此,提出一种主成分阈值选择差异性的实验分析方法,为不同应用中主成分分析阈值的选择提供依据。将本文分析方法应用于手写数字样本集MNIST进行降维处理,根据不同的阈值构建不同的神经网络进行分类,分析不同阈值下分类准确率的变化情况。实验结果表明主成分阈值选择在79%~81%之间(维度为41~50)时,分类准确率最高;低于或高于该区间,准确率随之下降。实验结果证明了主成分分析阈值的选择与应用结果之间不为正相关关系,且平均特征值不是一个硬性的选择标准。
    23  改进的自步深度不完备多视图聚类
    崔金荣,黄诚
    2022, 37(5):1036-1048. DOI: 10.16337/j.1004-9037.2022.05.009
    [摘要](964) [HTML](797) [PDF 1.96 M](2470)
    摘要:
    随着数据量的增大,多视图聚类中出现带有缺失视图数据的情况愈发常见,此问题被称为不完备多视图聚类,而引入深度模型进行聚类通常可以获得比浅层模型更为出色的表现。本文提出一种新颖的深度不完备多视图聚类模型,称为改进的自步深度不完备多视图聚类。在该模型中,充分考虑多视图数据之间的互补性,利用基于多视图特性的最近邻填充方案将缺失视图补全。使用多个自编码器分别获取多个视图数据的低维潜在特征,同时引入图嵌入策略保持潜在特征之间的几何结构。运用一致性原则将来自不同的视图潜在特征融合以获得一致潜在特征,在此基础上运用自步学习的方法来增强聚类效果。实验结果表明,对比现有的不完备多视图聚类模型,本文模型可以更加灵活且高效地应对各种不完备多视图聚类情况,提升了不完备多视图聚类的鲁棒性与表现效果。
    24  深度学习在有限视角稀疏采样光声图像重建中的应用
    孙正,候英飒
    2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](1728) [HTML](1154) [PDF 4.04 M](4554)
    摘要:
    光声成像(Photoacoustic imaging, PAI)是一种多物理场耦合的新型功能成像技术,高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时,若采用标准重建方法(如反投影、时间反演和延迟求和等)会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题,但存在计算成本高、需合理选择正则化方法等缺点。近年来,深度学习已经成为医学成像领域的首选方法,其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结,对主要方法进行分类归纳,并讨论不同方法的优势和不足。
    25  基于相同稀疏模式的稀疏主成分分析算法
    邵剑飞,浦蓉,黄伟,季建杰,郭鹏
    2022, 37(5):1084-1091. DOI: 10.16337/j.1004-9037.2022.05.013
    [摘要](1022) [HTML](593) [PDF 966.74 K](1886)
    摘要:
    稀疏主成分分析是一种用于降维和特征选择的无监督方法。由于计算多个主成分时主载荷向量间不具有相同的稀疏模式,导致难以从原始特征空间中确定出对主成分贡献最大的小部分变量,为解决此问题,提出一种自适应稀疏主成分分析(Adaptive sparse principal component analysis, ASPCA)算法。首先使用组套索模型,通过在载荷向量上施加块稀疏约束得出自适应稀疏主成分分析公式,随后对稀疏矩阵的不同列使用不同的调整参数获得自适应惩罚,最后运用块坐标下降法对自适应稀疏主成分分析公式进行两阶段优化,从而找到稀疏载荷矩阵和正交矩阵,实现降维的最优化。对稀疏主成分分析(Sparse principal component analysis, SPCA)算法、结构化且稀疏的主成分分析(Structured and sparse principal component analysis, SSPCA)算法和ASPCA算法进行仿真比较,结果表明ASPCA算法的降维性能更优,能提取更有价值的特征,从而显著提高了分类模型的平均分类准确率。
    26  基于句法和全文信息增强的中文事件检测方法
    王红,吴浩正
    2022, 37(5):1059-1069. DOI: 10.16337/j.1004-9037.2022.05.011
    [摘要](696) [HTML](514) [PDF 923.46 K](1859)
    摘要:
    针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。
    27  基于图卷积深浅特征融合的跨语料库情感识别
    杨子秀,金赟,马勇,戴妍妍,俞佳佳,顾煜
    2023, 38(1):111-120. DOI: 10.16337/j.1004-9037.2023.01.009
    [摘要](796) [HTML](551) [PDF 2.53 M](1852)
    摘要:
    语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用 OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。
    28  基于预训练与音素字节对编码的越南语识别
    沈之杰,郭武
    2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008
    [摘要](1077) [HTML](891) [PDF 893.81 K](1982)
    摘要:
    基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
    29  融合矩阵分解和代价敏感的微生物数据扩增算法
    王曦,温柳英,闵帆
    2023, 38(2):401-412. DOI: 10.16337/j.1004-9037.2023.02.015
    [摘要](499) [HTML](610) [PDF 3.49 M](1720)
    摘要:
    微生物会对人类健康产生直接影响,对相关数据的分析有助于疾病诊断。然而,采集到的数据存在类不平衡与高稀疏性两个问题。现有的过采样方法在一定程度上可缓解数据的类不平衡,但是难以应对微生物数据的高稀疏性。本文提出了一种融合矩阵分解和代价敏感的数据扩增算法,其包含3个技术。首先,将原始矩阵分解为样本子空间和特征子空间;其次,利用样本子空间的正向量及其近邻向量生成合成向量;最后,根据合成向量与所有负向量的距离对其过滤。实验在8个微生物数据集上进行,同时与5种过采样算法对比,结果表明本文所提算法能够增强正样本的多样性,在识别出更多正样本的同时,分类结果的代价更低。
    30  基于改进型Transformer编码器和特征融合的行人重识别
    赵倩,薛超晨,赵琰
    2023, 38(2):375-385. DOI: 10.16337/j.1004-9037.2023.02.013
    [摘要](876) [HTML](946) [PDF 2.69 M](1979)
    摘要:
    为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。
    31  基于非局部融合的多尺度目标检测研究
    马倩,曾凯,吴家文,沈韬
    2023, 38(2):364-374. DOI: 10.16337/j.1004-9037.2023.02.012
    [摘要](771) [HTML](513) [PDF 3.56 M](1815)
    摘要:
    针对现有的多尺度目标检测模型在面对尺度变换和遮挡场景时所使用的融合方法融合不充分,且没有捕捉长距离依赖关系的问题,本文设计了通道融合增强模块和非局部特征交互模块,用于学习不同通道特征之间的相关性和捕捉特征图之间的长距离依赖关系。此外,针对当前检测架构都是基于单金字塔检测结构,存在信息丢失的情况,设计了双金字塔结构,并将提出的融合方法与双金字塔结构结合,在保留原始特征信息的基础上,补充融合后的特征信息。实验结果表明,提出的方法在公共数据集KITTI与PASCAL VOC上与其他先进工作相比具有更高的检测精度,证明了该方法在目标检测任务中的有效性。
    32  学习几何结构特征的真实点云场景语义分割
    李嘉祥,宣士斌,刘丽霞,王款
    2023, 38(2):336-349. DOI: 10.16337/j.1004-9037.2023.02.010
    [摘要](794) [HTML](732) [PDF 3.32 M](1764)
    摘要:
    有效获取点云数据在空间上的结构性特征是点云语义分割的关键。针对以往方法没有很好综合利用全局和局部特征问题,提出一种新的空间结构特征——点的盒子特征用于语义分割,设计一种编码-解码结构的网络框架,下采样过程中使用几何结构特征模块学习点云的全局空间特征和局部邻域特征,上采样过程中按分辨率逐级恢复成完整尺寸特征图进行语义分割。其中,几何结构特征模块包含两个子模块,一个是全局特征模块,该模块学习点的“盒子(box)”特征以表现点云在采样空间内概括的粗糙几何特征;另一个是局部特征模块,该模块使用特征提取——注意力机制结构表现点云在局部邻域内精确的细粒度几何特征。在公开数据集S3DIS、Semantic3D上进行了实验并与其他方法比较,实验结果表明mIoU均领先目前大部分主流的方法,部分细则类IoU取得最高。
    33  基于联合图学习的多通道语音增强方法
    张鹏程,郭海燕,王婷婷,杨震
    2023, 38(2):283-292. DOI: 10.16337/j.1004-9037.2023.02.005
    [摘要](877) [HTML](593) [PDF 1.30 M](1784)
    摘要:
    考虑到通道间存在的空间关系影响着其降噪问题,图信号处理可以捕获该潜在关系,若直接采用其空间物理分布图,无法实时反映其时变特性,因此本文提出了一种基于联合图学习的多通道语音增强方法。首先,提出一种联合时间-空间图学习方法,以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标,优化阵列空间图和语音帧内图。基于学习的空间图和帧内图,构建多通道语音信号的时间-空间联合图。在此基础上,将多通道语音图信号进行联合图傅里叶变换,进而采用固定波束形成(Fixed beam forming,FBF)方法进行增强。实验结果表明,与传统的FBF方法相比,所提出的基于联合图学习的FBF(Joint graph learning based FBF, JGL-FBF)方法显著提升了增强语音的信噪比(Signal-to-noise ratio, SNR)和主观语音质量评估(Perceptual evaluation of speech quality, PESQ)。另外,实验结果也表明,JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。
    34  基于粒计算的多源信息融合方法综述
    徐伟华,黄旭东,蔡可
    2023, 38(2):245-261. DOI: 10.16337/j.1004-9037.2023.02.002
    [摘要](1525) [HTML](1504) [PDF 1.33 M](2782)
    摘要:
    多源数据是一种综合多个信息源或数据集的复杂数据类型,其主要特点是不同的信息源隐含不同的知识结构,且从不同的角度刻画和描述了样本以及样本之间的关系。如何协同地融合与集成多源数据,并从不同视角快速地为用户挖掘出整体决策知识,成为数据科学领域亟待破解的科学问题。经典粗糙集理论、多粒度方法、证据理论和信息熵是常见的、有效的多源信息融合方法,已取得较为丰硕的成果。本文基于粒计算的角度对多源信息融合工作进行综述研究,介绍了每种信息融合方法的基本概念以及主要研究思路,并提出了多源信息融合领域中存在的若干问题,为该领域的后续研究提供理论参考。
    35  基于深度域适应CNN决策树的跨语料库情感识别
    孙林慧,赵敏,王舜
    2023, 38(3):704-716. DOI: 10.16337/j.1004-9037.2023.03.018
    [摘要](594) [HTML](556) [PDF 1.39 M](1180)
    摘要:
    在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。
    36  基于传染病模型的突发事件网民情感演变分析
    仲兆满,李恒,杨洪,管燕
    2023, 38(3):676-689. DOI: 10.16337/j.1004-9037.2023.03.016
    [摘要](688) [HTML](833) [PDF 2.14 M](1097)
    摘要:
    突发事件发生后,准确地分析网民的情感状态,实现对网民情感状态演变的引导,对管控突发事件舆情、维护社会稳定有重大的现实意义。依据网民对突发事件的评论特性构建了网民情感状态的完备集,并从突发事件利益相关者和突发事件本身两个角度建立不同情绪集。依据传染病模型的传播方式,建立了基于SIS(Susceptible-infectious-susceptible)传染病模型的网民情感状态演变模型EP-SIS和EO-SIS。利用网民对“新型肺炎病毒”的微博评论对模型进行了实证研究,获取影响因子的权重,模型对网民负面情感转换率为0.72。本文构建的突发事件网民情感演变模型可以从不同角度干预,使突发事件中网民负面情感状态发生演变。
    37  视觉注意与语义感知联合推理实现场景文本识别
    佟国香,董田荣,胡珩彰
    2023, 38(3):665-675. DOI: 10.16337/j.1004-9037.2023.03.015
    [摘要](849) [HTML](525) [PDF 2.82 M](1262)
    摘要:
    场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。
    38  基于Tukey规则与初始中心点优化的K-means聚类改进算法
    柳菁,邱紫滢,郭茂祖,余冬华
    2023, 38(3):643-651. DOI: 10.16337/j.1004-9037.2023.03.013
    [摘要](692) [HTML](539) [PDF 941.15 K](1261)
    摘要:
    针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。
    39  基于多特征融合的无监督真值发现方法
    陈华凤,董永权,杨昊霖,张国玺
    2023, 38(3):629-642. DOI: 10.16337/j.1004-9037.2023.03.012
    [摘要](692) [HTML](561) [PDF 1020.11 K](1172)
    摘要:
    真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。
    40  基于随机傅里叶特征空间的高斯核近似模型选择算法
    张凯,门昌骞,王文剑
    2023, 38(3):616-628. DOI: 10.16337/j.1004-9037.2023.03.011
    [摘要](636) [HTML](854) [PDF 1.45 M](1392)
    摘要:
    核方法是一种把低维空间的线性不可分问题转化为高维空间中线性可分问题的方法,其广泛应用于多种学习模型。然而现有的核模型选择方法在大规模数据中计算效率较低,时间成本很大。针对这一问题,本文引入随机傅里叶特征变换,将原始核特征空间转换为另一个相对低维的显式随机特征空间,并给出核近似误差上界理论分析以及在核近似的随机特征空间中训练学习模型的误差上界,得到核近似的收敛一致性和误差上界与核近似参数之间的关系。基于随机傅里叶特征空间选择出最优模型参数,避免了对最优原始高斯核模型参数的大规模搜索,从而大幅降低原始高斯核模型选择所需的时间成本。实验表明,本文给出的误差上界确由核近似参数控制,核近似选择的最优模型相较于原始高斯核模型有较高的准确率,并且模型选择时间相对网格搜索法大幅减小。
    41  融合类别注意力的铝硅合金显微图像分割方法
    沈韬,金凯,司昌凯,郑剑锋,刘英莉
    2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007
    [摘要](529) [HTML](673) [PDF 4.29 M](1392)
    摘要:
    为了提取铝硅合金显微图像的初晶硅区域,提出一种结合类别注意力块(Class attention block, CAB)的改进模型类别注意力网络(Class attention network, CA-Net)。类别注意力块从特征图中计算各通道与每个类别的相关性信息,并将不同类别的相关性信息融合产生注意力权重,以使特征通道的权重与其对任务类别的贡献相关,从而增强重要特征的表达,并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验,本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法,CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。
    42  Multi-shapelet:一种基于shapelet的多变量时间序列分类方法
    詹熙,黎维,潘志松
    2023, 38(2):386-400. DOI: 10.16337/j.1004-9037.2023.02.014
    [摘要](906) [HTML](1014) [PDF 1.85 M](1854)
    摘要:
    shapelet是时间序列中最具有辨识性的子序列,其一经提出就被来自各个领域的研究人员广泛研究,并在此过程中提出了许多有效的shapelet发现技术用于进行时间序列分类。然而,多变量时间序列的候选shapelet可能长度不同且变量来源不同,故很难直接对其进行比较,这对基于shapelet多变量时间序列分类方法提出了独特的挑战。为了应对这一挑战,提出了一种基于无监督表示学习和shapelet的多变量时间序列分类方法Multi-shapelet。Multi-shapelet首先使用混合模型DC-GNN(Dilated convolution neural network and graph neural network, DC-GNN)作为编码器,将不同长度的候选shapelet嵌入统一的shapelet选择空间,以进行shapelet之间的比较;其次,提出了一种新的损失函数以无监督学习方式训练该编码器,使得DC-GNN对shapelet编码得到相应的嵌入(Embedding)后,属于同类shapelet对应的嵌入之间的相对位置形成的拓扑与原空间中shapelet之间相对位置形成的拓扑之间的关系更接近于一种等比例的缩小,这对后续基于相似性的剪枝过程十分重要;最后,使用K-means聚类和模拟退火算法进行shapelet剪枝和选择操作。在UEA的18个多变量时间序列数据集上的实验结果表明,Multi-shapelet的整体精度相比于其他方法得到了显著提升。
    43  特征分块重构的视频行人重识别算法
    王锦华,周非,白梦林,舒浩峰
    2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006
    [摘要](547) [HTML](508) [PDF 1.48 M](1271)
    摘要:
    基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配,从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性,采集到的行人轨迹会存在严重的外观丢失和错位,传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题,提出三维特征分块重构模型,利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息,在特征重构模型后加入三维卷积核,并且将它与现有的三维卷积网络相结合。此外,还引入一种由粗到细的特征分块重构网络,不仅能使模型在两种不同尺度的空间维度上进行特征重构,还能进一步减少计算开销。实验表明,由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。
    44  基于超像素块聚类与低秩特性的高光谱图像降噪
    张明华,武玄,宋巍,梅海彬,贺琪,苏诚
    2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005
    [摘要](791) [HTML](652) [PDF 10.70 M](1873)
    摘要:
    高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰,因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果,但由于其只利用了局部相似性或非局部自相似性,而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法,实现了分块的自适应划分与聚类,在较好地保留了局部细节的同时又充分利用了非局部空间自相似性,且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割,再对超像素块进行聚类,得到同物分块;然后对其建立低秩矩阵恢复模型并求解,最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验,并与其他基于低秩特性的方法进行比较,结果表明:本文方法对混合噪声,尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。
    45  基于标记补充的多标记特征选择算法
    余鹰,张志强,钱进,万明
    2023, 38(3):539-548. DOI: 10.16337/j.1004-9037.2023.03.004
    [摘要](532) [HTML](474) [PDF 1.67 M](1350)
    摘要:
    已有的多标记特征选择方法主要根据特征与标记之间的依赖度以及特征与特征之间的冗余度确定每个特征的重要度,然后根据重要度进行特征选择,常常忽略标记关系对特征选择的影响。针对上述问题,引入邻域互信息设计了基于标记补充的多标记特征选择算法(Multi-label feature selection algorithm based on label complementarity,MLLC),该算法将依赖度、冗余度以及标记关系作为特征重要度的评价要素,然后基于这3个要素重新设计特征重要度评估函数,使得选取的特征能够获得更佳的分类性能。最后,在6个多标记数据集上验证了MLLC算法的有效性和鲁棒性。
    46  基于统计感知策略的高斯混合模型求解方法
    陈佳琪,何玉林,黄哲学,FOURNIER-VIGER Philippe
    2023, 38(3):525-538. DOI: 10.16337/j.1004-9037.2023.03.003
    [摘要](759) [HTML](1130) [PDF 3.72 M](1305)
    摘要:
    高斯混合模型(Gaussian mixture model,GMM)是一种经典的概率模型,常被用于无监督学习领域来确定无类别标记样本点的类别分布。作为求解GMM参数的重要技术,期望最大化(Expectation maximization,EM)算法通过计算GMM对应似然函数的最优解确定基模型自身参数以及基模型的混合系数。利用EM算法求解GMM存在如下两个缺陷:EM算法易于陷入局部最优解以及EM算法确定GMM基模型相关参数的不稳定,尤其是针对多维随机变量。本文提出了一种基于统计感知(Statistical-aware,SA)策略的GMM求解方法——SA-GMM方法。该方法从估计给定数据集的未知概率密度函数入手,建立了核密度估计(Kernel density estimation,KDE)与GMM之间的关联。为避免KDE对“过平滑”窗口的选取,设计了同时最小化KDE与GMM之间的经验风险和KDE窗口结构风险的目标函数,进而确定了GMM的最优参数。在11个标准概率分布上的实验证明了SA-GMM方法的可行性、合理性和有效性,同时结果也表明SA-GMM能够获得显著优于基于EM算法的GMM及其变体的概率密度函数估计表现。
    47  基于局部实例匹配无监督式学习的行人重识别
    吴海丽,张月琴,庞俊奇
    2023, 38(4):947-958. DOI: 10.16337/j.1004-9037.2023.04.017
    [摘要](624) [HTML](735) [PDF 2.44 M](1099)
    摘要:
    无监督域适应(Unsupervised domain adaptation,UDA)方法通过全局特征分布匹配实现源域到目标域的知识迁移,但忽略了细粒度的局部实例信息。本文提出了一种基于双层域自适应(Two-tiered domain adaptation,TTDA)的无监督行人重识别方法,使用全尺寸网络(Omni-scale network,OSNet)作为骨干网络,在端到端深度学习框架中联合执行源域和目标域之间的全局特征分布匹配和局部实例匹配,从源域和目标域之间不同行人ID的关联中挖掘可迁移的有用知识,并通过知识选择机制提高了跨域适应性。在多个大型公开数据集上的实验结果表明,与其他先进方法相比,所提方法在源域到目标域的无监督行人重识别的平均精度均值(mean Average precision,mAP)和top-k命中率均取得显著提升。
    48  融合残差Inception与双向ConvGRU的皮肤病变智能分割
    顾敏杰,李雪,陈思光
    2023, 38(4):937-946. DOI: 10.16337/j.1004-9037.2023.04.016
    [摘要](604) [HTML](822) [PDF 1.32 M](975)
    摘要:
    由于皮肤病病灶的形状、颜色以及纹理差异极大,且边界不明确,使得传统深度学习方法很难对其进行准确分割。因此本文提出了一种融合残差Inception与双向卷积门控循环单元 (Convolutional gated recurrent unit, ConvGRU)的皮肤病变智能分割模型。首先设计了一种云边协同的皮肤病变智能分割服务网络模型,通过该网络模型,用户可以获得快速、准确的分割服务;其次,构建了一种新的皮肤病变智能分割模型,通过融合残差Inception与双向ConvGRU,该模型能融合不同尺度特征,提高模型特征提取能力,并能充分利用底层特征与语义特征之间的关系,捕获更丰富的全局上下文信息,取得更好的分割性能;最后,在ISIC 2018数据集上的实验结果表明,所提出的智能分割模型与近期提出的几种U-Net扩展模型相比,取得了更高的准确率与Jaccard系数。
    49  融合多特征和双向图分类的专家推荐方法
    丁婧娴,李翔,孙纪舟,周泓
    2023, 38(5):1214-1225. DOI: 10.16337/j.1004-9037.2023.05.019
    [摘要](649) [HTML](766) [PDF 1.15 M](1012)
    摘要:
    专家推荐是推荐系统领域的一个研究热点,专家信息特征提取的合理性直接影响到推荐的准确性。然而多数专家推荐方法未对多源信息构建特征关系文本图,忽略了属性特征之间的相关性,以及无法依据关联性拓展知识领域特征。针对以上问题本文提出了一种融合多特征和双向图分类的专家推荐方法CMFBG。首先通过多源信息融合获取专家个体多特征信息,并对不同属性特征构建类内文本图;然后分别使用基于Transformer的双向编码器表示(Bidirectional encoder representation from transformer, BERT)模型和图卷积神经网络(Graph convolutional network, GCN)模型对特征提取并融合;最后通过双向注意力机制增强源数据对图特征的扩展,实现图结构上的分类。在同一专家数据集上进行实验分析,结果表明在图分类任务中CMFBG精确率高于其他算法,达到了91.71%。
    50  基于交互注意力的突发事件评论对象情感分析
    仲兆满,黄贤波,熊玉龙
    2023, 38(5):1206-1213. DOI: 10.16337/j.1004-9037.2023.05.018
    [摘要](547) [HTML](847) [PDF 1.35 M](1027)
    摘要:
    现有突发事件网民情感分析研究多为粗粒度的情感分析,为了精准地分析突发事件中网民对不同对象的情感,提出一种基于RoBERTa词嵌入和交互注意力的突发事件细粒度情感分析方法。通过构建RoBERTa-CRF评论对象抽取模型,完成突发事件相关评论对象的抽取。利用交互注意力机制和预训练模型构建RoBBETa-IAN模型,实现评论对象的情感分析。最后,分析突发事件中网民对不同对象的情感,并可视化展示。在构建的微博新闻评论数据集上,RoBERTa-CRF评论对象抽取模型和RoBERTa-IAN情感分析模型的F1值分别为0.76和0.79。
    51  数据驱动的犹豫模糊语言信息策略优先权排序方法
    朱军,陈璐,徐海燕
    2023, 38(5):1191-1205. DOI: 10.16337/j.1004-9037.2023.05.017
    [摘要](603) [HTML](494) [PDF 1.08 M](934)
    摘要:
    数据挖掘使得决策者获取信息更为方便有效。本文在冲突分析图模型理论框架下,首先基于数据对冲突策略进行挖掘,实现了冲突策略的合理构建。其次,考虑到现实冲突中决策者对某策略的选择更多表现为一种被选择的可能性,将犹豫模糊语言信息和冲突分析图模型理论进行有效交叉融合,采用犹豫模糊语言信息进行评估,并基于粗糙集思想对犹豫模糊语义评价信息进行集结以代表这种可能性;进一步地,提出一种新的基于犹豫模糊语言信息的冲突分析图模型策略优先权排序法。最后,对沭河跨境水污染进行建模分析,对沭河水污染治理提出建议,并且就状态排序结果对比了新旧两种方法,结果验证本文提出方法的合理性。
    52  基于改进DAN的自然场景下越南文字的识别
    王利兵,俸亚特,文益民
    2023, 38(5):1058-1068. DOI: 10.16337/j.1004-9037.2023.05.005
    [摘要](708) [HTML](625) [PDF 3.88 M](965)
    摘要:
    越南语字符由拉丁字符结合变音符号组成,由于变音符号的存在易导致注意力漂移,并且越南语文字字符类别较多,字符间差异性较小,部分字符仅为变音符号的差异,使得越南文字的识别具有挑战性。本文在解耦注意力网络(Decoupled attention network, DAN)的基础上,设计了视觉特征与序列特征融合模块(Visual feature and sequence feature fusion module, VSFM),分别利用双向门控循环单元(Bidirectional gated recurrent unit, Bi-GRU)在水平方向和竖直方向进行序列建模,进一步缓解注意力漂移,增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块(Enhanced decoupled text decoder module, ETDM),在解码器中分类时结合了更多的特征信息,可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。
    53  结构约束下的生成对抗深度图修复
    卢奇,龚勋
    2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004
    [摘要](633) [HTML](494) [PDF 2.89 M](1046)
    摘要:
    不同于纹理图像,深度图像中的像素点代表采集设备到场景各点的距离,直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构,本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络(Generative adversarial networks,GAN)模型不同,本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度,替换待修复深度图像缺失区域,保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构,保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题,设计结构一致注意力模块(Structure coherent attention,SCA)加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证,利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用,有效改善了深度图像修复效果。
    54  基于深度学习的显著性目标检测综述
    孙涵,刘译善,林昱涵
    2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002
    [摘要](2696) [HTML](1455) [PDF 5.89 M](5115)
    摘要:
    显著性目标检测通过模仿人的视觉感知系统,寻找最吸引视觉注意的目标,已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展,显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作,全面回顾了3类不同模态的显著性目标检测任务,包括基于RGB图像、基于RGB-D/T(Depth/Thermal)图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点,并概述了研究难点;然后就各分支的研究技术路线和优缺点进行阐述和分析,并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后,对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。
    55  基于深度残差神经网络的GNSS接收机干扰抑制方案
    张国梅,张欣,尹佳文,王华
    2023, 38(2):293-303. DOI: 10.16337/j.1004-9037.2023.02.006
    [摘要](925) [HTML](943) [PDF 2.47 M](1855)
    摘要:
    在各种压制式和欺骗式干扰随机存在的全球卫星导航系统(Global navigation satellite system, GNSS)复杂应用环境下,传统先估计干扰信号参数再抵消的干扰抑制方法需要针对不同类型的干扰设计专门的参数估计和抵消算法,设计工作量大且缺乏通用性。为此本文提出了一种基于深度残差神经网络的干扰抑制方案。首先,针对典型的GNSS干扰类型搭建和训练了相应的残差神经网络,实现从受扰接收信号中直接提取有用卫星信号。然后,结合干扰分类识别结果,将对一维接收信号进行短时傅里叶变换(Short-time fourier transform, STFT)预处理后的时频谱二维信号送入与干扰类型相对应的残差网络,网络输出消除了干扰信号影响的有用卫星信号的时频二维谱。该方案无需对不同类型的干扰采用不同的参数估计和干扰抵消方法,对各类压制干扰和欺骗信号均采用相同的处理流程。实验结果表明相比于先估计干扰信号参数再进行抵消的干扰抑制方案,所提方案对各种GNSS干扰类型均具有较好的抑制效果,具备一定的通用性。
    56  基于上下文共指实体依赖的文档级关系抽取
    夏正新,苏翀,刘勇
    2023, 38(5):1226-1234. DOI: 10.16337/j.1004-9037.2023.05.020
    [摘要](548) [HTML](699) [PDF 1.50 M](893)
    摘要:
    文档级关系提取(Document relationship extraction,DRE)旨在多条句子中识别实体间的关系,而实体可能对应于跨越句子边界的多次提及,其中代词实体提及是因句子之间连接而普遍存在的语法现象,也是影响句子推理的一个重要因素。然而,以往的研究大多侧重于普通实体提及之间的关系,却很少关注代词实体提及的共指和关系捕获。本文提出了基于上下文共指实体依赖(Contextual coreference entity dependency,CCED)的文档级关系抽取模型,即通过融合普通实体和代词实体表示来构建共指实体依赖关系的上下文图结构,并在图上进行实体对间的全局交互推理,从而对实体关系的相互依赖进行建模。分别在公共数据集DocRED、DialogRE和MPDD上对CCED模型进行评估,结果显示在DocRED数据集上,与表现最好的基线模型DocuNet-BERT相比,CCED模型在测试集上的Ign F1性能提高0.55%,F1性能提高0.35%。在DialogRE和MPDD数据集上,与表现最好的基线模型COLN相比,CCED模型在DialogRE测试集上的F1性能提高1.02%,在MPDD测试集上的ACC性能提高1.19%。实验结果验证了新模型对于文档级关系抽取的有效性。
    57  基于高斯神经元的自组织映射网络研究
    刘达,陈松灿
    2023, 38(1):85-92. DOI: 10.16337/j.1004-9037.2023.01.006
    [摘要](769) [HTML](392) [PDF 1.66 M](1144)
    摘要:
    自组织映射网络(Self-organizing map network,SOM)是一种经典的无监督学习方法,具有自组织和联机学习功能。由于其简明与实用等特点,不断涌现出SOM变体以适应各类问题。然而,这些工作基本都采纳了确定性神经元建立网络,忽略了数据本身隐含的不确定性信息,导致这些模型的结果缺乏由置信度反映的可解释性,意味着SOM神经元的不确定性刻画能力不足。本文提出了一种高斯神经元SOM网络(Ganssian neuron som network, GNSOM),其神经元节点不再是确定性的,而是建模为高斯分布的高斯神经元,为SOM配备了不确定性功能用于表述数据的不确定性。在实现时,将输入数据同样高斯化,并用Jensen-Shannon(JS)散度代替SOM学习中的欧氏距离作为GNSOM学习中的相似性匹配度量,由此获得了不确定性表示。实验结果表明,GNSOM具有更好的训练效果,并能通过神经元节点的协方差矩阵反映数据的不确定性。由于这种对神经元的高斯化独立于SOM本身,因此能拓展应用于其他神经元模型。
    58  基于声学模型共享的零资源韩语语音识别
    王皓宇,JEON Eunah,张卫强,李科,黄宇凯
    2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007
    [摘要](898) [HTML](801) [PDF 1.22 M](2149)
    摘要:
    精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。
    59  基于深度强化学习的雷达智能抗干扰决策FPGA加速器设计
    李梓瑜,葛芬,张劲东,赵家琛
    2023, 38(5):1151-1161. DOI: 10.16337/j.1004-9037.2023.05.013
    [摘要](1067) [HTML](932) [PDF 1.67 M](1285)
    摘要:
    针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题,本文构建了一种适用于雷达智能抗干扰决策的深度Q网络(Deep Q network,DQN)模型,并在此基础上提出了一种基于现场可编程门阵列(Field programmable gate array,FPGA)的硬件决策加速架构。在该架构中,本文设计了一种雷达智能决策环境交互片上访问方式,通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程,在实现智能体深度神经网络的并行计算与流水控制加速的同时,进一步提升了决策实时性。仿真和实验结果表明,在保证决策正确率的前提下,所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统,在单次决策中实现了约46倍的速度提升,在连续决策中实现了约84倍的速度提升。
    60  基于深度展开和双流网络的高光谱图像融合
    刘丛,姚佳浩
    2023, 38(6):1406-1421. DOI: 10.16337/j.1004-9037.2023.06.015
    [摘要](796) [HTML](545) [PDF 3.02 M](1243)
    摘要:
    针对基于深度学习的高光谱图像融合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题,提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型,该模型将低分辨率高光谱图像(Low-resolution hyperspectral images, LR-HSI)和高分辨率多光谱图像(high-resolution multispectral images, HR-MSI)映射到低维子空间中。在融合模型设计中,考虑了LR-HSI和HR-MSI的共有信息以及LR-HSI的独有信息,并将HR-MSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后,使用双流网络获取更精确的高分辨率高光谱图像(High-resolution hyperspectral images, HR-HSI)。实验表明,该网络在高光谱图像融合中可以获得出色的效果。
    61  基于深度学习的自动睡眠分期研究综述
    刘颖,储浩然,章浩伟
    2023, 38(4):759-776. DOI: 10.16337/j.1004-9037.2023.04.002
    [摘要](2238) [HTML](1884) [PDF 5.02 M](2624)
    摘要:
    睡眠分期是为了分析多导睡眠图记录而进行的重要过程,在睡眠监测和睡眠障碍诊疗中发挥着关键作用。传统的手动睡眠分期需要专业知识,繁琐且耗时;而深度学习通过模拟人脑解释信息的机制来构建模型,具有强大的自动特征提取及特征表达功能。将深度学习方法应用于睡眠分期研究,不依赖于手工特征设计,能够实现睡眠分期的自动化。本文着眼于2017年以来的一些典型的自动睡眠分期研究,重点从单视图和多视图输入两个方面系统回顾了应用于自动睡眠分期中的深度学习模型,并分析了多视图模型存在的难点,指出了其具有的潜在研究价值。最后,对自动睡眠分期未来的研究方向进行了探讨。
    62  基于局部相似性学习的鲁棒非负矩阵分解
    侯兴荣,彭冲
    2023, 38(5):1125-1141. DOI: 10.16337/j.1004-9037.2023.05.011
    [摘要](606) [HTML](413) [PDF 2.38 M](920)
    摘要:
    现有的非负矩阵分解方法往往聚焦于数据全局结构信息的学习,在很多情况下忽略了对数据局部信息的学习,而局部学习的方法也通常局限于流行学习,存在一些缺陷。为解决这一问题,提出了一种基于数据局部相似性学习的鲁棒非负矩阵分解算法(Robust nonnegative matrix factorization with local similarity learning, RLS-NMF)。采用一种新的数据局部相似性学习方法,它与流形方法存在显著区别,能够同时学习数据的全局结构信息,从而能挖掘数据类内相似和类间相离的性质。同时,考虑到现实应用中的数据存在异常值和噪声,该算法还使用l2,1范数拟合特征残差,过滤冗余的噪声信息,保证了算法的鲁棒性。多个基准数据集上的实验结果显示了该算法的最优性能,进一步证明了该算法的有效性。
    63  基于机器学习的超声造影分析综述
    万鹏,刘晗,赵俊勇,薛海燕,刘春蕊,邵伟,孔文韬,张道强
    2023, 38(4):741-758. DOI: 10.16337/j.1004-9037.2023.04.001
    [摘要](1499) [HTML](1554) [PDF 3.62 M](2092)
    摘要:
    超声造影(Contrast-enhanced ultrasound, CEUS)通过外周静脉注入超声造影剂,显著增强来自肿瘤微血管的血流信号,便于临床医生以实时、动态的方式评估肿瘤血管生成、周边浸润等,广泛应用于多器官病变诊断、预后评估和治疗方案规划等方面。近年来,以深度学习为代表的机器学习方法快速发展,为动态超声造影智能分析带来新的机遇。深度学习方法很大程度上拓宽了超声造影临床应用范围,提高了其诊疗效能。但与常规超声影像类似,超声造影仍然存在斑点噪声、呼吸运动干扰和标准化程度低等问题,使得动态灌注时间、空间信息挖掘面临挑战。本文系统性回顾了近年来超声造影智能分析相关工作,涵盖良恶性鉴别、恶性分级、疗效预测和诊疗方案选择等方面应用,总结了当前影像组学及深度学习方法在超声造影分析领域的最新进展,并指出当前研究的局限性和未来发展方向。
    64  基于时空依赖关系和特征融合的弱监督视频异常检测
    柳德云,李莹,周震,吉根林
    2024, 39(1):204-214. DOI: 10.16337/j.1004-9037.2024.01.018
    [摘要](776) [HTML](625) [PDF 2.44 M](1163)
    摘要:
    弱监督视频异常检测由于抗干扰性强、数据标注要求低,成为视频异常事件检测研究的热点。在现有的工作中,大多数弱监督视频异常检测方法认为各个视频段独立同分布,单独判断每个视频段是否异常,忽略了视频段间的时空依赖关系。为此,提出了一种基于时空依赖关系和特征融合的弱监督视频异常检测方法,在保留视频段原始特征的同时,使用视频段之间的索引距离和特征相似程度拟合视频段的时间和空间依赖关系,构建视频段的关系特征。通过融合原始特征和关系特征,更好地表达视频的动态特性和时序关系。在UCF-Crime和ShanghaiTech 两个基准数据集上进行了大量实验,实验结果表明所提方法的AUC指标优于其他方法,AUC值分别达到了80.1%和94.6%。
    65  一种面向大规模资源发现的分布式局部聚类方法
    孟新宇,潘文宇,马艺宁
    2024, 39(1):215-222. DOI: 10.16337/j.1004-9037.2024.01.019
    [摘要](497) [HTML](411) [PDF 701.27 K](996)
    摘要:
    在大规模资源环境下,传统的资源索引机制导致Peer结点数量急剧增加和负载均衡性能下降,影响查询效率和系统稳定性。本文提出了一种质心模型的局部资源聚类方法,通过将相近资源聚类于单一结点并选出代表性键,有效减少了P2P(Peer-to-peer)网络中的Peer结点规模。此外,局部聚类机制集中处理距离相近的键,避免了资源覆盖的过度膨胀。实验结果显示,基于质心模型的Skip Graph算法不仅降低了查询复杂度,提高了负载均衡性能,而且在网络规模、数据量及查询复杂度方面展现出优秀的扩展性,更好地适应大规模资源发现的需求。
    66  基于多重注意力和schatten-p范数的息肉分割网络
    李苏,刘国奇,刘栋,赵曼琪
    2024, 39(1):223-235. DOI: 10.16337/j.1004-9037.2024.01.020
    [摘要](728) [HTML](559) [PDF 4.76 M](1141)
    摘要:
    自动准确的息肉定位分割方法可以在结直肠癌病变早期及时地发现息肉,大大降低癌变几率。编解码结构作为近年来息肉分割中最主流的网络结构,已经得到了很大的改进,如提高模型捕获全局上下文特征和局部特征的能力,使用深层特征对浅层解码做指导。但是息肉形状和大小不一,在编码时,由于卷积特性容易过于陷入局部信息挖掘,而失去远程信息依赖关系;还有一些息肉图像存在对比度低、空间复杂的特性,导致息肉与背景两者极易混淆。本文提出了基于多重注意力和schatten-p 范数的息肉分割网络。其中,轴向多重注意力模块利用轴向注意力补充图像中的远程上下文关系,同时补充对边缘、背景信息的关注以实现特征互补,在注意全局特征的同时加强对局部细节特征的捕捉;利用矩阵奇异值和矩阵隐含信息的关联性,引入schatten-p 范数作约束,从矩阵角度分析数据,辅助模型辨别前景和背景。通过设置大量实验,证明了本文提出方法的有效性,并且MASNet在Kvasir-SEG数据集上对比不同的方法,取得了较好的分割结果。
    67  基于数字孪生和强化学习的低空智联网协同认知干扰
    沈高青,蔡圣所,雷磊,贲德
    2024, 39(1):15-30. DOI: 10.16337/j.1004-9037.2024.01.003
    [摘要](1772) [HTML](2571) [PDF 2.45 M](1545)
    摘要:
    针对低空智联网协同认知干扰决策过程中,多架电子干扰无人机对抗多部多功能雷达的干扰资源分配问题,提出了一种基于数字孪生和深度强化学习的认知干扰决策方法。首先,将协同电子干扰问题建模为马尔可夫决策问题,建立认知干扰决策系统模型,综合考虑干扰对象、干扰功率和干扰样式选择约束,构建智能体动作空间、状态空间和奖励函数。其次,在近端策略优化(Proximal policy optimization, PPO)深度强化学习算法的基础上,提出了自适应学习率近端策略优化(Adaptive learning rate proximal policy optimization, APPO)算法。同时,为了以高保真的方式提高深度强化学习算法的训练速度,提出了一种基于数字孪生的协同电子干扰决策模型训练方法。仿真结果表明,与已有的深度强化学习算法相比,APPO算法干扰效能提升30%以上,所提训练方法能够提高50%以上的模型训练速度。
    68  基于图神经网络的无人机网络表征与优化技术
    承楠,傅连浩,王秀程,尹志胜
    2024, 39(1):44-59. DOI: 10.16337/j.1004-9037.2024.01.005
    [摘要](936) [HTML](2191) [PDF 1.77 M](1362)
    摘要:
    无人机作为低空智联网的重要组成部分,在无线通信领域已经被广泛应用,然而在无人机网络规模和拓扑结构的不断变化时,现有解决方案常常遭遇诸多挑战,如收敛速度缓慢、实时响应能力不足、训练成本高昂以及泛化能力受限等。针对这些问题,本文提出了一种基于图神经网络(Graph neural network, GNN)的无人机网络观测表征和决策方案。研究首先通过图建模方法对无人机与其观测实体之间的关系进行建模,设计了一种基于GNN的表征方案,并利用机器学习算法进行预训练,以适应动态变化的观测空间。针对决策空间的动态特性,进一步提出了一种基于边决策的GNN模型,该模型通过图建模及边权重拟合,以增强对动态决策空间的适应性。此外,通过两个无人机网络案例的研究,本文验证了所提出方案的有效性和先进性,展现了其在实际无人机网络应用中的潜力。
    69  基于事件信息与深度学习的高动态范围三维重建
    王杰,魏振东,王启江,张启灿,王亚军
    2024, 39(2):337-347. DOI: 10.16337/j.1004-9037.2024.02.007
    [摘要](1025) [HTML](1100) [PDF 3.90 M](1194)
    摘要:
    采用光学三维成像技术测量金属零件、黑色物体以及半透明物体等高动态范围(High dynamic range,HDR)表面的三维轮廓是一个极具挑战性的问题。目前,传统方法对存在较低反射以及半透明区域的场景进行重建还有一定的局限性,半透明物体的内部反射噪声很难消除。现有基于深度学习的方法通常使用相对较强的激光强度,这可能会损坏样品,同时会出现采集图像过曝现象,需要对激光强度进行繁琐的调整。针对这些问题,本文提出基于事件信息和深度学习算法的高动态场景三维测量方法。事件相机通过异步记录单个像素的亮度变化,无需等待全局曝光时间,具有高动态响应范围,能够充分采集到HDR场景的激光条纹反射信息。引入深度卷积神经网络(Deep convolutional neural network,DCNN)来消除半透明物体的内部噪声以及金属物体高反光的过曝影响,同时增强弱激光条纹图像质量。实验结果表明,本文方法能够应用低功率线激光扫描成功实现HDR场景的高质量三维重建。
    70  一种跳转向量的隐性加权分数傅里叶变换通信方法
    刘芳,黄珂婷,侯宇,冯永新
    2024, 39(2):445-455. DOI: 10.16337/j.1004-9037.2024.02.017
    [摘要](622) [HTML](439) [PDF 2.76 M](984)
    摘要:
    加权分数傅里叶变换(Weighted fractional Fourier transform,WFRFT)技术可以极大地改变信号的特性,使信号的统计特性多样化,从而有效地保障通信信息安全。为解决单参数WFRFT通信抗扫描能力不足的问题,以单参数WFRFT为切入点,深入研究单参数分数域的形成机理,分析其潜在的微观特征和暗特征,从而提出了一种基于跳转向量的隐性WFRFT通信方法(Implicit WFRFT communication method of jump vector,IWVJ)。利用调制阶数与星座图的关系,建立了跳变矩阵和跳变向量,并以此制定了控制规则。此外,通过跳变向量控制获得动态调制阶数,从而达到安全通信的目的。仿真结果表明,IWVJ方法对授权接收机具有较高的反变换解调相似度和较低的误码率,相比于具有普适扫描能力的非授权接收机性能更优。同时对解调阶数误差、基础调制阶数和跳转频率等参数的设置给出了适用的建议,使IWVJ方法能够更好地应用于通信系统,为具有抗干扰、抗截获和抗欺骗能力的保密通信提供技术依据。
    71  一种半监督金融事件多标签分类方法
    杨卓峰,李旸,李德玉
    2024, 39(2):385-394. DOI: 10.16337/j.1004-9037.2024.02.011
    [摘要](621) [HTML](560) [PDF 1.09 M](947)
    摘要:
    随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。
    72  基于多任务学习的语音情感识别
    李云峰,闫祖龙,高天,方昕,邹亮
    2024, 39(2):424-432. DOI: 10.16337/j.1004-9037.2024.02.015
    [摘要](993) [HTML](896) [PDF 1.60 M](1327)
    摘要:
    在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。
    73  多粒度三支决策研究进展
    钱进,郑明晨,周川鹏,刘财辉,岳晓冬
    2024, 39(2):361-375. DOI: 10.16337/j.1004-9037.2024.02.009
    [摘要](1063) [HTML](757) [PDF 2.79 M](1648)
    摘要:
    多粒度三支决策利用三支决策理论,从多视角、多层次对复杂问题进行数据分析与处理,逐渐成为一种高效、可靠的智能决策方法。本文对多粒度三支决策的研究工作进行综述,主要介绍了多粒度融合策略、多视角三支决策和多层次三支决策,以及从定性和定量两个角度探讨了多粒度三支决策,讨论了不同多粒度三支决策模型之间的关系,并指出了多粒度三支决策研究中存在的若干问题,为该领域的深入研究提供参考。
    74  基于自注意力机制的音频对抗样本生成方法
    李珠海,郭武
    2024, 39(2):416-423. DOI: 10.16337/j.1004-9037.2024.02.014
    [摘要](801) [HTML](885) [PDF 1.40 M](1209)
    摘要:
    随着个人语音数据在网络上的传播以及自动说话人识别算法的发展,个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下,使得自动说话人识别算法失效,从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法FoolHD模型的基础上引入了自注意力机制来改进对抗样本生成,该方法称为FoolHD-MHSA。首先,使用卷积神经网络作为编码器来提取输入音频频谱的对抗扰动谱图;然后利用自注意力机制从全局角度提取扰动谱不同部分特征的关联特征,同时将网络聚焦到扰动谱中的关键信息、抑制无用信息;最后,使用解码器将处理后的扰动谱隐写到输入频谱中得到对抗样本频谱。实验结果表明,FoolHD-MHSA方法生成的对抗样本相比FoolHD方法有着更高的攻击成功率和平均客观语音质量评估(Perceptual evaluation of speech quality,PESQ)得分。
    75  分布式稀疏软大间隔聚类
    谢云轩,陈松灿
    2024, 39(2):376-384. DOI: 10.16337/j.1004-9037.2024.02.010
    [摘要](460) [HTML](452) [PDF 712.48 K](850)
    摘要:
    虽然软大间隔聚类(Soft large margin clustering,SLMC)相比其他诸如K-Means等算法具有更优的聚类性能与某种程度的可解释性,然而当面对大规模分布存储数据时,均遭遇了同样的可扩展瓶颈,其涉及的核矩阵计算需要高昂的时间代价。消减此代价的有效策略之一是采用随机Fourier特征变换逼近核函数,而逼近精度所依赖的特征维度常常过高,隐含着可能过拟合的风险。本文将稀疏性嵌入核SLMC,结合交替方向乘子法(Alternating direction method of multipliers, ADMM),给出了一个分布式稀疏软大间隔聚类算法(Distributed sparse SLMC, DS-SLMC)来克服可扩展问题,同时通过稀疏化获得更好的可解释性。
    76  垂直领域大模型的定制化:理论基础与关键技术
    陈浩泷,陈罕之,韩凯峰,朱光旭,赵奕晨,杜滢
    2024, 39(3):524-546. DOI: 10.16337/j.1004-9037.2024.03.003
    [摘要](3280) [HTML](3236) [PDF 2.11 M](3403)
    摘要:
    随着 ChatGPT 等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。
    77  联合张量补全与循环神经网络的时间序列插补法
    何军,赖赵远,时勘
    2024, 39(3):598-608. DOI: 10.16337/j.1004-9037.2024.03.008
    [摘要](888) [HTML](859) [PDF 1.48 M](1189)
    摘要:
    现存的插补方法大致分为基于统计的插补法和基于深度学习的插补法。基于统计的插补法只能捕捉线性时间关系,导致无法精准建模时间序列的非线性关系;基于深度学习的插补法往往没有考虑到不同时间序列之间的相关性。针对现有方法的问题,本文提出了联合张量补全与循环神经网络的时间序列插补法。首先,将多元时间序列建模成张量,通过张量的低秩补全捕获不同时间序列之间的关系。其次,提出了一个基于时间的动态权重,将张量插补结果和循环神经网络的预测结果进行融合,避免因为连续缺失导致的预测误差累积。最后,在多个真实的时间序列数据集上对所提方法进行了实验评估,结果显示该模型优于已有相关模型,且基于插补后的时间序列可以提升时间序列预测效果。
    78  基于特征融合与嵌入的人脸图像盲修复算法
    霍智勇,胡山林
    2024, 39(3):609-616. DOI: 10.16337/j.1004-9037.2024.03.009
    [摘要](747) [HTML](757) [PDF 2.70 M](1007)
    摘要:
    人脸图像盲修复是从未知退化中恢复出高质量的人脸图像,其不适定性往往会造成修复出的图像出现局部纹理缺失或面部成分不匹配的结果,为此提出基于特征融合与嵌入的人脸图像盲修复算法。通过提取退化输入的面部先验特征,采用多头交叉注意力进行特征交互融合和全局上下文建模,将面部先验嵌入预训练生成网络的潜在空间中,并基于损失函数进行优化,修复因退化而丢失或损坏的局部纹理,实现真实性与忠实度之间的平衡。数值实验在3个真实退化图像数据集上进行,本文方法在客观指标和主观质量上都优于现有方法,最后的消融实验验证了退化人脸图像盲修复算法的有效性。
    79  基于直觉模糊相似关系的三支决策模型
    吕明明,薛占熬,杨梦丽,辛现伟,孙林
    2024, 39(3):617-633. DOI: 10.16337/j.1004-9037.2024.03.010
    [摘要](625) [HTML](557) [PDF 2.38 M](932)
    摘要:
    针对一些直觉模糊相似关系使直觉模糊集中对象间的相似度过于集中或者相异度过高,导致不合理的分类结果的问题,以及在构造直觉模糊相似关系时,对象间的相似度和相异度容易受到不重要属性条件信息影响的问题,本文在直觉模糊集和可能性理论基础上,提出一种基于直觉模糊相似关系的三支决策模型。首先,给出可能性测度和必要性测度的定义,结合Hausdorff度量,构造一种距离公式,并证明其性质,定义了直觉模糊集中对象间的相似度和相异度,构造了新的直觉模糊相似关系;然后定义了直觉模糊相似关系下的(λ1λ2)-截集及其直觉模糊(λ1λ2)-截集下的相似类,并进一步求出目标集的正域、负域和边界域;最后通过UCI数据集和实例验证了该模型的合理性和有效性。
    80  基于增强生长型神经气的高维多目标进化算法
    薛明,王鹏,童向荣
    2024, 39(3):634-648. DOI: 10.16337/j.1004-9037.2024.03.011
    [摘要](692) [HTML](621) [PDF 1.04 M](857)
    摘要:
    随着对高维多目标优化问题的深入研究,带有不规则Pareto前沿的高维多目标优化问题因其复杂的Pareto前沿分布,给现有方法的求解带来了挑战。针对上述问题,提出一种基于增强生长型神经气的高维多目标进化算法,该算法综合生长型神经气网络的学习特性与二元质量指标的优化特性来增强种群在不规则Pareto前沿的收敛压力。首先,设计了一种增强的生长型神经气网络,该网络利用Pareto最优前沿的拓扑信息指导种群向Pareto最优前沿方向收敛。然后,提出了一种联合度量指标以配合Pareto支配信息来综合评价个体的收敛性。最后,提出一种基于自适应参考点的环境选择增强种群在高维目标空间的多样性。为验证所提算法的性能,在DTLZ和WFG基准问题集中的44个不规则高维多目标优化问题与5种先进的高维多目标进化算法进行对比实验。实验结果表明,所提出的基于增强生长型神经气的高维多目标进化算法的整体性能优于对比算法。
    81  一种基于稀疏优化和Nesterov动量策略的模型剪枝算法
    周强,陈军,鲍蕾,陶卿
    2024, 39(3):659-667. DOI: 10.16337/j.1004-9037.2024.03.013
    [摘要](737) [HTML](590) [PDF 1.51 M](850)
    摘要:
    随着深度学习快速发展,模型的参数量和计算复杂度爆炸式增长,在移动终端上部署面临挑战,模型剪枝成为深度学习模型落地应用的关键。目前,基于正则化的剪枝方法通常采用L2正则化并结合基于数量级的重要性标准,是一种经验性的方法,缺乏理论依据,精度难以保证。受Proximal梯度方法求解稀疏优化问题的启发,本文提出一种能够在深度神经网络上直接产生稀疏解的Prox-NAG优化方法,并设计了与之配套的迭代剪枝算法。该方法基于L1正则化,利用Nesterov动量求解优化问题,克服了原有正则化剪枝方法对L2正则化和数量级标准的依赖,是稀疏优化从传统机器学习向深度学习的自然推广。在CIFAR10数据集上对ResNet系列模型进行剪枝实验,实验结果证明Prox-NAG剪枝算法较原有剪枝算法性能有所提升。
    82  显式知识注入的任务型对话理解模型
    李帅鹏,王平辉,孙望淳,杨阳,杜友田,马小科,杜永杰
    2024, 39(3):668-677. DOI: 10.16337/j.1004-9037.2024.03.014
    [摘要](633) [HTML](598) [PDF 1.52 M](905)
    摘要:
    传统对话理解模型依赖对话历史识别用户意图,由于缺乏丰富的知识信息,对生僻或特有内容的理解能力欠佳。通过隐式编码将知识加入模型的方法将知识注入与模型训练高度绑定,难以适应知识库的更新迭代,也会导致知识噪声,引入无关知识破坏原有语义。为解决上述问题,本文提出一种显式知识注入的多任务学习对话理解模型。将知识以自然语言形式插入到对话文本中,即插即用,满足知识源动态发展的需要;通过对话理解的主任务,关联知识识别的辅助任务,进行多任务学习,减少知识噪声。实验结果表明,与现有方法相比,本文提出的模型在意图识别和语义槽填充任务上的宏F1值分别提升了4.87%和2.09%。
    83  基于Transformer的路网轨迹重建方法
    梅宇生,赵卓峰
    2024, 39(3):678-688. DOI: 10.16337/j.1004-9037.2024.03.015
    [摘要](997) [HTML](879) [PDF 1.46 M](1077)
    摘要:
    轨迹重建是针对低采样轨迹数据进行轨迹补充还原的一类轨迹数据处理研究。为了提高轨迹重建的准确性,一些工作通过引入Seq2Seq等深度学习模型来提升轨迹重建的效率与精度,但由于现有工作忽略了轨迹间的长距离依赖问题,导致轨迹还原中还存在准确率不高等问题。本文提出一种基于Transformer的轨迹重建模型ZTrajRec(Zero-based trajectory recovery),通过Transformer编码器捕获轨迹间的长距离依赖,注意力机制用于当前轨迹和历史轨迹相似性查询来进行轨迹在路网上的重建。实验结果表明,在真实北京出租车数据集上,ZTrajRec比基准模型最好效果在召回率上提升3%~4%。本文最后对重建结果进行了可视化分析以展示其合理性。
    84  融合类增强与多尺度自适应的小样本学习方法
    董驰静,张孙杰,任涵
    2024, 39(3):689-698. DOI: 10.16337/j.1004-9037.2024.03.016
    [摘要](653) [HTML](644) [PDF 1.55 M](1007)
    摘要:
    为了解决小样本学习存在特征信息提取不足、难以准确地捕获局部明显特征信息的问题,提出了一种融合类增强与多尺度自适应的小样本学习方法。首先在特征的层面上对图像进行类增强,通过将特征图的每次激活与其邻域相关联来编码丰富的语义结构,使提取后的类内特征明显,更利于当前的分类任务。其次通过多尺度特征生成来提取不同尺度上图像特征的低层表示。最后对每个尺度上的语义相关矩阵进行权重分配与相似元素最大化计算查询图像与各支持集类别图像之间的语义相似度,多尺度信息进行融合后,对目标图像进行分类。在5-way 1-shot和5-way 5-shot设置中,该方法在miniImageNet数据集上的均值平均精度(mean Average precision,mAP)分别为56.83%和75.76%,在常用细粒度图像数据集Stanford Cars和CUB-200-2011分类基准上分别达到了79.33%和93.92%、66.33%和85.78%,均优于现有方法的最好结果。
    85  融合多特征和表情情感词典的性别对立言论识别方法
    马子晨,张顺香,刘云朵,朱广丽
    2024, 39(3):699-709. DOI: 10.16337/j.1004-9037.2024.03.017
    [摘要](741) [HTML](748) [PDF 2.24 M](941)
    摘要:
    为识别相关极端言论,提出了一种融合多特征和表情情感词典的性别对立言论识别方法。首先,使用BERT(Bidirectional encoder representation from transformer)提取输入文本的字符特征,并使用Word2Vec提取输入文本中五笔、郑码以及拼音3个方面的特征;然后,将这4个方面的特征进行融合,再输入到Bi-GRU(Bi-directional gated recurrent unit)网络中学习更深层次的语义信息;最后,通过全连接层加SoftMax函数计算出情感极性概率,并融合表情情感词典判别输入文本是否为性别对立言论。通过在自行收集的中文性别对立数据集上进行实验,与未加入特征和表情情感词典的方法相比,在F1值上有5.19%的提升。同时,在公开中文情感分析数据集Weibo_senti_100k上进行验证,证明了本方法的泛化性。
    86  基于多模态多粒度融合网络的癫痫识别方法
    戚晓雨,丁卫平,鞠恒荣,程学云,黄嘉爽
    2024, 39(3):710-723. DOI: 10.16337/j.1004-9037.2024.03.018
    [摘要](1273) [HTML](655) [PDF 2.10 M](1181)
    摘要:
    结构脑网络(Structural brain network, SC)和功能脑网络(Functional brain network, FC)能从不同角度反映癫痫对大脑结构信息的改变。目前,融合两类脑网络信息进行癫痫的辅助诊断已成为领域内的重要研究之一。然而,常见的融合模型仅在单一粒度上融合两类脑网络信息,忽略了脑网络的多粒度属性。本文提出一种基于多模态多粒度融合网络(Multi-modal multi-grained fusion network,MMFN)的癫痫识别方法,从全局和局部两个粒度对多模态脑网络特征进行融合,充分利用两类脑网络信息。局部粒度上,设计了连接边特征融合和节点特征融合,用以重构两类脑网络的连接边层和节点层的特征图,使两个模态交互式地学习特征;全局粒度上,设计了多模态分解双线性池化模块,学习两类脑网络的联合表示。实验结果表明,相比主流方法,所提方法可以显著提高对癫痫识别的准确率,辅助医生进行癫痫诊断。
    87  大语言模型评估技术研究进展
    赵睿卓,曲紫畅,陈国英,王坤龙,徐哲炜,柯文俊,汪鹏
    2024, 39(3):502-523. DOI: 10.16337/j.1004-9037.2024.03.002
    [摘要](2489) [HTML](1387) [PDF 1.54 M](3738)
    摘要:
    随着大语言模型的广泛应用,针对大语言模型的评估工作变得至关重要。除了大语言模型在下游任务上的表现情况需要评估外,其存在的一些潜在风险更需要评估,例如大语言模型可能违背人类的价值观并且被恶意输入诱导引发安全问题等。本文通过分析传统软件、深度学习模型与大模型的共性与差异,借鉴传统软件测评和深度学习模型评估的指标体系,从大语言模型功能评估、性能评估、对齐评估和安全性评估几个维度对现有工作进行总结,并对大模型的评测基准进行介绍。最后依据现有研究与潜在的机遇和挑战,对大语言模型评估技术方向和发展前景进行了展望。
    88  基于大模型的联动处置多智能代理协同框架
    吴晓宁,李瑞欣,王浪,刘文杰,王宏伟,朱新立,宋江帆,袁梦
    2024, 39(3):559-576. DOI: 10.16337/j.1004-9037.2024.03.005
    [摘要](1095) [HTML](2083) [PDF 3.29 M](1258)
    摘要:
    针对指挥员应对重大突发情况时的处置决策难题,提出一种基于大模型的联动处置多智能代理协同框架。该框架通过智能代理角色生成、多层级蒙特卡洛树与交互式提示学习等策略,优化群体决策效率与动作规划,同时引入分层机制与工作流管理理念,通过强化学习奖励函数共享提升协同效率,设计显式与隐式通信模式确保节点状态一致。实验表明,该框架在多种场景下表现优异,与传统任务分配手段相比,大大提高了面对突发事件时的反应速度和处置效率。
    89  “艾武大模型+”:一种军事大模型系统的开发与实证
    崔翛龙,高志强,姬纬通,沈佳楠,张敏,邱鑫源
    2024, 39(3):588-597. DOI: 10.16337/j.1004-9037.2024.03.007
    [摘要](3107) [HTML](2491) [PDF 1.90 M](3027)
    摘要:
    智能化指挥是新型指挥控制理论研究的重要方向,大模型是智能交互、任务规划和辅助决策等智能化指挥能力实现的重要支撑。本文兼顾理论与实践,梳理大模型军事能力需求,设计面向智能化指挥的大模型应用框架,提出“艾武大模型+”的系统架构、信息流程和协同架构,梳理工程实现的关键技术,以智能化指挥实证案例及选型分析验证“艾武大模型+”系统在多模态交互和特定任务军语理解的能力优势,拓展有/无人平台的末端协同和指令控制,为重大国防军事专项、智能化指挥研究与落地应用提供参考。
    90  基于思维链的大语言模型知识蒸馏
    李荣涵,浦荣成,沈佳楠,李栋栋,苗启广
    2024, 39(3):547-558. DOI: 10.16337/j.1004-9037.2024.03.004
    [摘要](1513) [HTML](1862) [PDF 1.65 M](1443)
    摘要:
    思维链(Chain of thought, CoT)提示使大语言模型能够按照具体推理步骤处理复杂的任务,让大语言模型在常识推理、数学逻辑推理和可解释性等方面表现出更强的能力。然而,CoT方法的主要缺点在于其对庞大语言模型的依赖,这些模型通常拥有数百亿的参数,在大规模部署方面面临挑战。为此,本文提出一种基于思维链的大模型知识蒸馏方法,主要目标在于充分利用大型语言模型的思维推理能力,通过知识蒸馏技术,引导小模型解决复杂任务。以大型模型为教师模型,小型模型为学生模型,通过获取教师模型的推理数据来微调学生模型。通过更改数据生成方式、基于聚类的问答示例采样、示例启发式纠错以及答案的自适应生成等一系列精心设计的方法,使教师模型的生成过程更高效,生成的推理数据质量更高、数量更多,从而更好地微调学生模型,使其获得强大的推理能力,实现高效的知识蒸馏。这一研究框架旨在建立一个有效的知识传递机制,使得大模型的深度思考能够有效指导小模型,为解决复杂任务提供更为智能且高效的解决方案。通过这种方式,希望能够克服大模型部署的挑战,并促进语言模型在现实世界中的应用和进步。
    91  基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法
    谢思静,文鼎柱
    2024, 39(3):577-587. DOI: 10.16337/j.1004-9037.2024.03.006
    [摘要](1110) [HTML](923) [PDF 1.26 M](1090)
    摘要:
    微调后的大语言模型(Large language models, LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险。联邦学习(Federated learning, FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难。结合分割学习(Split learning, SL),联邦分割学习可以有效解决这一问题。基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low-rank adaption, LoRA)进一步降低资源开销和提升安全性。因此,在设备端,仅对最后几层进行低秩适应和训练,然后上传至服务器进行聚合。为了降低开销并保证模型性能,本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法。通过联合优化边缘设备的计算频率和模型微调的秩,在资源受限的情况下最大化秩,提高模型的准确率。仿真结果显示,仅训练LLMs最后3层的情况下,在一定范围内(1~32)增加秩的取值可以提高模型的准确率。同时,增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率。
    92  人工智能辅助的磁共振成像在评估乳腺癌新辅助化疗中的应用综述
    刘凯文,金莹莹,王守巨
    2024, 39(4):794-812. DOI: 10.16337/j.1004-9037.2024.04.003
    [摘要](1472) [HTML](1348) [PDF 2.75 M](1457)
    摘要:
    新辅助化疗已成为乳腺癌标准治疗策略,而磁共振成像是评估乳腺癌对新辅助化疗反应的首选影像学方法。虽然磁共振成像能提供关于肿瘤位置、大小及微环境等详细信息,但肿瘤的多样性变化给乳腺癌新辅助化疗的精准评估带来挑战。基于机器学习和深度学习的人工智能方法展现出识别磁共振成像数据中复杂模式的能力。通过临床影像特征分析、影像组学分析和生境分析等方法,人工智能技术已显著提升乳腺癌新辅助化疗评估的性能和效率,有助于实现个性化治疗策略。本文介绍了乳腺癌新辅助化疗评估所用的磁共振成像数据及性能指标,总结了人工智能技术在此领域的应用进展,同时探讨了当前人工智能技术在实际应用中的挑战和未来可能的研究方向。
    93  一种基于特征融合的息肉分割双解码模型
    吴港,全海燕
    2024, 39(4):954-966. DOI: 10.16337/j.1004-9037.2024.04.015
    [摘要](677) [HTML](763) [PDF 2.84 M](1028)
    摘要:
    在结直肠癌的早期筛查中,通过对结肠镜图像进行自动化的息肉检测和分割可以提高诊断效率和准确性。由于肠道内部环境的复杂性以及图像质量的限制,自动化的息肉分割仍然是一个具有挑战性的问题。针对这一问题,提出了一种基于Transformer和空洞卷积特征融合的息肉分割双解码模型(Dual decoded polyp segmentation model fusing Transformer and dilated convolution, FTDC-Net)。该模型以ResNet50作为编码器,以便能够更好地提取图像深层次特征。使用 Transformer 编码模块,它的自注意力(Self-attention)机制能够捕捉输入之间的长距离依赖关系,模型中使用了不同的空洞卷积(Dilated-convolution)来扩大模型的感受野,让模型能捕捉到结肠镜图像更大范围内的信息。本文网络模型的解码部分使用双解码结构,包含一个自动编码器分支,自动编码器可以重构输入,另一个编码分支用于分割结果。模型中,自动编码器的输出被用于生成一个注意力图作为注意力机制,该图将被用于指导分割结果。在Kvasir-SEG和ETIS-LARIBPOLYPDB标准数据集上进行了实验验证,实验结果表明FTDC-Net能有效地分割出结肠息肉,相比目前主流息肉分割模型,在各项评价指标上均取得了较高的提升。
    94  多视图低秩子空间的图结构学习多站点自闭症诊断方法
    黄剑辉,马迪,张礼
    2024, 39(4):984-995. DOI: 10.16337/j.1004-9037.2024.04.017
    [摘要](488) [HTML](523) [PDF 2.19 M](751)
    摘要:
    自闭症谱系障碍(Autism spectrum disorder,ASD)是一种最常见且具有遗传性的神经发育障碍疾病,具有社交沟通缺陷等多种症状。准确识别生物标记物对ASD的早期干预起到至关重要的作用。现有大量方法利用了多站点影像数据来增加样本量,从而提高了方法诊断的准确性,但是多站点间由于成像装置、成像参数和数据处理流程存在的差异造成的数据异质性影响往往被忽略。为了解决上述问题,本文提出了一种基于多视图低秩子空间的图结构学习多站点自闭症诊断方法(MVLL-GSL)。首先构建具有不同拓扑结构信息的多视图脑网络,然后分别将视图中不同类的样本分别投影到各自的低秩子空间,从而降低数据异质性的影响,最后使用图结构学习和多任务图嵌入学习相结合,并融入先验子网络和多视图一致性正则化约束,旨在从多视图低秩子空间中获得更具判别性和一致性的特征。使用自闭症公开数据库 ABIDE(Autism brain imaging data exchange)对提出的方法进行验证。实验结果表明,MVLL-GSL方法提高了ASD的诊断性能,并解释了不同先验子网络与ASD发病机制的关联性。
    95  提示学习框架下融合多层级特征信息的中文命名实体识别
    王昕,魏楚元,张蕾,万珊珊
    2024, 39(4):1020-1032. DOI: 10.16337/j.1004-9037.2024.04.020
    [摘要](633) [HTML](521) [PDF 1.46 M](728)
    摘要:
    目前基于预训练-微调模式下的命名实体识别任务预训练与微调之间会出现差距,难以有效地对实体与上下文之间的关系进行建模,并且当前中文命名实体识别方法不能获取足够的字形或词义。针对上述问题,本文提出一种基于提示学习且融合多层级特征信息的命名实体识别方法。首先根据提示学习机制构建提示文本,再将输入文本的字符、词和实体级别特征信息与之拼接作为预训练模型的输入,以有效捕捉上下文之间的语义信息,缩小预训练模型与下游任务之间的差距,提高模型对命名实体识别的感知能力。本文提出的方法充分利用先验知识,提升模型的学习质量,提高在中文复杂多变语义环境下命名实体识别的效果。在人民日报、MSRA、Weibo、Resume和CMeEE数据集上的F1值分别达到了97.09%、96.68%、83.44%、97.48%和76.05%。实验结果表明,本文提出方法总体优于目前主流的中文命名实体识别方法。
    96  基于小样本学习的滚动轴承故障检测
    曹荧荧,郇战,陈震,陈瑛
    2024, 39(4):1033-1042. DOI: 10.16337/j.1004-9037.2024.04.021
    [摘要](740) [HTML](900) [PDF 1.57 M](985)
    摘要:
    轴承故障类型复杂,并且在不同工况下每种故障类型都很难获得足够的训练样本。因此,本文提出一种基于深度神经网络的小样本学习分类算法,引入第1层具有宽卷积核网络(Convolutional neural network with training interference,TICNN)作为孪生网络的子网络用于提取特征,减少工业环境噪声影响。孪生网络是一种常用于小样本学习的结构,通过输入相同或不同类别的样本对进行训练,学习不同属性样本与特征之间的映射关系,并采用相似度进行度量。测试样本通过寻找最近邻的类别来实现分类。在标准凯斯西储大学轴承故障诊断基准数据集上的实验结果表明,在数据有限的情况下,本文模型在故障诊断中表现出更好的效果。当使用最少的训练数据在不同的噪声环境中进行测试时,本文小样本学习模型的性能超过了具有合理噪声水平的基线模型,故障诊断准确率达到了94.41%。当在具有新故障类型或新工作条件的测试集上进行评估时,本文模型仍然有效。
    97  基于感知推理和外部空间先验特征的图像修复
    吴鹏,张孙杰,王永雄,陈远峰,覃海旺
    2024, 39(4):933-943. DOI: 10.16337/j.1004-9037.2024.04.013
    [摘要](733) [HTML](780) [PDF 4.41 M](904)
    摘要:
    在基于深度学习的图像修复算法中,当存在大面积掩码时,由于缺乏合理的先验信息指导,修复结果往往会出现伪影和模糊纹理等现象。针对此问题,提出将先验特征与图像预测滤波相结合的图像修复算法。该算法包含两个分支:图像滤波核预测分支和特征推理与图像滤波分支。从图像滤波核预测分支的解码器部分提取特征,利用多尺度外部空间特征融合对掩码区域特征进行重建,并传递给另一分支的解码阶段作为先验特征,为图像修复提供更为丰富的语义信息。然后,在特征推理和图像滤波分支部分引入空间特征感知推理块,它能够过滤掉分散注意力的特征,同时捕捉信息丰富的远距离图像上下文进行推理。最后,使用图像预测滤波核进行过滤消除伪影。在CelebA和Places2数据集上与其他修复网络进行对比实验,证明了该方法在修复质量上的优越性。
    98  基于图学习的缺失脑网络生成及多模态融合诊断方法
    龚荣芳,黄麟雅,朱旗,李胜荣
    2024, 39(4):843-862. DOI: 10.16337/j.1004-9037.2024.04.006
    [摘要](1026) [HTML](1165) [PDF 6.06 M](1046)
    摘要:
    融合大脑结构和功能网络的多模态脑网络能够挖掘不同模态间的互补信息,有效提高癫痫等神经系统疾病的诊断准确率,在神经疾病诊断上具有优势。然而,由于多模态数据采集时间长、成本高,在实际应用中常面临模态缺失问题,导致可用数据量减少,模型的诊断精度和泛化能力下降。针对某一模态数据完全缺失问题,提出了基于图学习与循环一致生成对抗网络(Cycle-consistent generative adversarial networks, CycleGAN)的图CycleGAN方法。该方法通过引入图卷积神经网络与图注意力机制等图学习方法捕捉脑网络不同脑区间的特征信息,强化生成框架对图形式脑网络的特征提取能力,实现脑结构网络与功能网络的相互生成。此外,针对目前较少利用诊断结果评估生成数据质量的情况,提出了一种融合真实脑网络与生成脑网络的多模态融合分类模型,以进一步评估生成脑网络的有效性。在癫痫数据集上的实验结果表明,图CycleGAN方法能够有效利用已有的模态信息,实现缺失脑网络的生成。
    99  融合多时间维度视觉与语义信息的图像描述方法
    陈善学,王程
    2024, 39(4):922-932. DOI: 10.16337/j.1004-9037.2024.04.012
    [摘要](655) [HTML](626) [PDF 1.01 M](755)
    摘要:
    传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维度视觉与语义信息的图像描述方法,有效地融合了过去时刻的视觉信息和语义信息,并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证,结果表明该方法能够更准确地生成描述语句,和当前最主流的图像描述方法进行对比,性能在各项评价指标上都得到了可观的提升。
    100  融合细粒度特征编码的点云分类分割网络
    陶志勇,豆淼森,李衡,林森
    2024, 39(4):944-953. DOI: 10.16337/j.1004-9037.2024.04.014
    [摘要](704) [HTML](653) [PDF 1.41 M](791)
    摘要:
    有效获取点云特征是分析和处理三维点云场景的关键。针对目前深度学习方法特征信息提取不充分,难以捕捉深层次语义信息的问题,提出了一种融合细粒度特征编码的网络来提高点云分类与分割任务的准确率。首先,特征提取模块包含2个子模块:一个是扩张图卷积模块,相比图卷积能够提取更丰富的几何信息;另一个是细粒度特征编码模块,能够获取局部区域的细节特征。其次,通过可学习参数将二者动态融合,有效地学习每个点的上下文信息。最后,将提取的所有特征相加,通过通道亲和注意力模块来强调不同通道,协助特征图来避免可能的冗余。在ModelNet40及ScanObjectNN数据集上进行点云分类实验,总体分类精度分别为93.3%和80.0%。在ShapeNet Part数据集上进行点云部件分割实验,平均交并比为85.6%。实验结果表明,与目前主流方法相比,该网络具有较优的性能。
    101  基于多尺度残差融合图卷积网络的脑疾病诊断研究
    郝小可,何子龙,卢欣楚,马明明,刘时宇
    2024, 39(4):827-842. DOI: 10.16337/j.1004-9037.2024.04.005
    [摘要](1000) [HTML](856) [PDF 2.38 M](1004)
    摘要:
    近年来,功能性脑网络已被用于自闭症谱系障碍(Autism spectrum disorder, ASD)等脑部疾病的诊断。现有研究表明,将静息态功能磁共振成像(Resting-state functional magnetic resonance imaging, rs-fMRI)数据以及非影像信息结合起来构成人口图,然后采用图神经网络(Graph neural network, GNN)进行学习和分类的方法对ASD的诊断十分有效。然而,大多数研究仍然面临两个挑战:一是仅使用皮尔森相关系数等方法构建功能连接矩阵无法有效地识别和分析与疾病相关的局部脑区和生物标志物;二是无法在GNN上有效地学习人口图中节点特征的多尺度信息。为解决这些问题,提出了一种基于注意力机制的多尺度残差融合图卷积网络(Multi-scale residual fusion graph convolutional networks, MSRF-GCN)。该算法通过设计一个功能连接生成器来提取具有远程依赖关系的时间相关特征,从而有效地定位和识别对诊断有益的脑区。同时,通过设计多尺度残差融合算法,学习人口图中的多尺度信息。此外,还引入了Edge Sparse策略,通过随机丢弃初始人口图中的边,以增加节点连接的稀疏性,进而减少训练期间过拟合的风险。通过在自闭症脑影像数据交换项目(Autism brain imaging data exchange, ABIDE)上进行实验的结果证明了MSRF-GCN在ASD诊断方面的有效性。
    102  融合神经网络的卡尔曼滤波啸叫抑制路径突变检测算法
    郭昊诚,陈锴,卢晶
    2024, 39(5):1126-1134. DOI: 10.16337/j.1004-9037.2024.05.006
    [摘要](1285) [HTML](697) [PDF 1.89 M](1036)
    摘要:
    分区频域卡尔曼滤波(Partitioned block frequency domain Kalman filtering, PBFDKF)因其收敛速度快、稳态误差小的优势被应用在自适应滤波声反馈抑制(Adaptive feedback cancellation, AFC)。然而,当声反馈路径发生突变时,卡尔曼滤波会进入锁死状态,难以再次跟踪。本文提出一种融合神经网络的卡尔曼滤波啸叫抑制状态检测算法(Kalman-filter-based AFC with state detection model, KFSD)。该系统将卡尔曼滤波声反馈抑制系统的传声器采集信号、残差信号和滤波器更新量作为输入特征,通过神经网络对卡尔曼滤波的状态误差协方差矩阵进行修正,从而实现路径突变情况下的再次跟踪和收敛。仿真实验结果验证了所提算法具有较高的正判率、较低的虚警率和较短的延迟帧数,算法同时具备快速再跟踪性能,提高了声反馈抑制效果。
    103  基于改进级联R-CNN的钢材带状碳化物检测与分级
    郝亮,周诗洋,莫允扬,陈勇勇,徐勇,苏敬勇
    2024, 39(5):1228-1239. DOI: 10.16337/j.1004-9037.2024.05.014
    [摘要](884) [HTML](836) [PDF 4.23 M](1058)
    摘要:
    在钢铁行业中,碳化物是钢材中一种非常重要的组成成分,其在钢材中的分布对于评估钢材的质量具有很高的参考价值。然而,目前棒材碳化物的检测手段主要为人工检测,成本高昂且缺乏稳定性。引入人工智能领域的深度学习技术,收集并标注了3 192张高质量钢铁棒材带状碳化物图像与11个完整样品数据,创建了工业场景下的棒材带状碳化物目标检测数据集(Banded carbide dataset on object detection for steel bar, BCDOD)。使用深度学习领域中常见的目标检测方法对数据集进行了实验分析,针对应用场景与数据的特点,引入旋转数据增强、Focal Loss函数与负样本微调对级联R-CNN模型进行改进,提升了模型的性能,平均精度达到96%。同时,在完整样品数据取得了100%的识别准确率,取得了较为理想的效果,弥补了人工智能技术在碳化物金相检测领域的空缺。
    104  集成自注意力机制的医学图像分割方法
    赵凡,张学典
    2024, 39(5):1240-1250. DOI: 10.16337/j.1004-9037.2024.05.015
    [摘要](1108) [HTML](927) [PDF 2.15 M](1044)
    摘要:
    针对UNet架构在医学图像分割中捕捉局部特征及保留边缘细节的局限性,提出了一种融合自注意力机制的改进型UNet算法。该算法基于传统编码-解码结构,引入多尺度卷积(Multi-scale convolution, MSC)模块以实现多粒度特征提取,同时集成卷积-自注意力(Convolution mixer attention, CMA)模块,结合卷积层的局部特征建模和自注意力层的全局上下文建模。在BUSI和DDTI数据集分割任务中,相比现有经典网络架构,大量实验数据验证了本模型优异的分割能力。此外,统计学数据分析、消融实验进一步验证了MSC和CMA模块的有效性。该研究为高精度医学图像分割提供了一种创新方法,对于促进医学诊断的精确性和效率具有重要的理论与实践意义。
    105  智能反射面辅助的星地认知网络多播传输鲁棒优化设计
    马彪,赵柏,季铭仪,丁昌峰,林敏
    2024, 39(5):1251-1259. DOI: 10.16337/j.1004-9037.2024.05.016
    [摘要](787) [HTML](459) [PDF 1.40 M](872)
    摘要:
    针对智能反射面(Intelligent reflecting surface, IRS)辅助的星地认知网络(Cognitive satellite and terrestrial networks, CSTN),提出了一种基于用户非完美信道状态信息的鲁棒多播传输算法,进一步提高了系统频谱效率。卫星采用多播技术服务多个主用户,同时共享频谱资源的地面基站(Base station, BS)通过空分多址和智能反射面分别服务直达用户和遮挡用户。然后,以地面网络发射功率最小化为优化目标,同时将地面用户的中断概率和主用户所受的最大干扰功率作为约束条件,提出联合优化问题。针对此非凸问题,首先借助指数分布的累积分布函数将非凸的中断概率约束转化为可解形式。接着,提出了一种结合交替优化与半正定松弛的鲁棒波束成形算法,以获得较优性能的解。计算机仿真结果证明了所提算法的鲁棒性和优越性。
    106  基于稀疏贝叶斯学习的混合mMIMO系统波达方向估计
    慕欣茹,傅海军,戴继生
    2024, 39(5):1260-1270. DOI: 10.16337/j.1004-9037.2024.05.017
    [摘要](703) [HTML](436) [PDF 820.57 K](777)
    摘要:
    波达方向估计是混合mMIMO系统波束成形得以应用的前提,基于协方差矩阵重构的子空间方法在相干信号和有限快拍数条件下性能损失较大。为了应对上述挑战,提出了一种基于稀疏贝叶斯学习的混合mMIMO系统波达方向估计方法,主要创新之处在于:将混合mMIMO系统的波达方向估计问题转化为稀疏信号恢复问题,从而绕过空间协方差矩阵重构,避免了其带来的性能损失。为了便于进行贝叶斯推断,进一步利用变分贝叶斯近似思想,在恢复稀疏信号的同时,自适应估计出未知参数,显著改善了对噪声和相干信号的鲁棒性,提升了有限快拍数情况下的波达方向估计性能。数值模拟结果验证了所提方法的优越性。
    107  数据驱动下图模型冲突分析决策支持系统构建研究
    徐海燕,孔杨,戴思凡
    2024, 39(5):1147-1162. DOI: 10.16337/j.1004-9037.2024.05.008
    [摘要](1162) [HTML](519) [PDF 3.87 M](881)
    摘要:
    当今世界由于经济、科技、地缘战略、国际秩序等问题频繁爆发冲突事件,冲突规模正由个体冲突、小规模群体冲突向复杂大规模群体冲突转变。相较于个体间的冲突,大规模群体冲突事件持续时间更长、波及范围更广,易对我国的社会秩序以及经济发展造成恶劣影响。图模型冲突分析(Graph model for conflict resolution,GMCR)理论提供了分析冲突、解决矛盾的有效方案,作为一门专业解决冲突问题的理论工具已经在水资源、环境管理和经济政策等领域得到广泛应用,并取得良好效果。然而,随着冲突事件参与者日渐增多、主体的策略日趋复杂形成了指数级增加的局势,以及主体的偏好行为不确定性加强,传统的决策支持系统GMCRⅡ难以求解此类复杂冲突问题。基于强度偏好冲突分析理论的代数表达,开发了基于.NET平台的冲突分析WEB系统SP-GMCRDSS,该系统包括可行状态生成、状态转移设置、强度偏好序列生成和稳定性分析引擎4个模块,对比现有的系统,SP-GMCRDSS能更高效地辅助冲突分析者解决数据驱动下的大型、复杂的冲突。并且运用文本挖掘技术提取决策者策略数据,辅助分析者确定决策支持系统建模信息的输入,降低模型构建的主观性。最后,通过“兰州水污染冲突事件”演示了该系统的建模、求解以及分析的功能。
    108  基于深度学习的说话人确认方法研究现状及展望
    李建琛,韩纪庆
    2024, 39(5):1062-1084. DOI: 10.16337/j.1004-9037.2024.05.003
    [摘要](1537) [HTML](1099) [PDF 1.60 M](1472)
    摘要:
    随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。
    109  基于双向融合纹理和深度信息的目标位姿检测
    张亚炜,付东翔
    2024, 39(5):1214-1227. DOI: 10.16337/j.1004-9037.2024.05.013
    [摘要](698) [HTML](695) [PDF 4.29 M](890)
    摘要:
    针对在硬件设备资源有限的情况下,深度相机在非结构化场景如何获取物体精确的位姿信息问题,提出一种基于双向融合纹理和深度信息的目标位姿检测方法。在学习阶段,两个网络采用全流双向融合(FFB6D)模块,纹理信息提取部分引入轻量的 Ghost 模块,减少了网络的计算量,并加入能增强有用特征的注意力机制CBAM,深度信息提取部分扩展了局部特征并多层次特征融合,获取更全面的特征;在输出阶段,为提高效率利用实例语义分割结果过滤背景点,再进行3D关键点检测,最终通过最小二乘拟合算法得到位姿信息。在LINEMOD、Occlusion LINEMOD和YCB-Video公共数据集上验证,其精度分别达到了99.8%、66.3%和94%,且参数量减少了31%,表明改进的位姿估计方法在保证精度的同时,也减少了参数量。
    110  基于多核扩展卷积的无监督视频行人重识别
    刘仲民,张长凯,胡文瑾
    2024, 39(5):1192-1203. DOI: 10.16337/j.1004-9037.2024.05.011
    [摘要](852) [HTML](714) [PDF 3.15 M](876)
    摘要:
    行人重识别旨在跨监控摄像头下检索出特定的行人目标。由于存在姿态变化、物体遮挡和背景干扰的不同成像条件等问题,导致行人特征提取不充分。本文提出一种利用多核扩展卷积的无监督视频行人重识别方法,使得提取到的行人特征能够更全面、更准确地表达个体差异和特征信息。首先,采用预训练的ResNet50作为编码器,为了进一步提升编码器的特征提取能力,引入了多核扩展卷积模块,通过增加卷积核的感受野,使得网络能够更有效地捕获到局部和全局的特征信息,从而更全面地描述行人的外貌特征;其次,通过解码器将高级语义信息还原为更为底层的特征表示,从而增强特征表示,提高系统在复杂成像条件下的性能;最后,在解码器的输出中引入多尺度特征融合模块融合相邻层中的特征,进一步减少不同特征通道层之间的语义差距,以产生更鲁棒的特征表示。在3个主流数据集上进行离线实验,结果表明该方法在准确性和鲁棒性上均取得了显著的改进。
    111  基于多任务强化学习的地形自适应模仿学习方法
    余昊,梁宇宸,张驰,刘跃虎
    2024, 39(5):1182-1191. DOI: 10.16337/j.1004-9037.2024.05.010
    [摘要](913) [HTML](480) [PDF 1.74 M](822)
    摘要:
    地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学习各类地形中的相关性。事实上,复杂地形自适应任务可以认为是一种多任务,子任务间的关系可以用不同地形影响因素来衡量,通过子任务模型的相互学习解决数据分布信息获取不全面的问题。基于此,本文提出一种多任务强化学习方法。该方法包含1个由子任务预训练模型组成的执行层和1个基于强化学习方法、采用软约束融合执行层模型的决策层。在LeggedGym地形仿真器上的实验证明,本文方法训练的智能体运动更加稳定,在复杂地形上的摔倒次数更少,并且表现出更好的泛化性能。
    112  基于智能合约和联邦存储的异步联邦学习模型
    刘星辰,杜军平,梁美玉,李昂
    2024, 39(6):1532-1542. DOI: 10.16337/j.1004-9037.2024.06.020
    [摘要](819) [HTML](684) [PDF 1.11 M](591)
    摘要:
    公共安全突发事件中对数据安全的重视程度越来越高,联邦学习由于不再需要上传数据到中心服务器进行计算,减少了隐私泄露的可能而受到广泛关注。然而当前基于智能合约的联邦学习由于运算较大,存在着效率低等缺陷,因此本文提出了一种面向公共卫生突发事件检测的智能合约与联邦存储的异步联邦学习方法。该方法允许联邦节点在任何时间加入和退出联邦学习;依托智能合约与分布存储,进一步增加了公共卫生安全领域的数据安全与训练效率;同时采用自适应的差分隐私对其上传到分布式存储节点的梯度进行动态保护,进一步降低了隐私泄露的风险。在公共数据集和公共卫生安全数据集上大量的实验表明,本文提出的方法在精度上优于已知的对比方法,且在达到相同精度的情况下所需时间更少。
    113  基于金字塔分割注意力和联合损失的表情识别模型
    谷瑞,顾家乐,宋翠玲
    2024, 39(6):1493-1504. DOI: 10.16337/j.1004-9037.2024.06.017
    [摘要](598) [HTML](736) [PDF 2.10 M](707)
    摘要:
    如何提取多尺度特征和建模远程通道间的语义依赖仍是表情识别网络面临的挑战。本文提出一种基于金字塔分割注意力的残差网络(Residual network based on pyramid split attention, PSA-ResNet)模型,该模型将ResNet50残差模块中的3×3卷积替换成金字塔分割注意力,以有效提取多尺度特征,增强跨通道语义信息的相关性。同时,为缩小同类表情之间的差异,扩大不同类表情之间的距离,在训练过程中引入了Softmax loss和Center loss联合损失函数优化模型参数。本文所提出的方法在Fer2013和CK+两个公开的数据集上进行仿真实验,分别取得了74.26%和98.35%的准确率,进一步证实了该方法相比前沿算法具有更好的表情识别效果。
    114  基于深度强化学习的不确定作业车间调度方法
    吴新泉,燕雪峰,魏明强,关东海
    2024, 39(6):1517-1531. DOI: 10.16337/j.1004-9037.2024.06.019
    [摘要](963) [HTML](1016) [PDF 2.47 M](612)
    摘要:
    作业车间调度是具有非确定性多项式(Non-deterministic polynomial,NP)难的经典组合优化问题。在作业车间调度中,通常假设调度环境信息已知且在调度过程中保持不变,然而实际调度过程往往受到诸多不确定因素影响(如机器故障、工序变化)。本文提出基于混合优先经验重放的近端策略优化(Proximal policy optimization with hybrid prioritized experience replay,HPER-PPO)调度算法,用于求解不确定条件下的作业车间调度问题。将作业车间调度问题建模为马尔科夫决策过程,设计作业车间的状态特征、回报函数、动作空间和调度策略网络。为了提高深度强化学习模型的收敛性,提出一种新的混合优先经验重放模型训练方法。在标准数据集和基于标准数据集生成的数据集上评估了提出的调度方法,结果表明:在静态调度试验中,本文提出的调度模型比现有的深度强化学习方法和优先调度规则取得了更精确的结果。在动态调度试验中,针对作业车间的工序不确定性,本文所提出的调度模型可以在合理的时间内获得更精确的调度结果。
    115  多级注意力特征优化的道路场景实时语义分割
    张鹏,彭宗举,张文瑞,罗英国,韦玮,王培容
    2024, 39(6):1505-1516. DOI: 10.16337/j.1004-9037.2024.06.018
    [摘要](713) [HTML](623) [PDF 3.81 M](687)
    摘要:
    针对复杂多变道路场景下目标重叠导致图像边缘难以分割、小目标特征提取困难等问题,提出一种多级注意力特征优化的道路场景实时语义分割方法。首先,设计深度残差注意力模块,考虑不同层级下特征权重的差异性,通过压缩注意力机制来优化图像局部特征,从而改善像素之间的边缘效应;然后,设计通道注意力和深度聚合金字塔池化模块进一步加强语义上下文信息的提取,小目标信息丢失问题得到了改善;最后,设计注意力融合模块自上而下地融合不同尺度下的特征信息,实现全局特征信息下的有效交互,增强网络对重要特征的表达。Cityscapes和CamVid道路场景数据集上进行的实验测试分别达到74.4%和67.7%的分割精度,138帧/s和148帧/s的推理速度。与近几年其他优秀方法相比,该方法改善了图像边缘信息丢失,优化了对图像中小目标的分割准确度。
    116  基于多域信息融合的卷积Transformer脑电情感识别模型
    张学军,王天晨,王泽田
    2024, 39(6):1543-1552. DOI: 10.16337/j.1004-9037.2024.06.021
    [摘要](911) [HTML](1056) [PDF 1.93 M](749)
    摘要:
    当前脑电信号的情感识别方法很少融合空间、时间和频率信息,并且大多数识别方法只能提取局部的脑电特征,在全局信息关联方面存在着局限性。本文提出了一种基于多域信息融合的三维特征卷积神经网络Transformer 机制(3D-CNN-Transformer mechanism, 3D-CTM)模型的脑电情感识别方法。该方法首先根据脑电信号的特性设计了一种三维特征结构,同时融合脑电信号的空间、时间以及频率信息;然后采用卷积神经网络模块学习多域信息融合的深层特征,再连接Transformer自注意力模块,提取特征信息内的全局关联性;最后利用全局平均池化整合特征信息进行分类。实验结果表明,3D-CTM模型在SEED数据集上的三分类平均准确率达到96.36%,在SEED-Ⅳ数据集上的四分类平均准确率达到87.44%,有效地提高了情感识别精度。
    117  基于细粒度视觉与音视双分支融合的情感视频字幕生成
    龚禹轩,韩婷婷
    2025, 40(5):1165-1176. DOI: 10.16337/j.1004-9037.2025.05.005
    [摘要](223) [HTML](864) [PDF 35.75 K](705)
    摘要:
    情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,导致视觉内容理解缺乏精细化支撑;二是忽视了音频模态在情感判别与内容语义对齐中的辅助价值,限制了跨模态信息的综合利用。针对上述问题,本文提出细粒度视觉与音视双分支融合框架。其中,细粒度视觉特征融合模块通过视觉、物体、动作特征的两两交互与深度融合,有效建模视频实体与视觉上下文间的细粒度语义关联,实现对视频内容的精细化解析;音频-视觉双分支全局融合模块则构建跨模态交互通道,将整合后的视觉特征与音频特征进行深层融合,充分发挥音频信息在情感线索传递与语义约束上的补充作用。在公开基准数据集上对本文方法进行验证,其评价指标均优于CANet、EPAN等对比方法,情感指标比EPAN方法平均提高4%,语义指标平均提升0.5,综合指标平均提升0.7。实验结果表明本文方法能有效提升情感视频字幕生成的质量。
    118  非侵入性连续中文语言语义解码与重建
    马磊,崔文浩,杨汶汶,王朝欣
    2025, 40(3):616-636. DOI: 10.16337/j.1004-9037.2025.03.005
    [摘要](450) [HTML](584) [PDF 3.03 M](546)
    摘要:
    语言是沟通和认知的基础,大脑多功能区域通过复杂神经网络共同参与语言的感知、理解与生成,深入探索中文语义解码的神经机制对于中文脑机接口(Brain-computer interface, BCI)的研究意义重大。本研究旨在构建一种基于功能性磁共振成像(Functional magnetic resonance imaging, fMRI)的长序列中文连续语义解码方法,称为中文长序列连续语义解码器(Chinese long-sequence continuous semantic decoder, CLCSD),通过信号处理流程和算法优化,实现连续中文语义的高效解码。CLCSD包含神经响应降维、编码模型、语速模型和束搜索解码模型4个部分。神经响应降维通过皮层重建、图像配准和脑区划定等方法,将4维脑响应数据降为2维矩阵。编码模型采用L2正则化回归(岭回归)建立刺激特征与脑响应之间的关系,通过自举法估计噪声协方差以增强泛化。语速模型采用与编码模型类似的思路,将脑响应特征映射到预测的语速。束搜索解码模型利用语言模型的先验概率和编码模型的似然概率,通过束搜索生成最可能的语义序列。CLCSD在公开数据集SMN4Lang上取得了0.674的BERTScore,高于其他长序列中文连续语义解码模型。本研究提出一种高效的长序列中文连续语义解码方法,为中文脑机接口技术的发展提供理论基础和方法参考。
    119  基于多重随机性与隐私保护的栈式随机森林算法
    宋奕霖,王士同
    2025, 40(5):1222-1238. DOI: 10.16337/j.1004-9037.2025.05.009
    [摘要](219) [HTML](337) [PDF 32.09 K](594)
    摘要:
    作为一种针对分类和回归任务行之有效的集成学习算法,随机森林(Random forest, RF)还面临着泛化能力提升和隐私保护的挑战。本文提出了一种改进的基于多重随机性与隐私保护的栈式随机森林(Bernoulli-multinomial stacked random forest,BMS-RF)算法。基本思想是在构造决策树分裂特征和分裂点选择阶段引入伯努利分布Dropout部分特征向量选择候选特征向量,通过两个多项分布随机选择分裂特征与分裂点,每棵决策树采用非数值查询的指数机制添加噪声维持其隐私保护机制,在集成分类器时引入多层栈式结构将前一层的输出随机投影和源训练集拼接作为新的输入,使得每一森林可以共享源样本空间信息,逐层提高基学习器分类性能。通过对此算法的一致性以及隐私能力的理论分析表明BMS-RF可以通过栈式结构显著提高分类性能。14个中小规模数据集合上的实验结果验证了该算法不但能降低运行时间且具有更好的泛化性能,隐私保护水平较强时可以在简化结构和提高运行速度的基础上达到与RF变体基本一致的分类性能。
    120  基于3D多模态卷积网络与跨模态特征集成的阿尔茨海默症分类
    朱厚元,郑乐乐,商浩,臧雪峰,吴少琪,周广超,孙建德,乔建苹
    2025, 40(4):912-921. DOI: 10.16337/j.1004-9037.2025.04.006
    [摘要](422) [HTML](427) [PDF 1.51 M](647)
    摘要:
    多模态神经影像技术为阿尔茨海默症(Alzheimer’s disease, AD)的早期精准诊断提供了重要的技术支撑。然而,由于不同模态神经影像数据在成像原理和特征表达上存在固有异质性,模态间的信息融合面临挑战。针对这一问题,提出了一种基于3D ResNet架构的多模态融合网络(Multi-modal fusion network, MFN),用于AD的早期辅助诊断。该方法首先采用3D ResNet网络分别提取T1加权和T2加权磁共振图像的特征表示,然后设计了一种创新的跨模态特征集成模块(Cross-modal feature integration module, CFIM)。相较于多模态数据直接串联,导致维度增长无法自适应调整模态权重的问题,CFIM 采用分阶段融合策略,包括全局信息融合模块、局部特征学习模块和关键因素模块。最后,融合后的多模态特征通过全连接神经网络进行分类决策。相比早期拼接的固定权重叠加和后期融合的浅层聚合,该策略能更精准地筛选出疾病诊断相关的特征。通过在阿尔茨海默症神经影像倡议(ADNI)数据库上的实验结果表明,与现有方法相比,本文方法在AD分类任务中具有较高的准确率和显著优势,且消融实验进一步验证了各模块的有效性,为多模态神经影像分析提供了新的技术思路。
    121  武信:一种垂直领域大语言模型系统架构设计与实证
    朱新立,高志强,姬纬通,李少华,李松杰
    2025, 40(3):637-646. DOI: 10.16337/j.1004-9037.2025.03.006
    [摘要](540) [HTML](557) [PDF 2.68 M](583)
    摘要:
    在定制化应用场景下亟需提升大语言模型(Large language models, LLMs)在特定垂直领域的语言理解和生成能力。本文提出一种适用于垂直领域的大语言模型系统开发范式——武信。其涵盖架构、数据、模型和训练等大语言模型系统的系列开发方法,利用人在回路的数据增强提升军事训练伤问答数据集的质量,采用梯度低秩投影(GaLore)策略对轻量级基座大语言模型进行高效全参微调。实验结果表明,所采用的全参微调方法在收敛性和准确性指标上优于主流的LoRA微调,所训练的武信大模型在军事训练伤防治专业知识理解、克服“幻觉”等方面优势明显,相关成果可为垂直领域问答大模型系统设计与应用提供参考。
    122  面向特种设备的大语言模型-知识图谱双向推理优化与幻觉抑制方法
    郑强,许振彬
    2025, 40(3):647-658. DOI: 10.16337/j.1004-9037.2025.03.007
    [摘要](490) [HTML](499) [PDF 1016.51 K](589)
    摘要:
    已有研究在特种设备领域构建了基于大语言模型(Large lanaguage model, LLM)的知识图谱(Knowledge graph, KG)智能问答系统,但受限于KG实体关系的不完备性,LLM在知识密集型任务中仍易产生幻觉。为抑制幻觉生成,提出融合KG推理技术,通过补全实体关系链路增强知识表示。此外,针对现有KG推理方法在语义关联与拓扑结构解析方面的不足,进一步引入一种基于LLM的动态推理机制,利用其深层语义理解能力自动生成高阶逻辑规则,实现KG的精准拓展,从而构建LLM与KG的双向协同优化机制。实验结果表明,该方法在Family、Kinship与UMLS这3个数据集上的平均倒数排名(Mean reciprocal rank, MRR)、首位命中率(First hit rate, Hits@1)和前10位命中率(Ten hit rate, Hits@10)均显著优于基线模型。
    123  基于多尺度注意力和图神经网络的多模态医学实体识别研究
    韩普,刘森嶺,陈文祺
    2025, 40(4):922-933. DOI: 10.16337/j.1004-9037.2025.04.007
    [摘要](341) [HTML](336) [PDF 1.38 M](551)
    摘要:
    随着信息技术的快速发展,医疗健康领域中文文本、图像等多模态数据呈现出了爆发式增长。多模态医学实体识别(Multi-modal medical entity recognition, MMER)是多模态信息抽取的关键环节,近期受到了极大关注。针对多模态医学实体识别任务中存在图像细节信息损失和文本语义理解不足问题,提出一种基于多尺度注意力和图神经网络(Multi-scale attention and dependency parsing graph convolution,MADPG)的MMER模型。该模型一方面基于ResNet引入多尺度注意力机制,协同提取不同空间尺度融合的视觉特征,减少医学图像重要细节信息丢失,进而增强图像特征表示,补充文本语义信息;另一方面利用依存句法结构构建图神经网络,捕捉医学文本中词汇间复杂语法依赖关系,以丰富文本语义表达,促进图像文本特征深层次融合。实验表明,本文提出的模型在多模态中文医学数据集上F1值达到95.12%,相较于主流的单模态和多模态实体识别模型性能得到了明显提升。
    124  基于单值中智优势条件熵的增量式属性约简算法
    骆公志,王聪
    2025, 40(5):1207-1221. DOI: 10.16337/j.1004-9037.2025.05.008
    [摘要](207) [HTML](205) [PDF 32.90 K](666)
    摘要:
    在大数据环境下,序决策信息系统中数据的持续增长导致对象间的优势关系动态变化,高效计算属性约简成为亟待解决的关键问题。为此,提出一种增量单值中智优势条件熵,并由此构建了新的增量式属性约简算法。首先,在单值中智序决策信息系统下给出单值中智优势条件熵;随后,针对4种不同类型的新增对象,深入研究了单值中智优势条件熵的增量更新机制,进而根据该更新机制设计了增量式属性约简算法;最后,选取6个具有优势关系的UCI数据集对增量算法与非增量算法的有效性和高效性进行了对比分析。实验结果表明,新给出的增量属性约简算法在保持相同分类精度的条件下,可以显著提升数据处理的计算效率。
    125  基于GCN和目标视觉特征增强的多模态方面级情感分析
    赵雪峰,柏长泽,狄恒西,仲兆满,仲晓敏
    2025, 40(5):1177-1192. DOI: 10.16337/j.1004-9037.2025.05.006
    [摘要](268) [HTML](1221) [PDF 36.72 K](697)
    摘要:
    多模态方面级情感分析旨在整合图文模态数据,以精准预测方面词的情感极性。现有方法在精确定位文本相关的图像区域特征及有效处理模态间信息交互方面仍存在显著局限,同时模态内的上下文信息理解存在偏差,导致产生额外的噪声。为了解决上述问题,本文提出一种基于图卷积神经网络和目标视觉特征增强(Graph convolutional network and target visual feature enhancement,GCN-TVFE)的多模态方面级情感分析模型。首先,本文采用CLIP(Contrastive language-image pre-training)模型处理文本、方面词和图像数据,通过计算文本与图像之间的相似度以及方面词与图像之间的相似度,并结合这两项相似度,实现对文本与图像、方面词与图像匹配程度的量化评估。再通过Faster R-CNN模型去快速且精确地识别并定位图像中的目标区域,进一步增强模型提取与文本相关的图像特征能力。其次,通过图文GCN网络,利用文本之间的依存句法关系构建文本图结构,同时借助K近邻(K-nearest neighbor, KNN)算法生成图像图结构,从而深入挖掘模态内的特征信息。最后,采用多模态交互注意力机制,有效捕捉方面词与文本之间、目标视觉特征与图像生成文本描述特征之间的关联信息,显著减少噪声干扰,增强模态间的特征交互。实验结果表明,本文提出的模型在公共数据集 Twitter 2015 和 Twitter 2017 上的综合性能优越,验证了该模型在多模态情感分析领域的有效性。
    126  基于U-Net和Transformer结合的不完整多模态脑肿瘤分割方法
    汤占军,蹇洪,王健
    2025, 40(4):934-949. DOI: 10.16337/j.1004-9037.2025.04.008
    [摘要](422) [HTML](480) [PDF 4.07 M](649)
    摘要:
    由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。
    127  基于注意力机制和多尺度集成学习的细粒度图像识别方法
    季晟宇,江志康,马翔,杨绿溪
    2025, 40(2):384-400. DOI: 10.16337/j.1004-9037.2025.02.009
    [摘要](604) [HTML](936) [PDF 4.54 M](563)
    摘要:
    细粒度图像识别是计算机视觉领域中一项重要的研究课题,其主要目标是分辨同属一大类下外观具有高度相似性的子类。以弱监督的细粒度图像识别为研究内容,针对现有研究中存在的图像细粒度特征利用不充分以及判别性区域难以挖掘的问题,提出了基于注意力机制和多尺度集成学习策略的细粒度图像识别方法。该方法引入渐进式学习网络,利用集成学习的策略,基于深度神经网络3个层级的输出特征并行构建多尺度基分类器,并使用标签平滑的方法对分类器进行渐进式训练,从而大幅度提高低层特征的利用率;同时采用高效双通道注意力机制对特征施加通道权重,使得网络能够在通道层面自主筛选特征,从而提升高信息相关度通道的利用率。该方法还引入了自注意力区域建议网络,通过构建循环反馈机制促使模型逐步定位到更加具有判别性的区域,并在最后的分类模块中将完整图像与判别性区域的特征信息进行融合。实验结果表明,该方法在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像数据集上的识别准确率达到行业先进水平。
    128  基于深度学习的岩石钻孔全景图像识别
    先永利,陈学健,彭真明,汪杰,彭波
    2025, 40(3):675-685. DOI: 10.16337/j.1004-9037.2025.03.009
    [摘要](503) [HTML](398) [PDF 3.98 M](616)
    摘要:
    岩土钻孔监测作为一种最常见的隧道超前探测技术,可真实、原位反映岩土的材质、特征及地下水情况等,对确保施工安全至关重要。根据岩土钻孔监测目标特点,本文研制了一套基于全景摄像的适用于岩土长孔道内壁近距离、动态高分辨成像的智能视觉系统。通过EfficientNetV2网络的改进和滑动窗口预测,实现了8类岩石钻孔图像的智能识别。实验结果表明,视觉系统能满足长孔道的近距离高分辨全景成像,且实现岩石材质的智能状态评估,在测试集上的识别成功率达到91.49%,基本具备了岩土钻孔状态的综合智能化评估能力。
    129  基于双重对比学习模型的SAR自动目标识别背景去偏方法
    张文青,王景,黄雪琴,田巳睿,何成,张劲东,李洪涛
    2025, 40(3):686-698. DOI: 10.16337/j.1004-9037.2025.03.010
    [摘要](439) [HTML](357) [PDF 2.60 M](537)
    摘要:
    对比学习作为一种自监督方法,可从无标记SAR图像中挖掘目标表征,是SAR自动目标识别(Automatic target recognition, ATR)的关键技术。但现有模型常将目标与背景整体表征,导致特征混杂背景干扰,从而削弱模型对目标的聚焦能力。为解决这一问题,提出了一种多分支双重对比学习模型。该模型在保留传统实例对比分支的基础上,创新性引入背景纠偏对比分支,构建了多分支对比学习框架;通过正负样本中目标与背景的随机组合策略,并结合ResNet50的主干网络以及自注意力池化增强语义特征提取,利用优化的双重对比损失函数改进目标特征学习,降低背景与目标的伪相关性;基于MSTAR数据集的Shapley值分析验证了该模型的有效性,目标分类结果证明该方法显著增强了模型特征提取的因果性,大大提升了SAR ATR算法的泛化性能。
    130  基于融合语义信息的上下文感知图像修复
    祖奕,张孙杰,吴鹏,马悦恒
    2025, 40(2):401-416. DOI: 10.16337/j.1004-9037.2025.02.010
    [摘要](391) [HTML](656) [PDF 4.22 M](556)
    摘要:
    近年来,生成对抗网络广泛应用于图像修复领域并取得了不错的效果。但目前的方法并没有考虑在高分辨率图像(512×512)中会产生模糊的结构以及纹理的问题,这些问题主要来源于缺乏有效特征信息。针对此问题,提出一种将图像特征与语义信息相结合的生成对抗网络。主要基于语义信息,提出一种上下文感知的图像修复模型,该模型自适应地将语义信息与图像特征融合,并且提出自适应卷积替代传统卷积,以及在解码器后增添一个多尺度上下文聚合模块捕捉远距离信息来进行上下文推理。在Places2、CelebA-HQ、Paris Street View和Openlogo数据集上进行实验,实验结果表明,在L1损失、峰值信噪比(PSNR)和结构相似度(SSIM)上所提方法与现有方法对比均有所提升。
    131  基于路径感知邻域的节点分类算法
    郑文萍,王晓敏,韩兆荣
    2025, 40(1):134-146. DOI: 10.16337/j.1004-9037.2025.01.010
    [摘要](468) [HTML](511) [PDF 1.21 M](534)
    摘要:
    图卷积神经网络通过将相似性高的邻居节点信息进行聚合以得到节点表示,为节点选择合适邻域并进行有效聚合是图卷积网络的关键。现有的图卷积神经网络大多直接将多跳邻域内的节点信息聚合,没有考虑到不同跳数邻域的聚合权重对网络中不同节点的差异性。针对此,提出了一种基于路径感知邻域的节点分类算法(Path connectivity based neighbor-awareness node classification algorithm,PCNA),通过网络中的路径连通信息确定节点邻域,并自适应地感知不同长度路径对节点间相似性计算的影响权重,指导图卷积神经网络的邻域聚合过程。PCNA由邻域感知器和节点分类器组成,邻域感知器基于强化学习机制自适应地获取每个节点的聚合邻域及不同长度路径的影响权重,再利用节点间的路径连通信息得到相似性矩阵;节点分类器利用所得相似性矩阵进行邻域聚合得到节点表示,并进行节点分类。在8个真实数据集上与10种经典算法的对比实验表明了所提算法在节点分类任务上有较好的性能。
    132  基于时序分解和注意力图神经网络的交通预测
    杨永鹏,杨震,杨真真
    2025, 40(2):417-430. DOI: 10.16337/j.1004-9037.2025.02.011
    [摘要](477) [HTML](699) [PDF 1.85 M](481)
    摘要:
    如何有效挖掘隐藏在交通数据中的时空依赖信息、动态信息和空间异质信息一直是交通预测任务面临的关键问题。本文提出了一种基于时序分解和注意力图神经网络(Time-series decomposition and attention graph neural network, TDAGNN)的交通预测模型。采用双分支时序分解卷积神经网络(Dual time-series decomposition convolutional neural network, DTDCNN)从复杂的交通数据中挖掘时间依赖信息;采用多头交互注意力网络(Multi-head interactive attention, MIA)对原始交通特征和局部增强特征进行交互学习,以深入挖掘交通数据的异质信息和动态信息;引入自缩放动态扩散图神经网络(Self-scaling dynamic diffusion graph neural network, SDDGNN)在获取交通数据空间依赖信息的同时,避免图神经网络的尺度失真问题;将提出的TDAGNN应用于经典交通数据PEMS04、PEMS08、METR-LA和PEMS-BAY的交通预测实验中。实验结果表明,提出模型的平均MAE、RMSE和MAPE比其他经典算法最大可分别提高14.64、23.68和9.41%,从而证明其具有较高的交通预测精度。
    133  大语言模型指导的多模态时序-语义预测框架
    叶诗敏,刘非菲,张岩
    2025, 40(5):1193-1206. DOI: 10.16337/j.1004-9037.2025.05.007
    [摘要](453) [HTML](1111) [PDF 36.18 K](671)
    摘要:
    多模态预测任务通常需要同时对文本、图像与结构化数值等异构数据进行建模,以在复杂环境中实现稳健的时序建模、跨模态语义对齐与可解释推理。传统单模态或弱融合方法难以在语义对齐、信息互补与跨源推理方面取得一致性,且深度模型的黑箱特性限制了结果的可解释性。与此同时,大语言模型(Large language model, LLM)在语义理解、指令跟随与推理方面展现出强大能力,但其与时序建模、跨模态对齐及实时知识整合之间仍存在鸿沟。因此,提出LLM指导的多模态时序-语义预测框架,通过将变分推理的时序建模与LLM的语义分析相结合,构建“时序-语义-决策”的协同机制:时序模块利用递归潜变量与注意力机制提取历史行为模式;语义模块利用领域化语言模型与多模态编码器提炼高层语义与解释;两者在可学习融合器中联合优化,并提供不确定性标注与可解释报告。在StockNet、CMIN-US和CMIN-CN数据集上的实验表明,本文方法准确率达63.54%,较最优基线提升5.31个百分点,马修斯相关系数(Matthews correlation coefficient, MCC)提升至0.223。本文研究为多模态时序预测提供了统一范式,并在金融科技领域展现出应用潜力。
    134  基于三级去畸变和分层降采样机制的F-LOAM改进算法
    徐鹤,张阔,李鹏
    2025, 40(5):1294-1305. DOI: 10.16337/j.1004-9037.2025.05.015
    [摘要](221) [HTML](248) [PDF 25.74 K](634)
    摘要:
    传统的快速激光雷达里程计与建图(Fast LiDAR odometry and mapping, F-LOAM)算法虽然对特征点进行了两级去畸变处理,但仅对第1阶段的特征点进行去畸变,第2阶段的去畸变主要用于建图,这导致位姿估计的准确性不高。为了解决这一问题,提出了一种改进的三级去畸变机制,结合基于体素化网格的分层降采样机制,以提高算法的实时性。经过改进的F-LOAM算法在KITTI数据集上的测试表现出色。三级去畸变机制和分层降采样策略不仅有效降低了计算负担,还确保了特征点的有效性和全局地图的精度。
    135  基于DID-AugGAN的小样本缺陷图像生成与数据增强算法
    黄绿娥,邓亚峰,鄢化彪,肖文祥
    2025, 40(5):1306-1321. DOI: 10.16337/j.1004-9037.2025.05.016
    [摘要](347) [HTML](285) [PDF 36.59 K](935)
    摘要:
    针对小样本条件下生成对抗网络(Generative adversarial network, GAN)生成缺陷图像质量低、不真实且多样性差的问题,提出一种缺陷图像生成算法(Defect image data augmentation GAN,DID-AugGAN),旨在实现小样本缺陷图像的数据增强。为解决传统卷积在有限数据集中难以有效学习图像中非刚性特征的问题,设计可学习偏移卷积,以提高模型对图像语义信息的学习能力;为避免关键缺陷特征丢失,提升局部特征之间的关联性,设计多尺度坐标注意力模块,重点关注缺陷位置信息;为提高网络对输入图像局部信息的判别能力,重新设计判别器网络架构,使其从传统的单一前馈网络转变为包含对称编码与解码路径的UNet-like结构;将DID-AugGAN与原算法在Rail-4c轨道扣件缺陷数据集上进行对比实验,并利用分类网络MobileNetV3进行验证。实验结果表明,改进后的方法显著提高了IS(Inception score),有效降低了FID(Fréchet inception distance)和LPIPS(Learned perceptual image patch similarity)指标,并且MobileNetV3分类准确率和F1分数也得到提高。该算法能稳定生成高质量的缺陷图像,有效扩充缺陷数据样本,满足下游任务需求。
    136  针对模相近数据的启发式核密度估计器
    何玉林,陈纯佳,黄哲学,李俊杰,FOURNIER-VIGER Philippe
    2025, 40(3):711-729. DOI: 10.16337/j.1004-9037.2025.03.012
    [摘要](354) [HTML](359) [PDF 2.91 M](475)
    摘要:
    区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator, HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。
    137  基于数据聚类的CSI反馈Transformer网络简化实现方法
    还冬锐,张逸帆,姜明
    2025, 40(2):431-445. DOI: 10.16337/j.1004-9037.2025.02.012
    [摘要](467) [HTML](667) [PDF 4.37 M](527)
    摘要:
    为应对大规模多输入多输出(Multiple-input multiple-output,MIMO)系统中信道状态信息(Channel state information,CSI)反馈开销的日益增长,基于深度学习的CSI反馈网络(如Transformer网络)受到了广泛的关注,是一种非常有应用前景的智能传输技术。为此,本文提出了一种基于数据聚类的CSI反馈Transformer网络的简化方法,采用基于聚类的近似矩阵乘法(Approximate matrix multiplication,AMM)技术,以降低反馈过程中Transformer网络的计算复杂度。本文主要对Transformer网络的全连接层计算(等效为矩阵乘法),应用乘积量化(Product quantization,PQ)和MADDNESS等简化方法,分析了它们对计算复杂度和系统性能的影响,并针对神经网络数据的特点进行了算法优化。仿真结果表明,在适当的参数调整下,基于MADDNESS方法的CSI反馈网络性能接近精确矩阵乘法方法,同时可大幅降低计算复杂度。
    138  基于迁移学习卷积记忆网络的多声音事件检测
    陈鹏飞,夏秀渝
    2025, 40(3):730-740. DOI: 10.16337/j.1004-9037.2025.03.013
    [摘要](353) [HTML](327) [PDF 2.23 M](525)
    摘要:
    针对多声音事件检测任务中强标注数据集有限、真实场景下检测性能急剧恶化的问题,提出了基于迁移学习卷积记忆网络的多声音事件检测方法。首先,该方法使用带有预训练权重的卷积块提取音频数据的局部特征,再将局部特征和方位特征一并送入残差特征增强模块进行特征融合和通道降维处理。接着将提取到的融合特征送入采用正则化方法的记忆网络,以进一步学习音频数据中的时序信息。实验结果显示,与DCASE挑战赛冠军系统模型相比,该方法在DCASE 2016 Task3数据集的开发集和评估集上,错误率分别降低了0.277和0.106,F1分数分别提高了22.6%和6.6%;在DCASE 2017 Task3数据集的开发集和评估集上,错误率分别降低了0.22和0.123,F1分数分别提高了17.2%和14.4%。
    139  MonoDI:基于融合深度实例的单目3D目标检测
    赵科,董浩然,业宁
    2025, 40(5):1322-1332. DOI: 10.16337/j.1004-9037.2025.05.017
    [摘要](246) [HTML](245) [PDF 40.42 K](636)
    摘要:
    单目3D目标检测旨在定位输入单个2D图像中物体的3D边界框,这在缺乏图像深度信息的情况下是一个极具困难的任务。针对2D图像在推理时的深度信息缺失以及深度图背景噪声干扰导致检测效果不佳的问题,提出一种融合深度实例的单目3D目标检测方法MonoDI。其关键思想在于利用有效的深度估计网络所生成的深度信息结合实例分割掩码得到深度实例,再与2D图像信息融合来帮助物体3D信息的回归。为了更好地利用深度实例信息,设计了一个迭代深度感知注意力融合模块(iterative Depth aware attention fusion module, iDAAFM),将深度实例特征与2D图像特征融合以得到含有物体清晰边界和深度信息的特征表示;另外,在训练和推理过程引入残差卷积结构代替一般的单一卷积结构,以保证网络在处理融合信息时的稳定与高效。同时,设计了一个3D边界框不确定性辅助任务,在训练中帮助任务学习边界框的生成,提高单目3D目标检测任务的精度。在KITTI数据集上对此方法进行验证,实验结果表明,MonoDI在3D目标检测任务中中等难度情况下的车辆类别的检测精度比基线提高了4.41个百分点,且优于MonoCon、MonoLSS等对比方法,同时在KITTI-nuScenes跨数据集实验中取得了较优的结果。
    140  基于改进YOLOv8n的道路裂缝检测轻量化模型
    朱佳慧,刘艺,张登银
    2025, 40(5):1333-1347. DOI: 10.16337/j.1004-9037.2025.05.018
    [摘要](396) [HTML](416) [PDF 32.44 K](1033)
    摘要:
    针对道路裂缝外观特征易受环境干扰、细小裂缝漏检率高、检测设备计算资源受限的问题,提出了轻量级检测模型MCA-YOLO-A。该模型基于YOLOv8n,用更轻量的MobileNetV3特征提取网络来代替原主干网络,并融合了精确捕捉空间信息的坐标注意力(Coordinate attention, CA)模块,提高了特征提取能力。同时,引入了适用于轻量级网络的Alpha-IOU损失函数,使得网络整体性能提升。此外,增加了小目标检测层,提升细小裂缝的识别精度。MCA-YOLO-A模型在道路裂缝数据集上平均精度均值mAP_0.5和F1分数分别达到0.930和0.893,相较于原YOLOv8n模型分别提升了7.0%和9.7%,参数量仅为6.0M,减少了4.8%,检测速度达到95帧/s。实验结果证明,该模型具备高精度、轻量化以及出色的泛化能力,更适合应用于计算资源受限的嵌入式系统和移动终端等场景。
    141  基于双向长短时记忆网络和自注意力机制的心音分类
    卢官明,李齐健,卢峻禾,戚继荣,赵宇航,王洋,魏金生
    2025, 40(2):456-468. DOI: 10.16337/j.1004-9037.2025.02.014
    [摘要](538) [HTML](435) [PDF 1.48 M](503)
    摘要:
    心音听诊是早期筛查心脏病的有效诊断方法。为了提高异常心音检测性能,提出了一种基于双向长短时记忆(Bi-directional long short-term memory,Bi-LSTM)网络和自注意力机制(Self-attention mechanism,SA)的心音分类算法。对心音信号进行分帧处理,提取每帧心音信号的梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征;将MFCC特征序列输入Bi-LSTM网络,利用Bi-LSTM网络提取心音信号的时域上下文特征;通过自注意力机制动态调整Bi-LSTM网络各时间步输出特征的权重,得到有利于分类的更具鉴别性的心音特征;通过Softmax分类器实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016心音数据集上对所提出的算法使用10折交叉验证法进行了评估,得到0.942 5的灵敏度、0.943 7的特异度、0.836 7的精度、0.886 5的F1得分和0.943 4的准确率,优于对比的典型算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,具有潜在的临床应用前景。
    142  基于扩张注意力与深度最优化校正的多视图三维重建网络
    徐蕾,雷有元,朱军,周杰,邵根富,张家铭
    2025, 40(4):1023-1034. DOI: 10.16337/j.1004-9037.2025.04.015
    [摘要](286) [HTML](366) [PDF 2.20 M](553)
    摘要:
    与CVP-MVSNet网络和CasMVSNet网络相比,MVSNet重建网络存在的内存消耗量问题降低了模型处理高分辨率图像时的内存消耗量以及重建点云的准确性误差,但是两者点云的完整性误差却很大。针对此问题,本文提出了基于扩张注意力与深度最优化校正的多视图三维重建网络DA-MVSNet。DA-MVSNet是以CasMVSNet作为基准网络,额外引入一个融合了深度可分离卷积的并行空洞卷积与注意力模块构成的特征增强网络,增强了重建网络对输入视图的全局特征捕获能力,提升了重建点云的完整度。为进一步提升输出深度图的精度,防止特征增强网络提取过多的视图非相关背景信息导致重建点云准确度的下降,在网络的输出部分还引入了一个基于非线性最小二乘的最优化校正机制模块。结果表明,DA-MVSNet重建网络在室内场景数据集DTU上运行得到的重建点云的准确性误差与完整性误差分别降低了2.5%和4.7%,具有较好的综合性能。但也由于额外引入了增强网络和校正机制,其内存和时间消耗均约高于CVP-MVSNet与CasMVSNet网络
    143  时空分布动态感知的校园共享单车众包调度系统
    沈如达,何万源,许艺凡
    2025, 40(4):972-985. DOI: 10.16337/j.1004-9037.2025.04.011
    [摘要](378) [HTML](515) [PDF 2.66 M](617)
    摘要:
    共享自行车系统(Bike sharing system, BSS)已成为实施城市智能交通系统的一个重要组成部分。本文提出了一种时空分布动态感知的校园共享单车资源调度系统。该系统为了解决共享自行车站点库存突发变化所导致的库存紧张的问题,首先通过向量自回归滑动平均(Vector autoregressive moving average, VARMA)模型对自行车站点的动态变化情况进行建模,实现对站点未来时刻库存水平的预测,其次为了解决众包资源调度场景下自行车调度效用和开销的矛盾,提出了基于二分最优匹配模型的调度任务分配方法,并针对性优化了匈牙利算法实现任务分配决策的高效求解。仿真实验结果表明,本文提出的方法能够有效提高共享单车调度的系统效用,降低自行车站点因库存紧张导致的服务质量损失,有效平衡自行车时空分布。
    144  混合层次依赖度下的邻域粗糙集多目标特征选择算法
    骆公志,张尚蕾
    2025, 40(1):117-133. DOI: 10.16337/j.1004-9037.2025.01.009
    [摘要](551) [HTML](359) [PDF 1.40 M](605)
    摘要:
    精度和效率是评判特征选择算法性能的关键指标,分别对应邻域粗糙集的属性依赖度和约简规模,而已有的特征选择算法通常以属性约简的最大依赖度为导向进行寻优,忽略了约简规模的重要性。现实中,随着数据特征维度的增加和类别层次结构的出现,导致类别信息复杂且结构关系混乱,传统属性依赖度计算未有效利用类别层次结构信息,使得分类性能不佳。鉴于此,本文构造了一种综合考量属性重要度和类别层次结构关系的混合层次依赖度,将混合层次依赖度和约简规模作为两个独立的优化目标,引入多目标进化算法对其分别进行优化,从属性依赖度和属性规模两方面提升所得属性约简的性能,以得到满足目标约束的约简结果。数据实验分析结果表明,所提算法能够在目标约束内得到更高质量的约简结果,并且能够提高分类精度。
    145  医疗大模型发展现状与展望
    钱波,李富江,郑常乐,张道强
    2025, 40(3):562-584. DOI: 10.16337/j.1004-9037.2025.03.002
    [摘要](1339) [HTML](1463) [PDF 4.44 M](830)
    摘要:
    医疗大模型是大规模预训练模型技术在医疗领域的重要应用成果,已成为智能辅助医疗的重要研究方向。通过在海量医学数据上进行预训练,这类模型展现出跨任务迁移、多模态理解和复杂推理等关键能力,突破了传统神经网络在医学应用中的多项限制。借助这些能力,医疗大模型正在重塑辅助诊断、病例报告生成和医学影像分析等核心任务的实现路径,对实现医疗“通用智能”具有深远意义。基于此,本文对医疗大模型的发展现状与未来趋势进行综述。首先,回顾了医疗人工智能模型在人工智能快速演进背景下的发展历程;其次,重点介绍了大模型在病理学、眼科和脑疾病等医学子领域的研究进展;最后探讨了当前医疗大模型面临的挑战,并展望其未来的发展方向。
    146  基于宽度学习和注意力机制的小样本通信辐射源个体识别方法
    陈宇鹏,刘辉,任高星,杨俊安
    2025, 40(5):1261-1269. DOI: 10.16337/j.1004-9037.2025.05.012
    [摘要](269) [HTML](334) [PDF 25.16 K](658)
    摘要:
    在小样本通信辐射源个体识别场景中,现有深度学习算法对通信辐射源个体特征提取困难,识别率不高。针对此问题,提出通过融合注意力机制和宽度学习构建浅层神经网络的识别方法。首先,引入宽度学习来简化网络模型,减轻小样本带来的过拟合现象;其次,构建节点注意力模块提高宽度神经网络在小样本条件下特征提取能力;最后,在公开数据集上验证提出方法的有效性。结果表明,在少量样本条件下相比深度学习方法,所提方法改善了深度学习网络的过拟合现象,加强了宽度学习方法的特征提取能力,提高了识别准确率。
    147  基于大语言模型的航空发动机领域高质量数据集构建
    邹冠沄,王存俊,孔寅豪,马小庆,李丕绩
    2025, 40(3):603-615. DOI: 10.16337/j.1004-9037.2025.03.004
    [摘要](844) [HTML](696) [PDF 2.23 M](710)
    摘要:
    随着人工智能技术的快速发展,大语言模型(Large language models, LLMs)在多个领域的应用日益广泛。然而,航空发动机领域由于缺乏高质量的人工编写问答数据集,限制了专家问答大模型的应用。本文提出了一种基于LLMs的问答数据集自动化构建方法,该方法无需人工干预即可生成高质量的开放式问答数据。在数据生成阶段,采用上下文学习方法和输入优先生成策略,增强了生成数据的稳定性;在数据过滤阶段,通过原文相似度的忠实度评估和大模型的语义质量评估,建立了数据质量自动评估机制,有效筛选出受幻觉影响的异常数据,确保数据的事实可靠性。实验结果表明,该方法显著提升了生成数据集的质量,经过指令微调后的模型在航空发动机领域的知识问答表现显著提升。本文的研究成果不仅为航空发动机领域的大模型应用提供了坚实基础,也为其他复杂工程领域的数据集自动化构建提供了参考。
    148  基于非负矩阵分解的EEG-TCNet运动想象分类
    张学军,石宝明
    2025, 40(5):1361-1370. DOI: 10.16337/j.1004-9037.2025.05.020
    [摘要](239) [HTML](220) [PDF 32.37 K](652)
    摘要:
    针对深度学习进行脑电信号(Electroencephalogram, EEG)的运动想象分类时,未利用通道特征研究通道之间相关性,以及没有充分发掘频率、时间和空间信息等问题,提出了一种基于非负矩阵分解(Nonnegative matrix factorization,NMF)的时间卷积网络(Temporal convolutional network,TCN)与紧凑型卷积神经网络EEGNet相结合的分类方法,记为NTEEGNet,以相对少量的参数来提高运动想象分类的性能。模型的NMF能更好地提取通道特征,且充分地利用了频率、时间和空间等信息;同时,在TCN的作用下,网络的感受野呈指数级增加,从而能在较少的参数下具有更强的特征提取能力。在BCI Competition Ⅳ 2a数据集上的实验结果表明,NTEEGNet的分类准确率达到83.99%,在EEG-TCNet的基础上提升了6.64%。
    149  基于后悔理论的多粒度直觉模糊三支决策模型
    庞文莉,于潇,郑宇,陈辉,薛占熬,辛现伟
    2025, 40(2):501-516. DOI: 10.16337/j.1004-9037.2025.02.017
    [摘要](505) [HTML](310) [PDF 1.41 M](479)
    摘要:
    传统基于函数或关系的三支决策模型在应对复杂多粒度决策问题求解时,容易忽略现实中信息的多粒度特性和决策者认知能力的局限性。基于此,本文提出了一种基于后悔理论的多粒度直觉模糊三支决策模型。首先,为处理直觉模糊数的复杂计算问题,将θ算子与直觉模糊粗糙集相融合,提出了一种多粒度直觉模糊粗糙集上、下近似算子,并给出相应的三支决策规则。其次,为将决策者的认知特性融合到决策过程中,结合后悔理论构建了乐观和悲观策略下的多粒度三支排序方法。最后通过国际中文教育“中文+职业”人才胜任力评估的群决策实例验证了所提模型的有效性,为直觉模糊环境下融合决策者风险偏好的不确定性决策问题提供了一种新方法。
    150  基于多特征和跨模态知识蒸馏的鱼病命名实体识别
    沈志成,陈明
    2025, 40(1):230-246. DOI: 10.16337/j.1004-9037.2025.01.018
    [摘要](552) [HTML](447) [PDF 3.70 M](561)
    摘要:
    为解决多模态鱼病知识缺乏合理安排的问题,同时降低知识蒸馏过程的冗余数据,从而部署存储低、样本小、精度高的识别模型,提出一种基于多特征协同预测-跨模态多头蒸馏的方法,命名为FSFDAI-TMRD。在多特征协同预测方面,重点改进了原多任务多特征协同预测架构。首先使用更细粒度的BMES(Begin-middle-end-single)法代替原工作中BIO(Begin-inside-outside)法的粗略标注,其次修改原架构的联合概率分布计算公式,使得模型可以更好地识别嵌套名词实体。在跨模态多头蒸馏方面,本文运用了跨模态注意力机制。首先计算合并、拆分和点积后的多头关系矩阵,其次利用相对熵进行知识蒸馏,使得模型可以更好地对齐异构师生间的中间特征。同时,本文还应用了双仿射注意力机制及对抗性权重扰动函数等方法,加强学习语义语音和字形词义等多特征知识。与主流模型相比,本文方法的精确率、召回率和F1值分别提升了0.45%、3.96%和2.28%,并且存储优化比例提高3.01%,模型参数规模缩小94.86%。
    151  基于多尺度双分支双注意力的点云分类网络
    顾君豪,张孙杰,秦辰栋
    2025, 40(6):1608-1624. DOI: 10.16337/j.1004-9037.2025.06.018
    [摘要](239) [HTML](305) [PDF 3.42 M](472)
    摘要:
    尽管Transformers在三维点云处理中已取得显著进展,但高效且准确地学习有价值的低频和高频信息仍然是一个挑战。此外,现有方法大多侧重于局部空间信息,忽略了全局空间的信息,从而导致信息的丢失。本文提出了一种新的点云学习网络,称为多尺度双分支双注意力网络。首先,在点云的提取过程中,与在固定的尺度上寻找邻近点的提取方法相比,利用多尺度K近邻(K-nearest neighbor,KNN)的方法不仅保留了局部结构细节,还更有效地捕获了全局几何信息。其次,本文引入了双分支双注意力架构提取不同空间特征,提出了局部窗口注意力与全局通道内容注意力双注意力机制,分别提取网络的低频信息与高频信息。在此基础上,本文在分类头中引入GR-KAN(Group-rational Kolmogorov-Arnold)层代替传统使用的多层感知器(Multilayer perceptron,MLP)层,其能够更灵活地处理非线性特征,使得网络对复杂的数据集更加敏感。最后,大量实验表明,本文提出的模型在ModelNet40数据集获得了93.8%的准确率,在ScanObjectNN数据集上获得了86.5%准确率,显示了其在三维点云处理中优越的性能和广阔的应用前景。
    152  多模态持续学习方法研究进展
    张伟,钱龙玥,张林,李腾
    2025, 40(5):1122-1138. DOI: 10.16337/j.1004-9037.2025.05.002
    [摘要](489) [HTML](498) [PDF 75.38 K](694)
    摘要:
    多模态持续学习(Multimodal continual learning, MMCL)作为机器学习和人工智能领域的一个重要研究方向,旨在通过融合多种模态数据(如图像、文本或语音等)来实现持续的知识积累与任务适应。相较于传统单模态学习方法,MMCL不仅能够并行处理多源异构数据,还能在有效保持已有知识的同时适应新任务需求,展现出在智能系统中的巨大应用潜力。本文系统性地对多模态持续学习进行综述。首先,从基本概念、评估体系和经典单模态持续学习方法3个维度阐述了MMCL的基础理论框架。其次,深入剖析了MMCL在实际应用中的优势与挑战:尽管其在多模态信息融合方面具有显著优势,但仍面临模态不平衡、异构性融合等关键挑战,这些挑战既制约了当前方法的性能表现,也为未来研究指明了方向。基于此,本文随后从基于回放、正则化、参数隔离和大模型4个主要方面,全面梳理了MMCL方法的研究现状与最新进展。最后,对MMCL的未来发展趋势进行了前瞻性展望。
    153  多智能体协同的开放域多模态三维模型识别算法
    李锵,马秋阳,张宁,聂为之
    2025, 40(5):1139-1152. DOI: 10.16337/j.1004-9037.2025.05.003
    [摘要](347) [HTML](2236) [PDF 39.08 K](703)
    摘要:
    为了解决开放域条件下三维模型无标签数据类别识别困难的问题,本文提出了一种多智能体协同的开放域三维模型识别算法。首先,构建多智能体系统,模拟人类协作学习过程,成员智能体分别处理不同模态的三维模型数据,提取对应特征向量,领导智能体通过特征融合网络整合多模态信息,形成全局特征向量。通过奖励机制驱动智能体探索多模态特征空间,并利用多模态信息的关联性进行自监督学习,从而优化分类策略。其次,在强化学习环境中设计了一种基于密度聚类的渐进式伪标签生成方法,通过动态调整聚类参数,为无标签数据迭代生成高质量伪标签,缓解传统方法因标签缺失导致的性能瓶颈。实验结果表明,本文方法在三维数据集OS-MN40上平均识别精度均值达到65.6%,将本文方法迁移至图像领域后,在CIFAR10数据集上的分类准确率达到95.6%,为开放域三维模型识别研究提供了通用且高效的解决方案。
    154  基于强化学习与变权组合模型的EV充电需求功率预测方法
    宋宗仁,葛泉波,李春喜
    2025, 40(2):530-544. DOI: 10.16337/j.1004-9037.2025.02.019
    [摘要](491) [HTML](313) [PDF 3.21 M](480)
    摘要:
    当电动汽车(Electric vehicle,EV)与充电桩连接时,精确预测电动汽车动力电池组的充电需求功率,对于防止电池组过充电至关重要。由于电池组物理模型的复杂性使基于其充电需求功率预测方法通常难以构建,且实时性不高。此外,单一预测模型的预测精度偏低。针对上述问题,结合充电数据与机器学习,提出一种基于强化学习与变权组合模型的EV充电需求功率预测方法。在传统灰狼优化算法的基础上,将混沌映射、精英反向学习策略相结合以提高初始种群的质量,利用强化学习的动态权重策略更新灰狼个体位置来优化最小二乘支持向量机(Least square support vector machine, LSSVM)算法中的参数;通过基于时变权重分配的变权组合方法合理分配极限学习机预测模型与改进LSSVM预测模型的权重,解决单一预测模型方法的不足;采用电动汽车的实际充电数据对所提预测算法进行验证,新方法相较于其他3种传统方法在预测精度上分别提高了4.75%、3.84%和0.38%。
    155  基于决策代价融合度量的不完备邻域决策粗糙集属性约简
    张万祥,张贤勇,杨霁琳,陈本卫
    2025, 40(3):807-820. DOI: 10.16337/j.1004-9037.2025.03.019
    [摘要](298) [HTML](265) [PDF 2.01 M](488)
    摘要:
    属性约简依赖于知识粒化和不确定性度量,有助于智能识别。针对不完备连续型数据,邻域决策粗糙集诱导了属性约简,但相关的邻域关系需要优化改进,同时存在的决策代价值需要集成强化。本文提出一种新的邻域关系并组建3种决策代价融合度量,构造不完备邻域决策粗糙集并系统研究属性约简。首先,通过改进的距离函数引入不完备邻域关系,提出一种改进的不完备邻域决策粗糙集模型。然后,基于决策代价引入依赖度和邻域熵,采用乘法融合得到3种决策代价融合度量,研究粒化非单调性。进而,基于2种邻域关系和4种决策代价相关度量,采用属性重要度设计8种启发式约简算法。数据实验表明,本文所提的7种新算法中有5种算法具有较好的分类学习性能,改进了基础约简算法。
    156  融合多核学习和多源特征的胰腺囊性肿瘤分类方法
    武杰,徐真顺,张志伟,田慧,边云
    2025, 40(1):247-257. DOI: 10.16337/j.1004-9037.2025.01.019
    [摘要](506) [HTML](417) [PDF 2.95 M](602)
    摘要:
    胰腺囊性肿瘤的良恶性分类对于医学决策至关重要,本文致力于提高胰腺囊性肿瘤的分类准确性,以辅助医生更精确地制定诊疗方案。基于影像组学技术和ResNet50神经网络,提出了融合多核学习和多源特征的胰腺囊性肿瘤分类方法,其关键步骤包括特征筛选、核矩阵融合及构建分类模型。首先采用最小绝对收缩与选择算子(Least absolute shrinkage and selection operator, LASSO)进行特征筛选,减少冗余特征,提高模型的泛化能力;然后选取经过特征筛选的多源特征,通过在基础核函数中进行特征映射,构建多源特征的基础核矩阵,优化选取核矩阵的权重系数,并加权相加这些基础核矩阵以形成融合的核矩阵;最后,利用支持向量机(Support vector machine,SVM)分类器对胰腺浆液性和黏液性囊性肿瘤进行分类。这一过程的关键在于,SVM可以利用核矩阵在高维空间中内积,在高维空间中寻找一个超平面来分类数据,而融合的核矩阵中包含了经过特征映射的多源信息,可以提供更高维度和更复杂的特征表示。实验结果表明,该方法在胰腺囊性肿瘤良恶性分类任务中取得了显著的性能提升,可为医生提供更可靠的辅助信息,具有显著的临床应用潜力。
    157  基于多维混沌映射的复合型部分随机测量矩阵构造算法
    陈兴兰,鲁进,张亚楠
    2025, 40(1):258-272. DOI: 10.16337/j.1004-9037.2025.01.020
    [摘要](565) [HTML](477) [PDF 3.51 M](585)
    摘要:
    测量矩阵的构造是影响压缩感知技术重构性能的重要环节。针对随机性测量矩阵高存储成本以及确定性矩阵较难满足约束等距性(Restricted isometric property, RIP)特性的问题,提出了一种基于混沌映射构造测量矩阵的改进方法,将随机高斯矩阵、确定性矩阵和混沌序列相结合,充分利用随机高斯矩阵少量测量数和混沌映射较低相关性的优势。同时,分析了混沌序列的相空间特性、测量矩阵的RIP特性、以及构造优化测量矩阵的计算复杂度。最后,仿真实验对比了随机高斯矩阵、托普利兹矩阵和现有的复合型矩阵。结果表明,在一维随机信号的相对误差、成功重构概率及信噪比的指标上,所提优化测量矩阵均优于其他3种矩阵;在二维图像的重构时间复杂度、峰值信噪比、结构相似性指数和平均结构相似性指数的指标上,所提优化测量矩阵也均有一定的提升,表现出更好的重构性能和良好的应用价值。
    158  基于多尺度特征融合预处理与深度稀疏网络的并行磁共振成像重建
    薛磊,段继忠
    2025, 40(4):1082-1095. DOI: 10.16337/j.1004-9037.2025.04.020
    [摘要](244) [HTML](260) [PDF 5.42 M](622)
    摘要:
    磁共振成像(Magnetic resonance imaging, MRI)在医学诊断中具有关键作用,但过长的扫描时间可能会导致患者不适或产生运动伪影。并行成像技术和压缩感知理论表明,可通过对k空间数据进行欠采样从而提高扫描速度,其中并行MRI是一种通过利用多个接收线圈同时采集多个数据通道来加速成像过程的技术。深度学习凭借其强大的特征提取和模式识别能力,在欠采样MRI重建中展现出巨大的潜力。为克服现有技术的局限性(如需要自动校准信号、重建不稳定等),提出了一种创新的重建方法,旨在从欠采样的k空间数据中高效、准确地重建高质量的并行磁共振图像。该方法的核心骨架为深度稀疏网络,该网络通过将求解稀疏模型的迭代收缩阈值算法的迭代过程展开,转化为深度神经网络框架内的一系列可训练层。另外,还引入基于多尺度特征融合的自适应预处理模块,通过融合普通卷积与异型卷积核,进一步提升网络的稀疏表示能力。实验结果表明,相较于其他先进方法,本文提出的方法在多个数据集上均表现出更优的重建性能,包括更高的峰值信噪比和结构相似性指数,以及更低的高频误差范数。
    159  基于类型语义提示的事件检测方法
    丁远远,张顺香,文华,焦熠璇,张基旭,曹宇轩
    2025, 40(2):517-529. DOI: 10.16337/j.1004-9037.2025.02.018
    [摘要](517) [HTML](419) [PDF 1.61 M](497)
    摘要:
    针对现有研究将事件检测过程分解为触发词识别和分类两个阶段性任务,从而引发误差传递的问题,本文提出一种基于类型语义提示的事件检测方法。通过将事件类型作为提示信息来引导模型从事件文本中抽取与事件类型对应的触发词,从而并行执行触发词的识别和分类,缓解任务间误差传递的问题。首先利用跨注意力机制处理事件文本表征和事件类型提示模板,获得融合事件文本信息的提示表征;然后计算提示表征与事件文本表征间的余弦相似度,得到与事件类型对应的触发词在事件文本中位置的概率分布;最后基于位置的概率分布确定触发词的位置,从而同时实现触发词的识别与分类。在ACE2005和MACCROBAT-EE数据集上的实验结果表明,本文方法在事件检测任务中的F1值均有提升。
    160  面向语义增强的在线哈希方法
    赵志杰,康潇,张雪凝,王少华,刘兴波,聂秀山
    2025, 40(4):1096-1106. DOI: 10.16337/j.1004-9037.2025.04.021
    [摘要](229) [HTML](233) [PDF 2.54 M](525)
    摘要:
    传统的基于批处理的哈希学习方法通常无法满足大规模流数据实时在线检索的需求。在线哈希学习其核心在于无需重复访问原始累积数据,只为新增数据学习哈希码,并实时更新哈希函数以适应新旧数据的变化。现有在线哈希方法仍面临诸多挑战,如类间关系挖掘不足导致的语义偏移和新旧数据关联不足导致的遗忘问题。针对这些问题,本文提出了一种新的在线哈希学习方法——面向语义增强的在线哈希(Online semantic enhancement hashing, OSEH)。该方法通过设计三重矩阵分解框架,深入挖掘特征和标签间的交互关系,以生成反映类间关系的细粒度标签矩阵。同时,结合标签嵌入和成对相似性保持技术,将增强的语义信息有效融入哈希学习过程,优化哈希码的生成和哈希函数的实时更新。在大规模检索数据集上的实验结果表明,本文所提方法显著提升了在线哈希学习的性能。
    161  基于可学习掩模和位置编码的遮挡行人重识别
    杨真真,陈亚楠,杨永鹏,吴心怡
    2025, 40(1):217-229. DOI: 10.16337/j.1004-9037.2025.01.017
    [摘要](714) [HTML](617) [PDF 3.33 M](594)
    摘要:
    行人重识别虽已取得了显著进展,但在实际应用场景中,不同障碍物引起的遮挡问题仍然是一个亟待解决的挑战。为了从被遮挡行人中提取更有效的特征,提出了一种基于可学习掩模和位置编码(Learnable mask and position encoding, LMPE)的遮挡行人重识别方法。首先,引入了一种可学习的双路注意力掩模生成器(Learnable dual attention mask generator, LDAMG),生成的掩模能够适应不同遮挡模式,显著提升了对被遮挡行人的识别准确性。该模块可以使网络更灵活,能更好地适应多样性的遮挡情况,有效克服了遮挡带来的困扰。同时,该网络通过掩模学习上下文信息,进一步增强了对行人所处场景的理解力。此外,为了解决Transformer位置信息损耗问题,引入了遮挡感知位置编码融合 (Occlusion aware position encoding fusion, OAPEF)模块。该模块进行不同层次位置编码融合,使网络获得更强的表达能力。通过全方位整合图像位置编码,可以更准确地理解行人间的空间关系,提高模型对遮挡情况的适应能力。最后,仿真实验表明,本文提出的LMPE在Occluded-Duke和Occluded-ReID遮挡数据集以及Market-1501和DukeMTMC-ReID无遮挡数据集上都取得了较好的效果,验证了本文方法的有效性和优越性。
    162  基于变步长多邻域搜索的异构车辆路由方法
    郑继媛,张少博,王鑫,王小波
    2025, 40(6):1650-1660. DOI: 10.16337/j.1004-9037.2025.06.021
    [摘要](131) [HTML](180) [PDF 1.24 M](466)
    摘要:
    车辆路径规划问题是一类经典的、被证明为NP-hard的组合优化问题,其常被应用于交通物流与智能制造领域当中。然而,这类问题通常假设车辆具有同质性,难以刻画实际场景中车辆对不同商品种类运输能力的差异。为此,本文提出一种新的异构车辆路由问题(Heterogeneous vehicle routing problem,HVRP),通过引入商品种类属性与车辆运输能力约束,构建了描述车辆-订单匹配关系的整数规划模型,目标为最小化总运输距离。通过车辆类型对于商品种类的运输能力实现了车辆对客户可服务关系的形式化描述。为实现HVRP的高效求解,提出了变步长多邻域搜索(Variable step multi-neighborhood search,VSMNS)算法,并设计了路径编码与链表结合的解表示方法。最后,将 VSMNS 与遗传算法、混合遗传算法与人工蜂群算法在15个测试案例上进行对比实验。实验结果表明,VSMNS不仅在解质量上取得了优异的表现,且随问题规模的增大,算法性能优势更加显著。消融实验进一步验证了算法中的各个组件的作用,显示了所设计的局部算子的先进性。
    163  基于混合卷积增强和内容感知注意力的跨模态行人重识别
    杨真真,吴心怡
    2025, 40(6):1596-1607. DOI: 10.16337/j.1004-9037.2025.06.017
    [摘要](221) [HTML](164) [PDF 2.51 M](481)
    摘要:
    跨模态行人重识别作为计算机视觉领域的研究热点,旨在解决不同成像条件下的行人匹配问题。现有研究着重于提取模态共享特征,但不能充分挖掘、鉴别行人身份至关重要的细节特征。为了解决该问题,提出了一种基于混合卷积增强和内容感知注意力(Hybrid convolutional enhancement and content-aware attention, HCECA)的跨模态行人重识别方法,旨在提取更富含细节信息的行人特征。首先,在主干网络中嵌入混合卷积增强(Hybrid convolutional enhancement, HCE)模块,捕获更丰富的跨模态特征表示,提高特征的区分度和鲁棒性。然后,通过内容感知注意力(Content-aware attention, CA)模块来挖掘丰富的细节信息,以提升行人特征的区分性。最后,在SYSU-MM01和RegDB数据集上进行了实验。提出的HCECA在SYSU-MM01数据集的全搜索模式下,Rank-1和平均精度均值(Mean average precision,mAP)分别达到72.21%和69.89%,在RegDB数据集上可见-红外模式下,Rank-1和mAP分别达到92.23%和85.08%,均优于现有的跨模态行人重识别方法。
    164  基于卷积神经网络的多雷达协同抗欺骗式干扰方法
    赵珊珊,申琦,苗嘉宁
    2025, 40(6):1518-1526. DOI: 10.16337/j.1004-9037.2025.06.011
    [摘要](210) [HTML](195) [PDF 1.73 M](511)
    摘要:
    现有多站融合技术聚焦于利用回波的幅度相关性和空间定位等直观特征,同时人工特征提取的全面性不足,易导致信号资源的浪费、特征提取不全和判别算法不够通用等问题。为解决这些问题,创新性地提出了一种融合多雷达协同检测与卷积神经网络的干扰识别策略,利用卷积神经网络深入挖掘回波数据中的未知信息,提取真假目标在多维深层特征上的差异,超越单一的空间相关性差异,实现欺骗干扰判别。最后,仿真实验验证了提出方法抗欺骗干扰的可行性,并分析了目标尺寸、多站雷达布站和相位误差对所提算法的影响。
    165  基于机器学习的脑影像基因组学分析方法综述
    汪美玲,刘青山,张道强
    2025, 40(4):869-886. DOI: 10.16337/j.1004-9037.2025.04.003
    [摘要](437) [HTML](579) [PDF 2.35 M](702)
    摘要:
    脑影像基因组学是一个新兴的数据科学领域。在该领域中通过对脑影像数据与基因组数据(通常还结合其他生物标志物、临床数据及环境数据)进行综合分析,可以深入探究大脑的表型、遗传及分子特征,以及这些特征对正常和异常脑功能及行为的影响。鉴于机器学习在生物医学领域的作用日益重要,且脑影像基因组学相关文献迅速增长,本文对脑影像基因组学中机器学习方法进行了最新且全面的综述。本文首先回顾了脑影像基因组学的相关背景和基础工作;然后展示了基于多变量机器学习的脑影像基因组学关联研究的主要思想和建模,并提出了联合关联分析和结果预测的方法;最后对今后的工作进行了展望。