2023年第38卷第1期文章目次

2023, 38(1):1-20. DOI: 10.16337/j.1004-9037.2023.01.001

摘要 (1959) HTML (1524) PDF 1.95 M (3581) 评论 (0) 收藏

摘要:随着社交媒体和人机交互技术的快速发展，视频、图像以及文本等多模态数据在互联网中呈爆炸式增长，因此多模态智能研究受到关注。其中，视觉问答与推理任务是跨模态智能研究的一个重要组成部分，也是人类实现人工智能的重要基础，已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先，介绍了视觉问答与推理的定义，并简述了当前该任务面临的挑战；其次，从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳；然后，全面介绍了视觉问答与推理常用公开数据集，并对相关数据集上的已有算法进行详细分析；最后，对视觉问答与推理任务的未来方向进行了展望。

0+1
1+1
2+1
3+1
4+1
5+1
6+1

基于深度学习的显著性目标检测综述

孙涵，刘译善，林昱涵

2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002

摘要 (2907) HTML (1687) PDF 5.89 M (5326) 评论 (0) 收藏

摘要:显著性目标检测通过模仿人的视觉感知系统，寻找最吸引视觉注意的目标，已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展，显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作，全面回顾了3类不同模态的显著性目标检测任务，包括基于RGB图像、基于RGB-D/T（Depth/Thermal）图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点，并概述了研究难点；然后就各分支的研究技术路线和优缺点进行阐述和分析，并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后，对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1
15+1
16+1
17+1
18+1
19+1
20+1

一种面向有权重通信网络的关键节点识别方法

刘子彤，王威，丁国如，吴启晖

2023, 38(1):51-62. DOI: 10.16337/j.1004-9037.2023.01.003

摘要 (1264) HTML (1247) PDF 1.84 M (2597) 评论 (0) 收藏

摘要:如何在已知网络拓扑的前提下，快速准确地找到复杂通信网络中的关键节点成为当前的研究热点。本文首先建立了一个有权重网络的关键节点识别系统模型。然后，提出了基于加权集体影响力的关键节点识别方法。该方法用集体影响力量化节点信息传播能力，同时结合加权思想，表征有权重网络节点的关键程度。最后，分别对5种典型复杂网络模型进行了随机权重和非随机权重的仿真。仿真结果表明所提方法优于原有集体影响力算法的性能，且算法对球半径的选择不敏感。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1

基于频率敏感注意力的短波宽带特定信号检测

耿频永，曹叶文，赵晓蕾，李振星，张新斌

2023, 38(1):63-73. DOI: 10.16337/j.1004-9037.2023.01.004

摘要 (1445) HTML (987) PDF 1.78 M (2359) 评论 (0) 收藏

摘要:为提高短波复杂电磁环境下特定信号检测识别准确率，提出了一种基于频率敏感注意力的短波宽带特定信号检测算法。依据短波特定信号在时频图中时间方向上的相关性和频率方向上的局部性，设计了一种具有窄长形状感受野的频率敏感注意力机制，通过将特征图沿时间轴方向进行条块分割并在条块内计算自注意力，捕获时间轴方向的远距离依赖关系并限制频率轴方向感受范围，并以此为基础构建了一种端到端的短波特定信号检测器频率敏感信号检测器（Frequency sensitive signal detector，FSSDet）。以短波宽带信号时频图为输入，FSSDet可直接输出多个特定信号的调制类型及起止时间、中心频率和带宽等重要参数信息。在包含8类47 880个样本的仿真数据集上进行实验，所提方法在0 dB以上的平均精度均值（mean Average precision， mAP）高达98.5，在信噪比低至-10 dB时仍高于72.5。结果表明，所提方法具有较高的短波特定信号检测识别准确率，在低信噪比下具备良好的鲁棒性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1

基于压缩感知平行因子分解的电力系统谐波与间谐波频率估计方法

岳衡，张小飞，石莎

2023, 38(1):74-84. DOI: 10.16337/j.1004-9037.2023.01.005

摘要 (834) HTML (748) PDF 1.02 M (1678) 评论 (0) 收藏

摘要:电力系统中的电力电子设备所产生的谐波数量日益增加，谐波问题是一个备受关注的话题。本文通过引入压缩感知理论和平行因子模型，提出了一个用于谐波和间谐波的频率估计算法。先从信息发送终端中获取数据，然后使用欧拉公式将正弦信息转化为空域信息构造多时延输出并建立为平行因子模型，再对模型进行压缩后进行平行因子分析。最后将所得的数据经过贪婪算法重构，再进行频率值的估计。与传统的平行因子计算比较，该计算具有压缩过程，计算工作量相对较小，对数据存储容量需求也较少。所提计算的频谱估计性能与传统的平行因子分解算法（Parallel factorization，PARAFAC）非常接近，而且也比采用旋转不变技术的信号参数估计算法（Estimating signal parameter via rotational invariance techniques，ESPRIT）更加精确。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1

基于高斯神经元的自组织映射网络研究

刘达，陈松灿

2023, 38(1):85-92. DOI: 10.16337/j.1004-9037.2023.01.006

摘要 (858) HTML (441) PDF 1.66 M (1246) 评论 (0) 收藏

摘要:自组织映射网络（Self-organizing map network，SOM）是一种经典的无监督学习方法，具有自组织和联机学习功能。由于其简明与实用等特点，不断涌现出SOM变体以适应各类问题。然而，这些工作基本都采纳了确定性神经元建立网络，忽略了数据本身隐含的不确定性信息，导致这些模型的结果缺乏由置信度反映的可解释性，意味着SOM神经元的不确定性刻画能力不足。本文提出了一种高斯神经元SOM网络（Ganssian neuron som network， GNSOM），其神经元节点不再是确定性的，而是建模为高斯分布的高斯神经元，为SOM配备了不确定性功能用于表述数据的不确定性。在实现时，将输入数据同样高斯化，并用Jensen-Shannon（JS）散度代替SOM学习中的欧氏距离作为GNSOM学习中的相似性匹配度量，由此获得了不确定性表示。实验结果表明，GNSOM具有更好的训练效果，并能通过神经元节点的协方差矩阵反映数据的不确定性。由于这种对神经元的高斯化独立于SOM本身，因此能拓展应用于其他神经元模型。

0+1
1+1
2+1
3+1
4+1
5+1

基于声学模型共享的零资源韩语语音识别

王皓宇，JEON Eunah，张卫强，李科，黄宇凯

2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007

摘要 (961) HTML (973) PDF 1.22 M (2301) 评论 (0) 收藏

摘要:精准的语音识别系统通常使用大量的有标注语音数据训练得到，但现有的开源大规模数据集只包含一些广泛使用的语言，诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法，它利用不同语种间的相似性，可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上，利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异，结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1

基于预训练与音素字节对编码的越南语识别

沈之杰，郭武

2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008

摘要 (1167) HTML (1012) PDF 893.81 K (2118) 评论 (0) 收藏

摘要:基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能，成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数（Connectionist temporal classification，CTC）的声学建模中，选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度，采用字节对编码（Byte-pair encoding，BPE）算法生成音素子词，将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行，所提算法相对wav2vec 2.0基线系统有明显改进，识别词错误率由37.3%降低到29.4%。

0+1
1+1
2+1
3+1
4+1
5+1
6+1

基于图卷积深浅特征融合的跨语料库情感识别

杨子秀，金赟，马勇，戴妍妍，俞佳佳，顾煜

2023, 38(1):111-120. DOI: 10.16337/j.1004-9037.2023.01.009

摘要 (860) HTML (619) PDF 2.53 M (1966) 评论 (0) 收藏

摘要:语音情感识别任务的训练数据和测试数据往往来源于不同的数据库，二者特征空间存在明显差异，导致识别率很低。针对该问题，本文提出新的构图方法表示源和目标数据库之间的拓扑结构，利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题，提出一种新的特征融合方法。首先利用 OpenSMILE提取浅层声学特征，然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入，节点的特征信息被传递给其他节点，使得深层特征包含更明确的节点特征信息和更详细的语义信息，然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证，第1组用eNTERFACE库训练测试Berlin库，识别率为59.4%；第2组用Berlin库训练测试eNTERFACE库，识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果，证明本文提出方法的有效性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1

基于特征金字塔分支和非局部关注的行人重识别

孙明浩，王洪元，吴琳钰，张继，周群颖

2023, 38(1):121-131. DOI: 10.16337/j.1004-9037.2023.01.010

摘要 (1016) HTML (921) PDF 1.58 M (2075) 评论 (0) 收藏

摘要:关注全局轮廓和行人局部细节对现有行人重识别方法非常重要。为了能够提取这些更具代表性的特征，提出一种基于特征金字塔分支和非局部关注模块的行人重识别网络方法来提取行人全局和局部表征特征。该方法首先引入一种轻量级别的特征金字塔分支结构，从不同的网络层中提取特征，并且聚合成一个双向金字塔结构。其次为进一步提高行人重识别的精度，使用非局部关注模块提取全局特征，这样既能获取行人的全局信息，又能注重行人的局部细节，使两者最终融合的特征更具代表性。最后将不同层间的特征融合起来，并使用联合损失函数策略对网络模型进行训练，显著提高骨干网络的性能。通过在MSMT17、Market1501、DukeMTMC-ReID和PersonX四个公共行人重识别数据集上的大量实验，证明所提出的基于特征金字塔分支和非局部关注的方法相较于目前一些先进的行人重识别方法，具有一定的竞争力。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于CNN-LSTM双流融合网络的危险行为识别

高治军，顾巧瑜，陈平，韩忠华

2023, 38(1):132-140. DOI: 10.16337/j.1004-9037.2023.01.011

摘要 (1579) HTML (1091) PDF 1.25 M (1873) 评论 (0) 收藏

摘要:针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题，对传统双流卷积模型进行改进，提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联，其中CNN网络作为空间流，将人体骨架空间运动姿态分为静态与动态特征进行分别提取，两者融合作为空间流的输出；在时间流中采用改进的可滑动长短时记忆网络，以增加人体骨架时序特征的提取能力；最后将两个分支进行时空融合，利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明，改进后模型的平均跨角度（Cross view，CV）精度达到92.5%，平均跨视角（Cross subject，CS）精度为87.9%。所提方法优于改进前及其他方法，可以有效地对人体危险动作做出识别，同时对于模糊动作也有较好的区分效果。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于距离加权色偏估计的低质图像增强

曹思颖，张弦，蒲恬，彭真明

2023, 38(1):141-149. DOI: 10.16337/j.1004-9037.2023.01.012

摘要 (919) HTML (694) PDF 2.24 M (1973) 评论 (0) 收藏

摘要:有色雾、烟、尘等恶劣大气条件下的低质图像具有低可见度和颜色偏移的特点，给人类观察和计算机视觉应用带来困难。当前针对此类图像的增强算法通常忽略了景物与相机的距离对色偏的影响，为了在增强可见度时更好地恢复图像颜色，本文提出低质图像成像可见度下降及色偏与景物距离的关系模型和求解方法。该方法首先通过图像的局部亮度估算距离，然后通过距离估算图像的色偏矩阵，再求解退化模型得到可见度与颜色得到恢复的图像，最后将恢复的图像与限制对比度自适应直方图均衡（Contrast limited adaptive histogram equalization，CLAHE）增强图像进行距离加权融合，得到进一步细节增强的图像。实验表明，本文提出的方法与同类方法相比，在达到高图像质量评价指标的同时，明显具有更好的颜色恢复结果。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1

基于改进的无锚框目标检测算法的涡检测

宣扬，吕宏强，安慰，刘学军

2023, 38(1):150-161. DOI: 10.16337/j.1004-9037.2023.01.013

摘要 (1109) HTML (702) PDF 2.73 M (2199) 评论 (0) 收藏

摘要:在流体运动中涡对各种流场结构的生成和维持起着至关重要的作用，涡的识别和检测有助于理解流体流动规律。传统涡识别方法别存在定义不准确、严重依赖经验阈值、泛化性能差等问题，因此涡检测具有一定挑战性。本文从计算机视觉的角度出发，提出了一个基于目标检测算法的涡检测模型。针对原始目标检测模型对极端宽高比的细长涡检测效果不理想的问题，对两种不同类型涡的数据特性进行分析，并提出了基于可变形卷积（Deformable convolutional network， DCN）的特征自适应模块和基于改进损失函数的细长样本挖掘方法。采用圆柱尾流涡和潜艇尾部涡数据集对所提模型进行验证，实验结果表明改进后的模型检测精确率显著提高，并在细长涡的检测精确率上有显著提升，有效地平衡了各类型的涡检测性能。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1

融合深浅特征和动态选择机制的行人检测研究

沙梦洲，沈韬，曾凯，马倩，曾文健

2023, 38(1):162-173. DOI: 10.16337/j.1004-9037.2023.01.014

摘要 (620) HTML (496) PDF 3.41 M (1932) 评论 (0) 收藏

摘要:针对无人驾驶场景下行人多尺度、小尺度造成漏检率升高，检测精度下降的问题，本文提出一种融合深浅层特征和级联动态选择机制的行人检测方法。首先，在YOLO v3-tiny的基础上基于密集连接的卷积神经网络改进特征提取部分，融合行人的深层特征和浅层特征加强网络对行人的识别能力；其次，在改进的主干网络上级联具有动态选择机制的注意力模块，使检测网络更加适应动态的行人尺度变化；最后，本文选择BDD 100K数据集和Caltech加州理工学院行人数据集进行实验，在保证实时性的前提下（25 ms/张），本文模型在BDD 100K数据集行人漏检率降低11.4%，平均检测精度提高11.7%，在Caltech行人漏检率降低10.1%，平均检测精度提高6.7%，适用于无人驾驶行人检测领域。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1

面向教学评价的课堂视频镜头边界检测新方法

谢从华，罗德凤，方雨洁

2023, 38(1):174-185. DOI: 10.16337/j.1004-9037.2023.01.015

摘要 (984) HTML (615) PDF 2.39 M (1920) 评论 (0) 收藏

摘要:课堂视频镜头边界检测对教学评价具有重要意义。针对教学视频视觉信息变化不明显、镜头边界信息不足、检测结果不利于教学评价等问题，引入注意力机制，提出了基于视觉和文本特征描述学习的课堂视频镜头边界检测方法。首先，提出了层次视觉Transformer模型学习教学评价关注的屏幕、教师和学生等感兴趣区域的视觉特征。其次，提出了层次文本Transformer模型从屏幕和语音文本中学习教学评价关注的文本特征。最后，构建基于二值交叉熵的镜头分类和边界检测损失函数。在数据集CLShots上的实验结果表明，本文方法在准确率、召回率、F₁分数和平均交并比等指标比当前先进的教学镜头检测方法SBLV分别提高了23.3%、22.4%、22%和35.7%，比通用领域深度学习方法TransNet V2分别提高了13.8%、14.5%、14.3%和21.3%。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1

联合空-谱信息的高光谱图像噪声估计

张耹铭，黄丹飞，刘智颖，钟艾琦

2023, 38(1):186-192. DOI: 10.16337/j.1004-9037.2023.01.016

摘要 (1085) HTML (535) PDF 3.36 M (2199) 评论 (0) 收藏

摘要:在纹理丰富的高光谱图像中获得精确的噪声估计，是噪声估计任务中的难点。本文基于高光谱图像的空间规律性和光谱相关性，提出一种基于超像素分割的光谱去相关法。同质区域划分是许多噪声估计方法的关键步骤，精确的同质区域划分能有效提高噪声估计精度。为此，将简单线性迭代聚类算法（Simple linear iterative clustering algorithm，SLIC）与光谱-空间相似性结合，划分高光谱图像为局部结构相似的图像块，以保持同质特征；为了提高光谱间的区分能力，将光谱信息散度和光谱角联合作为光谱距离；结合多元线性回归在同质区域内去除光谱相关性，在获得的残差图上估计噪声水平。对不同地物复杂程度的模拟图像，添加不同程度的噪声，通过与多种方法比较，验证了本文方法的有效性和稳定性。最后，本文方法成功应用于Urban数据的噪声水平估计，准确识别出受噪声严重污染的波段。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于非局部低秩约束的改进灵敏度编码重建算法

潘婷，段继忠

2023, 38(1):193-208. DOI: 10.16337/j.1004-9037.2023.01.017

摘要 (1261) HTML (646) PDF 9.91 M (3124) 评论 (0) 收藏

摘要:灵敏度编码（Sensitivity encoding， SENSE）是一种应用广泛的并行磁共振成像（Magnetic resonance imaging， MRI）重建模型。目前已有的针对SENSE模型的改进方法的重建图像中依然有较多伪影，尤其在较高加速因子时很难重建出比较清晰的图像。因此，本文基于非局部低秩约束（Nonlocal low-rank， NLR），提出了一种改进的SENSE模型，称为NLR-SENSE。该模型使用加权核范数作为秩代理函数，并使用交替方向乘子法（Alternating direction multiplier method， ADMM）进行求解。仿真实验结果表明，与其他几种并行磁共振成像方法相比，NLR-SENSE方法在视觉比较和3个不同的客观指标上均表现优异，能有效提升重建图像的质量。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1

基于图神经网络和引导向量的图像字幕生成模型

佟国香，李乐阳

2023, 38(1):209-219. DOI: 10.16337/j.1004-9037.2023.01.018

摘要 (1026) HTML (646) PDF 3.09 M (2012) 评论 (0) 收藏

摘要:近年来，深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中，图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系，本文基于图神经网络和引导向量构建了图像字幕生成模型（YOLOv4-GCN-GRU， YGG）。该模型利用图像中被检测到的对象的空间和语义信息建立成图，利用图卷积神经网络（Graph convolutional network， GCN）作为编码器对图的每个区域进行表示。在字幕生成阶段，额外训练一个引导神经网络来产生引导向量，从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明，YGG模型具有更好的性能，将CIDEr-D的性能从138.9%提高到了142.1%。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1
15+1
16+1

一种双级北斗导航接收机伪距误差补偿方法

张丽杰，钱镭源

2023, 38(1):220-230. DOI: 10.16337/j.1004-9037.2023.01.019

摘要 (1109) HTML (678) PDF 2.68 M (2117) 评论 (0) 收藏

摘要:伪距误差是影响北斗卫星导航接收机定位精度的关键因素，本文提出一种基于伪距差分和自适应容积卡尔曼滤波（Cubature Kalman filter，CKF）的双级北斗导航接收机伪距误差补偿方法。该方法将伪距误差分为自有性误差和公共性误差两类，首先通过伪距差分方法补偿伪距自有性误差，其次设计量测噪声自适应CKF滤波器，对用户接收机运动系统状态进行估计，补偿伪距公共性误差。实验结果表明：载体静态时，双级补偿方法略优；载体动态时，双级补偿比单级补偿的定位误差减小显著，自适应CKF算法比CKF算法具有更好的对噪声和干扰的适应能力。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1

快速检索

卷期检索

友情链接