2023年第38卷第5期文章目次

2023, 38(5):995-1016. DOI: 10.16337/j.1004-9037.2023.05.001

摘要 (1237) HTML (1113) PDF 1.93 M (2181) 评论 (0) 收藏

摘要:数字音频作为网络空间中广泛应用的媒体，是承载秘密信息的良好载体，常被用来构建实时性强、复杂度低、不可感知性好的隐蔽通信。音频隐写作为确保网络信息安全和数据保密通信的关键技术手段之一，正受到越来越多学者的关注。本文对音频隐写方法的发展脉络进行了系统性梳理。首先，介绍了音频隐写的基本内容，对问题描述、常用数据格式、工具和评价指标等进行总结。其次，按照嵌入域的不同，将传统音频隐写方法分为时域方法、变换域方法和压缩域方法，并分析其优缺点；根据隐写载体的不同，将基于深度学习的隐写方法划分为嵌入载体式、生成载体式和无载体式音频隐写，并对这3种音频隐写方法进行了对比分析。最后，指出了当前音频隐写进一步的研究方向。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1
15+1
16+1
17+1
18+1

ChatGPT大模型技术发展与应用

夏润泽，李丕绩

2023, 38(5):1017-1034. DOI: 10.16337/j.1004-9037.2023.05.002

摘要 (1358) HTML (1145) PDF 2.15 M (1404) 评论 (0) 收藏

摘要:通过回顾深度学习、语言模型、语义表示和预训练技术的发展历程，全面解析了ChatGPT的技术渊源和演进路线。在语言模型方面，从早期的N-gram统计方法逐步演进到神经网络语言模型，通过对机器翻译技术的研究和影响也催生了Transformer的出现，继而又推动了神经网络语言模型的发展。在语义表示和预训练技术发展方面，从早期的TF-IDF、pLSA和LDA等统计方法发展到Word2Vec等基于神经网络的词向量表示，继而发展到ELMo、BERT和GPT-2等预训练语言模型，预训练框架日益成熟，为模型提供了丰富的语义知识。GPT-3的出现揭示了大语言模型的潜力，但依然存在幻觉问题，如生成不可控、知识谬误及逻辑推理能力差等。为了缓解这些问题，ChatGPT通过指令学习、监督微调、基于人类反馈的强化学习等方式在GPT-3.5上进一步与人类进行对齐学习，效果不断提升。ChatGPT等大模型的出现，标志着该领域技术进入新的发展阶段，为人机交互以及通用人工智能的发展开辟了新的可能。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1

面向轨迹数据查询优化的缓存机制研究

金鑫，吴冰雅，许建秋

2023, 38(5):1035-1047. DOI: 10.16337/j.1004-9037.2023.05.003

摘要 (364) HTML (227) PDF 1.56 M (624) 评论 (0) 收藏

摘要:移动对象数据库（Moving object database，MOD）管理随着时间不断改变位置的空间对象，其已经在广泛的应用中被研究。尽管索引和查询算法等许多与MOD相关的技术已经被提出，但缓存管理仍然被忽略，这对于数据库性能至关重要。传统的缓存方法忽视了数据本身的时空特性，无法实现良好的性能。本文提出从缓存层面充分挖掘轨迹数据的查询性能，首先针对轨迹数据特有的存储结构和读写过程，设计了适合MOD的缓存访问机制；然后对于MOD系统中缺少与应用场景和访问模式相关的缓存策略问题，定制了缓存替换方法；最后开发了缓存管理工具MOCache，以可视化的形式动态跟踪查询语句结束后缓存状态的变化。通过实验表明本文提出的缓存替换策略与传统的策略相比，命中率提高到76.56%，缩短了查询时间，并且使用缓存工具监控历史状态信息，能够更加全面地反馈和分析性能问题。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1

结构约束下的生成对抗深度图修复

卢奇，龚勋

2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004

摘要 (356) HTML (279) PDF 2.89 M (639) 评论 (0) 收藏

摘要:不同于纹理图像，深度图像中的像素点代表采集设备到场景各点的距离，直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构，本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络（Generative adversarial networks，GAN）模型不同，本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度，替换待修复深度图像缺失区域，保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构，保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题，设计结构一致注意力模块（Structure coherent attention，SCA）加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证，利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用，有效改善了深度图像修复效果。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于改进DAN的自然场景下越南文字的识别

王利兵，俸亚特，文益民

2023, 38(5):1058-1068. DOI: 10.16337/j.1004-9037.2023.05.005

摘要 (414) HTML (313) PDF 3.88 M (642) 评论 (0) 收藏

摘要:越南语字符由拉丁字符结合变音符号组成，由于变音符号的存在易导致注意力漂移，并且越南语文字字符类别较多，字符间差异性较小，部分字符仅为变音符号的差异，使得越南文字的识别具有挑战性。本文在解耦注意力网络（Decoupled attention network， DAN）的基础上，设计了视觉特征与序列特征融合模块（Visual feature and sequence feature fusion module， VSFM），分别利用双向门控循环单元（Bidirectional gated recurrent unit， Bi-GRU）在水平方向和竖直方向进行序列建模，进一步缓解注意力漂移，增强变音符号与拉丁字符间的关联性。然后设计了增强型解耦文本解码器模块（Enhanced decoupled text decoder module， ETDM），在解码器中分类时结合了更多的特征信息，可以更加有效地识别相似字符。一系列的实验验证了本文提出方法的有效性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1

基于相机感知距离矩阵的无监督行人重识别

白梦林，周非，舒浩峰

2023, 38(5):1069-1078. DOI: 10.16337/j.1004-9037.2023.05.006

摘要 (378) HTML (285) PDF 1.53 M (686) 评论 (0) 收藏

摘要:在跨场景、跨设备的行人重识别中虽然增加了可利用的行人数据，但由于行人姿态不同、部分遮挡现象，难以避免引入样本噪声，在聚类过程中易生成错误的伪标签，造成标签噪声，影响模型的优化。为减弱噪声影响，应用相机感知的距离矩阵对抗相机偏移引起的样本噪声问题，利用对噪声鲁棒的动态对称对比损失减少标签噪声，提出基于相机感知距离矩阵的无监督行人重识别算法。在聚类前通过更改度量行人特征相似度的距离矩阵，利用相机感知距离矩阵来增强类内距离度量准确性，减少由于拍摄视角不同对聚类效果造成的负面影响。同时，结合噪声标签学习方法，进行损失设计，提出动态对称对比损失函数，联合损失训练，不断精炼伪标签。在DukeMTMC-reID和Market-1501两个数据集上进行实验，验证了提出方法的有效性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

SiamBM:实现更佳匹配的Siamese目标跟踪网络

胡昭华，刘浩男，林潇

2023, 38(5):1079-1091. DOI: 10.16337/j.1004-9037.2023.05.007

摘要 (334) HTML (549) PDF 4.57 M (774) 评论 (0) 收藏

摘要:基于孪生网络的目标跟踪算法通常采用简单的互相关匹配方式，然而这种简单的匹配方式会引入大量无关信息，弱化目标区域的响应。基于无锚框的孪生跟踪网络虽然避免了锚框参数的调整，但由于失去了先验性信息，并不能很好地适应目标物的尺度变化。因此，针对上述所存在的问题，本文提出了一种基于孪生网络的目标跟踪匹配增强算法SiamBM。通过将目标的边界框坐标信息进行编码，为跟踪模型提供有效的指导信息；采用深度可分离互相关级联像素匹配互相关的方式，进一步提高跟踪模型的判别能力；采用多尺度互相关的方式，增强跟踪模型的尺度适应能力。在OTB100数据集上，SiamBM的成功率和精确率分别达到了0.684和0.906，相比基准模型分别提高了5.2%和4.2%。实验结果表明，与目前主流的跟踪器相比，SiamBM取得了相当有竞争力的结果，在各项数据集指标上取得了优越的性能。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1
15+1
16+1

改进的基于YOLOv3的人脸检测算法

胡一帆，秦岭，杨小健

2023, 38(5):1092-1103. DOI: 10.16337/j.1004-9037.2023.05.008

摘要 (443) HTML (434) PDF 2.76 M (795) 评论 (0) 收藏

摘要:针对因背景与人脸高度相似和人脸目标尺度过小而导致的人脸检测精度较低的问题，提出了一种改进的基于YOLOv3的人脸检测算法。首先使用遗传算法改进原算法中随机初始化的影响，生成更符合目标大小的预测框，其次用轻量级网络改进原特征提取网络，提高人脸检测速度，最后使用边框回归损失代替YOLOv3坐标损失函数并改进置信度损失函数以提升训练收敛速度和结果精度。所设计的算法模型在Wider Face数据集上的检测精度和速度得到了提升。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于多损失混合对抗函数和启发式投影算法的逼真医学图像增强方法

王见，成楚凡，陈芳

2023, 38(5):1104-1111. DOI: 10.16337/j.1004-9037.2023.05.009

摘要 (383) HTML (405) PDF 2.15 M (691) 评论 (0) 收藏

摘要:早期发现新冠肺炎可以及时医疗干预提高患者的存活率，而利用深度神经网络（Deep neural networks， DNN）对新冠肺炎进行检测，可以提高胸部CT对其筛查的敏感性和判读速度。然而，DNN在医学领域的应用受到有限样本和不可察觉的噪声扰动的影响。本文提出了一种多损失混合对抗方法来搜索含有可能欺骗网络的有效对抗样本，将这些对抗样本添加到训练数据中，以提高网络对意外噪声扰动的稳健性和泛化能力。特别是，本文方法不仅包含了风格、原图和细节损失在内的多损失功能从而将医学对抗样本制作成逼真的样式，而且使用启发式投影算法产生具有强聚集性和干扰性的噪声。这些样本被证明具有较强的抗去噪能力和攻击迁移性。在新冠肺炎数据集上的测试结果表明，基于该算法的对抗攻击增强后的网络诊断正确率提高了4.75%。因此，基于多损失混合和启发式投影算法的对抗攻击的增强网络能够提高模型的建模能力，并具有抗噪声扰动的能力。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1

基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建

黄裕青，李华锋，原铭，张亚飞

2023, 38(5):1112-1124. DOI: 10.16337/j.1004-9037.2023.05.010

摘要 (391) HTML (407) PDF 5.15 M (734) 评论 (0) 收藏

摘要:现有的单幅图像超分辨率重建算法大都在追求高峰值信噪比（Peak signal-to-noise ratio， PSNR），在特征提取过程中缺少对图像纹理细节信息的关注，导致重建图像的人眼主观感知效果不太理想。为了解决这一问题，本文提出了一种基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建算法。具体设计了3条支路分别用于结构特征提取、纹理细节特征提取及梯度补偿，然后利用所提出的融合模块对结构特征和纹理细节特征进行融合。为防止重建过程中丢失图像的纹理信息，提出纹理细节特征提取模块补偿图像的纹理细节信息，增强网络的纹理保持能力；同时，利用梯度补偿模块提取的梯度信息对结构信息进行增强；此外还构建了深层特征提取结构，结合通道注意力与空间注意力对深层特征中的信息进行筛选及特征增强；最后利用二阶残差块对结构和纹理特征进行融合，使重建图像的特征信息更加完善。通过对比实验验证了本文方法的有效性和优越性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1

基于局部相似性学习的鲁棒非负矩阵分解

侯兴荣，彭冲

2023, 38(5):1125-1141. DOI: 10.16337/j.1004-9037.2023.05.011

摘要 (422) HTML (253) PDF 2.38 M (596) 评论 (0) 收藏

摘要:现有的非负矩阵分解方法往往聚焦于数据全局结构信息的学习，在很多情况下忽略了对数据局部信息的学习，而局部学习的方法也通常局限于流行学习，存在一些缺陷。为解决这一问题，提出了一种基于数据局部相似性学习的鲁棒非负矩阵分解算法（Robust nonnegative matrix factorization with local similarity learning， RLS-NMF）。采用一种新的数据局部相似性学习方法，它与流形方法存在显著区别，能够同时学习数据的全局结构信息，从而能挖掘数据类内相似和类间相离的性质。同时，考虑到现实应用中的数据存在异常值和噪声，该算法还使用l2,1范数拟合特征残差，过滤冗余的噪声信息，保证了算法的鲁棒性。多个基准数据集上的实验结果显示了该算法的最优性能，进一步证明了该算法的有效性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1

基于子图相似性的多动症患者脑网络分析

汪鑫欣，宋笑影，柴利

2023, 38(5):1142-1150. DOI: 10.16337/j.1004-9037.2023.05.012

摘要 (344) HTML (436) PDF 1.83 M (749) 评论 (0) 收藏

摘要:多动症会严重影响儿童发育，对多动症患者的有效诊断受到广泛关注。该文结合脑网络的拓扑结构信息和图上的信号，提出一种基于稀疏表示的图相似性计算方法，从微观到宏观分析脑区之间的差异。该方法使用Pearson相关系数构建全连通脑网络，基于稀疏表示从底层结构中提取节点子网络，根据图核函数计算子网络相似性，最后给出了脑网络相似性的全局指标。以受试者间的相似性作为特征在公共数据集ADHD-200上的分类实验结果表明，该方法能够以93.1%的准确度区分多动症患者和健康对照者，分类性能明显优于其他已有算法。此外，结果表明多动症患者在中央前回、丘脑、海马和脑岛等脑区之间有更强的连接。

0+1
1+1
2+1
3+1
4+1
5+1
6+1

基于深度强化学习的雷达智能抗干扰决策FPGA加速器设计

李梓瑜，葛芬，张劲东，赵家琛

2023, 38(5):1151-1161. DOI: 10.16337/j.1004-9037.2023.05.013

摘要 (666) HTML (519) PDF 1.67 M (819) 评论 (0) 收藏

摘要:针对高动态环境下的雷达连续智能抗干扰决策和高实时性需求问题，本文构建了一种适用于雷达智能抗干扰决策的深度Q网络（Deep Q network，DQN）模型，并在此基础上提出了一种基于现场可编程门阵列（Field programmable gate array，FPGA）的硬件决策加速架构。在该架构中，本文设计了一种雷达智能决策环境交互片上访问方式，通过片上环境量化存储和状态迭代计算简化了DQN智能体连续决策时的迭代过程，在实现智能体深度神经网络的并行计算与流水控制加速的同时，进一步提升了决策实时性。仿真和实验结果表明，在保证决策正确率的前提下，所设计的智能抗干扰决策加速器相比已有的基于CPU平台的决策系统，在单次决策中实现了约46倍的速度提升，在连续决策中实现了约84倍的速度提升。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1

智能反射面缓解多普勒效应的相位优化简化方法

柳听瓷，姚高繁，吴炜，宋荣方

2023, 38(5):1162-1171. DOI: 10.16337/j.1004-9037.2023.05.014

摘要 (613) HTML (267) PDF 1.34 M (628) 评论 (0) 收藏

摘要:智能反射面（Intelligent reflecting surface， IRS）是实现智能无线环境最具吸引力的关键技术之一，在高速移动环境中部署IRS能有效缓解多普勒效应。已有文献针对高速移动信道提出IRS协助多普勒补偿方法，但其中部分信道参数估计需使用最大似然估计方法，使得IRS优化相位的计算复杂度较高。本文提出一种简化的IRS相位优化方法，给出改进的优化相位计算的直接表达式，表达式中的信道参数可仅通过低复杂度信道估计方法获得。与其他方案相比，新方案可避免使用复杂的估计方法，防止引入额外的估计误差，有效降低了计算复杂度。数值仿真结果表明，新方案在有效减少程序运行时长的同时，仍然可获得较高的的无源波束形成增益，并且在导频开销受限时具有较强的鲁棒性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

基于改进的GABP算法优化5G天线阵列

侯大成，张昊宇，林一帆，张万祥

2023, 38(5):1172-1179. DOI: 10.16337/j.1004-9037.2023.05.015

摘要 (475) HTML (438) PDF 1.91 M (569) 评论 (0) 收藏

摘要:为了加快天线建模速度，针对现有天线设计软件天线参数优化速度过慢问题进行了建模研究。首先通过几种常用的启发式算法优化后的多层前馈（Back propagation，BP）神经网络对天线参数进行优化比较，并对其中最优的算法遗传算法优化BP（Genetic algorithm BP，GABP）神经网络算法进行深度改进。其次采用自适应算法和模拟退火算法优化算法对GABP进行优化。最终通过模拟试验验证出自适应GABP算法对于天线参数优化的误差最小。该研究为天线设计软件中天线优化方法提供了一种误差较小的新方法，拥有更高的预测准确度，拟合速度也大大提升。实验对比证明了该算法的可行性。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1
11+1
12+1
13+1
14+1
15+1
16+1

基于凸优化粒子群算法的在线航迹规划

顾川，郭道省，吴彬彬

2023, 38(5):1180-1190. DOI: 10.16337/j.1004-9037.2023.05.016

摘要 (515) HTML (452) PDF 1.96 M (780) 评论 (0) 收藏

摘要:针对未知环境中无人机可视图有限的路径规划问题，提出了一种基于凸优化的粒子群算法（Particle swarm optimization，PSO）进行路径点选取。在迭代寻优过程中以凸优化求解出的轨迹、避障以及到达终点距离等为元素设计粒子群的适应度函数，在获得最优路径点后再将路径点之间的轨迹显示出来。将所得轨迹作为同时定位与地图创建（Simultaneous localization and mapping，SLAM）的一部分来建立更加可信的环境地图。理论分析和实验仿真结果表明，与其他智能算法以及基于采样的路径规划算法相比，基于凸优化的粒子群算法可以有效地提高路径规划的效率以及减少规划路径的长度。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1

数据驱动的犹豫模糊语言信息策略优先权排序方法

朱军，陈璐，徐海燕

2023, 38(5):1191-1205. DOI: 10.16337/j.1004-9037.2023.05.017

摘要 (409) HTML (305) PDF 1.08 M (573) 评论 (0) 收藏

摘要:数据挖掘使得决策者获取信息更为方便有效。本文在冲突分析图模型理论框架下，首先基于数据对冲突策略进行挖掘，实现了冲突策略的合理构建。其次，考虑到现实冲突中决策者对某策略的选择更多表现为一种被选择的可能性，将犹豫模糊语言信息和冲突分析图模型理论进行有效交叉融合，采用犹豫模糊语言信息进行评估，并基于粗糙集思想对犹豫模糊语义评价信息进行集结以代表这种可能性；进一步地，提出一种新的基于犹豫模糊语言信息的冲突分析图模型策略优先权排序法。最后，对沭河跨境水污染进行建模分析，对沭河水污染治理提出建议，并且就状态排序结果对比了新旧两种方法，结果验证本文提出方法的合理性。

0+1
1+1
2+1
3+1
4+1
5+1

基于交互注意力的突发事件评论对象情感分析

仲兆满，黄贤波，熊玉龙

2023, 38(5):1206-1213. DOI: 10.16337/j.1004-9037.2023.05.018

摘要 (384) HTML (513) PDF 1.35 M (678) 评论 (0) 收藏

摘要:现有突发事件网民情感分析研究多为粗粒度的情感分析，为了精准地分析突发事件中网民对不同对象的情感，提出一种基于RoBERTa词嵌入和交互注意力的突发事件细粒度情感分析方法。通过构建RoBERTa-CRF评论对象抽取模型，完成突发事件相关评论对象的抽取。利用交互注意力机制和预训练模型构建RoBBETa-IAN模型，实现评论对象的情感分析。最后，分析突发事件中网民对不同对象的情感，并可视化展示。在构建的微博新闻评论数据集上，RoBERTa-CRF评论对象抽取模型和RoBERTa-IAN情感分析模型的F₁值分别为0.76和0.79。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1

融合多特征和双向图分类的专家推荐方法

丁婧娴，李翔，孙纪舟，周泓

2023, 38(5):1214-1225. DOI: 10.16337/j.1004-9037.2023.05.019

摘要 (407) HTML (531) PDF 1.15 M (660) 评论 (0) 收藏

摘要:专家推荐是推荐系统领域的一个研究热点，专家信息特征提取的合理性直接影响到推荐的准确性。然而多数专家推荐方法未对多源信息构建特征关系文本图，忽略了属性特征之间的相关性，以及无法依据关联性拓展知识领域特征。针对以上问题本文提出了一种融合多特征和双向图分类的专家推荐方法CMFBG。首先通过多源信息融合获取专家个体多特征信息，并对不同属性特征构建类内文本图；然后分别使用基于Transformer的双向编码器表示（Bidirectional encoder representation from transformer， BERT）模型和图卷积神经网络（Graph convolutional network， GCN）模型对特征提取并融合；最后通过双向注意力机制增强源数据对图特征的扩展，实现图结构上的分类。在同一专家数据集上进行实验分析，结果表明在图分类任务中CMFBG精确率高于其他算法，达到了91.71%。

0+1
1+1
2+1
3+1
4+1
5+1
6+1
7+1
8+1
9+1
10+1

基于上下文共指实体依赖的文档级关系抽取

夏正新，苏翀，刘勇

2023, 38(5):1226-1234. DOI: 10.16337/j.1004-9037.2023.05.020

摘要 (334) HTML (457) PDF 1.50 M (581) 评论 (0) 收藏

摘要:文档级关系提取（Document relationship extraction，DRE）旨在多条句子中识别实体间的关系，而实体可能对应于跨越句子边界的多次提及，其中代词实体提及是因句子之间连接而普遍存在的语法现象，也是影响句子推理的一个重要因素。然而，以往的研究大多侧重于普通实体提及之间的关系，却很少关注代词实体提及的共指和关系捕获。本文提出了基于上下文共指实体依赖（Contextual coreference entity dependency，CCED）的文档级关系抽取模型，即通过融合普通实体和代词实体表示来构建共指实体依赖关系的上下文图结构，并在图上进行实体对间的全局交互推理，从而对实体关系的相互依赖进行建模。分别在公共数据集DocRED、DialogRE和MPDD上对CCED模型进行评估，结果显示在DocRED数据集上，与表现最好的基线模型DocuNet-BERT相比，CCED模型在测试集上的Ign F1性能提高0.55%，F1性能提高0.35%。在DialogRE和MPDD数据集上，与表现最好的基线模型COLN相比，CCED模型在DialogRE测试集上的F1性能提高1.02%，在MPDD测试集上的ACC性能提高1.19%。实验结果验证了新模型对于文档级关系抽取的有效性。

0+1
1+1
2+1
3+1
4+1

快速检索

卷期检索

友情链接