2023, 38(3):479-505. DOI: 10.16337/j.1004-9037.2023.03.001
摘要:随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。
2023, 38(3):506-524. DOI: 10.16337/j.1004-9037.2023.03.002
摘要:无人机集群以其灵活性、低成本和可搭载各类传感器等优势,已成为执行复杂任务的关键设备,其应用依赖于及时高效的通信,因此针对无人机集群网络的研究近年来也得到了广泛关注。无人机集群高移动性、高信息交互量和低能源存储量等固有特性,使其通信资源的管理面临各种严峻的挑战。本文首先综述了无人机集群网络的应用场景、优势及其特点,并结合信道接入控制体制,对无人机集群的无线资源优化问题进行分类,提炼出资源优化所面临的挑战。随后从策略与方法的角度对现有的网络资源优化方案进行了总结归纳,梳理了大规模集群场景下的通信性能提升、高动态环境下的及时决策更新,以及多元异构需求下的通信满意度提升等技术难点。最后,依据研究现状与潜在机遇,结合新兴技术的应用优势,对无人机集群网络的技术方向和发展前景进行了展望。
陈佳琪,何玉林,黄哲学,FOURNIER-VIGER Philippe
2023, 38(3):525-538. DOI: 10.16337/j.1004-9037.2023.03.003
摘要:高斯混合模型(Gaussian mixture model,GMM)是一种经典的概率模型,常被用于无监督学习领域来确定无类别标记样本点的类别分布。作为求解GMM参数的重要技术,期望最大化(Expectation maximization,EM)算法通过计算GMM对应似然函数的最优解确定基模型自身参数以及基模型的混合系数。利用EM算法求解GMM存在如下两个缺陷:EM算法易于陷入局部最优解以及EM算法确定GMM基模型相关参数的不稳定,尤其是针对多维随机变量。本文提出了一种基于统计感知(Statistical-aware,SA)策略的GMM求解方法——SA-GMM方法。该方法从估计给定数据集的未知概率密度函数入手,建立了核密度估计(Kernel density estimation,KDE)与GMM之间的关联。为避免KDE对“过平滑”窗口的选取,设计了同时最小化KDE与GMM之间的经验风险和KDE窗口结构风险的目标函数,进而确定了GMM的最优参数。在11个标准概率分布上的实验证明了SA-GMM方法的可行性、合理性和有效性,同时结果也表明SA-GMM能够获得显著优于基于EM算法的GMM及其变体的概率密度函数估计表现。
2023, 38(3):539-548. DOI: 10.16337/j.1004-9037.2023.03.004
摘要:已有的多标记特征选择方法主要根据特征与标记之间的依赖度以及特征与特征之间的冗余度确定每个特征的重要度,然后根据重要度进行特征选择,常常忽略标记关系对特征选择的影响。针对上述问题,引入邻域互信息设计了基于标记补充的多标记特征选择算法(Multi-label feature selection algorithm based on label complementarity,MLLC),该算法将依赖度、冗余度以及标记关系作为特征重要度的评价要素,然后基于这3个要素重新设计特征重要度评估函数,使得选取的特征能够获得更佳的分类性能。最后,在6个多标记数据集上验证了MLLC算法的有效性和鲁棒性。
2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005
摘要:高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰,因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果,但由于其只利用了局部相似性或非局部自相似性,而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法,实现了分块的自适应划分与聚类,在较好地保留了局部细节的同时又充分利用了非局部空间自相似性,且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割,再对超像素块进行聚类,得到同物分块;然后对其建立低秩矩阵恢复模型并求解,最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验,并与其他基于低秩特性的方法进行比较,结果表明:本文方法对混合噪声,尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。
2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006
摘要:基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配,从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性,采集到的行人轨迹会存在严重的外观丢失和错位,传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题,提出三维特征分块重构模型,利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息,在特征重构模型后加入三维卷积核,并且将它与现有的三维卷积网络相结合。此外,还引入一种由粗到细的特征分块重构网络,不仅能使模型在两种不同尺度的空间维度上进行特征重构,还能进一步减少计算开销。实验表明,由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。
2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007
摘要:为了提取铝硅合金显微图像的初晶硅区域,提出一种结合类别注意力块(Class attention block, CAB)的改进模型类别注意力网络(Class attention network, CA-Net)。类别注意力块从特征图中计算各通道与每个类别的相关性信息,并将不同类别的相关性信息融合产生注意力权重,以使特征通道的权重与其对任务类别的贡献相关,从而增强重要特征的表达,并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验,本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法,CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。
2023, 38(3):586-597. DOI: 10.16337/j.1004-9037.2023.03.008
摘要:为解决区域活动轮廓模型不能有效分割灰度不均图像的问题,提出了局部熵约束的区域活动轮廓模型应用于图像分割。首先基于局部熵信息将图像划分为两个特征区域,然后利用局部熵特征信息构造二值拟合能量,并与区域可放缩拟合(Region-scalable fitting,RSF)模型相结合,最后得到水平集演化方程。该模型考虑了图像灰度分布的聚集特征和局部区域统计信息,能有效处理灰度不均匀、弱边缘等图像分割问题,且对轮廓初始位置更具鲁棒性,医学图像实验结果验证了模型的有效性。
2023, 38(3):598-607. DOI: 10.16337/j.1004-9037.2023.03.009
摘要:为了提高红外舰船目标的分割准确率,提出一种基于对抗域适应的红外舰船目标分割方法,其中有标注的可见光舰船图像为源域,没有标注的红外舰船图像为目标域。为了解决两个域之间的风格差异问题,本文依次对源域的可见光图像进行灰度化和白化预处理,将其转换为具有目标域风格的图像。对于目标域的红外图像,使用去噪网络进行优化;接着,为了解决判别网络视野受限问题,设计基于空洞卷积的判别网络;最后,针对目标域预测图像置信度低问题,将目标域预测图像的信息熵加入到对抗损失中。在可见光和红外舰船图像组成的数据集上的实验结果高于现有方法,证明了本文方法的有效性。
2023, 38(3):608-615. DOI: 10.16337/j.1004-9037.2023.03.010
摘要:心电(Electrocardiogram, ECG)信号的长期检测与评估对心血管疾病的诊断和预防至关重要。心电信号的检测通常需要在患者身上安装电极,易使受试者产生不适感,适用范围有限。相对而言,使用光电容积描记法(Photoplethysmography, PPG)检测得到的脉搏波(Pulse wave)信号不仅包含丰富的心血管生理和病理信息,而且易于测量。考虑到PPG与ECG信号间存在固有的映射关系,本文基于生成对抗网络(Generative adversarial network, GAN)提出了一种将PPG转换为ECG信号的模型。该模型生成器由Unet模型组成,并且在特征图融合方面参考了Unet++的结构,而其判别器由卷积神经网络组成。在训练过程中,采用梯度惩罚方式增加了生成模型的稳定性。基于公用数据集进行了实验,通过对比53名受试者样本的处理结果,新模型所生成ECG信号的均方根误差(Root mean square error, RMSE)、Pearson相关系数(ρ)和Fréchet距离(Fréchet distance, FD)三个指标分别提升了3.4%、5.5%和0.4%,证明新模型具有更好的PPG-ECG转换效果。
2023, 38(3):616-628. DOI: 10.16337/j.1004-9037.2023.03.011
摘要:核方法是一种把低维空间的线性不可分问题转化为高维空间中线性可分问题的方法,其广泛应用于多种学习模型。然而现有的核模型选择方法在大规模数据中计算效率较低,时间成本很大。针对这一问题,本文引入随机傅里叶特征变换,将原始核特征空间转换为另一个相对低维的显式随机特征空间,并给出核近似误差上界理论分析以及在核近似的随机特征空间中训练学习模型的误差上界,得到核近似的收敛一致性和误差上界与核近似参数之间的关系。基于随机傅里叶特征空间选择出最优模型参数,避免了对最优原始高斯核模型参数的大规模搜索,从而大幅降低原始高斯核模型选择所需的时间成本。实验表明,本文给出的误差上界确由核近似参数控制,核近似选择的最优模型相较于原始高斯核模型有较高的准确率,并且模型选择时间相对网格搜索法大幅减小。
2023, 38(3):629-642. DOI: 10.16337/j.1004-9037.2023.03.012
摘要:真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。
2023, 38(3):643-651. DOI: 10.16337/j.1004-9037.2023.03.013
摘要:针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。
2023, 38(3):652-664. DOI: 10.16337/j.1004-9037.2023.03.014
摘要:提出一种具备全局供需动态感知能力、基于均值场多智能体强化学习的网约车平台订单分配算法。该算法通过将多智能体强化学习与均值场理论相结合,提升了智能体在局部空间上相互之间的协作性;通过注入全局空间上供需的动态分布信息,提升了智能体对全局供需分布的感知和优化能力。本文构建了真实历史数据驱动的模拟器,用于算法的训练和评估。实验表明,在全天时段和高峰期时段两个不同场景下,本文提出的算法在网约车司机累计收益及订单应答率两个重要指标上均显著优于现有的订单分配算法。实验结果充分验证了本文提出算法的有效性。
2023, 38(3):665-675. DOI: 10.16337/j.1004-9037.2023.03.015
摘要:场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。
2023, 38(3):676-689. DOI: 10.16337/j.1004-9037.2023.03.016
摘要:突发事件发生后,准确地分析网民的情感状态,实现对网民情感状态演变的引导,对管控突发事件舆情、维护社会稳定有重大的现实意义。依据网民对突发事件的评论特性构建了网民情感状态的完备集,并从突发事件利益相关者和突发事件本身两个角度建立不同情绪集。依据传染病模型的传播方式,建立了基于SIS(Susceptible-infectious-susceptible)传染病模型的网民情感状态演变模型
2023, 38(3):690-703. DOI: 10.16337/j.1004-9037.2023.03.017
摘要:针对基本和声搜索(Harmony search, HS)算法收敛速度较慢、易陷入局部最优和计算精度不高的缺点,结合正余弦优化算子、Levy飞行机制和参数动态调整策略,提出一种改进的和声搜索算法。该算法在即兴创作阶段,首先引入正余弦优化算子和微调带宽相结合的方式对和声向量进行微调操作,充分利用最优个体和当前个体的位置信息,提高算法的计算精度和收敛速度;再采用Levy飞行机制对微调带宽进行更新,避免算法陷入局部最优,提高全局搜索能力;在算法迭代过程中,对和声记忆库存储概率、基音微调概率和搜索域进行自适应动态调整,以进一步提高算法收敛性能。在10个基准函数上进行性能对比试验的结果表明,本文提出的算法具有较强的全局搜索能力,较快的收敛速度和较高的计算精度。
2023, 38(3):704-716. DOI: 10.16337/j.1004-9037.2023.03.018
摘要:在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。
2023, 38(3):717-726. DOI: 10.16337/j.1004-9037.2023.03.019
摘要:随着通信技术的发展,越来越高的通信频段得以采纳。然而电磁波衍射能力随频率的增加而降低,新一代通信系统变得更加依赖视距传播。在复杂移动场景下频繁切换波束,增加了过多的系统开销和延迟。针对该问题,提出一种基于位置信息辅助的网格化波束切换方法,利用可视路径中存在时最佳波束对保持不变的特点,划分网格波束一一对应关系及覆盖分布结构,建立位置-波束映射表,基于用户位置信息和运动状态计算下一时刻切换点。仿真和分析结果表明,所提方法相比非网格切换方式系统频谱效率显著提高,且所提正六边形网格切换性能优于方格,波束切换概率降低了50%,保障了通信质量,验证了基于位置信息辅助的网格化波束切换方法的合理性。
2023, 38(3):727-740. DOI: 10.16337/j.1004-9037.2023.03.020
摘要:随着数据时代的到来,非平衡数据的分类问题受到越来越多的关注。在非平衡数据的分类问题中,往往因为少数类样本与多数类样本比例失衡而导致分类结果错误。因此,提出了一种在最大熵原理下基于自助法(Bootstrap method)的过采样算法。首先,通过自助法获得数据样本的概率分布,并用最大熵原理对概率分布进行优化;其次,根据少数类生成新的少数类的能力不同,提出基于少数类样本分布的概率增强算法。该算法使数据随机性得到了充分体现,保证了少数类样本的概率密度在数据集平衡前后保持一致性,从而提高分类算法的有效性;最后,通过从UCI和KEEL数据库选取8组数据进行实验,实验结果表明所提出的新算法比现有的其他算法更有效。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部