2025, 40(5):1121-1121. DOI: 10.16337/j.1004-9037.2025.05.001
摘要:
2025, 40(5):1122-1138. DOI: 10.16337/j.1004-9037.2025.05.002
摘要:多模态持续学习(Multimodal continual learning, MMCL)作为机器学习和人工智能领域的一个重要研究方向,旨在通过融合多种模态数据(如图像、文本或语音等)来实现持续的知识积累与任务适应。相较于传统单模态学习方法,MMCL不仅能够并行处理多源异构数据,还能在有效保持已有知识的同时适应新任务需求,展现出在智能系统中的巨大应用潜力。本文系统性地对多模态持续学习进行综述。首先,从基本概念、评估体系和经典单模态持续学习方法3个维度阐述了MMCL的基础理论框架。其次,深入剖析了MMCL在实际应用中的优势与挑战:尽管其在多模态信息融合方面具有显著优势,但仍面临模态不平衡、异构性融合等关键挑战,这些挑战既制约了当前方法的性能表现,也为未来研究指明了方向。基于此,本文随后从基于回放、正则化、参数隔离和大模型4个主要方面,全面梳理了MMCL方法的研究现状与最新进展。最后,对MMCL的未来发展趋势进行了前瞻性展望。
2025, 40(5):1139-1152. DOI: 10.16337/j.1004-9037.2025.05.003
摘要:为了解决开放域条件下三维模型无标签数据类别识别困难的问题,本文提出了一种多智能体协同的开放域三维模型识别算法。首先,构建多智能体系统,模拟人类协作学习过程,成员智能体分别处理不同模态的三维模型数据,提取对应特征向量,领导智能体通过特征融合网络整合多模态信息,形成全局特征向量。通过奖励机制驱动智能体探索多模态特征空间,并利用多模态信息的关联性进行自监督学习,从而优化分类策略。其次,在强化学习环境中设计了一种基于密度聚类的渐进式伪标签生成方法,通过动态调整聚类参数,为无标签数据迭代生成高质量伪标签,缓解传统方法因标签缺失导致的性能瓶颈。实验结果表明,本文方法在三维数据集OS-MN40上平均识别精度均值达到65.6%,将本文方法迁移至图像领域后,在CIFAR10数据集上的分类准确率达到95.6%,为开放域三维模型识别研究提供了通用且高效的解决方案。
2025, 40(5):1153-1164. DOI: 10.16337/j.1004-9037.2025.05.004
摘要:针对单一的空天目标测控信息融合方法难以应对传感器突发失效、目标干扰突变及强电磁干扰等复杂场景的局限,提出测控信息多模态适配融合方法。在自适应加权融合方法的基础上集成了单台光电-雷达异构融合模型和航迹预报补偿机制,能够适应弹道式目标、临近空间高超声速滑翔目标和航空飞行器等典型空天目标的运动特性。为进一步提升传感器网络对动态环境的适应性,设计了基于动态门限决策的多模态切换方法,以此作为实现适配融合的核心支撑,动态门限也避免了融合模态频繁误切换或滞后切换。通过体系化创新方法,构建了超越单一算法自适应调节能力的多模态融合体系。实验表明,多模态适配融合方法显著提升了传感器网络对空天目标的全程测控能力和航迹融合处理精度。
2025, 40(5):1165-1176. DOI: 10.16337/j.1004-9037.2025.05.005
摘要:情感视频字幕生成作为融合视觉语义解析与情感感知的跨模态任务,其核心挑战在于精准捕捉视觉内容中蕴含的情感线索。现有方法存在两点显著不足:一是对视频中主体(人物、物体等)与其外观特征、动作特征间的细粒度语义关联挖掘不够充分,导致视觉内容理解缺乏精细化支撑;二是忽视了音频模态在情感判别与内容语义对齐中的辅助价值,限制了跨模态信息的综合利用。针对上述问题,本文提出细粒度视觉与音视双分支融合框架。其中,细粒度视觉特征融合模块通过视觉、物体、动作特征的两两交互与深度融合,有效建模视频实体与视觉上下文间的细粒度语义关联,实现对视频内容的精细化解析;音频-视觉双分支全局融合模块则构建跨模态交互通道,将整合后的视觉特征与音频特征进行深层融合,充分发挥音频信息在情感线索传递与语义约束上的补充作用。在公开基准数据集上对本文方法进行验证,其评价指标均优于CANet、EPAN等对比方法,情感指标比EPAN方法平均提高4%,语义指标平均提升0.5,综合指标平均提升0.7。实验结果表明本文方法能有效提升情感视频字幕生成的质量。
2025, 40(5):1177-1192. DOI: 10.16337/j.1004-9037.2025.05.006
摘要:多模态方面级情感分析旨在整合图文模态数据,以精准预测方面词的情感极性。现有方法在精确定位文本相关的图像区域特征及有效处理模态间信息交互方面仍存在显著局限,同时模态内的上下文信息理解存在偏差,导致产生额外的噪声。为了解决上述问题,本文提出一种基于图卷积神经网络和目标视觉特征增强(Graph convolutional network and target visual feature enhancement,GCN-TVFE)的多模态方面级情感分析模型。首先,本文采用CLIP(Contrastive language-image pre-training)模型处理文本、方面词和图像数据,通过计算文本与图像之间的相似度以及方面词与图像之间的相似度,并结合这两项相似度,实现对文本与图像、方面词与图像匹配程度的量化评估。再通过Faster R-CNN模型去快速且精确地识别并定位图像中的目标区域,进一步增强模型提取与文本相关的图像特征能力。其次,通过图文GCN网络,利用文本之间的依存句法关系构建文本图结构,同时借助K近邻(K-nearest neighbor, KNN)算法生成图像图结构,从而深入挖掘模态内的特征信息。最后,采用多模态交互注意力机制,有效捕捉方面词与文本之间、目标视觉特征与图像生成文本描述特征之间的关联信息,显著减少噪声干扰,增强模态间的特征交互。实验结果表明,本文提出的模型在公共数据集 Twitter 2015 和 Twitter 2017 上的综合性能优越,验证了该模型在多模态情感分析领域的有效性。
2025, 40(5):1193-1206. DOI: 10.16337/j.1004-9037.2025.05.007
摘要:多模态预测任务通常需要同时对文本、图像与结构化数值等异构数据进行建模,以在复杂环境中实现稳健的时序建模、跨模态语义对齐与可解释推理。传统单模态或弱融合方法难以在语义对齐、信息互补与跨源推理方面取得一致性,且深度模型的黑箱特性限制了结果的可解释性。与此同时,大语言模型(Large language model, LLM)在语义理解、指令跟随与推理方面展现出强大能力,但其与时序建模、跨模态对齐及实时知识整合之间仍存在鸿沟。因此,提出LLM指导的多模态时序-语义预测框架,通过将变分推理的时序建模与LLM的语义分析相结合,构建“时序-语义-决策”的协同机制:时序模块利用递归潜变量与注意力机制提取历史行为模式;语义模块利用领域化语言模型与多模态编码器提炼高层语义与解释;两者在可学习融合器中联合优化,并提供不确定性标注与可解释报告。在StockNet、CMIN-US和CMIN-CN数据集上的实验表明,本文方法准确率达63.54%,较最优基线提升5.31个百分点,马修斯相关系数(Matthews correlation coefficient, MCC)提升至0.223。本文研究为多模态时序预测提供了统一范式,并在金融科技领域展现出应用潜力。
2025, 40(5):1207-1221. DOI: 10.16337/j.1004-9037.2025.05.008
摘要:在大数据环境下,序决策信息系统中数据的持续增长导致对象间的优势关系动态变化,高效计算属性约简成为亟待解决的关键问题。为此,提出一种增量单值中智优势条件熵,并由此构建了新的增量式属性约简算法。首先,在单值中智序决策信息系统下给出单值中智优势条件熵;随后,针对4种不同类型的新增对象,深入研究了单值中智优势条件熵的增量更新机制,进而根据该更新机制设计了增量式属性约简算法;最后,选取6个具有优势关系的UCI数据集对增量算法与非增量算法的有效性和高效性进行了对比分析。实验结果表明,新给出的增量属性约简算法在保持相同分类精度的条件下,可以显著提升数据处理的计算效率。
2025, 40(5):1222-1238. DOI: 10.16337/j.1004-9037.2025.05.009
摘要:作为一种针对分类和回归任务行之有效的集成学习算法,随机森林(Random forest, RF)还面临着泛化能力提升和隐私保护的挑战。本文提出了一种改进的基于多重随机性与隐私保护的栈式随机森林(Bernoulli-multinomial stacked random forest,BMS-RF)算法。基本思想是在构造决策树分裂特征和分裂点选择阶段引入伯努利分布Dropout部分特征向量选择候选特征向量,通过两个多项分布随机选择分裂特征与分裂点,每棵决策树采用非数值查询的指数机制添加噪声维持其隐私保护机制,在集成分类器时引入多层栈式结构将前一层的输出随机投影和源训练集拼接作为新的输入,使得每一森林可以共享源样本空间信息,逐层提高基学习器分类性能。通过对此算法的一致性以及隐私能力的理论分析表明BMS-RF可以通过栈式结构显著提高分类性能。14个中小规模数据集合上的实验结果验证了该算法不但能降低运行时间且具有更好的泛化性能,隐私保护水平较强时可以在简化结构和提高运行速度的基础上达到与RF变体基本一致的分类性能。
2025, 40(5):1239-1249. DOI: 10.16337/j.1004-9037.2025.05.010
摘要:随着移动通信技术的飞速发展,无线网络面临着资源分配、流量分析和6G基站优化等多重挑战。对无线网络流量的有效预测,有助于合理地分配网络资源,为用户提供更稳定更高效的服务,保证网络性能。针对目前无线组网流量预测过程中由于时空特征挖掘不充分导致预测准确率较低的问题,开展了基于深度学习方法的智能业务流量预测算法的研究,设计了基于图卷积神经网络-长短期记忆网络(Graph convolutional network-Long short-term memory, GCN-LSTM)模型的预测算法。实验结果显示,该算法在实际网络应用中的准确率为84.71%,相较于其他基于深度学习的流量预测方法,具有显著优势,为6G网络资源的合理分配和高效服务提供了有力支持。
2025, 40(5):1250-1260. DOI: 10.16337/j.1004-9037.2025.05.011
摘要:辐射源个体识别(Specific emitter identification, SEI)是指利用接收电磁信号中的独特细微特征来区分发射设备的技术。深度学习由于其强大的特征提取能力,逐渐成为实现辐射源个体识别的主要手段,但在非合作场景中无法获取大量带标签的数据样本来训练神经网络,且待识别的辐射源个数未知。为此,本文提出了无需指定辐射源个数的基于有向图连通性的无监督辐射源个体识别方法。受层次聚类的启发,首先基于局部密度将射频指纹特征空间划分为多个子簇,并将特征向量之间的关系映射为有向图;然后,基于有向图的连通性,将多个子簇进行合并,得到最终的识别结果。实验结果表明,在低信噪比条件下,所提方法能准确进行辐射源个体识别,识别性能较基准算法提高了7.1%~53.1%。
2025, 40(5):1261-1269. DOI: 10.16337/j.1004-9037.2025.05.012
摘要:在小样本通信辐射源个体识别场景中,现有深度学习算法对通信辐射源个体特征提取困难,识别率不高。针对此问题,提出通过融合注意力机制和宽度学习构建浅层神经网络的识别方法。首先,引入宽度学习来简化网络模型,减轻小样本带来的过拟合现象;其次,构建节点注意力模块提高宽度神经网络在小样本条件下特征提取能力;最后,在公开数据集上验证提出方法的有效性。结果表明,在少量样本条件下相比深度学习方法,所提方法改善了深度学习网络的过拟合现象,加强了宽度学习方法的特征提取能力,提高了识别准确率。
2025, 40(5):1270-1282. DOI: 10.16337/j.1004-9037.2025.05.013
摘要:多输入多输出(Multiple-input-multiple-output, MIMO )和非正交多址接入(Non-orthogonal multiple access, NOMA)技术因其优越的频谱效率被广泛用于无人机通信中,而无人机可作为中继为多个用户提供灵活可靠的连接,具有较高的研究价值。为了解决MIMO-NOMA无人机中继网络中多用户传输带来的干扰问题和分簇问题,设计了一种基于放大转发(Amplify-and-forward, AF)的下行传输模型。首先引入三维随机几何工具对用户进行分簇,并依据NOMA原理设计了基于AF中继的预编码方案。其次针对所考虑的AF中继传输模型,分析了其等效信道的统计特性,推导了网络中配对用户的中断概率解析表达式,并利用一阶泰勒展开近似得到高信号噪声比(Signal-to-noise ratio, SNR)下中断概率的渐近解和分集增益。最后,仿真分析了关键变量对系统中断概率的影响,验证了理论推导的正确性。此外,与现有MIMO-NOMA系统中的传输方案相比,所提方案能够有效提升多用户无人机中继网络的中断性能。
2025, 40(5):1283-1293. DOI: 10.16337/j.1004-9037.2025.05.014
摘要:深度生成模型的快速发展使得合成图像的逼真度不断提高,从图像生成到人脸篡改,各类生成技术已经深入人们的日常生活,图像真实性问题引起关注。此外,主流的图像分类模型主要在风格丰富多变的自然场景数据集上进行预训练,而单一提示词虽能生成大量的数据,但是存在明显的同质化问题,影响了学习难度的均衡性,从而使得传统的图像二分类训练方法在生成图像检测任务上存在泛化能力不足的问题。针对此类问题,本文提出了一种难易样本不均衡下的检测方法,无需修改现有分类模型,通过生成数据的自我增强方式,建立了一种有效的数据增强范式,扩充生成数据的多样性,从而平衡模型的学习难度。同时,在难易样本中利用修正的类交叉熵损失进行敏感惩罚。本文所提方法在2023年11月山东省人工智能学会举办的计算机视觉应用挑战赛(真假图片识别赛)中取得了最好的结果。
2025, 40(5):1294-1305. DOI: 10.16337/j.1004-9037.2025.05.015
摘要:传统的快速激光雷达里程计与建图(Fast LiDAR odometry and mapping, F-LOAM)算法虽然对特征点进行了两级去畸变处理,但仅对第1阶段的特征点进行去畸变,第2阶段的去畸变主要用于建图,这导致位姿估计的准确性不高。为了解决这一问题,提出了一种改进的三级去畸变机制,结合基于体素化网格的分层降采样机制,以提高算法的实时性。经过改进的F-LOAM算法在KITTI数据集上的测试表现出色。三级去畸变机制和分层降采样策略不仅有效降低了计算负担,还确保了特征点的有效性和全局地图的精度。
2025, 40(5):1306-1321. DOI: 10.16337/j.1004-9037.2025.05.016
摘要:针对小样本条件下生成对抗网络(Generative adversarial network, GAN)生成缺陷图像质量低、不真实且多样性差的问题,提出一种缺陷图像生成算法(Defect image data augmentation GAN,DID-AugGAN),旨在实现小样本缺陷图像的数据增强。为解决传统卷积在有限数据集中难以有效学习图像中非刚性特征的问题,设计可学习偏移卷积,以提高模型对图像语义信息的学习能力;为避免关键缺陷特征丢失,提升局部特征之间的关联性,设计多尺度坐标注意力模块,重点关注缺陷位置信息;为提高网络对输入图像局部信息的判别能力,重新设计判别器网络架构,使其从传统的单一前馈网络转变为包含对称编码与解码路径的UNet-like结构;将DID-AugGAN与原算法在Rail-4c轨道扣件缺陷数据集上进行对比实验,并利用分类网络MobileNetV3进行验证。实验结果表明,改进后的方法显著提高了IS(Inception score),有效降低了FID(Fréchet inception distance)和LPIPS(Learned perceptual image patch similarity)指标,并且MobileNetV3分类准确率和F1分数也得到提高。该算法能稳定生成高质量的缺陷图像,有效扩充缺陷数据样本,满足下游任务需求。
2025, 40(5):1322-1332. DOI: 10.16337/j.1004-9037.2025.05.017
摘要:单目3D目标检测旨在定位输入单个2D图像中物体的3D边界框,这在缺乏图像深度信息的情况下是一个极具困难的任务。针对2D图像在推理时的深度信息缺失以及深度图背景噪声干扰导致检测效果不佳的问题,提出一种融合深度实例的单目3D目标检测方法MonoDI。其关键思想在于利用有效的深度估计网络所生成的深度信息结合实例分割掩码得到深度实例,再与2D图像信息融合来帮助物体3D信息的回归。为了更好地利用深度实例信息,设计了一个迭代深度感知注意力融合模块(iterative Depth aware attention fusion module, iDAAFM),将深度实例特征与2D图像特征融合以得到含有物体清晰边界和深度信息的特征表示;另外,在训练和推理过程引入残差卷积结构代替一般的单一卷积结构,以保证网络在处理融合信息时的稳定与高效。同时,设计了一个3D边界框不确定性辅助任务,在训练中帮助任务学习边界框的生成,提高单目3D目标检测任务的精度。在KITTI数据集上对此方法进行验证,实验结果表明,MonoDI在3D目标检测任务中中等难度情况下的车辆类别的检测精度比基线提高了4.41个百分点,且优于MonoCon、MonoLSS等对比方法,同时在KITTI-nuScenes跨数据集实验中取得了较优的结果。
2025, 40(5):1333-1347. DOI: 10.16337/j.1004-9037.2025.05.018
摘要:针对道路裂缝外观特征易受环境干扰、细小裂缝漏检率高、检测设备计算资源受限的问题,提出了轻量级检测模型MCA-YOLO-A。该模型基于YOLOv8n,用更轻量的MobileNetV3特征提取网络来代替原主干网络,并融合了精确捕捉空间信息的坐标注意力(Coordinate attention, CA)模块,提高了特征提取能力。同时,引入了适用于轻量级网络的Alpha-IOU损失函数,使得网络整体性能提升。此外,增加了小目标检测层,提升细小裂缝的识别精度。MCA-YOLO-A模型在道路裂缝数据集上平均精度均值mAP_0.5和F1分数分别达到0.930和0.893,相较于原YOLOv8n模型分别提升了7.0%和9.7%,参数量仅为6.0M,减少了4.8%,检测速度达到95帧/s。实验结果证明,该模型具备高精度、轻量化以及出色的泛化能力,更适合应用于计算资源受限的嵌入式系统和移动终端等场景。
2025, 40(5):1348-1360. DOI: 10.16337/j.1004-9037.2025.05.019
摘要:针对极化合成孔径雷达(Polarimetric synthetic aperture radar,PolSAR)图像跑道检测中标注数据稀缺引发的模型表征能力退化问题,提出一种双向协同训练的半监督师生模型,特别是设计了一个助教模块,通过构建蒸馏损失和反馈损失进行模型联合训练,突破传统单向蒸馏的层级限制。助教模块通过对比模型间的推理结果反馈尚未完全挖掘的特征信息,并利用同级特征图生成方向性特征向量,构建方向性损失辅助学生模型进行高效训练。在美国UAVSAR数据集上的实验结果表明,在标注数据有限的条件下,本文方法的跑道区域检测精度达到83.11%,相比于Unet、D-Unet和Unet++系列模型分别提高了15.63%,6.46%和17.25%。
2025, 40(5):1361-1370. DOI: 10.16337/j.1004-9037.2025.05.020
摘要:针对深度学习进行脑电信号(Electroencephalogram, EEG)的运动想象分类时,未利用通道特征研究通道之间相关性,以及没有充分发掘频率、时间和空间信息等问题,提出了一种基于非负矩阵分解(Nonnegative matrix factorization,NMF)的时间卷积网络(Temporal convolutional network,TCN)与紧凑型卷积神经网络EEGNet相结合的分类方法,记为NTEEGNet,以相对少量的参数来提高运动想象分类的性能。模型的NMF能更好地提取通道特征,且充分地利用了频率、时间和空间等信息;同时,在TCN的作用下,网络的感受野呈指数级增加,从而能在较少的参数下具有更强的特征提取能力。在BCI Competition Ⅳ 2a数据集上的实验结果表明,NTEEGNet的分类准确率达到83.99%,在EEG-TCNet的基础上提升了6.64%。
2025, 40(5):1371-1380. DOI: 10.16337/j.1004-9037.2025.05.021
摘要:针对传统手持扫描过程中机械臂辅助光学相干层析成像(Optical coherence tomography,OCT)探头难以对准目标、探头姿态不准确以及操作人员手部震颤等问题,进行了OCT探头高精度定位及灵活姿态调整,以满足手术动态成像需求的研究。为了提高定位精度实现姿态调整,提出了一种系统校准和OCT探头位姿优化方法,以确保探头处于最佳成像位姿。首先,采用相应的像素域到空间域的转换系数和Tsai-Lenz方法对系统进行标定;然后,通过图像处理完成OCT探头的位姿优化。采用拉普拉斯随机游走算法获取皮肤仿体表面轮廓,计算皮肤仿体的表面法向量
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部