本刊信息

主管:中国科学技术协会

主办:中国电子学会 南京航空航天大学

国际刊号:ISSN 1004-9037

国内刊号:CN 32-1367/TN

地址:南京市御道街29号 南京航空航天大学(明故宫校区)

电话:025-84892742

传真:025-84892742

E-mail:sjcj@nuaa.edu.cn

邮编:210016

期刊简介
  • 中文核心期刊(电子技术、通信技术类)
           中国科学引文数据库(CSCD)来源期刊
           中国科技论文统计源期刊
           荷兰Scopus数据库收录
           俄罗斯《文摘杂志》收录
           日本科学技术社数据库收录
           美国《剑桥科学文摘》(CSA)收录
           英国INSPEC数据库收录

显示方式:
  • “空天地海视觉信息智能处理”专栏序言

    2025,40(2):273-273, DOI: 10.16337/j.1004-9037.2025.02.001

    Abstract:

  • 面向无人机的低空视觉数据集研究综述

    孙一铭,赵柯嘉,王硕,陈振国,阮媛,叶子凡,陈星睿,李欣,褚瑞麟,宋生敏,胡亦添,郭周鹏,王森,胡清华,朱鹏飞

    2025,40(2):274-302, DOI: 10.16337/j.1004-9037.2025.02.002

    Abstract:

    在无人机技术与人工智能的跨域协同驱动下,依托国家低空经济政策与空域开放试点改革,低空视觉感知在智慧城市及巡检搜救等方面发挥了重要作用。高质量的低空视觉数据是低空智能感知领域的关键基础资源,公开数据集的发布与应用对低空感知技术的深入推进起到了重要作用。尽管已有大量面向低空视觉感知的数据集被提出,但对其系统化的整理与分析尚不充分。针对这一问题,本文全面调研了近11年间公开发布的低空无人机视觉相关数据集,基于不同的数据特征和应用场景对其进行分类探究,并选取具有代表性的数据集进行详细分析。本文涵盖了单机感知、多机协同感知、多任务感知、多源感知、复杂环境特性以及无人机具身智能等多个领域,为便于研究者理解与使用,本文以图表形式对所有数据集的基本信息进行了归纳总结,并从以下两个主要维度对其发展趋势进行了系统分析:(1)元数据分析,包括数据集规模分布、场景分布及支持任务类型等特点;(2)基本信息分析,涉及图像视频总量、目标类别分布和标注实例数量等关键指标。通过分析,充分展示了低空视觉感知数据集质量的显著进步,同时指出尽管已初步形成低空数据体系化架构,但是低空数据标注成本与效率失衡、多源数据复用性不足、极端环境覆盖薄弱以及具身智能数据割裂等问题依旧存在。最后,本文对低空数据集未来发展方向进行了展望。

  • 端到端智能视频压缩技术及其在无人机中的应用

    叶枫,董凡可,贾川民

    2025,40(2):303-319, DOI: 10.16337/j.1004-9037.2025.02.003

    Abstract:

    多媒体视觉表示与传输领域正在面临深刻变革,端到端优化的智能视频编解码技术是激发这一变革的驱动力。以无人机(Unmanned aerial vehicle, UAV)视频为代表的新兴视频内容压缩编码技术进一步促进了核心技术发展和应用场景创新。聚焦于端到端智能视频编解码技术及其在无人机视频编码的初探,提出了一种基于分层双向参考结构的视频编码方法,解决模型在运动表示效率和预测编码精度方面的不足。有针对性地设计提出了参数共享的运动编解码器、双向缩放运动表示方法以及可信运动建模技术,显著提升无人机视频压缩的率失真压缩性能,优于传统视频编码标准H.266/VVC。为智能视频编码关键技术发展和应用提供了新思路,未来有望在无人机视觉感知等相关领域发挥重要作用。

  • 低码率生成式无人机视频编码算法

    刘美琴,陈虹宇,周一鸣,倪文昊

    2025,40(2):320-333, DOI: 10.16337/j.1004-9037.2025.02.004

    Abstract:

    空天地海复杂环境下海量的视频数据给有限的传输带宽和存储设备带来了巨大的压力,因此如何提高视频编码技术在低码率条件下的编码效率显得尤为关键。近年来,基于深度学习的视频编码算法取得了良好的进展,却因优化目标与感知质量失配、训练数据分布偏差等问题,降低了极低码率下的视觉感知质量。生成式编码通过学习数据分布有效提升了低码率下的纹理与结构复原能力,缓解了深度视频压缩的模糊伪影问题。然而,现有研究仍存在两大瓶颈:一是时域相关性建模不足,帧间关联缺失;二是动态比特分配机制欠缺,难以实现关键信息的自适应提取。为此,提出一种基于条件引导扩散模型的视频编码算法(Conditional guided diffusion model-video compression, CGDM-VC),旨在改善低码率条件下视频感知质量的同时,加强帧间特征建模能力和保留关键信息。具体地,该算法设计了隐式帧间对齐策略,利用扩散模型捕获帧间潜在特征,降低估计显式运动信息的计算复杂度。同时,设计的自适应时空重要性编码器可动态分配码率优化关键区域的生成质量。此外,引入感知损失函数,结合感知图像块相似度(Learned perceptual image patch similarity, LPIPS)约束,以提高重建帧的视觉保真度。实验结果表明,与DCVC(Deep contextual video compression)等算法相比,该算法在低码率(<0.1 BPP)情况下,LPIPS值平均降低了36.49%,展现出更丰富的纹理细节和更自然的视觉效果。

  • 基于动态渐进融合的无人机海上救援目标检测算法

    黄绿娥,于晓伟,鄢化彪,毛玉婷

    2025,40(2):334-348, DOI: 10.16337/j.1004-9037.2025.02.005

    Abstract:

    无人机(Unmanned aerial vehicle,UAV)目标检测在海上救援任务中发挥着重要作用。然而,由于无人机空中拍摄的视角和高度多变,检测目标存在多尺度变化。此外,阳光照射海面产生的耀斑会造成误检现象。基于上述问题,为满足无人机实时目标检测的算法轻量化需求,本文以YOLOv8n为基准网络,提出一种基于动态渐进融合的轻量级无人机海上救援目标检测算法(Dynamic progressive fusion YOLO,DPF-YOLO)。首先,提出轻量级冗余信息提取模块(Redundant information extraction module,RIEM),通过减少特征图中的冗余信息,突出关键特征,避免耀斑误检问题。其次,提出动态多尺度特征提取模块(Dynamic multi-scale feature extraction module,DMFEM),通过动态调整感受野大小以适应不同尺度的目标,增强多尺度特征表达能力。最后,结合DMFEM模块提出动态渐进融合网络(Dynamic progressive fusion network,DPFNet),通过渐进式融合结构,减少非相邻层间不同尺度目标的语义差异,增强多尺度特征融合效果。DPF-YOLO设计为P2、P3和P4检测层结构以适应海上救援任务中不同尺度的目标,丰富多尺度信息,增强对小目标的特征提取。在SeaDronesSee v2数据集上的实验结果表明,DPF-YOLO以仅1.19M的参数量实现了mAP0.5=72.2%的检测精度,较基准网络YOLOv8n参数量降低60.5%,召回率提升12.4%,精度提升8.2%。在VisDrone数据集上的泛化性实验结果表明,DPF-YOLO具有较好的泛化能力。

  • 低秩张量子空间学习红外小目标检测

    王衍,胡宏博,彭真明

    2025,40(2):349-364, DOI: 10.16337/j.1004-9037.2025.02.006

    Abstract:

    红外目标检测系统是可靠探测和识别背景辐射与其他干扰条件下高价值目标的有效技术手段之一,广泛应用于各个领域。红外弱小目标检测作为系统的重要组成部分,仍是当前具有挑战性的关键核心技术。本文提出了一种基于低秩张量子空间学习的方法,该方法在考虑序列在空时连续一致性的同时,也保留了红外图像结构的完整性。通过空时滑动窗获得空时张量块模型,利用多子空间学习策略构建不同场景下的红外张量字典模型。最后,采用最优化算法求解所提出的红外张量目标函数,获得低秩背景和稀疏目标张量,通过重构图像检测出感兴趣的红外弱小目标。实验结果表明,在复杂背景高反虚警环境及组合强干扰场景下,该方法目标检测性能优于其他现有检测算法。

  • 面向空间遮挡的复合代价光场快速三维成像方法

    李安虎,龚祯昱,赵鑫

    2025,40(2):365-373, DOI: 10.16337/j.1004-9037.2025.02.007

    Abstract:

    光场相机凭借其多维多尺度的成像能力和极简的资源配置,显著拓展了空地海探索等非结构化环境中的成像应用边界。光场成像过程中容易受到遮挡和噪声影响而产生不可靠的深度估计,传统的深度细化方法计算成本高且效果差。提出了一种面向空间遮挡的复合代价光场快速三维成像方法,深入分析影响深度估计准确性的主要因素,针对不同空间遮挡模式,建立最优的光场快速滤波构架。使用像素点的单比特特征构造高度集成的复合代价,实现深度图像的细化和遮挡优化。实验表明,该方法的运算效率显著优于基于马尔可夫随机场等为代表的后期细化手段,且使三维成像的均方根误差提高51.3%,以较低的运算成本显著提高深度估计算法的可靠性,有望为光场成像技术在复杂场景应用提供有力支持。

  • 退化信息引导的水下光场图像增强与角度重建

    刘德阳,李世政,朱宇航,刘慧

    2025,40(2):374-383, DOI: 10.16337/j.1004-9037.2025.02.008

    Abstract:

    与传统二维RGB成像不同,四维光场成像能从多角度捕捉场景,自带几何信息。这一特性有望解决水下成像难题。本文借助四维光场图像的角度特性,提出基于退化信息引导的水下四维光场图像增强与角度重建网络。该网络学习下采样后各角度水下图像的退化信息,并将退化信息转化为卷积核传递给原尺寸的水下光场图像,实现不同角度的水下图像间退化信息的高效交换。充分利用水下光场图像的退化信息和空间-角度信息,所提网络能更好地完成水下光场的图像增强与角度重建。同时针对光场特性提出了空间-角度聚合卷积,通过计算中心像素与其他视图像素的梯度差,高效学习不同视图间纹理信息的关联性。通过定量实验以及定性实验,充分验证了该网络设计的有效性。

  • 基于注意力机制和多尺度集成学习的细粒度图像识别方法

    季晟宇,江志康,马翔,杨绿溪

    2025,40(2):384-400, DOI: 10.16337/j.1004-9037.2025.02.009

    Abstract:

    细粒度图像识别是计算机视觉领域中一项重要的研究课题,其主要目标是分辨同属一大类下外观具有高度相似性的子类。以弱监督的细粒度图像识别为研究内容,针对现有研究中存在的图像细粒度特征利用不充分以及判别性区域难以挖掘的问题,提出了基于注意力机制和多尺度集成学习策略的细粒度图像识别方法。该方法引入渐进式学习网络,利用集成学习的策略,基于深度神经网络3个层级的输出特征并行构建多尺度基分类器,并使用标签平滑的方法对分类器进行渐进式训练,从而大幅度提高低层特征的利用率;同时采用高效双通道注意力机制对特征施加通道权重,使得网络能够在通道层面自主筛选特征,从而提升高信息相关度通道的利用率。该方法还引入了自注意力区域建议网络,通过构建循环反馈机制促使模型逐步定位到更加具有判别性的区域,并在最后的分类模块中将完整图像与判别性区域的特征信息进行融合。实验结果表明,该方法在CUB-200-2011、FGVC Aircraft和Stanford Cars细粒度图像数据集上的识别准确率达到行业先进水平。

  • 基于融合语义信息的上下文感知图像修复

    祖奕,张孙杰,吴鹏,马悦恒

    2025,40(2):401-416, DOI: 10.16337/j.1004-9037.2025.02.010

    Abstract:

    近年来,生成对抗网络广泛应用于图像修复领域并取得了不错的效果。但目前的方法并没有考虑在高分辨率图像(512×512)中会产生模糊的结构以及纹理的问题,这些问题主要来源于缺乏有效特征信息。针对此问题,提出一种将图像特征与语义信息相结合的生成对抗网络。主要基于语义信息,提出一种上下文感知的图像修复模型,该模型自适应地将语义信息与图像特征融合,并且提出自适应卷积替代传统卷积,以及在解码器后增添一个多尺度上下文聚合模块捕捉远距离信息来进行上下文推理。在Places2、CelebA-HQ、Paris Street View和Openlogo数据集上进行实验,实验结果表明,在L1损失、峰值信噪比(PSNR)和结构相似度(SSIM)上所提方法与现有方法对比均有所提升。

  • 基于时序分解和注意力图神经网络的交通预测

    杨永鹏,杨震,杨真真

    2025,40(2):417-430, DOI: 10.16337/j.1004-9037.2025.02.011

    Abstract:

    如何有效挖掘隐藏在交通数据中的时空依赖信息、动态信息和空间异质信息一直是交通预测任务面临的关键问题。本文提出了一种基于时序分解和注意力图神经网络(Time-series decomposition and attention graph neural network, TDAGNN)的交通预测模型。采用双分支时序分解卷积神经网络(Dual time-series decomposition convolutional neural network, DTDCNN)从复杂的交通数据中挖掘时间依赖信息;采用多头交互注意力网络(Multi-head interactive attention, MIA)对原始交通特征和局部增强特征进行交互学习,以深入挖掘交通数据的异质信息和动态信息;引入自缩放动态扩散图神经网络(Self-scaling dynamic diffusion graph neural network, SDDGNN)在获取交通数据空间依赖信息的同时,避免图神经网络的尺度失真问题;将提出的TDAGNN应用于经典交通数据PEMS04、PEMS08、METR-LA和PEMS-BAY的交通预测实验中。实验结果表明,提出模型的平均MAE、RMSE和MAPE比其他经典算法最大可分别提高14.64、23.68和9.41%,从而证明其具有较高的交通预测精度。

  • 基于数据聚类的CSI反馈Transformer网络简化实现方法

    还冬锐,张逸帆,姜明

    2025,40(2):431-445, DOI: 10.16337/j.1004-9037.2025.02.012

    Abstract:

    为应对大规模多输入多输出(Multiple-input multiple-output,MIMO)系统中信道状态信息(Channel state information,CSI)反馈开销的日益增长,基于深度学习的CSI反馈网络(如Transformer网络)受到了广泛的关注,是一种非常有应用前景的智能传输技术。为此,本文提出了一种基于数据聚类的CSI反馈Transformer网络的简化方法,采用基于聚类的近似矩阵乘法(Approximate matrix multiplication,AMM)技术,以降低反馈过程中Transformer网络的计算复杂度。本文主要对Transformer网络的全连接层计算(等效为矩阵乘法),应用乘积量化(Product quantization,PQ)和MADDNESS等简化方法,分析了它们对计算复杂度和系统性能的影响,并针对神经网络数据的特点进行了算法优化。仿真结果表明,在适当的参数调整下,基于MADDNESS方法的CSI反馈网络性能接近精确矩阵乘法方法,同时可大幅降低计算复杂度。

  • 瑞利信道的感知通信概率融合系统性能分析

    许欢,徐大专,鞠美玉

    2025,40(2):446-455, DOI: 10.16337/j.1004-9037.2025.02.013

    Abstract:

    本文给出了瑞利衰落信道感知通信一体化(Integrated sensing and communication ,ISAC)系统模型,提出感知通信一体化概率融合(Probability fusion after integrated sensing and communication,PF-ISAC)方法,推导出PF-ISAC信道模型。从理论上证明,当感知信噪比(Signal to noise ratio,SNR)趋于无穷时,ISAC模型将退化为理想信道状态信息(Channel state information,CSI)的场景;当感知SNR趋于零时,ISAC模型将退化为CSI未知的场景。给出了PF-ISAC系统的互信息与SNR的变化关系,随着SNR的增加,互信息从CSI未知时的信道容量逐渐逼近于理想CSI的容量。本文提出最大后验概率融合(Probability fusion after maximum a posteriori ,PF-MAP)检测方法、最大似然概率融合(Probability fusion after maximum likelihood, PF-ML)检测方法,并与最小均方误差(Minimum mean square error ,MMSE)估计-MMSE检测(MMSE-MMSE)方法进行比较,结果表明PF-MAP在中低SNR时与MMSE-MMSE性能相当,而在高SNR时,PF-MAP优于MMSE-MMSE;用熵误差(Entropy error ,EE)评价PF-ISAC系统的误差性能,结果表明MMSE-MMSE、PF-MAP、PF-ML与理论性能极限EE均有较大差距。最后,给出感知和通信两阶段功率分配方案,当总功率给定时,感知和通信两阶段等功率分配,性能接近最佳。

  • 基于双向长短时记忆网络和自注意力机制的心音分类

    卢官明,李齐健,卢峻禾,戚继荣,赵宇航,王洋,魏金生

    2025,40(2):456-468, DOI: 10.16337/j.1004-9037.2025.02.014

    Abstract:

    心音听诊是早期筛查心脏病的有效诊断方法。为了提高异常心音检测性能,提出了一种基于双向长短时记忆(Bi-directional long short-term memory,Bi-LSTM)网络和自注意力机制(Self-attention mechanism,SA)的心音分类算法。对心音信号进行分帧处理,提取每帧心音信号的梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)特征;将MFCC特征序列输入Bi-LSTM网络,利用Bi-LSTM网络提取心音信号的时域上下文特征;通过自注意力机制动态调整Bi-LSTM网络各时间步输出特征的权重,得到有利于分类的更具鉴别性的心音特征;通过Softmax分类器实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016心音数据集上对所提出的算法使用10折交叉验证法进行了评估,得到0.942 5的灵敏度、0.943 7的特异度、0.836 7的精度、0.886 5的F1得分和0.943 4的准确率,优于对比的典型算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,具有潜在的临床应用前景。

  • 基于MSC-LSAM的多尺度交叉超声医学图像分割方法

    王朝欣,杨汶汶,戎泽,李铮昱,王行,马磊

    2025,40(2):469-484, DOI: 10.16337/j.1004-9037.2025.02.015

    Abstract:

    脑卒中是全球范围内致死致残率最高的疾病之一,颈动脉狭窄和心脏病变是缺血性脑卒中的重要致病因素。超声(Ultrasound,US)是检查由颈动脉狭窄和心脏病变引起的缺血性脑卒中的常用影像学手段,但超声图像噪声多、边界模糊,具有较高的分割难度。本文提出MSC-LSAM算法,一种多尺度交叉的双编码器超声图像分割网络,旨在实现颈动脉腔体和心脏腔体的快速、准确分割,辅助医生完成疾病诊断。MSC-LSAM在编码器部分并行了分割一切模型(Segment anything model,SAM)的视觉编码器和UNet编码器,在解码器部分采用UNet解码器。本研究首先冻结了预训练的SAM视觉编码器,并在Transformer层中引入高效的适配器(Adapter)块,被称可学习的分割一切模型(Learnable SAM,LSAM)。LSAM在拥有较低参数量的同时,保留学习能力和高度泛化性。然后,在UNet全局网络引入多尺度交叉注意力(Multi-scale cross-axial attention,MCA),实现多尺度特征的交叉融合,有效提升边缘分割能力,抑制模型过拟合。最后,通过高效通道注意力(Efficient channel attention,ECA)实现双编码器多尺度特征的高效融合,减少模型误分割。结果表明,本研究提出的MSC-LSAM在心脏超声公开数据集CAMUS和颈动脉超声自建数据集CAUS上均取得了良好的效果。CAMUS的两心腔(2CH)和四心腔(4CH)数据集分割的平均Dice相似系数(Dice similarity coefficient,DSC)分别达到0.927和0.934;CAUS数据集的平均DSC达到0.917。MSC-LSAM在颈动脉腔体和心脏腔体超声图像分割任务上获得了良好的分割准确度,高于主流分割算法,具有良好的应用前景。

  • 基于麻雀搜索算法的混合神经网络模型及其血糖预测应用

    徐鹤,许硕洋,季一木

    2025,40(2):485-500, DOI: 10.16337/j.1004-9037.2025.02.016

    Abstract:

    糖尿病是当今危害人类健康的常见疾病之一,有效管理和控制血糖对患者至关重要。传统的血糖预测模型大多为单一的深度学习模型,存在精度不足或效率太低的缺陷,制约了其在实际应用中的效果,为此,本文提出了一种基于麻雀搜索的混合神经网络模型,将其应用到血糖预测中。该模型结合了时域卷积网络(Temporal convolutional network,TCN)和门控循环单元(Gated recurrent unit,GRU),是基于端到端方式训练的时序神经网络,根据患者的血糖水平历史记录预测血糖。为确保该模型的泛化能力,使用两个不同来源的数据集进行验证。首先,对多源时序监测数据的特征采样频率进行设定,时间间隔为5 min,接着对数据做平滑处理和标准化,并通过TCN对时序数据捕捉时序模式和依赖特征;然后通过构建基于注意力机制的GRU(GRU-Attention)模型进一步提取特征并建模;最后使用麻雀搜索算法对TCN和GRU-Attention模型进行超参数优化,实现血糖预测模型。为了证明本文所提模型的有效性,将其预测结果与其他模型进行对比,包括LSTM、ARIMA和RNN等。研究结果表明,提出的基于麻雀搜索算法的TCN和GRU-Attention模型在血糖值预测任务中表现良好,两个数据集的均方根误差(Root mean square error,RMSE)和平均绝对误差(Mean absolute error, MAE)分别为0.552和0.402、0.531和0.388,均优于其他模型。

  • 基于后悔理论的多粒度直觉模糊三支决策模型

    庞文莉,于潇,郑宇,陈辉,薛占熬,辛现伟

    2025,40(2):501-516, DOI: 10.16337/j.1004-9037.2025.02.017

    Abstract:

    传统基于函数或关系的三支决策模型在应对复杂多粒度决策问题求解时,容易忽略现实中信息的多粒度特性和决策者认知能力的局限性。基于此,本文提出了一种基于后悔理论的多粒度直觉模糊三支决策模型。首先,为处理直觉模糊数的复杂计算问题,将θ算子与直觉模糊粗糙集相融合,提出了一种多粒度直觉模糊粗糙集上、下近似算子,并给出相应的三支决策规则。其次,为将决策者的认知特性融合到决策过程中,结合后悔理论构建了乐观和悲观策略下的多粒度三支排序方法。最后通过国际中文教育“中文+职业”人才胜任力评估的群决策实例验证了所提模型的有效性,为直觉模糊环境下融合决策者风险偏好的不确定性决策问题提供了一种新方法。

  • 基于类型语义提示的事件检测方法

    丁远远,张顺香,文华,焦熠璇,张基旭,曹宇轩

    2025,40(2):517-529, DOI: 10.16337/j.1004-9037.2025.02.018

    Abstract:

    针对现有研究将事件检测过程分解为触发词识别和分类两个阶段性任务,从而引发误差传递的问题,本文提出一种基于类型语义提示的事件检测方法。通过将事件类型作为提示信息来引导模型从事件文本中抽取与事件类型对应的触发词,从而并行执行触发词的识别和分类,缓解任务间误差传递的问题。首先利用跨注意力机制处理事件文本表征和事件类型提示模板,获得融合事件文本信息的提示表征;然后计算提示表征与事件文本表征间的余弦相似度,得到与事件类型对应的触发词在事件文本中位置的概率分布;最后基于位置的概率分布确定触发词的位置,从而同时实现触发词的识别与分类。在ACE2005和MACCROBAT-EE数据集上的实验结果表明,本文方法在事件检测任务中的F1值均有提升。

  • 基于强化学习与变权组合模型的EV充电需求功率预测方法

    宋宗仁,葛泉波,李春喜

    2025,40(2):530-544, DOI: 10.16337/j.1004-9037.2025.02.019

    Abstract:

    当电动汽车(Electric vehicle,EV)与充电桩连接时,精确预测电动汽车动力电池组的充电需求功率,对于防止电池组过充电至关重要。由于电池组物理模型的复杂性使基于其充电需求功率预测方法通常难以构建,且实时性不高。此外,单一预测模型的预测精度偏低。针对上述问题,结合充电数据与机器学习,提出一种基于强化学习与变权组合模型的EV充电需求功率预测方法。在传统灰狼优化算法的基础上,将混沌映射、精英反向学习策略相结合以提高初始种群的质量,利用强化学习的动态权重策略更新灰狼个体位置来优化最小二乘支持向量机(Least square support vector machine, LSSVM)算法中的参数;通过基于时变权重分配的变权组合方法合理分配极限学习机预测模型与改进LSSVM预测模型的权重,解决单一预测模型方法的不足;采用电动汽车的实际充电数据对所提预测算法进行验证,新方法相较于其他3种传统方法在预测精度上分别提高了4.75%、3.84%和0.38%。

  • 面向电能表检定流水线的轻量化目标检测算法

    董贤光,孙艳玲,代燕杰,邢宇,翟晓卉,孙凯,吕玉超,吴强,刘琚

    2025,40(2):545-560, DOI: 10.16337/j.1004-9037.2025.02.020

    Abstract:

    在工业流水线场景中,利用带有视觉信息的目标检测技术为故障发现及消缺提供决策信息已成为智能生产的新热点。针对电能表流水线检定场景中目标遮挡、小目标密集排列等问题,在YOLOv8n的基础上,提出了一种轻量化目标检测算法。通过引入O-GELAN模块,在保持低计算量的同时获取更丰富的特征层次。利用特征收集-融合-分发的颈部架构和通道位置注意力机制实现特征跨层融合;此外,采用重参数化卷积检测头以进一步提高检测效率。在现场采集流水线数据上的实验表明,改进后模型的mAP(0.5)和mAP(0.5∶0.95)分别达到了0.994和0.828,检测速度可达111.5帧/s,能够满足工业场景下的高精度和高实时性需要,可为故障消缺提供辅助决策。

微信公众号二维码
快速检索
检索项
检索词
卷期检索