2024, 39(5):1043-1043. DOI: 10.16337/j.1004-9037.2024.05.001
摘要:
2024, 39(5):1044-1061. DOI: 10.16337/j.1004-9037.2024.05.002
摘要:语音分离作为语音信号处理领域的前沿技术,具有重要的研究价值和广阔的应用前景。通常,麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能,需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题,旨在从混合信号中分离出说话人的语音信号。近年来,研究人员提出了大量的语音分离方法,显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先,根据目标说话人的辅助信息利用与否,将语音分离方法分为两大类,即多说话人分离与目标说话人提取;其次,从传统到基于深度学习的角度,分别对多说话人分离和目标说话人提取两类方法进行详细介绍;最后,讨论了当前语音分离领域面临的一些挑战,并对未来的研究方向进行展望。
2024, 39(5):1062-1084. DOI: 10.16337/j.1004-9037.2024.05.003
摘要:随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。
2024, 39(5):1085-1113. DOI: 10.16337/j.1004-9037.2024.05.004
摘要:经过数十年的发展,麦克风阵列技术日益成熟,并广泛应用于视频会议、智能电视、移动通话和助听器等人机交互系统。然而,现实噪声或远距离交互场景中,限定阵型结构的传统麦克风阵列的拾音质量难以保证。随着无线智能终端设备的广泛使用,分布式麦克风阵列(或称无线声传感器网络)为提升复杂开放域语音交互系统的拾音质量提供了更多可能性,并在阵列组织、应用体验和声场覆盖度上更有优势。近年来,分布式麦克风阵列在很多语音交互任务上展现出良好的应用潜力,基本实现了对传统麦克风阵列语音任务的全覆盖。本文将重点总结现阶段分布式麦克风阵列的拾音理论和应用方法,包括阵列组织原理、麦克风节点效用评估,以及结合下游语音任务阐述其应用方法。最后,将简要论述分布式麦克风阵列走向实用的关键挑战与发展趋势。
2024, 39(5):1114-1125. DOI: 10.16337/j.1004-9037.2024.05.005
摘要:退化解混和估计(Degenerate unmixing estimation technique,DUET)算法是一种典型的欠定盲源分离算法,其采用的二进制时频掩蔽会保留部分干扰信号。提出了基于两步单源点筛选的改进DUET算法,首先使用余弦角算法进行单源点筛选,再采用计算相似度的方法进行第二步单源点筛选。通过两步单源点筛选获得更精确的目标信号和干扰信号后,设计用于抵消干扰信号的滤波器取代DUET中的二进制时频掩蔽,达到抑制干扰信号和提取目标信号的目的。仿真实验结果表明,该方法在正定盲源分离和欠定盲源分离两种情况下都有较优的盲源分离性能。
2024, 39(5):1126-1134. DOI: 10.16337/j.1004-9037.2024.05.006
摘要:分区频域卡尔曼滤波(Partitioned block frequency domain Kalman filtering, PBFDKF)因其收敛速度快、稳态误差小的优势被应用在自适应滤波声反馈抑制(Adaptive feedback cancellation, AFC)。然而,当声反馈路径发生突变时,卡尔曼滤波会进入锁死状态,难以再次跟踪。本文提出一种融合神经网络的卡尔曼滤波啸叫抑制状态检测算法(Kalman-filter-based AFC with state detection model, KFSD)。该系统将卡尔曼滤波声反馈抑制系统的传声器采集信号、残差信号和滤波器更新量作为输入特征,通过神经网络对卡尔曼滤波的状态误差协方差矩阵进行修正,从而实现路径突变情况下的再次跟踪和收敛。仿真实验结果验证了所提算法具有较高的正判率、较低的虚警率和较短的延迟帧数,算法同时具备快速再跟踪性能,提高了声反馈抑制效果。
2024, 39(5):1135-1146. DOI: 10.16337/j.1004-9037.2024.05.007
摘要:多通道线性预测是最为流行的语音去混响方法之一,现有相关研究大多利用子带谱减模型在每一个频带独立地获取期望信号,但这忽略了不同子带之间的相互影响。本文提出一种利用互子带谱减模型的多通道线性预测语音去混响方法。相比于大多数方法采用的子带谱减模型,本文方法采用的互子带谱减模型能够利用互子带滤波器来对不同子带之间的相互影响进行建模。本文方法利用复广义高斯分布建模期望信号,相比于常用的高斯分布,复广义高斯分布能够通过调整形状参数来描述语音信号的稀疏特性。在最大似然估计框架下,将语音去混响转化为关于互子带滤波器和子带滤波器的优化问题;并且基于替代最小化方法推导了保证收敛的优化算法。在不同混响时间、不同通道、不同声源和传声器距离情况下的一系列语音去混响实验验证了本文方法的性能显著优于传统去混响算法。
2024, 39(5):1147-1162. DOI: 10.16337/j.1004-9037.2024.05.008
摘要:当今世界由于经济、科技、地缘战略、国际秩序等问题频繁爆发冲突事件,冲突规模正由个体冲突、小规模群体冲突向复杂大规模群体冲突转变。相较于个体间的冲突,大规模群体冲突事件持续时间更长、波及范围更广,易对我国的社会秩序以及经济发展造成恶劣影响。图模型冲突分析(Graph model for conflict resolution,GMCR)理论提供了分析冲突、解决矛盾的有效方案,作为一门专业解决冲突问题的理论工具已经在水资源、环境管理和经济政策等领域得到广泛应用,并取得良好效果。然而,随着冲突事件参与者日渐增多、主体的策略日趋复杂形成了指数级增加的局势,以及主体的偏好行为不确定性加强,传统的决策支持系统GMCRⅡ难以求解此类复杂冲突问题。基于强度偏好冲突分析理论的代数表达,开发了基于.NET平台的冲突分析WEB系统SP-GMCRDSS,该系统包括可行状态生成、状态转移设置、强度偏好序列生成和稳定性分析引擎4个模块,对比现有的系统,SP-GMCRDSS能更高效地辅助冲突分析者解决数据驱动下的大型、复杂的冲突。并且运用文本挖掘技术提取决策者策略数据,辅助分析者确定决策支持系统建模信息的输入,降低模型构建的主观性。最后,通过“兰州水污染冲突事件”演示了该系统的建模、求解以及分析的功能。
2024, 39(5):1163-1181. DOI: 10.16337/j.1004-9037.2024.05.009
摘要:从轨迹流中挖掘共同运动模式指在同一时间内发现具有相同运动行为的移动对象群体,在交通物流、疫情防控等方面具有重要意义。然而,现有研究面对大规模轨迹流数据难以做到快速响应。因此,本文首先提出了基于滑动窗口的分布式时空轨迹流共同运动模式挖掘算法,使用滑动窗口计算模型代替快照计算模型,利用增量式更新代替重新计算,使算法更适用于无界且快速到达的轨迹流数据,在效率和有效性方面呈现更好的性能。其次,针对分布式流处理系统中由于负载不均导致性能下降问题,提出了自适应多级动态数据分发策略,该策略能够适应轨迹流数据的动态变化,实时监测系统负载情况并根据负载不均的程度做出适当调整。最后,基于分布式流处理平台Flink实现了上述功能,并通过真实数据集的实验证明本文提出的算法比基准方法具有更快的响应速度和更低的延迟。
2024, 39(5):1182-1191. DOI: 10.16337/j.1004-9037.2024.05.010
摘要:地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学习各类地形中的相关性。事实上,复杂地形自适应任务可以认为是一种多任务,子任务间的关系可以用不同地形影响因素来衡量,通过子任务模型的相互学习解决数据分布信息获取不全面的问题。基于此,本文提出一种多任务强化学习方法。该方法包含1个由子任务预训练模型组成的执行层和1个基于强化学习方法、采用软约束融合执行层模型的决策层。在LeggedGym地形仿真器上的实验证明,本文方法训练的智能体运动更加稳定,在复杂地形上的摔倒次数更少,并且表现出更好的泛化性能。
2024, 39(5):1192-1203. DOI: 10.16337/j.1004-9037.2024.05.011
摘要:行人重识别旨在跨监控摄像头下检索出特定的行人目标。由于存在姿态变化、物体遮挡和背景干扰的不同成像条件等问题,导致行人特征提取不充分。本文提出一种利用多核扩展卷积的无监督视频行人重识别方法,使得提取到的行人特征能够更全面、更准确地表达个体差异和特征信息。首先,采用预训练的ResNet50作为编码器,为了进一步提升编码器的特征提取能力,引入了多核扩展卷积模块,通过增加卷积核的感受野,使得网络能够更有效地捕获到局部和全局的特征信息,从而更全面地描述行人的外貌特征;其次,通过解码器将高级语义信息还原为更为底层的特征表示,从而增强特征表示,提高系统在复杂成像条件下的性能;最后,在解码器的输出中引入多尺度特征融合模块融合相邻层中的特征,进一步减少不同特征通道层之间的语义差距,以产生更鲁棒的特征表示。在3个主流数据集上进行离线实验,结果表明该方法在准确性和鲁棒性上均取得了显著的改进。
2024, 39(5):1204-1213. DOI: 10.16337/j.1004-9037.2024.05.012
摘要:视觉同时定位与地图构建(Simultaneous localization and mapping,SLAM)过程中,动态物体引入的干扰信息会严重影响定位精度。通过剔除动态对象,修复空洞区域解决动态场景下的SLAM问题。采用Mask-RCNN获取语义信息,结合对极几何方法对动态对象进行剔除。使用关键帧像素加权映射的方式对RGB和深度图空洞区域进行逐像素恢复。依据深度图相邻像素相关性使用区域生长算法完善深度信息。在TUM数据集上的实验结果表明,位姿估计精度较ORB-SLAM2平均提高85.26%,较DynaSLAM提高28.54%,在实际场景中进行测试依旧表现良好。
2024, 39(5):1214-1227. DOI: 10.16337/j.1004-9037.2024.05.013
摘要:针对在硬件设备资源有限的情况下,深度相机在非结构化场景如何获取物体精确的位姿信息问题,提出一种基于双向融合纹理和深度信息的目标位姿检测方法。在学习阶段,两个网络采用全流双向融合(FFB6D)模块,纹理信息提取部分引入轻量的 Ghost 模块,减少了网络的计算量,并加入能增强有用特征的注意力机制CBAM,深度信息提取部分扩展了局部特征并多层次特征融合,获取更全面的特征;在输出阶段,为提高效率利用实例语义分割结果过滤背景点,再进行3D关键点检测,最终通过最小二乘拟合算法得到位姿信息。在LINEMOD、Occlusion LINEMOD和YCB-Video公共数据集上验证,其精度分别达到了99.8%、66.3%和94%,且参数量减少了31%,表明改进的位姿估计方法在保证精度的同时,也减少了参数量。
2024, 39(5):1228-1239. DOI: 10.16337/j.1004-9037.2024.05.014
摘要:在钢铁行业中,碳化物是钢材中一种非常重要的组成成分,其在钢材中的分布对于评估钢材的质量具有很高的参考价值。然而,目前棒材碳化物的检测手段主要为人工检测,成本高昂且缺乏稳定性。引入人工智能领域的深度学习技术,收集并标注了3 192张高质量钢铁棒材带状碳化物图像与11个完整样品数据,创建了工业场景下的棒材带状碳化物目标检测数据集(Banded carbide dataset on object detection for steel bar, BCDOD)。使用深度学习领域中常见的目标检测方法对数据集进行了实验分析,针对应用场景与数据的特点,引入旋转数据增强、Focal Loss函数与负样本微调对级联R-CNN模型进行改进,提升了模型的性能,平均精度达到96%。同时,在完整样品数据取得了100%的识别准确率,取得了较为理想的效果,弥补了人工智能技术在碳化物金相检测领域的空缺。
2024, 39(5):1240-1250. DOI: 10.16337/j.1004-9037.2024.05.015
摘要:针对UNet架构在医学图像分割中捕捉局部特征及保留边缘细节的局限性,提出了一种融合自注意力机制的改进型UNet算法。该算法基于传统编码-解码结构,引入多尺度卷积(Multi-scale convolution, MSC)模块以实现多粒度特征提取,同时集成卷积-自注意力(Convolution mixer attention, CMA)模块,结合卷积层的局部特征建模和自注意力层的全局上下文建模。在BUSI和DDTI数据集分割任务中,相比现有经典网络架构,大量实验数据验证了本模型优异的分割能力。此外,统计学数据分析、消融实验进一步验证了MSC和CMA模块的有效性。该研究为高精度医学图像分割提供了一种创新方法,对于促进医学诊断的精确性和效率具有重要的理论与实践意义。
2024, 39(5):1251-1259. DOI: 10.16337/j.1004-9037.2024.05.016
摘要:针对智能反射面(Intelligent reflecting surface, IRS)辅助的星地认知网络(Cognitive satellite and terrestrial networks, CSTN),提出了一种基于用户非完美信道状态信息的鲁棒多播传输算法,进一步提高了系统频谱效率。卫星采用多播技术服务多个主用户,同时共享频谱资源的地面基站(Base station, BS)通过空分多址和智能反射面分别服务直达用户和遮挡用户。然后,以地面网络发射功率最小化为优化目标,同时将地面用户的中断概率和主用户所受的最大干扰功率作为约束条件,提出联合优化问题。针对此非凸问题,首先借助指数分布的累积分布函数将非凸的中断概率约束转化为可解形式。接着,提出了一种结合交替优化与半正定松弛的鲁棒波束成形算法,以获得较优性能的解。计算机仿真结果证明了所提算法的鲁棒性和优越性。
2024, 39(5):1260-1270. DOI: 10.16337/j.1004-9037.2024.05.017
摘要:波达方向估计是混合mMIMO系统波束成形得以应用的前提,基于协方差矩阵重构的子空间方法在相干信号和有限快拍数条件下性能损失较大。为了应对上述挑战,提出了一种基于稀疏贝叶斯学习的混合mMIMO系统波达方向估计方法,主要创新之处在于:将混合mMIMO系统的波达方向估计问题转化为稀疏信号恢复问题,从而绕过空间协方差矩阵重构,避免了其带来的性能损失。为了便于进行贝叶斯推断,进一步利用变分贝叶斯近似思想,在恢复稀疏信号的同时,自适应估计出未知参数,显著改善了对噪声和相干信号的鲁棒性,提升了有限快拍数情况下的波达方向估计性能。数值模拟结果验证了所提方法的优越性。
2024, 39(5):1271-1286. DOI: 10.16337/j.1004-9037.2024.05.018
摘要:针对无人机数据采集中的动态干扰问题,提出一种无人机飞行轨迹实时优化方案。在采集距离有限的情况下,通过优化无人机飞行轨迹,使无人机在有限任务时间内的能耗最小。为了规避干扰,该方案分为初始轨迹规划和在线轨迹优化2个阶段。初始轨迹规划阶段,不考虑干扰,根据轨迹成本和转角能耗进行离线规划;在线轨迹优化阶段,在初始轨迹基础上,考虑动态干扰,设计出基于马尔可夫预测模型的干扰定位算法,同时还提出干扰势场,对初始轨迹进行优化。仿真分析表明,所提方案可以有效改善无人机通信的抗干扰性能,提高无人机数据采集能力。
2024, 39(5):1287-1296. DOI: 10.16337/j.1004-9037.2024.05.019
摘要:为解决多小区网络中上行传输功率最小化问题,本文提出了一种基于多智能反射面(Intelligent reflecting surface, IRS)的协作多点非正交多址接入(Coordinated multiple point-nonorthogonal multiple access, CoMP-NOMA)系统上行传输方案。具体来说,在小区中心与边缘分别部署IRS提升小区中心用户与边缘用户的传输质量,同时考虑中心和边缘IRS之间的信号反射。为了求解建立的总发射功率最小化问题,本文推导了发射功率与相位偏移之间的关系,并进一步将功率分配系数和相位偏移联合优化问题转化为纯相位优化问题,并进一步采用顺序旋转法将转换后的问题分解为多个一维搜索问题进行求解。仿真结果表明,在相同仿真环境下,本文提出的解决方案在发射功耗方面明显优于其他基准方案。
2024, 39(5):1297-1308. DOI: 10.16337/j.1004-9037.2024.05.020
摘要:在基于非正交多址接入技术的多用户下行室内可见光通信(Visible light communication system based on non-orthogonal multiple access technology, VLC-NOMA)系统中,针对和速率与用户公平性冲突的问题,提出一种基于加权和速率最大化的迭代功率分配方案。该方案以最大化加权和速率为目标,可通过改变权重因子来调节用户公平性。由于目标问题属于非凸优化问题,通过辅助变量法和凸优化理论将该非凸问题转化为凹问题,再通过拉格朗日对偶法进行求解,并根据问题的解设计了一种迭代功率分配算法。对所提算法的收敛性、系统和速率以及用户公平性进行了仿真。结果表明,所提迭代功率分配算法具有良好的收敛性,相较于VLC-OMA系统,VLC-NOMA系统能够获得更好的和速率性能。通过调整权重因子,在牺牲较小系统和速率的情况下能够获得比现有功率分配方案更好的系统和速率与用户公平性。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部