2017, 32(5):853-860. DOI: 10.16337/j.1004-9037.2017.05.001
摘要:数据流分类是数据挖掘领域的重要研究任务之一,已有的数据流分类算法大多是在有标记数据集上进行训练,而实际应用领域数据流中有标记的数据数量极少。为解决这一问题,可通过人工标注的方式获取标记数据,但人工标注昂贵且耗时。考虑到未标记数据的数量极大且隐含大量信息,因此在保证精度的前提下,为利用这些未标记数据的信息,本文提出了一种基于Tri-training的数据流集成分类算法。该算法采用滑动窗口机制将数据流分块,在前k块含有未标记数据和标记数据的数据集上使用Tri-training训练基分类器,通过迭代的加权投票方式不断更新分类器直到所有未标记数据都被打上标记,并利用k个Tri-training集成模型对第k+1块数据进行预测,丢弃分类错误率高的分类器并在当前数据块上重建新分类器从而更新当前模型。在10个UCI数据集上的实验结果表明:与经典算法相比,本文提出的算法在含80%未标记数据的数据流上的分类精度有显著提高。
2017, 32(5):861-868. DOI: 10.16337/j.1004-9037.2017.05.002
摘要:经典傅氏重构是一种重要的信号处理方法,该方法对连续信号重构有很好的效果,但对有间断点的信号进行重构时就会产生Gibbs效应。Gibbs现象的存在使得重构信号在边缘处存在较大的失真,严重影响了图像质量。为此,提出了改进的二维全相位重构方法,在给定有限个离散傅里叶(Discrete fourier transform,DFT)系数的情况下,综合了更多的高次谐波信息,从而实现了高精度的重构间断信号。将该算法应用于重构磁共振成像(Magnetic resonance imaging,MRI)图像的实验结果表明:相比于传统的傅里叶变法,该重构算法可在不增加傅里叶系数的条件下同时有效减小图像的Gibbs效应,改善了重构图像的质量。
2017, 32(5):869-878. DOI: 10.16337/j.1004-9037.2017.05.003
摘要:无线传感器网络数据收集的能耗问题一直以来都是研究的热点。本文主要研究基于移动Sink轨迹受限的数据收集协议。首先针对轨迹受限的无线传感网络提出一种通用的系统模 型,将该问题形式化为最大化降低全网总路径长度轨迹设计问题 (Maximizing total length reduction for constrained trajectory, MTRC),并证明了MTRC为NP-Hard问题;然后设计一种轨迹约束低能耗贪心算法 (Trajectory constrain of low energy consumption, TCLEC),通过 TSP近似算法设计最大化降低有效长度的Sink移动轨迹。理论分析和仿真实验结果表明,TCLEC在网络拓扑数据收集树的初始化以及优化方面是高效的,并且相对于同类基于移动Sink的无线传感网络分层数据收集方法,其能耗降低了7%左右。
2017, 32(5):879-889. DOI: 10.16337/j.1004-9037.2017.05.004
摘要:针对灰狼优化(Grey wolf optimization, GWO)算法在处理复杂优化问题时优化精度不高,易陷于局部最优等问题,提出了一种强化狼群等级制度的灰狼优化(GWO based on strengthening the hierarchy of wolves, GWOSH)算法。该算法为灰狼个体设置了跟随狩猎和自主探索两种狩猎模式,并根据自身等级情况来控制选择狼群的狩猎模式。在跟随狩猎模式中,灰狼个体以等级高于自身的灰狼的位置信息来指引自己到达最优解区域;而在自主探索模式中,灰狼个体会同时审视等级高于自身的灰狼的位置信息和自身位置信息,并基于这些信息自主判断猎物的位置,同时两种更新模式都将引入优胜劣汰选择规则来确保种群的狩猎方向。对12个基准测试函数进行优化的结果表明:与已有的算法相比,GWOSH算法的全局搜索能力更强,更能有效避免易早熟收敛的问题,更适用于求解高维的复杂优化问题。
2017, 32(5):890-897. DOI: 10.16337/j.1004-9037.2017.05.005
摘要:在公共场所中人们都倾向于以分组的形式进行运动,本文把这种以分组形式运动的若干个行人称为运动群组,具有视觉显著性的人群运动群组是场景理解的重点,其对人群的整体运动也影响最大。本文对运动群组的视觉显著性展开了研究,分别从规模、速度、组内紧致度和变化度4个方面来对运动群组的视觉显著性进行度量,并基于该度量给出了视觉显著性运动群组检测方法。首先,利用光流法对运动人群进行分析得到光流向量;然后通过层次聚类算法对运动人群进行分组;最后,基于本文所给出的度量计算每个群组的视觉显著性,以检测出视觉显著性最高的运动群组。实验表明该方法能够有效地对视觉显 著性运动群组进行检测,该研究成果可应用于人群场景理解、人群运动分析和人群场景分类等计算机视觉研究领域。
2017, 32(5):898-905. DOI: 10.16337/j.1004-9037.2017.05.006
摘要:针对利用单个观测站接收多个第三方辐射源信号来估计目标位置的无源相干定位问题,提出了一种基于最大似然的时差定位算法。首先根据时差测量与目标位置之间的函数关系,构建目标位置的似然函数;然后采用牛顿迭代算法求解非线性似然函数的全局极大值,从而得到目标位置估计;推导了目标位置的最小二乘解,并将其作为牛顿迭代的初始解,从而保证算法的收敛性;最后还推导了算法的理论误差和克拉美罗界,并证明两者相等。仿真结果表明,算法的定位精度优于现有算法,且在测量误差适中时,定位精度可以达到克拉美罗界。通过几何精度因子图,分析了目标位置、外辐射源数量和位置等因素对定位精度的影响。
2017, 32(5):906-912. DOI: 10.16337/j.1004-9037.2017.05.007
摘要:首先基于与或树分析法,对系统LT码在删除信道下的渐进性能公式进行推导,并给出其下限。仿真结果表明当开销足够大时,实际误码率,渐进性能与下限三者 完美匹配。然后根据渐进性能,提出改进的优化模型(Improved systematic linear programming,ISLP)对度分布进行优化设计。优化所得的度分布明显优于鲁棒孤波分布(Robust soliton distribution,RSD)分布与截断度分布(Truncated degree distribution,TDD)分布。另外,优化后的度分布其渐进性能可由设定的开销与误码率进行控制,即在所设置的开销之内达到理想的误码率,这一特性可进一步影响完全译码时所需开销。仿真结果表明,数据恢复时所需的开销与所设置的开销相近。对比系统LT码和LT码的误码率与恢复原始数据时所需的开销和编译码时间,表明系统LT码能比LT码更快地恢复原始数据,具有更优的性能。
2017, 32(5):913-920. DOI: 10.16337/j.1004-9037.2017.05.008
摘要:针对二次雷达应答信号混扰导致解码错误的问题,提出一种迭代投影分选算法。综合考虑天线结构、残留载频等因素建立阵列信号混扰模型,通过对模型中待求变量的最大似然估计分析,给出双矩阵变量优化模型,以非圆复信号快速独立成分分析(Noncircular complex fast independent component analysis, nc-FastICA)算法得到应答信号初始值,进而根据二次雷达应答信号零/恒模(Zero/constant modulus, ZCM)特性提出迭代投影分选算法,最终完成对混扰信号的分选。仿真结果表明,在应答机之间相距较近、天线非精确调整等复杂环境下,本算法可从混扰应答信号中有效地分选出各应答信号,且分选性能明显优于快速独立成分分析算法。
2017, 32(5):921-930. DOI: 10.16337/j.1004-9037.2017.05.009
摘要:作为一种基于深层神经网络提取的低维特征,瓶颈特征在连续语音识别中取得了很大的成功。然而训练瓶颈结构的深层神经网络时,瓶颈层的存在会降低网络输出层的帧准确率,进而反过来影响该特征的性能。针对这一问题,本文基于非负矩阵分解算法,提出一种利用不包含瓶颈层的深层神经网络提取低维特征的方法。该方法利用半非负矩阵分解和凸非负矩阵分解算法对隐含层权值矩阵分解得到基矩阵,将其作为新的特征层权值矩阵,然后在该层不设置偏移向量的情况下,通过数据前向传播提取新型特征。实验表明,该特征具有较为稳定的规律,且适用于不同的识别任务和网络结构。当使用训练数据充足的语料进行实验时,该特征表现出同瓶颈特征几乎相同的识别性能;而在低资源环境下,基于该特征识别系统的识别率明显优于深层神经网络混合识别系统和瓶颈特征识别系统。
2017, 32(5):931-938. DOI: 10.16337/j.1004-9037.2017.05.010
摘要:实体识别常利用分类器根据记录对的字段相似度向量将记录对分为匹配、不匹配和可能匹配,因此分类器的准确性与实体识别的准确性直接相关。为提高分类准确性,本文基于重采样和集成选择技术构建一个多分类器系统。充分利用实体识别的特点,在分类之前发现分类困难的样本,并使重采样比率在一个区间内变化,生成一组重采样样本;然后用重采样后的样本训练分类器构建一个并行多分类器系统,强调分类器之间的差异度和稀疏度,从该多分类器系统中选择最优分类器子集,即最优的重采样比率组合,分别用非线性规划和极值方法求解该集成选择模型。实验结果表明,本方法与现有的多分类器系统相比具有更高的准确性。
2017, 32(5):939-947. DOI: 10.16337/j.1004-9037.2017.05.011
摘要:许多科学研究都需要对环境数据进行分析,这些环境数据通常是通过部署在研究区域内的无线传感器网络(Wireless sensor networks, WSNs)来收集的。收集数据的完整性和准确性决定了科研结果的可靠性。然而,在数据收集过程中普遍存在的数据丢失和错误影响了收集数据的可用性,为此需要利用收集到的数据重建完整的环境数据。基于环境数据低秩特性,将数据重建问题建模为L2,1范数正则化矩阵补全模型,提出一种基于结构化噪声矩阵补全的WSNs收集数据重建方法(Data reconstruction approach via matrix completion with structural noise, DRMCSN)。真实数据集上的实验结果表明,该方法性能优于现有算法,不仅能以较高的精度恢复缺失的环境数据,而且能辨识出收集到错误数据的传感器节点。
2017, 32(5):948-957. DOI: 10.16337/j.1004-9037.2017.05.012
摘要:针对传统算法对边界模糊的图像分割效果不理想,分割结果多毛刺的问题,提出了一种由粗到细的图像边缘提取方法,主要由像素覆盖分割方法和Chan-Vese模型组成。将改进的覆盖分割方法和活动轮廓模型相结合,首先使用原始覆盖分割算法对图像进行分割,利用多方向模糊形态学边缘检测算法提取不同物体之间的边界;然后采用改进的像素覆盖分割方法给边界像素重新分配覆盖值;最后,运用活动轮廓算法进行细化的图像边界提取;分别进行了分割结果的定性比较,抗噪性测试以及提取的边缘对比实验。实验结果表明,该方法对具有模糊边界的图像,提取边缘结果优于其他可比文献中提出的方法。
2017, 32(5):958-969. DOI: 10.16337/j.1004-9037.2017.05.013
摘要:认知诊断模型利用学生做题的得分情况和测试题知识点的关系来挖掘学生的潜在特质,以得到学生对知识点的掌握情况,进而可以预测学生对测试题的得分情况。但已有的认知诊断模型一般都忽视了主观题中学生对知识点的掌握数量和掌握程度及知识点的重要性对认知诊断的影响。本研究提出一种改进的模糊认知诊断模型(Revised fuzzy cognitive diagnosis framework,RFuzzyCDF),在主观题的诊断中假设随着学生掌握知识点的个数增多,学生正确作答的概率增高,并考虑了知识点的重要性对认知诊断的影响,实验结果表明这种改进的FuzzyCDF模型进一步提高了认知诊断的准确性。
2017, 32(5):970-979. DOI: 10.16337/j.1004-9037.2017.05.014
摘要:当前主流的图像聚类方法采用的视觉特征缺乏自主学习能力,导致其图像表达能力不强,而且传统的聚类算法计算复杂度较高,聚类效率低,难以适应大数据环境。针对这些问题,本文提出了一种基于卷积神经网络和二进制K-means的图像快速聚类方法。首先,利用卷积神经网络学习图像内容的内在隐含关系,得到图像高阶特征,增强特征的视觉表达能力和区分性;然后,利用哈希方法将高维图像特征映射为低维二进制哈希码,并通过对聚类中心构造多索引哈希表来加速寻找最近的聚类中心,以降低时间复杂度;最后,利用二进制K-means完成二进制哈希码的快速聚类。在ImageNet-1000图像集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力、提高图像聚类效率、性能优于当前主流方法。
2017, 32(5):980-987. DOI: 10.16337/j.1004-9037.2017.05.015
摘要:为了降低稀布阵列的峰值旁瓣电平并抑制稀布阵列的栅瓣,提出了一种多目标粒子群与凸优化相结合的方向图综合算法。该算法将多目标粒子群优化(Multi-objective particles swarm optimization,MOPSO)作为全局搜索器,凸优化算法作为局部搜索器来搜索最优解,优化的变量不仅是阵元的权值,而且还加入了阵元位置这一参数,从而能够提供更多的自由度来控制稀布阵列的性能。基于30阵元的稀布圆形阵列的仿真结果表明:与单纯使用MOPSO算法相比,本文提出的用MOPSO算法优化阵元位置,凸优化算法优化阵元权值的联合优化算法,得到的栅瓣和峰值旁瓣电平都小于-19.3 dB。
2017, 32(5):988-996. DOI: 10.16337/j.1004-9037.2017.05.016
摘要:协作频谱感知能提高认知无线电网络的感知性能。随着认知网络频谱感知性能的提高,一方面感知网络将会消耗更多的能量;另一方面次用户拥有更多的机会接入授权频谱,次用户的吞吐量不断增加,同时在通信过程中主用户与次用户发生碰撞的概率也不断增大。本文提出了一种联合优化能量效率和碰撞概率的协作频谱感知算法,通过最优感知检测点判断节点所处信道状态,融合中心舍弃信道状态不好的节点使其不参与数据融合,既消除了信道状态不好的节点对全局判决的不良影响,又提高了能量利用率。仿真结果表明,该算法提高了网络的频谱检测性能,并延长了感知网络的生命周期。
2017, 32(5):997-1004. DOI: 10.16337/j.1004-9037.2017.05.017
摘要:异常值检测是数据挖掘领域中的核心问题,在工业生产中也有着广泛的应用。准确高效的异常值检测方法能够及时反映出工业系统运行状态,为相关人员提供参考,而传统的异常值检测方法无法很好地检测出变化模式复杂、变化范围小、具有流数据特性的数据中的异常值。因此,本文提出了一种新的针对该类型数据的异常值检测方法:首先通过对数据进行聚类划分,将相似的数据进行归类,从而将原本复杂的数据分布拆解成为每个聚类下简单数据分布的叠加;然后使用核密度估计假设检验的方法对待检测数据进行异常值检测。在标准数据集和真实数据上的实验结果表明,该方法相比于传统的异常值检测方法在检测精度上有一定的提升。
2017, 32(5):1005-1011. DOI: 10.16337/j.1004-9037.2017.05.018
摘要:k子凸包分类方法在实际问题中有广泛应用。但随着问题维数的增加,该方法计算得到的凸包距离非常接近甚至相等,这严重影响了分类性能。针对此问题,本文设计了一种基于特征选择的相对k子凸包分类方法。首先根据绝对凸包距离存在的不足引入相对k子凸包距离,然后在k邻域内利用判别正则化技术进行特征选择,并将特征选择融入相对k子凸包优化模型中,为每个测试样本在不同的类别中学习一个自适应的特征子集,从而得到一个用于分类的有效相对k子凸包距离。实验结果表明,该方法不仅能够进行特征选择,而且分类性能也有了明显提高。
2017, 32(5):1012-1021. DOI: 10.16337/j.1004-9037.2017.05.019
摘要:基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network, HMM-DNN)的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN, MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学DNN(Single-task learning DNN, STL-DNN)建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。
2017, 32(5):1022-1033. DOI: 10.16337/j.1004-9037.2017.05.020
摘要:决策演化集是处理决策规则在时间序列上演化问题的理论,它将着眼点从静态决策信息系统转移到动态时间序列上,研究决策信息系统随时间变化的演化规律,是一种新的决策规则研究方法。目前,在决策演化集的标准结构下,其定义的演化轨迹是一个很难描绘的n维空间图形,所以本文提出了膜结构重新描述决策演化集,在膜结构下,被约简掉的属性同样会获得重视。在当时间从ti-1进入ti时,属性根据自身对决策的影响而进入不同的膜,同时所产生的数据流动也被标记出来,从而解决了决策信息系统演化轨迹具象化的问题,并通过实例演示了决策信息系统的演化过程和轨迹。
2017, 32(5):1034-1043. DOI: 10.16337/j.1004-9037.2017.05.021
摘要:采用步进频域能量检测法可以提高在软件无线电平台的频谱感知的带宽范围,但能量检测法易受噪声不确定性的影响,而信号采样自相关检测法对噪声不确定性有很好的鲁棒性。为进一步提高软件无线电的检测性能,提出了基于信号采样自相关的步进宽带频谱感知方法。首先阐述了信号采样自相关检测的原理,然后对基于该原理的步进宽带检测方法的流程进行了分析,最后利用MATLAB软件仿真其检测性能。仿真结果表明,在信噪比(Signal-noise-ratio, SNR)不同的情况下,基于信号采样自相关的步进宽带频谱检测方法能达到所要求的检测性能。此 外,为了兼顾频谱感知的检测速度和频带带宽分辨率之间的关系,进一步提出了在原本固定步进值的步进宽带信号采样自相关的频谱感知方法中采用可变步进值的两阶段检测方法,该方法可 以获得较高的频带带宽检测分辨率和较短的检测时间。
2017, 32(5):1044-1051. DOI: 10.16337/j.1004-9037.2017.05.022
摘要:基于非线性格兰杰因果关系分析睡眠生理信号。分别使用多项式核函数、高斯核函数和Sigmoid核函数将低维空间数据映射到高维特征空间,在高维特征空间使用非线性格兰杰因果方法来分析睡眠生理信号。研究结果表明,脑电信号对心电信号的影响比心电信号对脑电信号的影响更为显著,脑电信号对血压信号的影响比血压信号对脑电信号的影响更为显著,血压对心电信号的影响比心电信号对血压信号的影响更为显著,而且睡眠期样本信号间的格兰杰因果关系更为显著。仿真结果验证了睡眠期信号更能客观地反映生理信号的因果关系。
2017, 32(5):1052-1060. DOI: 10.16337/j.1004-9037.2017.05.023
摘要:针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。
2017, 32(5):1061-1068. DOI: 10.16337/j.1004-9037.2017.05.024
摘要:进行客观视频质量评价时,为了与主观评价结果尽可能一致,需要考虑视频的动态特性和人眼观看的视觉特性,因此本文提出一种基于显著区域和运动特性加权的视频质量评价方法。该评价指标基于传统的结构相似性指数(Structural similarity index measurement, SSIM)方法并在此基础上作了改进。首先通过频谱分析得到空域显著度,通过视觉注意模型并结合运动特性获取时域显著度,并根据时、空显著度动态融合得到帧级显著度。以帧级显著度加权SSIM指数,便可得到整个视频帧的质量评价指标。在LIVE VQA标准数据集上的实验结果表明,该评价指标更加接近于人眼对视频质量的主观评价值。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部