摘要
区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator, HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。
概率密度函数(Probability density function,PDF)估计是利用统计学知识和给定的观测值估计未知分布样本总体的PDF。现实生活中,PDF在进行数据分析和建模时发挥着重要作用,例如,高速列车信号频谱分
在核函数已知时,选择的窗口宽度参数应使实际概率密度和估计概率密度之间的误差最小,需要通过构造可行的误差目标函数来选取最优窗口宽度。目前流行的误差度量标准是积分平方误差(Integrated squared error,ISE)和平均积分平方误差(Mean ISE, MISE
尽管经典的KDE在应用中取得了良好的表现,在一定程度上提高了PDF估计的准确性,然而通过深入分析发现,经典的KDE在处理模相近数据时的表现不尽如人意。与常见的数据类型不同,模相近数据所服从的概率分布通常是具有多个局部最大值的PDF,且这些局部最大值非常接近。近年来,随着大数据技术的快速普及,模相近数据在实际应用中出现的频率越来越高,对模相近数据高质量统计分析和信息挖掘的需求日益迫切。例如,按日统计的风力发电量数据就是模相近数据。经典的KDE在处理模相近数据时存在无法有效处理数据不确定性和模型不确定性的缺陷。数据不确定性,即模相近的数据样本点会出现重叠现象,在估计过程中难以区分数据来源于哪个模;模型不确定性,MISE误差度量和ISE误差度量都涉及到估计PDF和真实PDF,在最小化MISE和ISE时,展开式中都包含未知的估计PDF,这给最优窗口宽度的选取带来了较大的不确定性。由于上述缺陷的存在,当多个模的数据样本发生重叠时,使用经典KDE进行PDF估计会明显影响估计的准确性。如何突破不确定性对KDE性能的限制是目前研究模相近数据概率密度函数估计问题的关键。
为解决上述数据不确定性和模型不确定性所带来的KDE构建缺陷,本文提出了一种基于启发式概率密度值的核密度估计(Heuristic KDE, HKDE)。该方法利用数据样本概率密度值对于直方图箱宽参数的收敛性,计算确定观测数据的启发式概率密度值,用其替代误差度量目标函数中各个样本点的真实PDF值,降低数据不确定性;随后利用基于启发式概率密度值构建的目标函数来确定HKDE的最优窗口参数,以进一步降低模型不确定性;最后在18个模相近数据集上对HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与最小二乘交叉验证(Least squares cross‑validation,LSCV
KDE是一种用于估计随机变量PDF的非参方法,通过对每个数据点周围的邻域应用核函数并进行加权求和来估计概率密
符号 | 含义 |
---|---|
待估计的数据点 | |
点处的估计PDF | |
点处的真实PDF | |
样本点个数 | |
窗口宽度 | |
核函数 | |
样本点集合 |
一维情况下KDE的数学模型可以表示为
(1) |
在
(2) |
式中为随机变量的取值,。
当核函数确定后,窗口宽度的选取在很大程度上影响着KDE模型的表
(3) |
(4) |
交叉验证(Cross‑validation,CV)方法中多数是基于ISE误差度量确定带宽,其发展最早可以追溯到1974年,Habbma
与交叉验证方法相比,Plug‑in插件法倾向于最小化MISE目标函数,并且其波动性较小。1986年,Silverma
通常,由多个单峰PDF所组成的多模PDF中存在多个局部最大值,每个单峰PDF对应于一组非独立且同分布的随机变量,这意味着在多模分布中,其PDF会更加多样化、复杂化。到目前为止,针对多模概率密度估计的研究方法较少,主要是利用统计矩和GM
为了更加清晰地展示本文提出的针对模相近数据所构建的基于启发式概率密度值的KDE的细节,本节将对模相近数据、数据不确定性和模型不确定性的相关概念进行简要介绍。
本文所研究的“模相近”数据通常在多模分布下出现。多模PDF具有多个局部最大值,当两个相邻模的均值相距较近或方差差距很大时,生成的仿真样本点会呈现相邻两个模的样本点重合度较高的特点。为直观展示“模相近”数据,使用基于高斯混合分布的多模概率密度函数来生成仿真样本,其中为权重,为均值,为协方差。假设现有下述两个分布的仿真样本点,其中一维分布包含200个样本点,二维分布包含500个样本点:(1)1维2模概率密度函数:,,;(2)2维2模概率密度函数:,,。

图1 模相近高斯分布仿真样本点示意图
Fig.1 Schematic of simulated samples from modal-proximity Gaussian distribution
数据不确定性,即模相近的数据样本点会出现重叠现象,在估计过程中难以区分数据来源于哪个模,所以在多模PDF估计中鲜少利用KDE来实现。多模分布的数据不确定性具体表现如下:
(1)在多模分布中,不同模之间存在一个过渡区域。在这些区域内,样本点可能同时受到多个模的影响,无法明确归属某一个模。例如,在
(2)多模分布中的过渡区域通常表现为平滑过渡,而不是突变。这意味着从一个模到另一个模的PDF值是逐渐变化,这进一步增加了归属的模糊性。例如,GMM中的每个高斯构件在边界区域会相互重叠,使得这些区域的数据点具有多种特性。在
前文所提到的MISE误差度量和ISE误差度量都涉及到估计PDF和真实PDF。真实PDF值指的是目标分布的实际密度函数。在理论分析中,通常假设其是已知的,但在实际应用中往往是未知的,还是需要通过估计方法来近似真实PDF。因此,在KDE的估计过程中涉及到的估计PDF和真实PDF二者实际上均为近似值,这给最优窗口宽度的选取带来了较大的不确定性。
将ISE的计算
(5) |
由
再将MISE的计算
(6) |
可以发现
本节将详细介绍针对模相近分布的PDF估计问题而设计的HKDE,其中包括启发式概率密度值的确定和目标函数的构建:利用收敛性确定数据样本点的启发式概率密度值,降低过渡区域数据样本点概率密度值计算的数据不确定性;利用新的目标函数去得到最优窗口参数,尽可能减少误差度量计算方法给窗口参数估计带来的模型不确定性。
未知密度函数的估计方法大多数都依赖于样本点落入观察值中心区域R中的概率,即。当区域R很小时样本点落在区域内的概率波动也小,概率计算公式近似为,其中表示区域R的空间体积大小。假设样本点均独立且服从同分布,则在D维情况下,点处估计的启发式概率密度值可以表示为
(7) |
式中:为边长为的区域空间(或‑邻域)体积大小;表示样本集大小;表示落在以样本点为中心的‑邻域内样本点的个数。显然,参数的选取直接影响估计值的准确性,过小过大都会导致估计的PDF误差偏大。
经典的非参估计方法包括近邻估计法、Parzen
算法1 启发式概率密度值确定算法
输入:数据集、窗口参数大小的上限max、阈值和数据维度D
输出: 各样本点对应的启发式概率密度值
(1) 找到合适的启发式窗口参数
for to max do
计算窗口参数所对应的全部样本点启发式概率密度值之和;
找出相邻两个的变化幅度小于阈值所对应的窗口参数;
end for
返回所找到的合适窗口参数;
(2) 计算启发式概率密度值
计算D维下‑邻域的空间体积大小;
for do
计算在点的‑邻域内的样本点个数;
计算对应的启发式概率密度值;
end for
(3) 返回样本点以及其对应的启发式概率密度值。
对算法1中的关键步骤做如下解释说明。
(1) 为了寻找合适的R空间边长以确定启发式窗口参数数值,从的最小值0.01开始,逐步增加到最大值max(考虑到计算时间与计算质量之间的平衡,本文选用max=1.00)。选取作为遍历的步长,使得在遍历的过程中逐步逼近最佳参数的同时遍历时间不会过长。
(2) 因为所有数据样本点的概率密度值之和对箱宽参数具有收敛性(这一结论将在后续的可行性实验验证中得到证实),故在遍历时计算第次循环所对应的箱宽参数下所有数据样本点的启发式概率密度值之和,即。当满足时,可以确定合适的,其中阈值的大小可以根据维度的增加而适当扩大。
(3) 在选取合适的窗口参数数值后,计算数据样本点的‑邻域内样本点个数,具体的邻域是指与点每个维度的距离都小于等于的空间,最后利用
对于数据样本点的概率密度值之和对箱宽参数的收敛性,此处给出如下简要分析说明。对于相邻的两个启发式窗口参数和,对应的所有数据样本点的启发式概率密度值和的差值为
(8) |
样本点的‑邻域内样本点个数相同时,即时,
(9) |
式中:和分别表示第j次和第j+1次循环所对应的箱宽参数;和分别表示第j次和第j+1次循环下的样本点启发式概率密度之和;和分别表示样本点在启发式窗口参数和条件下h‑邻域内样本点的个数;D表示数据维度。由于,因此可得,即存在一个这样的启发式窗口参数,能够使得数据集中所有样本点对应的概率密度函数值趋于稳定。
对算法1作简要的时间复杂度分析,其中第1步找到合适的启发式窗口值一共循环了次,每次循环内计算启发式概率密度值之和需要遍历一次数据集,每个样本点的概率密度值计算的时间复杂度是,结合起来可得出算法1的时间复杂度是。
在确定启发式概率密度值后,HKDE将优化目标函数找到该数据集对应的KDE的最优窗口宽度参数,即HKDE模型最终确定用于概率密度估计的带宽,其与确定启发式概率密度值时所找的不同点在于:(1)是一个窗口参数数组,每个维度都对应一个最优窗口参数,而不论维度是多少都只有一个数值;(2)是一个中间参数,用来确定启发式概率密度值,辅助寻找模型最终用于估计概率密度的窗口参数。
在本文中,用启发式概率密度值代替原误差度量涉及到的真实概率密度值,对于维数据,基于MSE的误差计算公式可以表示为
(10) |
式中表示当前模型估计得到的概率密度值,其计算公式为
利用2.1节中生成的200个一维分布、500个二维分布的随机真实样本点,计算得到使目标函数MSE最小化的最优窗口参数。

图2 目标函数MSE和GMSE随窗口参数变化示意图
Fig.2 Variations of MSE and GMSE with the change of window parameter
为了使HKDE得到的概率密度更接近真实值,可以取比使
(11) |
在确定调节系数后,由于对应的最优的解析式无法确定,因此本文采用了粒子群优化算法(Particle swarm optimization, PSO
(12) |
考虑到PSO算法的收敛特性,假设某前后两次PSO算法对应的最优窗口参数分别为和,满足。对应和的估计误差之间的差值可以表示为
(13) |
由于,可得与,故,这表明用于确定最优带宽的目标函数具备收敛性。
具体的算法流程如算法2所示。
算法2 优化目标函数找最优参数算法
输入:数据集、数据维度、算法1确定的启发式概率密度值
输出:最优窗口参数数组
利用PSO算法求解最小化
再利用数组计算得到各数据样本点估计概率密度值与启发式概率密度值之间的MSE误差;
for to do
计算使当前风险结构项与MSE误差保持在同一个量级的调节系数;
end for
目标函数加入确定了系数的风险结构项,即
利用PSO算法优化新构建的目标函数,得到最终用于概率密度估计的窗口参数数组。
对算法2中的关键步骤做如下解释说明。
(1) 在计算MSE的公式中,使用算法1计算所得的启发式概率密度值来替代原式中的真实概率密度值。在算法2中两次应用了PSO优化算法:第1次是寻找使未添加风险结构项的
(2) 算法1中确定的数据样本点启发式概率密度值记为,在算法2中确定参数数组后得到数据样本点对应Gaussian核的概率密度估计值记为。为确保后续优化过程的有效性,令每个维度的风险结构项与MSE误差保持在同一量级,有
(14) |
通过
(3) PSO优化算法通过Python启发式算法库scikit‑opt中的工具包sko.PSO实现。当目标函数的复杂度增加时,可以通过调整PSO算法的粒子数和迭代次数来进一步优化结果。
算法2主要利用PSO算法来进行优化,PSO算法的时间复杂度主要和迭代次数I、粒子个数P以及问题的维度D有关。对于一个D维的数据集,使用PSO进行优化的时间复杂度为。除了PSO外,还可以选择其他优化算法来最小化目标函数,如遗传算法、蚁群算法等,算法2的时间复杂度也会随着优化算法的改变而变化。
在经过算法1和算法2后,利用窗口参数数组即可得到在Gaussian核函数下的最终估计PDF。
本节将针对HKDE模型的可行性、合理性和有效性进行验证。下面给出了9个1维和9个2维的多模高斯分布PDF信息,本文根据这些分布生成真实随机样本点数据集,用于后续估计PDF的实验中。本节所有实验均在配置为Intel(R) Core(TM) i5‑7400 3.00 GHz CPU、16 GB内存、Windows 10专业版操作系统和Spyder 5.4.3编程环境的台式电脑上实现。符合D维K模高斯混合分布的仿真数据集生成依据简述如下。(1)均值。生成1个数值范围在[0,3)的1×D维随机初始均值数组,后续K-1个均值都在前一个均值的基础上增加1个在范围[0,4)的随机偏移值,均保留小数点后两位;(2)方差。生成1个数值范围在[0,10)的D×D维随机矩阵作为第1个模的方差,后续K-1个方差数值范围在[0,3),均保留小数点后两位;(3)权重。用Dirichlet分布随机生成K个权重,保证权重之和为1,均保留小数点后两位。
随机生成1维9种多模、2维9种多模,共18个符合高斯混合分布的仿真数据集用于后续的实验验证,实验所用数据集均能从公开的百度网盘下载获得:https://pan.baidu.com/s/1-lGLZXJHn0uJC9nNCG6UAg(提取码MY29)。
在本节实验中,为验证算法1中的收敛性(基于概率密度值对箱宽参数的收敛,来确定用于估算启发式概率密度值的窗口参数)和算法2中的收敛性(基于PSO算法的MSE和窗口参数对于迭代次数的收敛),分别生成服从分布的400个真实随机样本点,服从分布的500个真实随机样本点,其中的下标分别表示数据的维度D和模数K。
(1) :,,。
(2) :; ;
。 |

图3 算法1的收敛性示意图
Fig.3 Convergence of Algorithm 1

图4 MSE误差基于PSO算法迭代次数收敛示意图
Fig.4 Convergence of MSE error based on iterations of PSO algorithm

图5 窗口参数基于PSO算法迭代次数收敛示意图
Fig.5 Convergence of window parameter based on iterations of PSO algorithm
本节进行了实验证实HKDE的合理性,即HKDE能够降低KDE构建过程中的数据不确定性和模型不确定性,并能有效地估计随机样本点的PDF。
从部分的角度,实验基于
在一、二维情况下,随机挑选10个重叠部分的样本点,通过与经典的LSC
数据点 | 真实PDF值 | 最终估计PDF值 | 启发式PDF值 | LSCV | RoT |
---|---|---|---|---|---|
0.421 180 | 0.419 116 | 0.425 925 | 0.411 359 | 0.326 930 | |
0.472 779 | 0.464 264 | 0.490 740 | 0.452 582 | 0.345 074 | |
0.488 494 | 0.476 294 | 0.472 222 | 0.463 823 | 0.350 515 | |
0.508 081 | 0.488 497 | 0.481 481 | 0.480 016 | 0.361 835 | |
0.519 664 | 0.491 305 | 0.490 740 | 0.019 797 | 0.019 798 | |
0.485 996 | 0.445 287 | 0.444 444 | 0.439 883 | 0.354 599 | |
0.480 165 | 0.440 068 | 0.435 185 | 0.434 942 | 0.352 967 | |
0.256 580 | 0.260 302 | 0.240 740 | 0.261 808 | 0.270 853 | |
0.222 098 | 0.230 984 | 0.212 962 | 0.232 129 | 0.252 904 | |
0.161 452 | 0.165 120 | 0.157 407 | 0.167 850 | 0.212 204 |
数据点 | 真实PDF值 | 最终估计PDF值 | 启发式PDF值 | LSCV | RoT |
---|---|---|---|---|---|
0.059 880 | 0.051 744 | 0.051 020 | 0.050 635 | 0.034 518 | |
0.085 662 | 0.064 589 | 0.063 775 | 0.062 599 | 0.039 264 | |
0.033 067 | 0.028 495 | 0.038 265 | 0.027 466 | 0.028 002 | |
0.056 320 | 0.050 201 | 0.051 020 | 0.048 888 | 0.033 627 | |
0.084 217 | 0.063 995 | 0.063 775 | 0.062 010 | 0.038 986 | |
0.078 604 | 0.059 397 | 0.082 908 | 0.057 756 | 0.038 838 | |
0.076 596 | 0.058 454 | 0.076 530 | 0.056 439 | 0.037 537 | |
0.087 492 | 0.064 745 | 0.089 285 | 0.062 867 | 0.039 684 | |
0.066 530 | 0.057 027 | 0.076 530 | 0.055 595 | 0.035 874 | |
0.084 334 | 0.063 196 | 0.063 775 | 0.061 465 | 0.039 645 |
从整体的角度,实验基于1维7模和2维9模分布分别生成的600个和500个真实随机样本点,利用HKDE对样本点分布的PDF进行估计。
w=[0.10 0.01 0.01 0.12 0.16 0.05 0.40 0.01 0.14];μ=[[1.60 0.69][4.63 3.72][7.95 7.04][10.30 9.39][12.81 11.90][16.71 15.80][18.72 17.81][20.89 19.98][23.41 22.50]];Σ=[[[8.77 0][0 8.77]][[2.33 0][0 2.33]][[2.16 0][0 2.16]][[2.00 0][0 2.00]][[2.26 0][0 2.26]][[2.52 0][0 2.52]][[2.66 0][0 2.66]][[0.77 0][0 0.77]][[1.70 0][0 1.70]]]。
通过与LSC
为了直观展示不同方法间的性能差异,对HKDE以及上述6种方法进行了PDF等高线图的可视化对比,同时还计算了KL散度作为数值上的评估指标。图

图6 7种KDE方法在基于高斯分布1维7模的PDF对比示意图
Fig.6 PDF estimations corresponding to seven different KDE methods on 1‑dimension‑7‑mode Gaussian synthetic samples

图7 7种KDE方法在基于高斯分布2维9模的PDF对比示意图
Fig.7 PDF estimations corresponding to seven different KDE methods on 2‑dimension‑9‑mode Gaussian synthetic samples
本节在4.1节中提到的18个分布上,对HKDE和LSC
对于每个多模分布,生成一组服从该分布的随机样本点作为训练集,并生成一组均匀分布在训练数据集范围内的等距数据点作为测试集。在训练集上得到的训练均方误差(Training MSE, TMSE)反映了模型在原始样本点上的拟合精度,即模型能否精确地逼近数据分布。而在测试集上得到的全局均方误差GMSE则衡量了模型在观测样本空间上的全局误差。通过TMSE和GMSE这两个指标可以客观全面地评估各种方法在多模分布下的表现。
在基于独立训练的18个高斯分布上,分别在训练数据集上使用TMSE和测试数据集上使用GMSE来测量平均估计误差,结果如表
数据集 | LSCV | MLCV | BCV | RoT | Scott’s RoT | Silverman’s RoT | GMM | HKDE |
---|---|---|---|---|---|---|---|---|
0.000 571 | 0.001 392 | 0.000 623 | 0.007 238 | 0.005 346 | 0.003 315 | 0.000 263 | 0.000 401 | |
0.003 992 | 0.014 027 | 0.004 059 | 0.023 497 | 0.005 716 | 0.004 458 | 0.002 388 | 0.003 588 | |
0.001 231 | 0.001 884 | 0.001 051 | 0.006 826 | 0.001 954 | 0.001 457 | 0.000 234 | 0.000 905 | |
0.000 478 | 0.000 578 | 0.000 575 | 0.001 272 | 0.001 272 | 0.000 963 | 0.001 087 | 0.000 462 | |
0.001 540 | 0.004 290 | 0.026 931 | 0.019 797 | 0.019 798 | 0.017 434 | 0.000 552 | 0.000 833 | |
0.000 288 | 0.000 178 | 0.003 798 | 0.001 545 | 0.001 445 | 0.001 067 | 0.000 331 | 0.000 137 | |
0.000 429 | 0.000 502 | 0.004 979 | 0.002 915 | 0.002 915 | 0.002 519 | 0.001 387 | 0.000 426 | |
0.000 324 | 0.000 122 | 0.000 938 | 0.001 566 | 0.001 566 | 0.001 373 | 0.000 929 | 0.000 115 | |
0.000 373 | 0.000 367 | 0.000 421 | 0.000 380 | 0.000 380 | 0.000 329 | 0.000 466 | 0.000 268 |
数据集 | LSCV | MLCV | BCV | RoT | Scott’s RoT | Silverman’s RoT | GMM | HKDE |
---|---|---|---|---|---|---|---|---|
0.000 058 | 0.000 177 | 0.000 203 | 0.000 202 | 0.000 088 | 0.000 062 | 0.000 011 | 0.000 050 | |
0.000 084 | 0.000 441 | 0.000 187 | 0.000 379 | 0.000 223 | 0.000 141 | 0.000 049 | 0.000 058 | |
0.001 231 | 0.007 342 | 0.005 800 | 0.008 135 | 0.006 690 | 0.005 510 | 0.005 697 | 0.001 008 | |
0.003 121 | 0.019 997 | 0.009 527 | 0.021 064 | 0.006 428 | 0.004 642 | 0.000 607 | 0.002 709 | |
0.000 245 | 0.000 850 | 0.000 202 | 0.000 459 | 0.000 311 | 0.000 238 | 0.000 334 | 0.000 186 | |
0.028 973 | 0.006 766 | 0.006 624 | 0.007 333 | 0.006 274 | 0.005 568 | 0.004 892 | 0.002 062 | |
0.000 111 | 0.000 453 | 0.000 388 | 0.000 402 | 0.000 276 | 0.000 214 | 0.000 178 | 0.000 096 | |
4.64E-06 | 6.93E-06 | 5.24E-05 | 3.47E-05 | 2.35E-05 | 1.71E-05 | 6.92E-06 | 4.61E-06 | |
0.000 023 | 0.000 035 | 0.000 278 | 0.000 220 | 0.000 154 | 0.000 125 | 0.000 027 | 0.000 020 |
数据集 | LSCV | MLCV | BCV | RoT | Scott’s RoT | Silverman’s RoT | GMM | HKDE |
---|---|---|---|---|---|---|---|---|
0.000 148 | 0.000 264 | 0.000 154 | 0.001 216 | 0.000 905 | 0.000 572 | 0.000 053 | 0.000 133 | |
0.000 645 | 0.001 677 | 0.000 651 | 0.002 646 | 0.000 811 | 0.000 688 | 0.000 429 | 0.000 610 | |
0.000 200 | 0.000 294 | 0.000 176 | 0.001 026 | 0.000 304 | 0.000 232 | 0.000 045 | 0.000 159 | |
0.000 128 | 0.000 150 | 0.000 150 | 0.000 322 | 0.000 322 | 0.000 245 | 0.000 225 | 0.000 125 | |
0.000 246 | 0.000 246 | 0.003 555 | 0.002 479 | 0.002 679 | 0.002 365 | 0.000 252 | 0.000 188 | |
0.000 105 | 0.000 076 | 0.001 193 | 0.000 496 | 0.000 465 | 0.000 345 | 0.000 153 | 0.000 064 | |
0.000 125 | 0.000 136 | 0.001 566 | 0.000 874 | 0.000 874 | 0.000 737 | 0.000 364 | 0.000 125 | |
0.000 124 | 0.000 047 | 0.000 323 | 0.000 516 | 0.000 516 | 0.000 455 | 0.000 368 | 0.000 046 | |
0.000 140 | 0.000 138 | 0.000 157 | 0.000 153 | 0.001 426 | 0.000 126 | 0.000 199 | 0.000 112 |
数据集 | LSCV | MLCV | BCV | RoT | Scott’s RoT | Silverman’s RoT | GMM | HKDE |
---|---|---|---|---|---|---|---|---|
2.78E-06 | 6.13E-06 | 6.97E-06 | 6.92E-06 | 3.43E-06 | 2.78E-06 | 6.18E-07 | 2.59E-06 | |
3.95E-06 | 12.1E-06 | 5.50E-06 | 12.1E-06 | 6.33E-06 | 4.48E-06 | 2.10E-06 | 3.30E-06 | |
2.12E-05 | 9.03E-05 | 6.98E-05 | 9.03E-05 | 8.07E-05 | 6.63E-05 | 7.56E-05 | 1.94E-05 | |
2.93E-05 | 13.9E-05 | 6.84E-05 | 14.4E-05 | 4.74E-05 | 3.69E-05 | 6.10E-06 | 2.80E-05 | |
6.16E-06 | 17.7E-06 | 5.63E-06 | 9.57E-06 | 6.93E-06 | 5.89E-06 | 8.89E-06 | 5.60E-06 | |
13.4E-05 | 5.84E-05 | 5.72E-05 | 6.32E-05 | 5.42E-05 | 4.84E-05 | 4.69E-05 | 2.18E-05 | |
2.69E-06 | 9.09E-06 | 7.62E-06 | 7.92E-06 | 5.31E-06 | 4.19E-06 | 4.71E-06 | 2.52E-06 | |
0.35E-06 | 0.43E-06 | 2.71E-06 | 1.81E-06 | 1.24E-06 | 0.93E-06 | 0.75E-06 | 0.34E-06 | |
0.66E-06 | 0.92E-06 | 6.51E-06 | 5.14E-06 | 3.62E-06 | 2.94E-06 | 0.73E-06 | 0.62E-06 |
结合上述的数值对比结果和图像对比结果,可以得出结论:与其他传统的KDE估计器相比,HKDE具有更好的性能表现,是一种能够处理模相近数据PDF估计问题的有效方法。
本文设计了一种针对模相近数据的启发式核密度估计器HKDE,用于提升对模相近数据的概率密度函数拟合的准确性。传统核密度估计器在处理模相近数据时,常常面临数据不确定性和模型不确定性的挑战,这些问题影响了KDE的估计性能。HKDE采用了创新的方法来克服不确定性带来的KDE估计缺陷。在降低数据不确定方面,HKDE通过利用观测数据概率密度值对于直方图箱宽参数的收敛性来确定启发式概率密度函数值,从而替代误差度量目标函数中的真实PDF值;在降低模型不确定性上,利用新构建的、添加了补偿项的目标函数来确定HKDE的最优窗口参数。通过一系列真实可信的实验证实了HKDE的可行性、合理性和有效性,表明HKDE是一种估计模相近数据概率密度的有效方法。未来的工作计划从3个方面进行深入研究:(1) 针对大规模数据集,考虑将分布式随机样本划分技术融入HKDE中,以提高其在处理大规模数据时的效率和性能;(2) 通过具体的应用场景,进一步深入验证HKDE的性能,探索其在不同领域中的潜在应用价值;(3) 针对更高维度和更复杂的真实数据,将对HKDE目标函数进行改进和拓展,以提升其适应性和泛化能力。
参考文献
WANG P, DENG H, WANG Y M, et al. Kernel density estimation based Gaussian and non‑Gaussian random vibration data induction for high‑speed train equipment[J]. IEEE Access, 2020, 8: 90914‑90923. [百度学术]
胡李军, 薛海, 周宇. 基于核密度估计的重载组合列车纵向载荷谱外推研究[J]. 兰州交通大学学报, 2022, 41(2): 94‑100. [百度学术]
HU Lijun, XUE Hai, ZHOU Yu. Extrapolation research on longitudinal load spectrum of heavy haul combined train based on kernel density estimation[J]. Journal of Lanzhou Jiaotong University, 2022, 41(2): 94-100. [百度学术]
WATADA J. A kernel density estimation-maximum likelihood approach to risk analysis of portfolio[C]//Proceedings of 2013 IEEE 8th International Symposium on Intelligent Signal Processing. [S.l.]: IEEE, 2013: 37-42. [百度学术]
WAHIDUZZAMAN M, YEASMIN A. A kernel density estimation approach of north indian ocean tropical cyclone formation and the association with convective available potential energy and equivalent potential temperature[J]. Meteorology and Atmospheric Physics, 2020, 132(5): 603-612. [百度学术]
萧凌波. 基于核密度估计的清代中国自然灾害时空分布特征 [J]. 灾害学, 2019, 34(4): 92-99. [百度学术]
XIAO Lingbo. Spatio-temporal distribution of natural disasters in China during 1644-1911 based on kernel density estimation[J]. Journal of Catastrophology, 2019, 34(4): 92-99. [百度学术]
施剑玮,奚蔚.限带白噪声随机过程的雨流幅值概率密度函数模型[J].南京航空航天大学学报,2020,52(4): 659-665. [百度学术]
SHI Jianwei, XI Wei. Probability density function model of rain flow amplitude for random process of band-limited white noise[J]. Journal of Nanjing University of Aeronautics &Astronautics, 2020, 52(4): 659-665. [百度学术]
HOROVÁ I, KOLACEK J, ZELINKA J. Kernel smoothing in MATLAB: Theory and practice of kernel smoothing[M]. Singapore: World Scientific, 2012. [百度学术]
HEIDENREICH N-B, SCHINDLER A, SPERLICH S. Bandwidth selection for kernel density estimation: A review of fully automatic selectors[J]. ASTA Advances in Statistical Analysis, 2013, 97: 403-433. [百度学术]
BOWMAN A W. An alternative method of cross-validation for the smoothing of density estimates[J]. Biometrika, 1984, 71(2): 353-360. [百度学术]
SCOTT D W, TERRELL G R. Biased and unbiased cross-validation in density estimation[J]. Journal of the American Statistical Association, 1987, 82(400): 1131-1146. [百度学术]
SILVERMAN B W. Kernel density estimation technique for statistics and data analysis[J]. Monographs on Statistics and Applied Probability, 1986, 26:34-74. [百度学术]
SCOTT D W. Multivariate density estimation: Theory, practice, and visualization[M]. Hoboken, NJ: John Wiley & Sons, 2015. [百度学术]
SILVERMAN B W. Density estimation for statistics and data analysis[M]. London: Routledge, 2018. [百度学术]
HORNE J S, GARTON E O. Likelihood cross‑validation versus least squares cross‑validation for choosing the smoothing parameter in kernel home‐range analysis [J]. The Journal of Wildlife Management, 2006, 70(3): 641-648. [百度学术]
WĘGLARCZYK S. Kernel density estimation and its application[C]//Proceedings of ITM Web of Conferences. Lesvlis, France: EDP Sciences, 2018, 23: 00037. [百度学术]
HEER J. Fast & accurate Gaussian kernel density estimation[C]//Proceedings of 2021 IEEE Visualization Conference (VIS). [S.l.]: IEEE, 2021: 11-15. [百度学术]
HABBEMA J, HERMANS J, VAN DEN BROEK K. A stepwise discriminant analysis program using density estimation[C]//Proceeding in Computational Statistics. Vienna: Rudolf Liebling, 1974: 101-110. [百度学术]
CHIU S T. Some stabilized bandwidth selectors for nonparametric regression[J]. The Annals of Statistics, 1991, 19(3): 1528-1546. [百度学术]
STUTE W. Modified cross-validation in density estimation[J]. Journal of Statistical Planning and Inference, 1992, 30(3): 293-305. [百度学术]
HART J D, YI S. One-sided cross-validation [J]. Journal of the American Statistical Association, 1998, 93(442): 620-631. [百度学术]
PARK B U, MARRON J S. Comparison of data-driven bandwidth selectors[J]. Journal of the American Statistical Association, 1990, 85(409): 66-72. [百度学术]
HALL P, SHEATHER S J, JONES M, et al. On optimal data-based bandwidth selection in kernel density estimation[J]. Biometrika, 1991, 78(2): 263-269. [百度学术]
TAYLOR C C. Bootstrap choice of the smoothing parameter in kernel density estimation[J]. Biometrika, 1989, 76(4): 705-712. [百度学术]
SHEATHER S J, JONES M C. A reliable data‐based bandwidth selection method for kernel density estimation[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1991, 53(3): 683-690. [百度学术]
KIM W, PARK B, MARRON J S. Asymptotically best bandwidth selectors in kernel density estimation[J]. Statistics & Probability Letters, 1994, 19(2): 119-127. [百度学术]
RAJAN A, KUANG Y C, OOI M P-L , et al. Moment-constrained maximum entropy method for expanded uncertainty evaluation[J]. IEEE Access, 2018, 6: 4072-4082. [百度学术]
ZHANG Z, JIANG C, HAN X, et al. A high-precision probabilistic uncertainty propagation method for problems involving multimodal distributions[J]. Mechanical Systems and Signal Processing, 2019, 126:21-41. [百度学术]
LI G, WANG Y, ZENG Y, et al. A new maximum entropy method for estimation of multimodal probability density function[J]. Applied Mathematical Modelling, 2022, 102: 137-152. [百度学术]
PARZEN E. On estimation of a probability density function and mode[J]. The Annals of Mathematical Statistics, 1962, 33(3): 1065-1076. [百度学术]
WEGMAN E J. Nonparametric probability density estimation: A summary of available methods[J]. Technometrics, 1972, 14(3): 533-546. [百度学术]
JAIN M, SAIHJPAL V, SINGH N, et al. An overview of variants and advancements of PSO algorithm[J]. Applied Sciences, 2022, 12(17): 8392. [百度学术]