数据采集与处理  2018, Vol. 33 Issue (4): 712-721   PDF    
模糊决策表中基于OWA算子的三支属性约简
杨霁琳1 , 张贤勇2 , 唐孝2     
1. 四川师范大学基础教学学院, 成都, 610068;
2. 四川师范大学数学与软件科学学院, 成都, 610068
摘要: 在模糊决策表中,基于有序加权平均(Ordered weighted averaging,OWA)算子建立的相容关系中,OWA算子是一个信息集成工具。本文利用OWA算子及其诱导的截集相容关系,分别讨论基于正域、负域与边界域的属性约简。首先,利用OWA算子中的权重给出属性区分对象的贡献度;然后,根据属性贡献度定义每个属性被约简的可能性;从而给出模糊决策表的一种启发式三支属性约简方法,该方法可以减少属性约简的搜索空间并避免属性约简的盲目性;最后,利用实例来分析影响该三支区域属性约简方法的主要因素,并说明该启发式属性约简方法的合理性和有效性。本文提出的属性贡献度度量及启发式三支属性约简方法将减少属性约简的搜索空间,有益于模糊决策表特征选取的应用。
关键词: 三支决策    粗糙集    属性约简    OWA算子    相容关系    
Three-Way Attribute Reductions Based on OWA Operator in Fuzzy Decision Table
Yang Jilin1, Zhang Xianyong2, Tang Xiao2     
1. College of Fundamental Education, Sichuan Normal University, Chengdu, 610068, China;
2. College of Mathematics and Software Science, Sichuan Normal University, Chengdu, 610068, China
Abstract: In the fuzzy decision table, the tolerance relation is built based on the ordered weighted averaging (OWA) operatorand, and OWA operator is a basic tool of information integration. Based on the OWA operator and its induced tolerance relation of cut sets, attribute reductions of the positive region, negative region and boundary region are discussed. Firstly, an attribute contribution degree distinguishing objects is defined by the weight of the OWA operator, to describe the reduction possibility of attributes. Consequently, a method of three-way attribute reduction based on the reduction possibility is proposed in the fuzzy decision table. The method reduces the search space and avoids reduction blindness. Finally, an example is analyzed to show the influencing causes of attribute reductions and the validity of the proposed method. The proposed measurement method of attribute contribution degree and the heuristic method of attribute reduction based on the three regions will reduce the searching space of attribute reduction, and thus they are benefit for applications of the fuzzy decision table.
Key words: three-way decisions    rough set    attribute reduction    OWA operator    tolerance relation    
引言

粗糙集理论是一种处理模糊和不确定性知识的数学工具[1],其主要思想是以等价关系为基础,利用已有的知识库来表示不确定或不精确的知识,在保持分类能力不变的前提下,通过知识约简导出问题的决策规则。这种模型在完备的信息系统中得到了成功运用[1, 2]

在模糊决策表中,数据往往被认为是一个模糊概念, 于是研究者们对经典的粗糙集理论进行扩充[3, 4]。许多学者在构造各种不同区分关系的基础上,讨论各种属性约简的理论和方法,并进行了相关应用研究[5, 6]。管涛[7]等基于模糊集合的贴近度,构造模糊相似关系,取其截集后得到不可区分关系,利用水平集粗糙成员函数给出分布约简与分配约简;Jensen和Shen提出以依赖度函数作为启发信息的相对约简算法[8, 9],但Bhatt[10]指出该算法在许多实际分析中不收敛;张慧哲[11]等提出一种基于海明距离定义的相似度系数,通过定义模糊相似矩阵和不一致程度矩阵,给出属性约简的定义及算法;曾雪兰[12]等提出一种全序优势关系,该全序优势关系是Grecos[13]提出的优势关系的扩充,并进而给出关于对象的相对上下近似约简计算方法;胡清华等[14, 15]提出邻域粗糙集模型,其中数值型属性通过欧式距离表示为模糊相似关系,以决策属性对条件属性的依赖度为标准给出属性约简的概念与约简方法;张家录[16]等提出基于模糊包含的模糊粗糙集模型,通过计算模糊信任测度、模糊似然测度来进行随机模糊信息系统的属性约简;赵涛[17]引入模糊随机变量,提出期望相关关系,并基于该关系讨论属性约简方法;黄兵等[18]将区分函数引入模糊信息系统, 以依赖度为约简标准,给出相应的知识约简方法。冯楠坪等[19]通过模糊相似关系建立条件相似度与决策相似度之间的相对比较矩阵,给出一种基于相似度比较的模糊属性约简方法。在模糊决策表中,利用区分函数完成属性约简,算法复杂度较高,并且在实际应用中,往往不需要找到所有的属性约简。因此,以上文献针对模糊决策表,都是在基于特定的不可区分关系之上,构造相应的属性约简标准,建立其属性约简方法。本文将借鉴此理论分析方法,在模糊决策表中,基于有序加权平均(Ordered weighted averaging, OWA)算子建立的相容关系,给出属性重要度,构造属性约简标准,建立一种启发式属性约简算法。

三支决策是一种处理不确定性信息决策的智能理论,特别适用于粗糙集及其属性约简[20]。在三支决策区域中,决策类的正域、边界域和负域分别对应接受、不承诺和拒绝决策。在模糊决策表中,以上文献大都基于正域对属性约简进行讨论。随着三支决策的发展,三支决策区域也用来构建三支属性约简[21]。因此,本文将在正域属性约简的基础上,扩展到三支区域,分别讨论正域、负域和边界域的属性约简。前期研究工作中,在模糊信息系统中OWA算子能够诱导相容关系[22, 23]。在此基础上,本文进一步讨论属性约简方法。

1 基于OWA算子的粗糙集模型 1.1 基于OWA算子的相容关系

定义1[4]    设模糊信息系统Ω=(U, A, V, f),U={x1, x2, …, xn}是非空有限对象集,A={a1, a2, …, am}是属性集,V={Va|aA}是属性值集,此时Va可以是一个隶属函数值,则对象x在条件属性a下属性值可以表示为μa(x)∈[0, 1],f表示一个映射,f:U×AVa,即(x, a)→μa(x)。

在模糊信息系统中,μa(x)∈[0, 1]体现了数据的不确定性,但经典粗糙集的等价关系很难再成立。因此,经典粗糙集模型被许多学者做了进一步推广。在前期研究中,利用OWA算子聚合每个属性上在对象间区分时的差异,得到对象的相似度,从而利用对象相似度建立了λ截集的相容关系[22]

定义2[24]    设FRmR,有一与F相关联的m维加权向量,w=(w1, w2, …, wm),wi∈[0, 1],1≤im,且$\sum\limits_{i = 1}^m {{w_i}} = 1$,使得F(a1, a2, …, am) = $\sum\limits_{i = 1}^m {{w_i}{b_i}} $,其中元素bi是(a1, a2, …, am)中第i个最大元素,则称Fm维OWA算子。

在OWA算子中,根据聚合要求,加权向量一般可通过模糊量词Q确定[24],即模糊量词Q表示为

$ Q\left( r \right) = \left\{ {\begin{array}{*{20}{c}} 0&{0 \le r < \alpha }\\ {\frac{{r - \alpha }}{{\beta - \alpha }}}&{\alpha \le r \le \beta }\\ 1&{\beta < r \le 1} \end{array}} \right. $ (1)

式中:α, β∈[0, 1],(α, β)有多种取值方式,如参数(α, β)最常用的是3种取值:(0.3, 0.8),(0, 0.5),(0.5, 1), 它们分别表示模糊量词“大多数”,“至少一半”和“尽可能多”[22]。相应地,有序加权向量w=(w1, w2, …, wm)可如下确定

$ {w_i} = Q\left[ {\frac{i}{m}} \right] - Q\left[ {\frac{{i - 1}}{m}} \right] $ (2)

定义3[22]    设Ω=(U, A, V, f)是一个模糊信息系统,∀x, yU在属性集A上的相似度为

$ {s_A}\left( {x,y} \right) = 1 - {F_A}\left( {{\mathit{\boldsymbol{T}}_A}} \right) = 1 - {\mathit{\boldsymbol{H}}_A}{\left( {{\mathit{\boldsymbol{E}}_A}} \right)^{\rm{T}}} $ (3)

式中:FA是OWA算子,TA=(μa1(x, y), μa2(x, y), …, μam(x, y)), μaj(x, y)=|μaj(x)-μaj(y)|(j=1, 2, …, m),是对象xy在属性aj上的差异。HA=(w1, w2, …, wm)根据式(1)和式(2)获得,它是模糊信息系统属性集A中各属性对应的权重。TA中各对象μaj(x, y)按值从大到小排序后,得到EA=(μaσ(1)(x, y), μaσ(2)(x, y), …, μaσ(m)(x, y))且满足∀l∈{1, 2, …, m},有μaσ(l)(x, y)≥μ aσ(l+1)(x, y)。

定义4[22]    设Ω=(U, A, V, f)是一个模糊信息系统,∀x, yU,在属性集BA下,不可区分关系定义为Rλ:U×U→[0, 1],xRλy={(x, y)∈U×U|sB(x, y)≥λ}。其中,sB(x, y)是对象xy在属性集B上的相似度,λ∈[0, 1]是阈值,可根据具体问题设置。显然,Rλ满足自反性和对称性,但不一定满足传递性,因此Rλ是相容关系。

定义5[22]    设Ω=(U, A, V, f)是一个模糊信息系统,∀xU,在属性集A下,其相容类定义为

$ {\left[ x \right]_{{R_\lambda }}} = \{ y \in U|{s_A}\left( {x,y} \right) \ge \lambda \} $ (4)

[x]Rλ是一个自反、对称的信息粒。基于OWA算子,利用对象相似度建立的相容关系主要受两个因素的影响[22]:一是判定两个对象相似度的阈值λ的选值;二是OWA算子中模糊量词参数(α, β)的选取。这两个因素直接影响模糊信息系统中论域不同的划分,即不同粒度的表示。模糊量词参数(α, β)的选取对粗糙集模型的影响已在前期工作中详细分析[23]。在实际问题中,根据对粒度要求的粗细,可灵活选取λ和(α, β)的值,使得建立的信息粒更合理更实用。

1.2 基于OWA算子的粗糙集模型

在模糊决策表中,基于OWA算子建立的λ截集相容关系建立粗糙集模型。

定义6    设Ω=(U, AD, V, f)是一个模糊决策表,U={x1, x2, …, xn}是对象集合,A={a1, a2, …, am}是条件属性集合,VA={Va|aA}是属性值集,μa(x)∈[0, 1],fA:U×AVa,即有(x, a)→μa(x)。D为决策属性集,有U/D={D1, D2, …, Dr}。

在同一模糊决策表中,约定当各条件属性的权重由OWA算子确定后将不再更改。因此若BA,则相应的对象相似度定义如下。

定义7    设Ω=(U, AD, V, f)是一个模糊决策表,若BA, 则∀x, yU在属性集B上的相似度为

$ {s_B}\left( {x,y} \right) = 1 - {F_A}\left( {{\mathit{\boldsymbol{T}}_B}} \right) = 1 - {\mathit{\boldsymbol{H}}_A}{\left( {{\mathit{\boldsymbol{E}}_B}} \right)^{\rm{T}}} $ (5)

其中TB=(μa1(x, y), μa2(x, y), …, μam(x, y)), 若BA,∃aA,且aB,则有μa(x, y)∈TB,同时μa(x, y)=0。HA=(w1, w2, …, wm)是属性集A中各属性对应的权重。

性质1    在模糊决策表Ω=(U, AD, V, f)中,若BA, ∀x, yU,有sB(x, y)≥sA(x, y)。

证明    当B=A,则sB(x, y)=sA(x, y);当BA,则∃aAaB,且μa(x, y)=0,则EB=(μaσ(1)(x, y), μaσ(2)(x, y), …, μa(x, y))=(μaσ(1)(x, y), μaσ(2)(x, y), …, 0)而EA=(μaσ(1)(x, y), μaσ(2) (x, y), …, μaσ(m)(x, y)),μaσ(m)(x, y)≥0, 因此HA(EB)THA(EA)T,则1-HA (EB)T≥1-HA(EA)T,根据定义3和定义4,即有sB(x, y)≥sA(x, y)。因此,若BA,有sB(x, y)≥sA(x, y)。

推论1    在模糊决策表Ω=(U, AD, V, f)中,若BA, 当λ值相同时,∀xU,有[x]RλA⊆[x]RλB

证明    根据定义5和性质1,易证。

定义8    设Ω=(U, AD, V, f)是一个模糊决策表,U/D={D1, D2, …, Dr}是根据决策属性D建立的等价类,对任意BADt相对于条件属性B的正域、边界域和负域定义为:POSB(Dt)={xU|[x]RλBDt};BNDB(Dt)={xU|[x]RλBDt≠∅∧[x]RλBDt};NEGB(Dt)={xU| [x]RλBDt=∅}。其中,t=1, 2, …, r,[x]RλB是在条件属性集B下的相容类。

性质2    在模糊决策表Ω=(U, AD, V, f)中,若BA, 则

(1) POSB(Dt)⊆POSA(Dt); (2) BNDB(Dt)⊇BNDA(Dt); (3)NEGB(Dt)⊆NEGA(Dt)。

证明    当BA时,根据推论2,∀xU,有[x]RλA⊆[x]RλB。因此,根据三支区域的定义, 易证三支区域分别有POSB(Dt)⊆POSA(Dt),BNDB(Dt)⊇BNDA(Dt)和NEGB(Dt)⊆NEG A(Dt)。

定义8给出了一个决策类Dt的三支区域定义,进而所有决策类集合D相对于条件属性集B的三支区域系统可以定义如下。

定义9    设Ω=(U, AD, V, f)是一个模糊决策表,对任意BAD相对于条件属性B的正域、边界域和负域定义为:POSB(D)=$\bigcup\limits_{t = 1}^r $POSB(Dt),BNDB(D)= $\bigcup\limits_{t = 1}^r $BNDB(Dt),NEGB(D)=U-POSB(D)-BNDB(D)。

性质3    在模糊决策表Ω=(U, AD, V, f)中,若BA, 则

(1) POSB(D) ⊆POSA(D); (2) BNDB(D)⊇BNDA(D)。

证明    根据性质2和定义9易证。

2 基于OWA算子的三支属性约简

根据Pawlak粗糙集理论的经典思想,属性约简是信息系统保持分类能力不变的条件下,去掉冗余属性。将这种思想引入到模糊决策表中,基于三支区域(即正域、边界域和负域)给出三支属性约简如下。

定义10    Ω=(U, A, V, f)是一个模糊决策表,∀xUBA,有POSB(D)=POSA(D),且∀bB,有POSB-{b}(D)≠POSB(D),则称B是一个正域属性约简。

定义11    Ω =(U, A, V, f)是一个模糊决策表,∀xUBA,有BNDB(D)=BNDA(D),且∀bB,有BNDB-{b}(D)≠BNDB(D),则称B是一个边界域属性约简。

定义12    Ω=(U, A, V, f)是一个模糊决策表,∀xUBA,有POSB(D)=POSA(D),且∀bB,有NEGB-{b}(D)≠NEGB(D),则称B是一个负域属性约简。

2.1 属性贡献度与属性约简可能性

在模糊决策表Ω=(U, AD, V, f)中,基于OWA算子的相容关系Rλ是根据对象间的相似度sA(x, y)确定的,而sA(x, y)是通过聚合对象xy在每个属性aj上的差异μaj(x, y)而得到的。在聚合时,每个属性μaj(x, y)所对应的权重有可能不一样。直观地,属性对应的权重越大,对xy的区分贡献越大,即该属性相对越重要;相反地,属性对应的权重越小,其对xy的区分贡献越小,即该属性的重要性相对越小。因此,在聚合对象xy在每个属性上的差异时,其每个属性aj对应权重的大小决定了aj在对xy进行区分时贡献度的大小。

定义13    设Ω=(U, AD, V, f)是一个模糊决策表,∀x, yU,其每个属性的相对贡献度为

$ {C_{{a^{\sigma (l)}}_j}}\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{l}} {{w_l}}&{{\mu _{{a^{\sigma (l)}}_j}}\left( {x,y} \right) \ne {\mu _{{a^{\sigma (t)}}_q(}}x,y)}\\ {\{ {w_l},{w_t}\} }&{{\mu _{{a^{\sigma (l)}}_j}}\left( {x,y} \right) = {\mu _{{a^{\sigma (t)}}_q}}\left( {x,y} \right)} \end{array}} \right. $ (6)

式中:∀ajσ(l)Aj, l, q, t∈{1, 2, …, m};wl∈[0, 1]由式(2)计算得到,是ajσ(l)所对应的权重,即Cajσ(l)(x, y)∈[0, 1]。

由定义13可知,每个属性的相对贡献度分为两种情况:(1)当对象xy在∀ajσ(l)A上的差异都不相等时,其贡献度的值唯一,即Cajσ(l)(x, y)=wl;(2)当∃ajσ(l), aqσ(t)A,对象xyμajσ(l)(x, y)=μa qσ(t)(x, y)时,即在两个属性上的区分差异相同,则属性ajσ(l)aqσ(t)相对于xy的贡献度的值并不唯一,有Cajσ(l)(x, y)=Caqσ(t)(x, y)={wl, wt},即属性ajaq的相对于xy的贡献度可以是wl,也可以是wt

定义14    设Ω =(U, AD, V, f)是一个模糊决策表,对象集U={x1, x2, …, xn},属性集A={a1, a2, …, am}。∀x, yU,属性集中相对于对象xy的最小贡献度属性为

$ {a_{{\rm{min}}}}\left( {x,y} \right) = \{ a_j^{\sigma (l)} \in A|{w_{{\rm{min}}}} \in {C_{a_j^{\sigma (l)}}}\left( {x,y} \right)\} $ (7)

式中:j, l∈{1, 2, …, m};wmin=min(w1, w2, …, wm)是权重向量中的最小值。

性质4    设Ω=(U, AD, V, f)是一个模糊决策表,∀x, yU, 有

(1) amin(x, x)=; (2)amin(x, y)=amin(y, x); (3)|amin(x, y)| ≥1。

证明    在基于OWA算子的相容关系Rλ中,Rλ满足自反性和对称性,有Rλ(x, x)=1,Rλ(x, y)=Rλ(y, x),因此性质(1)和(2)成立。根据定义13,Cajσ(l)(x, y)的值有可能并不唯一,|Cajσ(l)(x, y)|≥1,即最小权重有可能对应两个及以上的属性,因此amin(x, y)所对应的属性可以并不唯一,则性质(3)成立。

根据定义14可以找到任意对象xy进行区分时的最小贡献度属性。直观地,∀x, yU,若属性a在所有amin(x, y)中出现的频率越高,即a对较大多数对象间的区分贡献度越小,其被约掉的可能性越大;若属性a在所有amin(x, y)出现的频率越低,即a对较大多数对象间的区分贡献度越大,其被约掉的可能性也越小。因此,属性集中各属性被约简的可能性可形式化如下。

定义15    设Ω=(U, AD, V, f)是一个模糊决策表,∀aA,则属性被约简的可能性为

$ P\left( a \right) = \frac{{\left| {M\left( a \right)} \right|}}{{n \times n}} $ (8)

式中:∀x, yUM(a)={amin(x, y) |aamin(x, y)},|M(a)|为集合的势,nU中对象的个数。0 ≤P(a) < 1,由于amin(x, x)=,且amin(x, y)=amin (y, x),因此只统计amin(x, y),有P(a) < 1。

显然,P(a)的值越小,该属性被约简的可能性越小;反之,P(a)的值越大,该属性被约简的可能性越大。例如:若P(a)=0,即∀x, yU,有aamin(x, y),表示属性a对每个对象间区分的贡献度都较大,显然a被约掉的可能性很小;若当P(a)越接近1时,∀x, yU,若有aamin(x, y),表示属性a对每个对象间区分的贡献度都最小,显然a是冗余的,被约掉的可能性最大。

2.2 基于OWA算子的属性约简算法

直观地,定义15的属性约简可能性给出了一个属性约简顺序,即在约简中,首先考虑约简可能性大的属性是否可以被约掉。因此,本小节利用属性重要度进行启发,构建基于OWA算子的三支属性约简算法。下面主要以正域属性约简算法(即如下算法1)的构建为例。

算法1    基于OWA算子的启发式正域属性约简算法

输入:模糊决策表Ω=(U, AD, V, f);

输出:模糊决策表的一个正域属性约简。

步骤1    在OWA算子中,根据式(1)和(2)

(1) 设定α, β的值;

(2) 计算权重向量wi(i=1, 2, …, m)。

步骤2    ∀xU,相容关系的建立,根据式(3,4)和定义8, 9

(1) 计算相似度sA(x, y);

(2) 设定λ的值,计算相容类[x]RλA和正域POSA(D)。

步骤3    ∀x, yU,∀aA,根据式(6—8)

(1) 计算贡献度Cajσ(l)(x, y)及最小贡献度属性amin(x, y);

(2) 计算每个属性的约简可能性P(a);

(3) 根据P(a)的值,得到启发式属性约简的顺序A′=(a1, a2, …, am),其中P(a1)≥P(a2)≥…≥P(am)。

步骤4    属性约简判断

(1) 初始化k=1,C=

(2) Ak=A-{ak},∀x, yU,令μak(x, y)=0,计算sAk(x, y)和POSAk(D);

(3) 若POSAk(D)=POSA(D),则C=Ak,跳转到步骤4(5),否则继续;

(4) 若k < m,则k=k+1,跳转到步骤4(2),否则该信息系统无属性约简,结束;

(5) 若k < m,则k=k+1, A=C,跳转到步骤4(2);否则,输出C,结束。

基于以上步骤可得到模糊决策表Ω=(U, AD, V, f)的一个正域属性约简。类似地,根据算法1,将步骤2计算正域POSA(D),分别改为计算边界域BNDA(D)或负域NEGA(D),在步骤4(3)中,将判定条件对应改为BNDAk(D)=BNDA(D)或NEGAk(D)=NEGA(D),则将得到模糊决策表的一个边界域约简或负域约简。

该启发式属性约简算法在三支区域属性约简的过程中,根据属性间顺序(属性被约简的可能性)进行约简,可以减少约简的搜索空间,同时尽可能避免约简时的盲目性。

3 实例分析

下面利用1个模糊决策表实例,分析本文启发式属性约简方法进行三支区域属性约简的合理性及有效性。

例1    Ω=(UADVf)是一个模糊决策表(如表 1)。其中对象集合U={x1, x2, …, x8},条件属性集合A={a, a2, a3},决策属性集D={d}, Vd={0, 1, 2}。

表 1 Ω=(UADVf)模糊决策表 Tab. 1 Fuzzy decision table Ω=(U, AD, V, f)

根据表 1U/D={D1D2D3},D1={x1x5},D2={x2x7x8},D3={x3x4x6}。

在算法1中,根据步骤1,设OWA算子模糊量词参数为(αβ)=(0,0.5),则$\mathit{\boldsymbol{w}} = \left\{ {\frac{2}{3}, \frac{1}{3}, 0} \right\}$

根据步骤2,在属性集A下,以对象x1x2为例,有μa1(x1, x2)=0.9,μa2(x1, x2)=0.3,μa3(x1, x2)=0.6,则x1x2的相似度为sA(x1, x2)=1-HA(EA) T=1-(${\frac{2}{3}}$, ${\frac{1}{3}}$, 0)(0.9, 0.6, 0.3)T=1- 0.8=0.2。同理,可计算所有对象间的相似度如表 2

表 2 相似度sA(x, y)数据表 Tab. 2 Similarity degree sA(x, y)

λ=0.85,则相容类有[x1]RλA=[x4]RλA=[x5]RλA={x1, x4, x5},[x2]RλA=[x8]RλA={x2, x8},[x3]RλA={x3},[x6]RλA={x6},[x7]RλA= {x7}。则论域U在属性集A下被划分为:U/A={{x1, x4, x5}, {x2, x8}, {x3}, {x6}, {x7}},根据定义8,POSA(D1)=∅, POSA(D2) ={x2, x7, x8}, POSA(D3)={x3, x6},因此,在属性集A下POSA(D)={x2, x3, x6, x7, x8}。

根据步骤3,以对象x1x2为例,a1a2a3相对于x1x2的贡献度分别为Ca1σ(1)(x1, x2)=${\frac{2}{3}}$Ca2σ(3)(x1, x2)=0,Ca3σ(2)(x1, x2)=${\frac{1}{3}}$,显然,对于x1x2的最小贡献度属性amin(x1, x2)=a2,于是在属性集A中,关于所有对象之间的区分,其相对最小贡献度属性如表 3

表 3 对象间最小贡献度属性amin(x, y)数据表 Tab. 3 The minimum contribution attributeamin(x, y)

进一步, 根据表 3可计算属性a1a2a3被约简的可能性分别为P(a1) =$\frac{5}{{64}}$P(a2)=$\frac{{16}}{{64}}$P(a3)=$\frac{{11}}{{64}}$。根据P(a)的值,得到启发式属性约简的顺序为a2, a3, a1

根据步骤4,选取a2作为最有可能被约掉的属性,初始化k=1,于是A1=A-{a2}={a1, a3},仍以对象x1x2为例,有μa1(x1, x2)= 0.9,μa2(x1, x2)=0,μa3(x1, x2)=0.6,则x1x2在属性集A1的相似度为

$ {s_{{A^1}}}({x_1},{x_2}) = 1 - {\mathit{\boldsymbol{H}}_A}{({\mathit{\boldsymbol{E}}_{{A^1}}})^{\rm{T}}} = 1 - \left( {\frac{2}{3},\frac{1}{3},0} \right){\left( {0.9,0.6,0} \right)^{\rm{T}}} = 1 - 0.8 = 0.2 $ (9)

则对象相似度sA1(x1, x2)=sA(x1, x2)。计算所有的对象在属性集A1下的相似度,结果如表 4所示。

表 4 相似度sA1(x, y)数据表 Tab. 4 Similarity degree sA1(x, y)

对比表 2表 4A1A, ∀x, yU, 有sA1(x1, x2)≥sA(x1, x2)。当λ的值不变,即λ=0.85,在属性集A1下,相容类为:[x1]RλA1=[x4]RλA1=[x5]RλA1={x1, x4, x5},[x2]RλA1=[x7]RλA1=[x8] RλA1={x2, x7, x8},[x3] RλA1={x3},[x6]RλA1= {x6}。显然∀xU,有[x]RλA ⊆[x]RλA1,则UA1下被划分为:U/A1={{x1, x4, x5}, {x2, x7, x8}, {x3}, {x6}},计算正域POSA1(D)={x2, x3, x6, x7, x8},有POSA1(D)=POS A(D), 则C=A1={a1, a3}。

判断k=1 < 3,继续,令k=2,A2=A1-{a3}={a1},仍以x1x2为例,有μa1(x1, x2)=0.9,μa2(x1, x2)=0,μa3(x1, x2)=0,则在属性集A2下,相似度为sA2(x1, x2)=1-HA(EA2)T=1-(${\frac{2}{3}}$, ${\frac{1}{3}}$, 0)(0.9, 0, 0)T=1-0.6=0.4,有sA2(x1, x2)≥ sA1(x1, x2)=sA(x1, x2)。计算所有的对象在属性集A2下的相似度,结果如表 5

表 5 相似度sA2(x, y)数据表 Tab. 5 Similarity degree sA2(x, y)

λ=0.85,在属性集A2下,相容类为:[x1]RλA2=[x5]RλA2={x1, x4, x5},[x2]RλA2=[x8]RA2λ={x2, x7, x8},[x3]RA2λ={x3, x6, x7},[x4]RλA2={ x1, x4, x5, x6},[x6]RλA= {x3, x4, x6},[x7]RλA2={x2, x3, x7, x8}。∀xU,有[x]R Aλ⊆[x]RλA1x RAλ2。计算正域POSA2(D)={x2, x6, x8},显然有POSA2(D)≠POSA(D),所以,属性集A1= {a1, a3}是模糊决策表的一个属性约简。

类似地,可以计算在属性集A下,边界域和负域分别为BNDA(D)={x1, x4, x5}, NEGA(D)=;在属性集A1下分别为BNDA1(D)={x1, x4, x5}, NEGA1(D)=;在属性集A2下分别为BNDA2(D)={x1, x3, x4, x5, x7}, NEGA2(D)=。显然,有BNDA2≠BNDA1=BNDA(D), NEGA2(D)=NEGA1(D)=NEGA(D)。因此,A1={a1, a3}也是模糊决策表的一个边界域属性约简。因为NEGA2(D)=NEGA(D)= ,而A2={a1}为单元集,故A2为模糊决策表的一个负域约简。

根据以上实例计算和分析,基于OWA算子的模糊粗糙集模型中,利用OWA算子的权重定义属性的贡献度,从而给出属性约简的顺序,建立一种启发式约简方法,对于模糊粗糙集模型中基于正域、负域和边界域的三支属性约简都是合理有效的。属性贡献度的定义为属性重要性度量给出了一种新的思考方法,同时该启发式属性约简方法能减少搜索空间,有效地寻找到分别基于三支的属性约简。

OWA算子中的权重向量对本文启发式属性约简方法有直接影响,而OWA算子中的权重向量会随着模糊量词参数(α, β)值的不同而变化。因此,OWA算子中模糊量词参数(α, β)值的选取主要影响有两个方面:(1)对对象相似度sA(x, y),相容类[x]RλA的影响,从而影响三支区域的建立,已在前期工作中进行了讨论[23]。(2)在本文启发式约简算法中,对属性的贡献度,属性被约简的可能性,也即是属性约简的顺序有直接影响。

在模糊决策表中,利用本文方法进行属性约简时,可灵活选取(α, β)和λ的值。一般来讲,选取(α, β)的值,以保证聚合算子中权重向量w=(w1, w2, …, wn), 有w1>w2>…>wn,即在聚合对象间区分差异时,属性值差异较大的属性对应较大的权重,从而该属性获得较大的属性贡献度;属性值差异较小的属性对应较小的权重,从而该属性获得较小的属性贡献度。直观地,这在属性约简过程中是合理的,实例也证明了其合理性和可行性。

4 结束语

在模糊决策表中,基于OWA算子的λ截集相容关系,本文定义了三支区域以及基于三支区域的属性约简标准,讨论了基于三支区域的属性约简。通过利用OWA算子中的权重给出每个属性的贡献度,进一步定义了属性约简的可能性,即给出了一个属性约简的顺序,从而给出了模糊决策表中一种启发式三支区域属性约简方法。实例说明该约简方法可以在模糊决策表中找到基于正域、边界域和负域的一个属性约简。在启发式约简算法过程中,利用OWA权重定义贡献度为属性重要性度量给出了一种新的思考方法,同时,该启发式约简算法在能减少属性约简的搜索空间,更有利于模糊决策表在实际特征选取中的应用。在今后的研究工作中,可以考虑该分别和同时基于三支区域属性约简,它们之间的联系和相关性质,以及利用实际应用数据来优化OWA算子参数的选取,实现不同程度的属性约简。

参考文献
[1]
Pawlak Z. Rough set[J]. International Journal of Computer and Information Sciences, 1982, 11: 341-356. DOI:10.1007/BF01001956
[2]
张文修, 梁怡, 吴伟志. 信息系统与知识发现[M]. 北京: 科学出版社, 2003: 96-125.
Zhang Wenxiu, Liang Yi, Wu Weizhi. Information system and knowledge discovery[M]. Beijing: Science Press, 2003: 96-125.
[3]
Dubois D, Prade H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General Systems, 1990, 17: 191-209. DOI:10.1080/03081079008935107
[4]
胡寿松, 何亚群. 粗糙决策理论与应用[M]. 北京: 北京航空航天大学出版社, 2006: 232-239.
Hu Shousong, He Yaqun. Theory and application of rough decision[M]. Beijing: Beihang University Press, 2006: 232-239.
[5]
徐久成, 李涛, 孙林, 等. 基于信噪比与邻域粗糙集的特征基因选择方法[J]. 数据采集与处理, 2015, 30(5): 973-981.
Xu Jiucheng, Li Tao, Sun Lin, et al. Feature gene selection based on SNR and neighborhood rough set[J]. Journal of Data Acquisition and Processing, 2015, 30(5): 973-981.
[6]
崔建国, 宋博翰, 董世良, 等. 基于邻域粗糙集的航空发电机健康诊断方法[J]. 数据采集与处理, 2012, 27(1): 80-84.
Cui Jianguo, Song Bohan, Dong Shiliang, et al. Health diagnosis of aero-generator based on neighborhood rough sets theory[J]. Journal of Data Acquisition and Processing, 2012, 27(1): 80-84. DOI:10.3969/j.issn.1004-9037.2012.01.013
[7]
管涛, 冯博琴. 模糊目标信息系统上的知识约简方法[J]. 软件学报, 2004, 15(10): 1470-1478.
Guan Tao, Feng Boqin. Knowledge reduction methods in fuzzy objective information systems[J]. Journal of Software, 2004, 15(10): 1470-1478.
[8]
Shen Qiang, Jensen R. Selecting informative features with fuzzy-rough sets and its application for complex systems monitoring[J]. Patter Recognition, 2004, 37(7): 1351-1363. DOI:10.1016/j.patcog.2003.10.016
[9]
Jensen R, Shen Qiang. Fuzzy-rough attributes reduction with application to web categorization[J]. Fuzzy Sets and Systems, 2004, 141(3): 469-485. DOI:10.1016/S0165-0114(03)00021-6
[10]
Bhatt R B, Gopal M. On fuzzy rough sets approach to feature selection[J]. Pattern Recognition Letters, 2005, 26(7): 965-975. DOI:10.1016/j.patrec.2004.09.044
[11]
张慧哲, 王坚, 梅宏标. 一种变相似度的模糊粗糙集属性约简[J]. 模式识别与人工智能, 2009, 22(3): 393-399.
Zhang Huizhe, Wang Jian, Mei Hongbiao. Attribute reduction of fuzzy rough sets based on variable similar degree[J]. Pattern Recognition and Artificial Intelligence, 2009, 22(3): 393-399. DOI:10.3969/j.issn.1003-6059.2009.03.010
[12]
Zeng Xuelan, Sun Xingxing, Yu Yingying. Incomplete fuzzy information system based on total order dominance relation and its attribute reduction[J]. Journal of Computer Applications, 2012, 32(5): 1303-1306.
[13]
Greco S, Matarazzo B, Slowinski R. Rough approximation by dominance relations[J]. International Journal of Intelligent Systems, 2002, 17(2): 153-171. DOI:10.1002/(ISSN)1098-111X
[14]
胡清华, 于达仁, 谢宗霞. 基于邻域粒化和粗糙逼近的数值属性约简[J]. 软件学报, 2008, 19(3): 640-649.
Hu Qinghua, Yu Daren, Xie Zongxia. Numerical attribute reduction based on neighborhood granulation and rough approximation[J]. Journal of Software, 2008, 19(3): 640-649.
[15]
Hu Q H, Xie Z X, Yu D R. Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation[J]. Pattern Recognition, 2007, 40(12): 3509-3521. DOI:10.1016/j.patcog.2007.03.017
[16]
张家录, 赵晓东. 基于模糊包含的粗糙集模型与模糊信任测度[J]. 模式识别与人工智能, 2010, 23(4): 531-538.
Zhang Jialu, Zhao Xiaodong. Rough set models based on fuzzy inclusion and fuzzy belief measures[J]. Pattern Recognition and Artificial Intelligence, 2010, 23(4): 531-538. DOI:10.3969/j.issn.1003-6059.2010.04.013
[17]
赵涛, 秦克云. 模糊随机信息系统及其属性约简[J]. 计算机工程与应用, 2012, 48(22): 147-150.
Zhao Tao, Qin Keyun. Fuzzy random information system and attribute reduction[J]. Computer Engineering and Applications, 2012, 48(22): 147-150. DOI:10.3778/j.issn.1002-8331.2012.22.029
[18]
黄兵, 胡作进, 周献中. 模糊信息系统知识约简的分辨函数法[J]. 系统工程与电子技术, 2008, 30(11): 2164-2166.
Huang Bing, Hu Zuojin, Zhou Xianzhong. Knowledge reduction method for fuzzy information systems based on discernibility function[J]. Systems Engineering and Electronics, 2008, 30(11): 2164-2166. DOI:10.3321/j.issn:1001-506X.2008.11.032
[19]
冯楠坪, 周磊. 一种基于相似度比较的模糊属性约简方法[J]. 模糊系统与数学, 2014, 28(4): 164-170.
Feng Nanping, Zhou Lei. One method of fuzzy attribute reduction based on similarity degree comparison[J]. Fuzzy Systems and Mathematics, 2014, 28(4): 164-170.
[20]
Sun Bingzhen, Ma Weimin, Xiao Xia. Three-way group decision making based on multigranulation fuzzy decision-theoretic rough set over two universes[J]. International Journal of Approximate Reasoning, 2017, 81: 87-102. DOI:10.1016/j.ijar.2016.11.001
[21]
Chen Yunming, Zeng Zhiqiang, Zhu Qingxin, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing, 2016, 38: 942-954. DOI:10.1016/j.asoc.2015.10.059
[22]
杨霁琳, 秦克云. 模糊信息系统中一种改进的模糊相容关系[J]. 小型微型计算机系统, 2014, 35(9): 2131-2135.
Yang Jilin, Qin Keyun. Improved fuzzy tolerance relation in the fuzzy information system[J]. Journal of Chinese Computer Systems, 2014, 35(9): 2131-2135. DOI:10.3969/j.issn.1000-1220.2014.09.038
[23]
杨霁琳, 张贤勇, 唐孝. 基于三支决策的模糊信息系统OWA算子参数选择[J]. 数据采集与处理, 2016, 31(6): 1156-1163.
Yang Jilin, Zhang Xianyong, Tang Xiao. Three-way decisions based parameter selection of OWA operators in fuzzy information system[J]. Journal of Data Acquisition and Processing, 2016, 31(6): 1156-1163.
[24]
Yager R. Generalized OWA aggregation operators[J]. Fuzzy Optimization and Decision Making, 2004, 3(1): 93-107. DOI:10.1023/B:FODM.0000013074.68765.97