模糊决策表中基于OWA算子的三支属性约简

引用本文	doi: 10.16337/j.1004-9037.2018.04.015

杨霁琳, 张贤勇, 唐孝. 模糊决策表中基于OWA算子的三支属性约简[J]. 数据采集与处理, 2018, 33(4): 712-721.

Yang Jilin, Zhang Xianyong, Tang Xiao. Three-Way Attribute Reductions Based on OWA Operator in Fuzzy Decision Table[J]. Journal of Data Acquisition and Processing, 2018, 33(4): 712-721 .

模糊决策表中基于OWA算子的三支属性约简

杨霁琳¹ , 张贤勇² , 唐孝²

1. 四川师范大学基础教学学院, 成都, 610068;
2. 四川师范大学数学与软件科学学院, 成都, 610068

收稿日期: 2017-05-17; 修订日期: 2017-09-15

基金项目: 国家自然科学基金（61673285，61203285，61303204）资助项目；四川省青年科技基金（2017JQ0046）资助项目；四川省教育厅科研（17ZB0356）资助项目

作者简介: 杨霁琳(1981-), 女, 博士, 副教授, 研究方向:粗糙集、模糊集和粒计算, E-mail:yjl524@163.com;
张贤勇(1978-), 男, 博士, 教授, 研究方向:粗糙集、粒计算、数据挖掘;
唐孝(1981-), 男, 博士, 副教授, 研究方向:不确定性分析、数据挖掘.

摘要: 在模糊决策表中，基于有序加权平均（Ordered weighted averaging，OWA）算子建立的相容关系中，OWA算子是一个信息集成工具。本文利用OWA算子及其诱导的截集相容关系，分别讨论基于正域、负域与边界域的属性约简。首先，利用OWA算子中的权重给出属性区分对象的贡献度；然后，根据属性贡献度定义每个属性被约简的可能性；从而给出模糊决策表的一种启发式三支属性约简方法，该方法可以减少属性约简的搜索空间并避免属性约简的盲目性；最后，利用实例来分析影响该三支区域属性约简方法的主要因素，并说明该启发式属性约简方法的合理性和有效性。本文提出的属性贡献度度量及启发式三支属性约简方法将减少属性约简的搜索空间，有益于模糊决策表特征选取的应用。

关键词: 三支决策粗糙集属性约简 OWA算子相容关系

Three-Way Attribute Reductions Based on OWA Operator in Fuzzy Decision Table

Yang Jilin¹, Zhang Xianyong², Tang Xiao²

1. College of Fundamental Education, Sichuan Normal University, Chengdu, 610068, China;
2. College of Mathematics and Software Science, Sichuan Normal University, Chengdu, 610068, China

Abstract: In the fuzzy decision table, the tolerance relation is built based on the ordered weighted averaging (OWA) operatorand, and OWA operator is a basic tool of information integration. Based on the OWA operator and its induced tolerance relation of cut sets, attribute reductions of the positive region, negative region and boundary region are discussed. Firstly, an attribute contribution degree distinguishing objects is defined by the weight of the OWA operator, to describe the reduction possibility of attributes. Consequently, a method of three-way attribute reduction based on the reduction possibility is proposed in the fuzzy decision table. The method reduces the search space and avoids reduction blindness. Finally, an example is analyzed to show the influencing causes of attribute reductions and the validity of the proposed method. The proposed measurement method of attribute contribution degree and the heuristic method of attribute reduction based on the three regions will reduce the searching space of attribute reduction, and thus they are benefit for applications of the fuzzy decision table.

Key words: three-way decisions rough set attribute reduction OWA operator tolerance relation

引言

粗糙集理论是一种处理模糊和不确定性知识的数学工具^[1]，其主要思想是以等价关系为基础，利用已有的知识库来表示不确定或不精确的知识，在保持分类能力不变的前提下，通过知识约简导出问题的决策规则。这种模型在完备的信息系统中得到了成功运用^{[1, 2]}。

在模糊决策表中，数据往往被认为是一个模糊概念, 于是研究者们对经典的粗糙集理论进行扩充^{[3, 4]}。许多学者在构造各种不同区分关系的基础上，讨论各种属性约简的理论和方法，并进行了相关应用研究^{[5, 6]}。管涛^[7]等基于模糊集合的贴近度，构造模糊相似关系，取其截集后得到不可区分关系，利用水平集粗糙成员函数给出分布约简与分配约简；Jensen和Shen提出以依赖度函数作为启发信息的相对约简算法^{[8, 9]}，但Bhatt^[10]指出该算法在许多实际分析中不收敛；张慧哲^[11]等提出一种基于海明距离定义的相似度系数，通过定义模糊相似矩阵和不一致程度矩阵，给出属性约简的定义及算法；曾雪兰^[12]等提出一种全序优势关系，该全序优势关系是Grecos^[13]提出的优势关系的扩充，并进而给出关于对象的相对上下近似约简计算方法；胡清华等^{[14, 15]}提出邻域粗糙集模型，其中数值型属性通过欧式距离表示为模糊相似关系，以决策属性对条件属性的依赖度为标准给出属性约简的概念与约简方法；张家录^[16]等提出基于模糊包含的模糊粗糙集模型，通过计算模糊信任测度、模糊似然测度来进行随机模糊信息系统的属性约简；赵涛^[17]引入模糊随机变量，提出期望相关关系，并基于该关系讨论属性约简方法；黄兵等^[18]将区分函数引入模糊信息系统, 以依赖度为约简标准，给出相应的知识约简方法。冯楠坪等^[19]通过模糊相似关系建立条件相似度与决策相似度之间的相对比较矩阵，给出一种基于相似度比较的模糊属性约简方法。在模糊决策表中，利用区分函数完成属性约简，算法复杂度较高，并且在实际应用中，往往不需要找到所有的属性约简。因此，以上文献针对模糊决策表，都是在基于特定的不可区分关系之上，构造相应的属性约简标准，建立其属性约简方法。本文将借鉴此理论分析方法，在模糊决策表中，基于有序加权平均(Ordered weighted averaging, OWA)算子建立的相容关系，给出属性重要度，构造属性约简标准，建立一种启发式属性约简算法。

三支决策是一种处理不确定性信息决策的智能理论，特别适用于粗糙集及其属性约简^[20]。在三支决策区域中，决策类的正域、边界域和负域分别对应接受、不承诺和拒绝决策。在模糊决策表中，以上文献大都基于正域对属性约简进行讨论。随着三支决策的发展，三支决策区域也用来构建三支属性约简^[21]。因此，本文将在正域属性约简的基础上，扩展到三支区域，分别讨论正域、负域和边界域的属性约简。前期研究工作中，在模糊信息系统中OWA算子能够诱导相容关系^{[22, 23]}。在此基础上，本文进一步讨论属性约简方法。

1 基于OWA算子的粗糙集模型 1.1 基于OWA算子的相容关系

定义1^[4] 设模糊信息系统Ω=(U, A, V, f)，U={x₁, x₂, …, x_n}是非空有限对象集，A={a₁, a₂, …, a_m}是属性集，V={V_a|a∈A}是属性值集，此时V_a可以是一个隶属函数值，则对象x在条件属性a下属性值可以表示为μ_a(x)∈[0, 1]，f表示一个映射，f:U×A→V_a，即(x, a)→μ_a(x)。

在模糊信息系统中，μ_a(x)∈[0, 1]体现了数据的不确定性，但经典粗糙集的等价关系很难再成立。因此，经典粗糙集模型被许多学者做了进一步推广。在前期研究中，利用OWA算子聚合每个属性上在对象间区分时的差异，得到对象的相似度，从而利用对象相似度建立了λ截集的相容关系^[22]。

定义2^[24] 设F：R^m→ R，有一与F相关联的m维加权向量，w=(w₁, w₂, …, w_m)，w_i∈[0, 1]，1≤i≤m，且$\sum\limits_{i = 1}^m {{w_i}} = 1$，使得F(a₁, a₂, …, a_m) = $\sum\limits_{i = 1}^m {{w_i}{b_i}} $，其中元素b_i是(a₁, a₂, …, a_m)中第i个最大元素，则称F为m维OWA算子。

在OWA算子中，根据聚合要求，加权向量一般可通过模糊量词Q确定^[24]，即模糊量词Q表示为

$ Q\left( r \right) = \left\{ {\begin{array}{*{20}{c}} 0&{0 \le r < \alpha }\\ {\frac{{r - \alpha }}{{\beta - \alpha }}}&{\alpha \le r \le \beta }\\ 1&{\beta < r \le 1} \end{array}} \right. $

(1)

式中:α, β∈[0, 1]，(α, β)有多种取值方式，如参数(α, β)最常用的是3种取值：(0.3, 0.8)，(0, 0.5)，(0.5, 1), 它们分别表示模糊量词“大多数”，“至少一半”和“尽可能多”^[22]。相应地，有序加权向量w=(w₁, w₂, …, w_m)可如下确定

$ {w_i} = Q\left[ {\frac{i}{m}} \right] - Q\left[ {\frac{{i - 1}}{m}} \right] $

(2)

定义3^[22] 设Ω=(U, A, V, f)是一个模糊信息系统，∀x, y∈U在属性集A上的相似度为

$ {s_A}\left( {x,y} \right) = 1 - {F_A}\left( {{\mathit{\boldsymbol{T}}_A}} \right) = 1 - {\mathit{\boldsymbol{H}}_A}{\left( {{\mathit{\boldsymbol{E}}_A}} \right)^{\rm{T}}} $

(3)

式中:F_A是OWA算子，T_A=(μ_a₁(x, y), μ_a₂(x, y), …, μ_{a_m}(x, y)), μ_{a_j}(x, y)=|μ_{a_j}(x)－μ_{a_j}(y)|(j=1, 2, …, m)，是对象x和y在属性a_j上的差异。H_A=(w₁, w₂, …, w_m)根据式(1)和式(2)获得，它是模糊信息系统属性集A中各属性对应的权重。T_A中各对象μ_{a_j}(x, y)按值从大到小排序后，得到E_A=(μ_a^σ(1)(x, y), μ_a^σ(2)(x, y), …, μ_a^σ(m)(x, y))且满足∀l∈{1, 2, …, m}，有μ_a^σ(l)(x, y)≥μ a^σ(l+1)(x, y)。

定义4^[22] 设Ω=(U, A, V, f)是一个模糊信息系统，∀x, y∈U，在属性集B⊆A下，不可区分关系定义为R_λ:U×U→[0, 1]，xR_λy={(x, y)∈U×U|s_B(x, y)≥λ}。其中，s_B(x, y)是对象x和y在属性集B上的相似度，λ∈[0, 1]是阈值，可根据具体问题设置。显然，R_λ满足自反性和对称性，但不一定满足传递性，因此R_λ是相容关系。

定义5^[22] 设Ω=(U, A, V, f)是一个模糊信息系统，∀x∈U，在属性集A下，其相容类定义为

$ {\left[ x \right]_{{R_\lambda }}} = \{ y \in U|{s_A}\left( {x,y} \right) \ge \lambda \} $

(4)

[x]_{R_λ}是一个自反、对称的信息粒。基于OWA算子，利用对象相似度建立的相容关系主要受两个因素的影响^[22]：一是判定两个对象相似度的阈值λ的选值；二是OWA算子中模糊量词参数(α, β)的选取。这两个因素直接影响模糊信息系统中论域不同的划分，即不同粒度的表示。模糊量词参数(α, β)的选取对粗糙集模型的影响已在前期工作中详细分析^[23]。在实际问题中，根据对粒度要求的粗细，可灵活选取λ和(α, β)的值，使得建立的信息粒更合理更实用。

1.2 基于OWA算子的粗糙集模型

在模糊决策表中，基于OWA算子建立的λ截集相容关系建立粗糙集模型。

定义6 设Ω=(U, A∪D, V, f)是一个模糊决策表，U={x₁, x₂, …, x_n}是对象集合，A={a₁, a₂, …, a_m}是条件属性集合，V_A={V_a|a∈A}是属性值集，μ_a(x)∈[0, 1]，f_A:U×A→V_a，即有(x, a)→μ_a(x)。D为决策属性集，有U/D={D₁, D₂, …, D_r}。

在同一模糊决策表中，约定当各条件属性的权重由OWA算子确定后将不再更改。因此若B⊆A，则相应的对象相似度定义如下。

定义7 设Ω=(U, A ∪D, V, f)是一个模糊决策表，若B⊆A, 则∀x, y∈U在属性集B上的相似度为

$ {s_B}\left( {x,y} \right) = 1 - {F_A}\left( {{\mathit{\boldsymbol{T}}_B}} \right) = 1 - {\mathit{\boldsymbol{H}}_A}{\left( {{\mathit{\boldsymbol{E}}_B}} \right)^{\rm{T}}} $

(5)

其中T_B=(μ_a₁(x, y), μ_a₂(x, y), …, μ_{a_m}(x, y)), 若B⊂A，∃a∈A，且a∉B，则有μ_a(x, y)∈T_B，同时μ_a(x, y)=0。H_A=(w₁, w₂, …, w_m)是属性集A中各属性对应的权重。

性质1 在模糊决策表Ω=(U, A∪D, V, f)中，若B⊆A, ∀x, y∈U，有s_B(x, y)≥s_A(x, y)。

证明当B=A，则s_B(x, y)=s_A(x, y)；当B⊂A，则∃a∈A，a∉B，且μ_a(x, y)=0，则E_B=(μ_a^σ(1)(x, y), μ_a^σ(2)(x, y), …, μ_a(x, y))=(μ_a^σ(1)(x, y), μ_a^σ(2)(x, y), …, 0)而E_A=(μ_a^σ(1)(x, y), μ_a^σ(2) (x, y), …, μ_a^σ(m)(x, y))，μ_a^σ(m)(x, y)≥0, 因此H_A(E_B)^T≤H_A(E_A)^T，则1－H_A (E_B)^T≥1－H_A(E_A)^T，根据定义3和定义4，即有s_B(x, y)≥s_A(x, y)。因此，若B⊆A，有s_B(x, y)≥s_A(x, y)。

推论1 在模糊决策表Ω=(U, A∪D, V, f)中，若B⊆A, 当λ值相同时，∀x∈U，有[x]_{R_λ^A}⊆[x]_{R_λ^B}。

证明根据定义5和性质1，易证。

定义8 设Ω=(U, A∪D, V, f)是一个模糊决策表，U/D={D₁, D₂, …, D_r}是根据决策属性D建立的等价类，对任意B⊆A，D_t相对于条件属性B的正域、边界域和负域定义为：POS_B(D_t)={x∈U|[x]_{R_λ^B}⊆D_t}；BND_B(D_t)={x∈U|[x]_{R_λ^B} ∩D_t≠∅∧[x]_{R_λ^B}⊄D_t}；NEG_B(D_t)={x∈U| [x]_{R_λ^B}∩D_t=∅}。其中，t=1, 2, …, r，[x]_{R_λ^B}是在条件属性集B下的相容类。

性质2 在模糊决策表Ω=(U, A∪D, V, f)中，若B⊆A, 则

(1) POS_B(D_t)⊆POS_A(D_t); (2) BND_B(D_t)⊇BND_A(D_t); (3)NEG_B(D_t)⊆NEG_A(D_t)。

证明当B⊆A时，根据推论2，∀x∈U，有[x]_{R_λ^A}⊆[x]_{R_λ^B}。因此，根据三支区域的定义, 易证三支区域分别有POS_B(D_t)⊆POS_A(D_t)，BND_B(D_t)⊇BND_A(D_t)和NEG_B(D_t)⊆NEG A(D_t)。

定义8给出了一个决策类D_t的三支区域定义，进而所有决策类集合D相对于条件属性集B的三支区域系统可以定义如下。

定义9 设Ω=(U, A∪D, V, f)是一个模糊决策表，对任意B⊆A，D相对于条件属性B的正域、边界域和负域定义为：POS_B(D)=$\bigcup\limits_{t = 1}^r $POS_B(D_t)，BND_B(D)= $\bigcup\limits_{t = 1}^r $BND_B(D_t)，NEG_B(D)=U－POS_B(D)－BND_B(D)。

性质3 在模糊决策表Ω=(U, A∪D, V, f)中，若B⊆A, 则

(1) POS_B(D) ⊆POS_A(D); (2) BND_B(D)⊇BND_A(D)。

证明根据性质2和定义9易证。

2 基于OWA算子的三支属性约简

根据Pawlak粗糙集理论的经典思想，属性约简是信息系统保持分类能力不变的条件下，去掉冗余属性。将这种思想引入到模糊决策表中，基于三支区域(即正域、边界域和负域)给出三支属性约简如下。

定义10 Ω=(U, A, V, f)是一个模糊决策表，∀x∈U，B⊆A，有POS_B(D)=POS_A(D)，且∀b∈B，有POS_B－{b}(D)≠POS_B(D)，则称B是一个正域属性约简。

定义11 Ω =(U, A, V, f)是一个模糊决策表，∀x∈U，B⊆A，有BND_B(D)=BND_A(D)，且∀b∈B，有BND_B－{b}(D)≠BND_B(D)，则称B是一个边界域属性约简。

定义12 Ω=(U, A, V, f)是一个模糊决策表，∀x∈U，B⊆A，有POS_B(D)=POS_A(D)，且∀b∈B，有NEG_B－{b}(D)≠NEG_B(D)，则称B是一个负域属性约简。

2.1 属性贡献度与属性约简可能性

在模糊决策表Ω=(U, A∪D, V, f)中，基于OWA算子的相容关系R_λ是根据对象间的相似度s_A(x, y)确定的，而s_A(x, y)是通过聚合对象x和y在每个属性a_j上的差异μ_{a_j}(x, y)而得到的。在聚合时，每个属性μ_{a_j}(x, y)所对应的权重有可能不一样。直观地，属性对应的权重越大，对x和y的区分贡献越大，即该属性相对越重要；相反地，属性对应的权重越小，其对x和y的区分贡献越小，即该属性的重要性相对越小。因此，在聚合对象x和y在每个属性上的差异时，其每个属性a_j对应权重的大小决定了a_j在对x和y进行区分时贡献度的大小。

定义13 设Ω=(U, A∪D, V, f)是一个模糊决策表，∀x, y∈U，其每个属性的相对贡献度为

$ {C_{{a^{\sigma (l)}}_j}}\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{l}} {{w_l}}&{{\mu _{{a^{\sigma (l)}}_j}}\left( {x,y} \right) \ne {\mu _{{a^{\sigma (t)}}_q(}}x,y)}\\ {\{ {w_l},{w_t}\} }&{{\mu _{{a^{\sigma (l)}}_j}}\left( {x,y} \right) = {\mu _{{a^{\sigma (t)}}_q}}\left( {x,y} \right)} \end{array}} \right. $

(6)

式中：∀a_j^σ(l)∈A，j, l, q, t∈{1, 2, …, m}；w_l∈[0, 1]由式(2)计算得到，是a_j^σ(l)所对应的权重，即C_{a_j^σ(l)}(x, y)∈[0, 1]。

由定义13可知，每个属性的相对贡献度分为两种情况：(1)当对象x和y在∀a_j^σ(l)∈A上的差异都不相等时，其贡献度的值唯一，即C_{a_j^σ(l)}(x, y)=w_l；(2)当∃a_j^σ(l), a_q^σ(t)∈A，对象x和y有μ_{a_j^σ(l)}(x, y)=μ_{a
_q^σ(t)}(x, y)时，即在两个属性上的区分差异相同，则属性a_j^σ(l)和a_q^σ(t)相对于x和y的贡献度的值并不唯一，有C_{a_j^σ(l)}(x, y)=C_{a_q^σ(t)}(x, y)={w_l, w_t}，即属性a_j和a_q的相对于x和y的贡献度可以是w_l，也可以是w_t。

定义14 设Ω =(U, A∪D, V, f)是一个模糊决策表，对象集U={x₁, x₂, …, x_n}，属性集A={a₁, a₂, …, a_m}。∀x, y∈U，属性集中相对于对象x和y的最小贡献度属性为

$ {a_{{\rm{min}}}}\left( {x,y} \right) = \{ a_j^{\sigma (l)} \in A|{w_{{\rm{min}}}} \in {C_{a_j^{\sigma (l)}}}\left( {x,y} \right)\} $

(7)

式中:j, l∈{1, 2, …, m}；w_min=min(w₁, w₂, …, w_m)是权重向量中的最小值。

性质4 设Ω=(U, A∪D, V, f)是一个模糊决策表，∀x, y∈U, 有

(1) a_min(x, x)=∅; (2)a_min(x, y)=a_min(y, x); (3)|a_min(x, y)| ≥1。

证明在基于OWA算子的相容关系R_λ中，R_λ满足自反性和对称性，有R_λ(x, x)=1，R_λ(x, y)=R_λ(y, x)，因此性质(1)和(2)成立。根据定义13，C_{a_j^σ(l)}(x, y)的值有可能并不唯一，|C_{a_j^σ(l)}(x, y)|≥1，即最小权重有可能对应两个及以上的属性，因此a_min(x, y)所对应的属性可以并不唯一，则性质(3)成立。

根据定义14可以找到任意对象x和y进行区分时的最小贡献度属性。直观地，∀x, y∈U，若属性a在所有a_min(x, y)中出现的频率越高，即a对较大多数对象间的区分贡献度越小，其被约掉的可能性越大；若属性a在所有a_min(x, y)出现的频率越低，即a对较大多数对象间的区分贡献度越大，其被约掉的可能性也越小。因此，属性集中各属性被约简的可能性可形式化如下。

定义15 设Ω=(U, A∪D, V, f)是一个模糊决策表，∀a∈A，则属性被约简的可能性为

$ P\left( a \right) = \frac{{\left| {M\left( a \right)} \right|}}{{n \times n}} $

(8)

式中:∀x, y∈U，M(a)={a_min(x, y) |a∈a_min(x, y)}，|M(a)|为集合的势，n为U中对象的个数。0 ≤P(a) < 1，由于a_min(x, x)=∅，且a_min(x, y)=a_min (y, x)，因此只统计a_min(x, y)，有P(a) < 1。

显然，P(a)的值越小，该属性被约简的可能性越小；反之，P(a)的值越大，该属性被约简的可能性越大。例如：若P(a)=0，即∀x, y∈U，有a∉a_min(x, y)，表示属性a对每个对象间区分的贡献度都较大，显然a被约掉的可能性很小；若当P(a)越接近1时，∀x, y∈U，若有a∈a_min(x, y)，表示属性a对每个对象间区分的贡献度都最小，显然a是冗余的，被约掉的可能性最大。

2.2 基于OWA算子的属性约简算法

直观地，定义15的属性约简可能性给出了一个属性约简顺序，即在约简中，首先考虑约简可能性大的属性是否可以被约掉。因此，本小节利用属性重要度进行启发，构建基于OWA算子的三支属性约简算法。下面主要以正域属性约简算法(即如下算法1)的构建为例。

算法1 基于OWA算子的启发式正域属性约简算法

输入：模糊决策表Ω=(U, A∪D, V, f)；

输出：模糊决策表的一个正域属性约简。

步骤1 在OWA算子中，根据式(1)和(2)

(1) 设定α, β的值；

(2) 计算权重向量w_i(i=1, 2, …, m)。

步骤2 ∀x∈U，相容关系的建立，根据式(3，4)和定义8, 9

(1) 计算相似度s_A(x, y)；

(2) 设定λ的值，计算相容类[x]_{R_λ^A}和正域POS_A(D)。

步骤3 ∀x, y∈U，∀a∈A，根据式(6—8)

(1) 计算贡献度C_{a_j^σ(l)}(x, y)及最小贡献度属性a_min(x, y)；

(2) 计算每个属性的约简可能性P(a)；

(3) 根据P(a)的值，得到启发式属性约简的顺序A′=(a¹, a², …, a^m)，其中P(a¹)≥P(a²)≥…≥P(a^m)。

步骤4 属性约简判断

(1) 初始化k=1，C=∅；

(2) A^k=A－{a^k}，∀x, y∈U，令μ_a^k(x, y)=0，计算s_A^k(x, y)和POS_A^k(D)；

(3) 若POS_A^k(D)=POS_A(D)，则C=A^k，跳转到步骤4(5)，否则继续；

(4) 若k < m，则k=k+1，跳转到步骤4(2)，否则该信息系统无属性约简，结束；

(5) 若k < m，则k=k+1, A=C，跳转到步骤4(2)；否则，输出C，结束。

基于以上步骤可得到模糊决策表Ω=(U, A∪D, V, f)的一个正域属性约简。类似地，根据算法1，将步骤2计算正域POS_A(D)，分别改为计算边界域BND_A(D)或负域NEG_A(D)，在步骤4(3)中，将判定条件对应改为BND_A^k(D)=BND_A(D)或NEG_A^k(D)=NEG_A(D)，则将得到模糊决策表的一个边界域约简或负域约简。

该启发式属性约简算法在三支区域属性约简的过程中，根据属性间顺序(属性被约简的可能性)进行约简，可以减少约简的搜索空间，同时尽可能避免约简时的盲目性。

3 实例分析

下面利用1个模糊决策表实例，分析本文启发式属性约简方法进行三支区域属性约简的合理性及有效性。

例1 Ω＝(U，A∪D，V，f)是一个模糊决策表(如表 1)。其中对象集合U={x₁, x₂, …, x₈}，条件属性集合A={a, a₂, a₃}，决策属性集D={d}, V_d={0, 1, 2}。

表 1 Ω＝(U，A∪D，V，f)模糊决策表 Tab. 1 Fuzzy decision table Ω＝(U, A∪D, V, f)

根据表 1，U/D＝{D₁，D₂，D₃}，D₁＝{x₁，x₅}，D₂＝{x₂，x₇，x₈}，D₃＝{x₃，x₄，x₆}。

在算法1中，根据步骤1，设OWA算子模糊量词参数为(α，β)＝(0，0.5)，则$\mathit{\boldsymbol{w}} = \left\{ {\frac{2}{3}, \frac{1}{3}, 0} \right\}$。

根据步骤2，在属性集A下，以对象x₁和x₂为例，有μ_a₁(x₁, x₂)=0.9，μ_a₂(x₁, x₂)=0.3，μ_a₃(x₁, x₂)=0.6，则x₁和x₂的相似度为s_A(x₁, x₂)=1－H_A(E_A) ^T=1－(${\frac{2}{3}}$, ${\frac{1}{3}}$, 0)(0.9, 0.6, 0.3)^T=1－ 0.8=0.2。同理，可计算所有对象间的相似度如表 2。

表 2 相似度s_A(x, y)数据表 Tab. 2 Similarity degree s_A(x, y)

令λ=0.85，则相容类有[x₁]_{R_λ^A}=[x₄]_{R_λ^A}=[x₅]_{R_λ^A}={x₁, x₄, x₅}，[x₂]_{R_λ^A}=[x₈]_{R_λ^A}={x₂, x₈}，[x₃]_{R_λ^A}={x₃}，[x₆]_{R_λ^A}={x₆}，[x₇]_{R_λ^A}= {x₇}。则论域U在属性集A下被划分为：U/A={{x₁, x₄, x₅}, {x₂, x₈}, {x₃}, {x₆}, {x₇}}，根据定义8，POS_A(D₁)=∅, POS_A(D₂) ={x₂, x₇, x₈}, POS_A(D₃)={x₃, x₆}，因此，在属性集A下POS_A(D)={x₂, x₃, x₆, x₇, x₈}。

根据步骤3，以对象x₁和x₂为例，a₁，a₂和a₃相对于x₁和x₂的贡献度分别为C_a₁^σ(1)(x₁, x₂)=${\frac{2}{3}}$，C_a₂^σ(3)(x₁, x₂)=0，C_a₃^σ(2)(x₁, x₂)=${\frac{1}{3}}$，显然，对于x₁和x₂的最小贡献度属性a_min(x₁, x₂)=a₂，于是在属性集A中，关于所有对象之间的区分，其相对最小贡献度属性如表 3。

表 3 对象间最小贡献度属性a_min(x, y)数据表 Tab. 3 The minimum contribution attributea_min(x, y)

进一步, 根据表 3可计算属性a₁，a₂和a₃被约简的可能性分别为P(a₁) =$\frac{5}{{64}}$，P(a₂)=$\frac{{16}}{{64}}$，P(a₃)=$\frac{{11}}{{64}}$。根据P(a)的值，得到启发式属性约简的顺序为a₂, a₃, a₁。

根据步骤4，选取a₂作为最有可能被约掉的属性，初始化k=1，于是A¹=A－{a₂}={a₁, a₃}，仍以对象x₁和x₂为例，有μ_a₁(x₁, x₂)= 0.9，μ_a₂(x₁, x₂)=0，μ_a₃(x₁, x₂)=0.6，则x₁和x₂在属性集A¹的相似度为

$ {s_{{A^1}}}({x_1},{x_2}) = 1 - {\mathit{\boldsymbol{H}}_A}{({\mathit{\boldsymbol{E}}_{{A^1}}})^{\rm{T}}} = 1 - \left( {\frac{2}{3},\frac{1}{3},0} \right){\left( {0.9,0.6,0} \right)^{\rm{T}}} = 1 - 0.8 = 0.2 $

(9)

则对象相似度s_A¹(x₁, x₂)=s_A(x₁, x₂)。计算所有的对象在属性集A¹下的相似度，结果如表 4所示。

表 4 相似度s_A¹(x, y)数据表 Tab. 4 Similarity degree s_A¹(x, y)

对比表 2和表 4，A¹⊆A, ∀x, y∈U, 有s_A¹(x₁, x₂)≥s_A(x₁, x₂)。当λ的值不变，即λ=0.85，在属性集A¹下，相容类为：[x₁]_{R_λ^A¹}=[x₄]_{R_λ^A¹}=[x₅]_{R_λ^A¹}={x₁, x₄, x₅}，[x₂]_{R_λ^A¹}=[x₇]_{R_λ^A¹}=[x₈] _{R_λ^A¹}={x₂, x₇, x₈}，[x₃] _{R_λ^A¹}={x₃}，[x₆]_{R_λ^A¹}= {x₆}。显然∀x∈U，有[x]_{R_λ^A} ⊆[x]_{R_λ^A¹}，则U在A¹下被划分为：U/A¹={{x₁, x₄, x₅}, {x₂, x₇, x₈}, {x₃}, {x₆}}，计算正域POS_A¹(D)={x₂, x₃, x₆, x₇, x₈}，有POS_A¹(D)=POS _A(D), 则C=A¹={a₁, a₃}。

判断k=1 < 3，继续，令k=2，A²=A¹－{a₃}={a₁}，仍以x₁和x₂为例，有μ_a₁(x₁, x₂)=0.9，μ_a₂(x₁, x₂)=0，μ_a₃(x₁, x₂)=0，则在属性集A²下，相似度为s_A²(x₁, x₂)=1－H_A(E_A²)^T=1－(${\frac{2}{3}}$, ${\frac{1}{3}}$, 0)(0.9, 0, 0)^T=1-0.6=0.4，有s_A²(x₁, x₂)≥ s_A¹(x₁, x₂)=s_A(x₁, x₂)。计算所有的对象在属性集A²下的相似度，结果如表 5。

表 5 相似度s_A²(x, y)数据表 Tab. 5 Similarity degree s_A²(x, y)

当λ=0.85，在属性集A²下，相容类为：[x₁]_{R_λ^A²}=[x₅]_{R_λ^A²}={x₁, x₄, x₅}，[x₂]_{R_λ^A²}=[x₈]_R^A²λ={x₂, x₇, x₈}，[x₃]_R^A²λ={x₃, x₆, x₇}，[x₄]_{R_λ^A²}={ x₁, x₄, x₅, x₆}，[x₆]_{R_λ^A}= {x₃, x₄, x₆}，[x₇]_{R_λ^A²}={x₂, x₃, x₇, x₈}。∀x∈U，有[x]_{R
A_λ}⊆[x]_{R_λ^A¹}⊆x R^A_λ²。计算正域POS_A²(D)={x₂, x₆, x₈}，显然有POS_A²(D)≠POS_A(D)，所以，属性集A¹= {a₁, a₃}是模糊决策表的一个属性约简。

类似地，可以计算在属性集A下，边界域和负域分别为BND_A(D)={x₁, x₄, x₅}, NEG_A(D)=∅；在属性集A¹下分别为BND_A¹(D)={x₁, x₄, x₅}, NEG_A¹(D)=∅；在属性集A²下分别为BND_A²(D)={x₁, x₃, x₄, x₅, x₇}, NEG_A²(D)=∅。显然，有BND_A²≠BND_A¹=BND_A(D), NEG_A²(D)=NEG_A¹(D)=NEG_A(D)。因此，A¹={a₁, a₃}也是模糊决策表的一个边界域属性约简。因为NEG_A²(D)=NEG_A(D)= ∅，而A²={a₁}为单元集，故A²为模糊决策表的一个负域约简。

根据以上实例计算和分析，基于OWA算子的模糊粗糙集模型中，利用OWA算子的权重定义属性的贡献度，从而给出属性约简的顺序，建立一种启发式约简方法，对于模糊粗糙集模型中基于正域、负域和边界域的三支属性约简都是合理有效的。属性贡献度的定义为属性重要性度量给出了一种新的思考方法，同时该启发式属性约简方法能减少搜索空间，有效地寻找到分别基于三支的属性约简。

OWA算子中的权重向量对本文启发式属性约简方法有直接影响，而OWA算子中的权重向量会随着模糊量词参数(α, β)值的不同而变化。因此，OWA算子中模糊量词参数(α, β)值的选取主要影响有两个方面：(1)对对象相似度s_A(x, y)，相容类[x]_{R_λ^A}的影响，从而影响三支区域的建立，已在前期工作中进行了讨论^[23]。(2)在本文启发式约简算法中，对属性的贡献度，属性被约简的可能性，也即是属性约简的顺序有直接影响。

在模糊决策表中，利用本文方法进行属性约简时，可灵活选取(α, β)和λ的值。一般来讲，选取(α, β)的值，以保证聚合算子中权重向量w=(w₁, w₂, …, w_n), 有w₁>w₂>…>w_n，即在聚合对象间区分差异时，属性值差异较大的属性对应较大的权重，从而该属性获得较大的属性贡献度；属性值差异较小的属性对应较小的权重，从而该属性获得较小的属性贡献度。直观地，这在属性约简过程中是合理的，实例也证明了其合理性和可行性。

4 结束语

在模糊决策表中，基于OWA算子的λ截集相容关系，本文定义了三支区域以及基于三支区域的属性约简标准，讨论了基于三支区域的属性约简。通过利用OWA算子中的权重给出每个属性的贡献度，进一步定义了属性约简的可能性，即给出了一个属性约简的顺序，从而给出了模糊决策表中一种启发式三支区域属性约简方法。实例说明该约简方法可以在模糊决策表中找到基于正域、边界域和负域的一个属性约简。在启发式约简算法过程中，利用OWA权重定义贡献度为属性重要性度量给出了一种新的思考方法，同时，该启发式约简算法在能减少属性约简的搜索空间，更有利于模糊决策表在实际特征选取中的应用。在今后的研究工作中，可以考虑该分别和同时基于三支区域属性约简，它们之间的联系和相关性质，以及利用实际应用数据来优化OWA算子参数的选取，实现不同程度的属性约简。

参考文献

[1]	Pawlak Z. Rough set[J]. International Journal of Computer and Information Sciences, 1982, 11: 341-356. DOI:10.1007/BF01001956
[2]	张文修, 梁怡, 吴伟志. 信息系统与知识发现[M]. 北京: 科学出版社, 2003: 96-125. Zhang Wenxiu, Liang Yi, Wu Weizhi. Information system and knowledge discovery[M]. Beijing: Science Press, 2003: 96-125.
[3]	Dubois D, Prade H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General Systems, 1990, 17: 191-209. DOI:10.1080/03081079008935107
[4]	胡寿松, 何亚群. 粗糙决策理论与应用[M]. 北京: 北京航空航天大学出版社, 2006: 232-239. Hu Shousong, He Yaqun. Theory and application of rough decision[M]. Beijing: Beihang University Press, 2006: 232-239.
[5]	徐久成, 李涛, 孙林, 等. 基于信噪比与邻域粗糙集的特征基因选择方法[J]. 数据采集与处理, 2015, 30(5): 973-981. Xu Jiucheng, Li Tao, Sun Lin, et al. Feature gene selection based on SNR and neighborhood rough set[J]. Journal of Data Acquisition and Processing, 2015, 30(5): 973-981.
[6]	崔建国, 宋博翰, 董世良, 等. 基于邻域粗糙集的航空发电机健康诊断方法[J]. 数据采集与处理, 2012, 27(1): 80-84. Cui Jianguo, Song Bohan, Dong Shiliang, et al. Health diagnosis of aero-generator based on neighborhood rough sets theory[J]. Journal of Data Acquisition and Processing, 2012, 27(1): 80-84. DOI:10.3969/j.issn.1004-9037.2012.01.013
[7]	管涛, 冯博琴. 模糊目标信息系统上的知识约简方法[J]. 软件学报, 2004, 15(10): 1470-1478. Guan Tao, Feng Boqin. Knowledge reduction methods in fuzzy objective information systems[J]. Journal of Software, 2004, 15(10): 1470-1478.
[8]	Shen Qiang, Jensen R. Selecting informative features with fuzzy-rough sets and its application for complex systems monitoring[J]. Patter Recognition, 2004, 37(7): 1351-1363. DOI:10.1016/j.patcog.2003.10.016
[9]	Jensen R, Shen Qiang. Fuzzy-rough attributes reduction with application to web categorization[J]. Fuzzy Sets and Systems, 2004, 141(3): 469-485. DOI:10.1016/S0165-0114(03)00021-6
[10]	Bhatt R B, Gopal M. On fuzzy rough sets approach to feature selection[J]. Pattern Recognition Letters, 2005, 26(7): 965-975. DOI:10.1016/j.patrec.2004.09.044
[11]	张慧哲, 王坚, 梅宏标. 一种变相似度的模糊粗糙集属性约简[J]. 模式识别与人工智能, 2009, 22(3): 393-399. Zhang Huizhe, Wang Jian, Mei Hongbiao. Attribute reduction of fuzzy rough sets based on variable similar degree[J]. Pattern Recognition and Artificial Intelligence, 2009, 22(3): 393-399. DOI:10.3969/j.issn.1003-6059.2009.03.010
[12]	Zeng Xuelan, Sun Xingxing, Yu Yingying. Incomplete fuzzy information system based on total order dominance relation and its attribute reduction[J]. Journal of Computer Applications, 2012, 32(5): 1303-1306.
[13]	Greco S, Matarazzo B, Slowinski R. Rough approximation by dominance relations[J]. International Journal of Intelligent Systems, 2002, 17(2): 153-171. DOI:10.1002/(ISSN)1098-111X
[14]	胡清华, 于达仁, 谢宗霞. 基于邻域粒化和粗糙逼近的数值属性约简[J]. 软件学报, 2008, 19(3): 640-649. Hu Qinghua, Yu Daren, Xie Zongxia. Numerical attribute reduction based on neighborhood granulation and rough approximation[J]. Journal of Software, 2008, 19(3): 640-649.
[15]	Hu Q H, Xie Z X, Yu D R. Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation[J]. Pattern Recognition, 2007, 40(12): 3509-3521. DOI:10.1016/j.patcog.2007.03.017
[16]	张家录, 赵晓东. 基于模糊包含的粗糙集模型与模糊信任测度[J]. 模式识别与人工智能, 2010, 23(4): 531-538. Zhang Jialu, Zhao Xiaodong. Rough set models based on fuzzy inclusion and fuzzy belief measures[J]. Pattern Recognition and Artificial Intelligence, 2010, 23(4): 531-538. DOI:10.3969/j.issn.1003-6059.2010.04.013
[17]	赵涛, 秦克云. 模糊随机信息系统及其属性约简[J]. 计算机工程与应用, 2012, 48(22): 147-150. Zhao Tao, Qin Keyun. Fuzzy random information system and attribute reduction[J]. Computer Engineering and Applications, 2012, 48(22): 147-150. DOI:10.3778/j.issn.1002-8331.2012.22.029
[18]	黄兵, 胡作进, 周献中. 模糊信息系统知识约简的分辨函数法[J]. 系统工程与电子技术, 2008, 30(11): 2164-2166. Huang Bing, Hu Zuojin, Zhou Xianzhong. Knowledge reduction method for fuzzy information systems based on discernibility function[J]. Systems Engineering and Electronics, 2008, 30(11): 2164-2166. DOI:10.3321/j.issn:1001-506X.2008.11.032
[19]	冯楠坪, 周磊. 一种基于相似度比较的模糊属性约简方法[J]. 模糊系统与数学, 2014, 28(4): 164-170. Feng Nanping, Zhou Lei. One method of fuzzy attribute reduction based on similarity degree comparison[J]. Fuzzy Systems and Mathematics, 2014, 28(4): 164-170.
[20]	Sun Bingzhen, Ma Weimin, Xiao Xia. Three-way group decision making based on multigranulation fuzzy decision-theoretic rough set over two universes[J]. International Journal of Approximate Reasoning, 2017, 81: 87-102. DOI:10.1016/j.ijar.2016.11.001
[21]	Chen Yunming, Zeng Zhiqiang, Zhu Qingxin, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing, 2016, 38: 942-954. DOI:10.1016/j.asoc.2015.10.059
[22]	杨霁琳, 秦克云. 模糊信息系统中一种改进的模糊相容关系[J]. 小型微型计算机系统, 2014, 35(9): 2131-2135. Yang Jilin, Qin Keyun. Improved fuzzy tolerance relation in the fuzzy information system[J]. Journal of Chinese Computer Systems, 2014, 35(9): 2131-2135. DOI:10.3969/j.issn.1000-1220.2014.09.038
[23]	杨霁琳, 张贤勇, 唐孝. 基于三支决策的模糊信息系统OWA算子参数选择[J]. 数据采集与处理, 2016, 31(6): 1156-1163. Yang Jilin, Zhang Xianyong, Tang Xiao. Three-way decisions based parameter selection of OWA operators in fuzzy information system[J]. Journal of Data Acquisition and Processing, 2016, 31(6): 1156-1163.
[24]	Yager R. Generalized OWA aggregation operators[J]. Fuzzy Optimization and Decision Making, 2004, 3(1): 93-107. DOI:10.1023/B:FODM.0000013074.68765.97


数据采集与处理 2018, Vol. 33 Issue (4): 712-721	PDF