en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
参考文献 1
HaykinS. A comprehensive foundation[J]. Neural Networks, 1994(2): 71⁃80.
参考文献 2
GomarS, MirhassaniM, AhmadiM. Precise digital implementations of hyperbolic tanh and sigmoid function[C]//Conference on Signals, Systems & Computers. [S.l.]: IEEE, 2016: 1586⁃1589.
参考文献 3
GulcehreC, MoczulskiM, DenilM, et al. Noisy activation functions [C]//Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016: 1603. 00391.
参考文献 4
HochreiterS. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge⁃Based Systems, 1998, 6(2): 107⁃116.
参考文献 5
Djork⁃arnéC, UnterthinerT, HochreiterS. Fast and accurate deep network learning by exponential limear units (ELUs)[J]. Computer Science, 2015: 1511.07289v5.
参考文献 6
NairV, HintonG E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Isreal: ICML, 2010: 807⁃814.
参考文献 7
Djork⁃ArnéC, UnterthinerT, HochreiterS. Fast and accurate deep network learning by exponential linear units (ELUs)[C]//International Conference of Learning Representation 2016. Puerto Rico: ICLR 2016, 2016: 1⁃14.
参考文献 8
WuH. Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions[J]. Information Sciences, 2009, 179(19): 3432⁃3441.
目录 contents

    摘要

    近年来深度学习发展迅猛。由于深度学习的概念源于神经网络,而激活函数更是神经网络模型在学习理解非线性函数时不可或缺的部分,因此本文对常用的激活函数进行了研究比较。针对常用的激活函数在反向传播神经网络中具有收敛速度较慢、存在局部极小或梯度消失的问题,将Sigmoid系和ReLU系激活函数进行了对比,分别讨论了其性能,详细分析了几类常用激活函数的优点及不足,并通过研究Arctan函数在神经网络中应用的可能性,结合ReLU函数,提出了一种新型的激活函数ArcReLU。实验证明,该函数既能显著加快反向传播神经网络的训练速度,又能有效降低训练误差并避免梯度消失的问题。

    Abstract

    Deep learning has developed rapidly in recent years. The concept of deep learning originates from the neural networks. And the activation function is an indispensable part of the neural network model in learning to understand non-linear functions. Therefore, the common activation functions are studied and compared, aiming at the problems of slow convergence speed, local minimum or gradient disappearance of the commonly used activation functions in back propagation neural networks. In this paper, the Sigmoid and ReLU activation functions are compared, their performances are discussed respectively, and the advantages and disadvantages of several common activation functions are analyzed in detail. Finally, a new activation function, ArcReLU, is proposed by studying the possibility of applying Arctan functions in neural networks and combining with ReLU functions. Experiments show that the function can not only significantly accelerate the training speed of BP neural network, but also effectively reduce the training error and avoid the problem of gradient disappearance.

  • 引 言

    深度学习的概念源于人工神经网[1]的研究,而激活函数更是人工神经网络模型在理解和学习非线性函数时不可或缺的部分。若不使用激活函数,神经网络每一层的输出都是上一层输入的线性函数,无论神经网络具有多少层,输出皆为输入的线性组合,该类情况就是最基本的感知机。因此需要使用激活函数为神经元引入非线性因素,使神经网络可以任意逼近任何非线性函数,这样才能让神经网络应用到众多的非线性模型中。本文则基于误差反向传播神经网络,对常用激活函数进行研究对比,而后对其不足之处进行改进,以提高其最终的收敛速度和计算精度。在激活函数中最为常见的为Sigmoid系函数和ReLU系函数。

    Sigmoid函[2]在Sigmoid系函数中最具代表性,其具有软饱和[3],即该函数在定义域内处处可导,但当输入值过大或过小时,其斜率趋近于0,同时其导数也趋近于0,这将导致向底层传递时的梯度变得非常小。由于其在BP神经网络向下传导的梯度内包含了一个自身关于输入的导数因子,一旦输入落入饱和区之中,该因子将会接近于0,致使向底层传递的梯度变得极小,此时,神经网络的参数很难得到有效的训练,即会出现梯度消[4]现象。这一现象使得BP网络一直难以得到有效的训练。同时,由于基本没有信号通过神经元传至权重再到输入值,这时梯度在模型更新中将难以起到作用。这也导致了无法对参数进行微调,随即影响到最终结果的精确值。这些也是阻碍神经网络进一步发展的重要原因。

    Tanh函[5]作为Sigmoid函数的一个变体,同样存在软饱和性的问题,但该函数以0点为中心,缓解了Sigmoid均值偏移的问题,同时提高了收敛速度。

    经过学者们的研究,目前较为流行的神经网络的激活函数为修正线性单元(ReLU)[6]。它首先被用于限制玻尔兹曼机器,然后成功应用于神经网络。ReLU的导数在正轴部分恒为1,保持梯度不衰减,从而有效缓解了梯度消失的问题。该函数在反向传播过程中能够将梯度更好地传递给后层网络,同时计算速度更快。但其负轴部分会使其输入值落入硬饱和区,致使出现神经元死亡的情况,然而这一现象可以减少参数间的相互依存关系,继而缓解了过拟合问题的发生。另一方面,该函数也存在均值偏移的问题,即输出均值恒大于0。

    指数线性单元(Exponential linear unit,ELU[7]是ReLU的修正类激活函数。当输入值为负数时,ELU输出一个负值,这使得单元激活均值可以趋近于0,同时只需要更低的计算复杂度。ELU在输入取较小值时具有软饱和的特性,提升了对噪声的鲁棒性。

    本文通过对经典的Sigmoid系和ReLU系激活函数的研究与分析,提出与Sigmoid系激活函数同为S型图像的反正切函数(Arctan),分析其在BP神经网络中应用的优点和不足之处。最终提出构想,通过结合ReLU函数和Arctan函数,构造出一种新型的激活函数ArcReLU。实验结果可以说明,一方面,ArcReLU函数相较于Sigmoid系和ReLU系函数具有更快的收敛速度并能有效地降低训练误差,同时还能有效缓解梯度消失的问题,解决ReLU函数具有的硬饱和性,进一步由于其负轴部分的导数趋于0的速度更慢,相较于Sigmoid系函数更为缓和,这一点使其负轴部分的饱和区间更为广泛,学习效率也会得到提高。另一方面,其导数的计算相较于另外两系的激活函数也将更为昂贵。

  • 1 背景知识

  • 1.1 ReLU函数

    ReLU函数有效地解决了Sigmoid系函数在神经网络中梯度消失的问题,但从函数图(图1)中不难看出,该函数依旧存在均值偏移的问题。其定义如下

    图1
                            ReLU 函数图像

    图1 ReLU 函数图像

    Fig.1 Graph of function ReLU

    fx=max(0,x)
    (1)

    从函数图像及表达式中可以看出,当x≥0时,其导数值恒为1,因此,ReLU函数在x≥0时能够保持梯度不衰减,可以有效缓解梯度消失的问题。ReLU函数在反向传播过程中能够将梯度更好地传递给后层网络,同时计算速度较快。当x<0时该函数具有硬饱和[2]。如果此时有输入值落入该区域,则该神经元的梯度将永远为0,其对应权重也将无法更新,即出现神经元死亡的情况,致使计算结果不收敛。由于一部分的神经元输出为0,减少了参数间的相互依存关系,这也有效缓解了过拟合问题的发生。而ReLU函数在x<0时输出为0,使得整体输出均值大于0,即存在均值偏移问[6],这也在一定程度上造成了神经网络的稀疏特性。

  • 1.2 Arctan函数

    在图像上与Sigmoid系函数相类似的Arctan函数,输出范围在-π2,π2,其定义为

    f(x)=arctanx
    (2)

    Arctan函数图像如图2所示。从表达式和图像中可以看出,Arctan函数具有软饱和性,即会使BP神经网络出现梯度消失的现象。相较于其他Sigmoid系函数,Arctan函数更为平缓,这使其比其他双曲线更为清晰,也意味着该函数没有Sigmoid和Tanh函数那么敏感,处于饱和度的区间范围比这两个函数更广。同时,其导数趋于0的速度更慢,这意味着学习效率更高,也能更好地缓解梯度消失的问题。然而,其导数的计算将比Tanh函数更加昂贵。

    图2
                            Arctan函数图像

    图2 Arctan函数图像

    Fig.2 Graph of function Arctan

  • 2 基于ReLU函数的变体ArcReLU函数

    基于对上述经典激活函数的研究及分析,结合ReLU函数以及Arctan函数的优点,为缓解ReLU函数神经元死亡的问题,降低Arctan函数的计算消费,结合两者构造出一种新的ArcReLU激活函数。将ReLU函数输入值小于0的部分替换为2πarctanx,在输入值大于0的部分使用ReLU函数。在使用Arctan函数时,为了限制其输出范围,将算子乘以2π,当网络进入一些比较大的输入值时也能保持稳定。其定义如下

    fx=xx>02πarctanxx0
    (3)

    ArcReLU函数图像如图3所示。由图像上可以初步推断,该函数在其定义域范围内可导且单调递增,只需要证明该函数在0点处的可导性。以下证明过程中将x>0的部分称为f1(x)x0的部分称为f2(x),其证明如下

    图3
                            ArcReLU 函数

    图3 ArcReLU 函数

    Fig.3 Graph of function ArcReLU

    fx=fx-=fx+=0,x=0
    (4)
    limx0+f1x-f1(x0)Δx=limx0+x1-0x-0=1
    (5)
    limx0-f2x-f2(x0)Δx=limx0-arctanx-0x-0=1
    (6)

    式(4)说明ArcReLU在0点有定义且连续。由于式(5)与式(6)的结果存在且相等,依据导数定义,该函数在0点处可导。即可得出ArcReLU的导数如下

    f'x=1x>011+x2x0
    (7)

    从式(7)可看出,ArcReLU函数的导函数值恒大于0。依据导数定义,可证明其为单调递增函数。当激活函数是单调的时候,单层网络能够保证为凸函[8]。从而可以推断出该函数在训练过程中将会更容易收敛。

    由于修正线性单元ReLU是分段线性的非饱和激活函数,相比于传统的S型激活函数,具有更快的随机梯度下降收敛速度,且计算简单。相比于Sigmoid系的激活函数,ReLU更具稀疏性。但过分的稀疏性也会带来更高的错误率并降低模型的有效容量。如此构造函数,不仅保留了ReLU函数计算简单的优点,还使得负轴的值也得以保存,不至于全部丢失。在负轴使用Arctan函数进行替代,不仅能够使得均值更趋向于0,缓解均值偏移问题,而且其左侧部分具备软饱和性,使其不会出现神经元死亡的现象,同时经过上述证明也使新构造的激活函数具备单调递增的特性,进一步提高其收敛速度。

  • 3 实验与结果分析

  • 3.1 实验数据

    本文将分别在BP神经网络中使用ReLU函数,ELU函数和ArcReLU函数进行5次实验,所使用的数据为UCI上的数据集。实验通过Python3.6语言编写程序,在Windows 10操作系统下进行。5组数据集分别是关于皮马印第安人糖尿病的数据统计,文件大小为23.4 KB,共768个对象;鸢尾花的分类,文件大小为1.74 KB,共100个对象;汽车评估,文件大小为25.3 KB,共1 728个对象;美国人口普查收入,90.5 KB,共4 751个对象;阿维拉数据集,文件大小为1.14 MB,共12 495个对象。5组数据集的数据格式分别如表1—5所示。表1—5中最右侧的属性在实验中分别作为决策属性,取值均为0或1。

    表1 皮马印第安人糖尿病数据集

    Tab.1 Pima Indians diabetes data set

    怀孕次数口服葡萄糖耐量试验2 h的血糖浓度舒张压三头肌皮褶厚度2 h内血清胰岛素体重指数糖尿病谱系功能年龄是否患有糖尿病

    表2 鸢尾花数据集

    Tab.2 Iris data set

    萼片长度萼片宽度花瓣长度花瓣宽度种类

    表3 汽车评估数据集

    Tab.3 Car evaluation data set

    售价保养价格车门数量乘坐人数汽车后备箱安全性评估结果

    表4 美国人口普查收入数据集

    Tab.4 Adult data set

    年龄职业类型序号受教育程度受教育时间婚姻状况职业社会角色种族性别资本收益资本支出每周工作时间国籍收入

    表5 阿维拉数据集

    Tab.5 Avila data set

    柱间距离顶边底边开发行数模量比行间间距权重峰数模数比/行间间距类别

    通过3种函数在5组不同数据集上的对比实验,能够清晰地看出各激活函数的优点与不足。本次实验使用10次10折交叉验证,在二层BP神经网络中进行测试。实验中学习率η经测试取值0.01,循环次数设置为5 000次。同时,考虑到BP神经网络存在局部最小点,因此在BP网络中加入了动量项,以此缓解局部最小点的出现并提高收敛速度。

    鉴于不同的评价指标往往具有不同的量纲和量纲单位,将会影响到数据分析的结果。为了消除指标之间的量纲影响,在开始实验前对数据进行了z-score标准化的预处理,使指标的特征保持在相同范围内,以解决数据指标之间的可比性。为了直观地比较各激活函数之间的训练时间和误差率的差异,以下通过图表的形式将实验结果进行展示。

  • 3.2 皮马印第安人糖尿病数据集实验结果

    6为3种函数在第1组数据集中的计算时间,从小到大的排序为ReLU<ELU<ArcReLU,由此可以得出在本次实验中ArcReLU的计算相较于另外两个函数稍为昂贵。图4显示了各激活函数在本次实验中的收敛速度。从图4可以看出实验过程中各函数的收敛速度从小到大排序为ReLU<ELU<ArcReLU,由此进一步验证前期理论证明的ArcReLU收敛速度高于另外两种函数。

    图4
                            第1组数据集中各激活函数收敛速度比较图

    图4 第1组数据集中各激活函数收敛速度比较图

    Fig.4 Convergence rate comparison of each activation function in the first data set

    表6 第1组数据集中各激活函数计算时间

    Tab.6 Calculating time of each activation function in the first data set

    函数ReLUELUArcReLU
    10:05:26.440:05:41.800:05:53.30
    20:05:25.320:05:41.380:05:55.25
    30:05:28.540:05:45.030:05:53.48
    40:05:29.100:05:44.410:05:52.83
    50:05:45.170:06:08.540:06:21.32
    60:05:43.210:05:54.990:06:05.17
    70:06:03.290:06:19.580:06:13.36
    80:05:48.010:05:56.590:06:04.10
    90:05:55.680:06:08.180:06:15.23
    100:05:46.400:06:01.080:06:14.12
    平均0:05:41.120:05:56.160:06:04.83

    5是3种激活函数的受试者工作特性曲线ROC比较图,从图中较难看出这3种激活函数的优劣,因此需要通过求得ROC曲线下的面积值AUC进行比对。图中横坐标FPR表示将负例错分为正例的概率,纵坐标TPR表示将正例分对的概率。各函数AUC值及分类精度均值如表7,8所示。从表7,8可以看出ArcReLU函数的AUC面积以及分类精度均大于ReLU以及ELU,由此可以得出,在当前数据集中ArcReLU的分类效果优于另外两种函数。

    图5
                            第1组数据集中各激活函数ROC比较图

    图5 第1组数据集中各激活函数ROC比较图

    Fig.5 ROC comparison of each activation function in the first data set

    表7 第1组数据集中各激活函数AUC

    Tab.7 AUC comparison of each activation function in the first data set

    函数ReLUELUArcReLU
    10.470 20.623 60.614 4
    20.425 70.752 90.763 9
    30.555 10.756 40.810 0
    40.462 60.596 90.620 8
    50.518 20.727 40.725 2
    60.489 60.748 50.790 9
    70.457 00.650 50.634 8
    80.499 20.802 70.783 4
    90.672 70.631 90.618 1
    100.415 60.743 70.700 7
    平均0.496 60.703 50.706 2

    表8 第1组数据集中各激活函数分类精度均值(%)

    Tab.8 Mean classification accuracy of each activation function in the first data set(%)

    函数ReLUELUArcReLU
    训练精度均值65.6365.9369.24
    测试精度均值65.7465.8868.35
  • 3.3 鸢尾花数据集分类实验结果

    9为3种函数在第2组数据集中的计算时间,从小到大的排序为ReLU<ELU<ArcReLU,由此可以得出在本次实验中ArcReLU的计算相较于另外两个函数较为昂贵。图6显示了各激活函数在本次实验中的收敛速度。从图6可以看出实验过程中各函数的收敛速度从小到大排序为ReLU<ELU<ArcReLU,由此可以得出ArcReLU的收敛速度高于另外两种函数。

    图6
                            第2组数据集中各激活函数收敛速度比较图

    图6 第2组数据集中各激活函数收敛速度比较图

    Fig.6 Convergence rate comparison of each activation function in the second data set

    表9 第2组数据集中各激活函数计算时间

    Tab.9 Calculating time of each activation function in the second data set

    ReLUELUArcReLU
    10:00:20.510:00:21.910:00:23.08
    20:00:20.720:00:21.800:00:22.58
    30:00:21.380:00:22.020:00:22.81
    40:00:20.990:00:22.720:00:23.44
    50:00:21.530:00:21.710:00:23.28
    60:00:20.990:00:21.630:00:23.53
    70:00:20.700:00:21.780:00:22.60
    80:00:21.060:00:21.660:00:22.55
    90:00:20.780:00:21.560:00:22.57
    100:00:20.570:00:21.680:00:22.75
    平均0:00:20.920:00:21.850:00:22.92

    7是3种激活函数的ROC比较图,从图中较难看出这3种激活函数的优劣,因此通过计算ROC曲线下的面积值 AUC进行比对,各函数AUC及分类精度均值如表10,11所示。从表10,11可以看出ArcReLU函数的AUC面积以及分类精度均大于ReLU以及ELU,由此可以得出,在当前数据集中ArcReLU的分类效果优于另外两种函数。

    图7
                            第2组数据集中各激活函数ROC比较图

    图7 第2组数据集中各激活函数ROC比较图

    Fig.7 ROC comparison of each activation function in the second data set

    表10 第2组数据集中各激活函数AUC

    Tab.10 AUC comparison of each activation function in the second data set

    函数ReLUELUArcReLU
    10.983 20.976 70.984 2
    20.983 20.982 70.984 2
    30.981 20.970 70.979 7
    40.983 70.980 10.984 7
    50.981 20.980 70.981 2
    60.477 80.977 60.986 2
    70.980 20.979 70.979 7
    80.983 70.973 20.982 7
    90.990 60.980 10.989 6
    100.982 70.979 70.981 2
    平均0.932 80.978 10.983 3

    表11 第2组数据集中各激活函数分类精度均值(%)

    Tab.11 Mean classification accuracy of each activation function in the second data set(%)

    函数ReLUELUArcReLU
    训练精度均值58.5692.3392.56
    测试精度均值59.0093.0093.10
  • 3.4 汽车评估实验结果

    12为3种函数在第3组数据集中的计算时间,从小到大的排序为ReLU<ELU<ArcReLU,由此可以得出在本次实验中ArcReLU的计算相较于另外两个函数较为昂贵。图8显示了各激活函数在本次实验中的收敛速度。从图8可以看出实验过程中各函数的收敛速度从小到大排序为ReLU<ELU<ArcReLU,由此可以得出ArcReLU的收敛速度高于另外两种函数。

    图8
                            第3组数据集中各激活函数收敛速度比较图

    图8 第3组数据集中各激活函数收敛速度比较图

    Fig.8 Convergence rate comparison of each activation function in the third data set

    表12 第3组数据集中各激活函数计算时间

    Tab.12 Calculating time of each activation function in the third data set

    函数ReLUELUArcReLU
    10:09:17.690:09:47.490:10:12.74
    20:09:07.610:09:34.860:10:00.52
    30:08:40.510:09:17.140:09:53.02
    40:09:04.490:09:12.600:09:36.44
    50:08:47.470:09:15.800:09:37.68
    60:08:49.290:09:16.880:09:40.56
    70:09:43.180:10:15.650:10:04.45
    80:09:29.010:10:12.800:10:45.25
    90:09:17.570:09:50.080:10:26.01
    100:09:19.510:10:05.430:10:24.07
    平均0:09:09.630:09:40.870:10:04.07

    9是3种激活函数的ROC比较图,从图中较难看出这3种激活函数的优劣,因此通过计算ROC曲线下的面积值 AUC进行比对得出结论。各函数AUC及分类精度均值如表13,14所示。从表13,14可以看出ArcReLU函数的AUC面积以及分类精度均大于ReLU以及ELU,由此可以得出,在当前数据集中ArcReLU的分类效果优于另外两种函数。

    图9
                            第3组数据集中各激活函数ROC比较图

    图9 第3组数据集中各激活函数ROC比较图

    Fig.9 ROC comparison of each activation function in the third data set

    表13 第3组数据集中各激活函数AUC

    Tab.13 AUC comparison of each activation function in the third data set

    函数ReLUELUArcReLU
    10.472 70.767 00.808 6
    20.545 10.807 30.832 5
    30.441 50.768 40.816 5
    40.514 90.777 40.799 3
    50.808 30.793 70.813 1
    60.830 40.732 80.788 6
    70.456 70.713 50.738 3
    80.509 20.775 40.778 2
    90.519 40.815 60.821 3
    100.480 20.768 30.766 6
    平均0.557 90.771 90.796 3

    表14 第3组数据集中各激活函数分类精度均值(%)

    Tab.14 Mean classification accuracy of each activation function in the third data set(%)

    函数ReLUELUArcReLU
    训练精度均值73.6575.6976.79
    测试精度均值73.7875.5877.46
  • 3.5 美国人口普查收入实验结果

    15为3种函数在第4组数据集中的计算时间,从小到大的排序为ReLU<ArcReLU<ELU,由此可以得出在本次实验中ELU的计算相较于另外两个函数较为昂贵。

    表15 第4组数据集中各激活函数计算时间

    Tab.15 Calculating time of each activation function in the fourth data set

    函数ReLUELUArcReLU
    10:33:33.830:37:04.690:36:36.00
    20:33:54.200:37:06.580:38:25.26
    30:34:00.340:37:04.620:36:03.46
    40:34:09.220:37:07.000:36:22.22
    50:33:54.670:37:15.030:36:27.91
    60:34:45.880:37:50.400:36:46.70
    70:35:37.620:38:01.660:37:17.77
    80:33:49.480:37:01.780:37:51.61
    90:36:26.110:39:55.570:37:56.82
    100:36:16.600:40:31.250:39:14.33
    平均0:34:44.790:41:42.020:37:24.31

    这一结果与前3组的结果有所不同。由于每组实验都是在相同的运行环境下计算的,从以上实验结果看,ELU适合数据量较小的计算,ArcReLU适合数据量大的计算。为了确认随着数据量的增减是否对ReLU函数的计算时间有影响,在3.6节中分别计算了5组实验中,ArcReLU相较于ELU的计算时间增量和ArcReLU相较于ReLU的计算时间增量,结果如表16所示。图10显示了各激活函数在本次实验中的收敛速度。从图10可以看出实验过程中各函数的收敛速度从小到大排序为ReLU<ELU<ArcReLU,由此可以得出ArcReLU的收敛速度高于另外两种函数。

    图10
                            第4组数据集中各激活函数收敛速度比较

    图10 第4组数据集中各激活函数收敛速度比较

    Fig.10 Convergence rate comparison of each activation function in the fourth data set

    表16 各激活函数间计算时间增量的比较

    Tab.16 Comparisons of calculating time increments among activation functions

    实验数据集名数据集大小/KBArcReLU相较于ELU的计算时间增量/%ArcReLU相较于ReLU的计算时间增量/%
    1鸢尾花的分类1.744.99.56
    2皮马印第安人糖尿病的数据统计23.42.436.95
    3汽车评估25.33.999.9
    4美国人口普查收入90.5-10.37.65
    5阿维拉1 1401.121.28

    11是3种激活函数的ROC比较图,从图中较难看出这3种激活函数的优劣,因此通过计算ROC曲线下的面积值AUC进行比对得出结论。各函数AUC和分类精度均值如表17,18所示。从表17,18可以看出ArcReLU函数的AUC面积以及分类精度均大于ReLU以及ELU,由此可以得出,在当前数据集中ArcReLU的分类效果优于另外两种函数。

    图11
                            第4组数据集中各激活函数ROC比较

    图11 第4组数据集中各激活函数ROC比较

    Fig.11 ROC comparison of each activation function in the fourth data set

    表17 第4组数据集中各激活函数AUC

    Tab.17 AUC comparison of each activation function in the fourth data set

    函数ReLUELUArcReLU
    10.500 60.836 00.836 4
    20.778 90.798 10.802 1
    30.782 50.803 70.807 5
    40.786 00.846 20.851 8
    50.761 90.837 50.841 5
    60.747 80.841 20.841 3
    70.777 50.752 30.783 5
    80.536 40.803 60.808 4
    90.763 20.793 60.785 9
    100.548 90.770 20.759 0
    平均0.698 40.808 20.811 7

    表18 第4组数据集中各激活函数分类精度均值(%)

    Tab.18 Mean classification accuracy of each activation function in the fourth data set(%)

    函数ReLUELUArcReLU
    训练精度均值60.1977.1877.41
    测试精度均值60.1276.7477.23
  • 3.6 阿维拉实验结果

    19为3种函数在第5组数据集中的计算耗时,从小到大的排序为ReLU<ELU<ArcReLU,由此可以得出在本次实验中ArcReLU的计算相较于另外两个函数较为昂贵。由于5组实验数据中第4组的实验结果较为不同,此处分别计算了5组实验中,ArcReLU相较于ELU的计算时间增量和ArcReLU相较于ReLU的计算时间增量,见表16

    表19 第5组数据集中各激活函数计算时间

    Tab.19 Calculating time of each activation function in the fifth data set

    函数ReLUELUArcReLU
    12:24:43.662:25:54.312:29:51.45
    22:28:03.932:29:07.712:33:03.55
    32:49:25.602:34:03.752:34:47.67
    42:39:48.432:39:25.502:40:57.36
    52:37:04.152:42:47.762:44:04.48
    62:40:25.602:43:18.962:46:54.79
    72:51:43.592:52:32.242:56:51.12
    82:23:15.662:27:16.912:30:43.26
    92:47:21.392:48:32.572:50:29.54
    102:33:36.812:34:53.212:27:42.96
    平均2:37:32.542:37:47.242:39:33.45

    基于表6,9,12,15和表19中的各激活函数计算时间,可以得出结论,随着数据集的增大,ArcReLU所需的计算时间也会增加,同时从实验结果可以看出三者之间的时间增量在逐步缩小。在后续的研究工作中,将添加更多不同的数据集,对相同的数据集反复进行计算,排除单次实验的特殊性,从而进行进一步的研究。

    12显示了各激活函数在本次实验中的收敛速度。从图12可以看出实验过程中各函数的收敛速度从小到大排序为ReLU<ELU<ArcReLU,由此可以得出ArcReLU的收敛速度高于另外两种函数。

    图12
                            第5组数据集中各激活函数收敛速度比较

    图12 第5组数据集中各激活函数收敛速度比较

    Fig.12 Convergence rate comparison of each activation function in the fifth data set

    13是3种激活函数的ROC比较图,从图中较难看出这3种激活函数的优劣,因此通过计算ROC曲线下的面积值 AUC,进行比对得出结论。各函数AUC和分类精度均值如表20,21所示。从表20,21可以看出ArcReLU函数的AUC面积以及分类精度均大于ReLU以及ELU,由此可以得出,在当前数据集中ArcReLU的分类效果优于另外两种函数。

    图13
                            第5组数据集中各激活函数ROC比较

    图13 第5组数据集中各激活函数ROC比较

    Fig.13 ROC comparison of each activation function in the fifth data set

    表20 第5组数据集中各激活函数AUC

    Tab.20 AUC comparison of each activation function in the fifth data set

    函数ReLUELUArcReLU
    10.514 00.520 50.690 7
    20.492 10.655 80.667 1
    30.521 00.581 60.633 3
    40.769 80.710 90.751 1
    50.545 90.614 70.652 8
    60.521 10.523 30.580 2
    70.619 20.635 30.573 1
    80.673 70.699 70.703 3
    90.538 80.541 50.595 6
    100.678 70.558 10.673 5
    平均0.587 40.604 10.652 1

    表21 第5组数据集中各激活函数分类精度均值(%)

    Tab.21 Mean classification accuracy of each activation function in the fifth data set(%)

    函数ReLUELUArcReLU
    训练精度均值68.6669.9470.69
    测试精度均值68.0568.3770.59

    从上述5组实验结果可以看出,虽然ArcReLU的计算时间略多于ReLU和ELU两个函数,但5次实验结果均说明其收敛速度、分类精度以及AUC面积高于其他两种激活函数。同时也验证了Arctan函数由于导数趋于0的速度更为缓慢,因此当输入值落入负轴时,ArcReLU函数的收敛速度高于另外两个激活函数,即该函数可以有效地减少训练误差。

  • 4 结束语

    本文通过分析研究经典的激活函数,结合Arctan函数的性质,构造出一种新的激活函数ArcReLU。随后,通过5组不同的数据集,分别将该函数与两种较为常用的ReLU系激活函数进行对比实验。从结果可以看出,ArcReLU函数相较于另外两个函数,初始的累积误差小,具有较快的收敛速度。伴随着迭代次数的增加,ArcReLU函数将更快趋于平稳,进一步说明它具有较好的收敛性并能有效地降低训练误差。同时,结合ReLU系函数的特性,ArcReLU函数能够有效缓解梯度消失的问题。负轴部分为Arctan函数,可以缓解ReLU函数的硬饱和性,进一步由于Arctan函数更为缓和,使得负轴的饱和区间范围相较于Sigmoid系函数更为广泛。在实验中也能够看出,ArcReLU的AUC值比另外两个函数大,由此可见,ArcReLU的泛化性能优于另外两种函数。

    另外,由于ArcReLU函数负轴部分为Arctan函数,三角函数在计算机中的运算复杂度相当于乘除法,而另外两种激活函数的运算复杂度仅相当于加法运算。因此理论上ArcReLU函数在计算消耗方面会略大于另外两个激活函数,所需的计算时间也就略长。通过5组实验结果可以得出,随着数据量的增加,ArcReLU的计算消耗也略为昂贵。下一步研究工作将对于ArcReLU的鲁棒性进行探讨,从而确认其是否适用于无监督学习、多种分类结果的监督学习或深度学习。另外,还会对其计算时间与数据集大小的关联性进行研究,通过添加不同的数据集,反复进行实验,从而确认其是否有所关联。

  • 参考文献

    • 1

      Haykin S. A comprehensive foundation[J]. Neural Networks, 1994(2): 71⁃80.

    • 2

      Gomar S, Mirhassani M, Ahmadi M. Precise digital implementations of hyperbolic tanh and sigmoid function[C]//Conference on Signals, Systems & Computers. [S.l.]: IEEE, 2016: 1586⁃1589.

    • 3

      Gulcehre C, Moczulski M, Denil M, et al. Noisy activation functions [C]//Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016: 1603. 00391.

    • 4

      Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge⁃Based Systems, 1998, 6(2): 107⁃116.

    • 5

      Djork⁃arné C, Unterthiner T, Hochreiter S. Fast and accurate deep network learning by exponential limear units (ELUs)[J]. Computer Science, 2015: 1511.07289v5.

    • 6

      Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Isreal: ICML, 2010: 807⁃814.

    • 7

      Djork⁃Arné C, Unterthiner T, Hochreiter S. Fast and accurate deep network learning by exponential linear units (ELUs)[C]//International Conference of Learning Representation 2016. Puerto Rico: ICLR 2016, 2016: 1⁃14.

    • 8

      Wu H. Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions[J]. Information Sciences, 2009, 179(19): 3432⁃3441.

许赟杰

机 构:上海电力学院计算机科学与技术学院,上海,200090

Affiliation:College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai, 200090, China

作者简介:许赟杰(1995⁃),男,硕士研究生,研究方向:机器学习、人工智能,E⁃mail:189 18171789@189.cn。
徐菲菲

机 构:上海电力学院计算机科学与技术学院,上海,200090

Affiliation:College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai, 200090, China

作者简介:徐菲菲(1983⁃),女,博士,副教授,研究方向:粗糙集、模糊粗糙集、粒计算、数据挖掘、人工智能,E⁃mail:xufeifei⁃1983@hotmail.com。
夏道家

角 色:中文编辑

Role:Editor

html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F001.jpg
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F002.jpg
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F003.jpg
怀孕次数口服葡萄糖耐量试验2 h的血糖浓度舒张压三头肌皮褶厚度2 h内血清胰岛素体重指数糖尿病谱系功能年龄是否患有糖尿病
萼片长度萼片宽度花瓣长度花瓣宽度种类
售价保养价格车门数量乘坐人数汽车后备箱安全性评估结果
年龄职业类型序号受教育程度受教育时间婚姻状况职业社会角色种族性别资本收益资本支出每周工作时间国籍收入
柱间距离顶边底边开发行数模量比行间间距权重峰数模数比/行间间距类别
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F004.jpg
函数ReLUELUArcReLU
10:05:26.440:05:41.800:05:53.30
20:05:25.320:05:41.380:05:55.25
30:05:28.540:05:45.030:05:53.48
40:05:29.100:05:44.410:05:52.83
50:05:45.170:06:08.540:06:21.32
60:05:43.210:05:54.990:06:05.17
70:06:03.290:06:19.580:06:13.36
80:05:48.010:05:56.590:06:04.10
90:05:55.680:06:08.180:06:15.23
100:05:46.400:06:01.080:06:14.12
平均0:05:41.120:05:56.160:06:04.83
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F005.jpg
函数ReLUELUArcReLU
10.470 20.623 60.614 4
20.425 70.752 90.763 9
30.555 10.756 40.810 0
40.462 60.596 90.620 8
50.518 20.727 40.725 2
60.489 60.748 50.790 9
70.457 00.650 50.634 8
80.499 20.802 70.783 4
90.672 70.631 90.618 1
100.415 60.743 70.700 7
平均0.496 60.703 50.706 2
函数ReLUELUArcReLU
训练精度均值65.6365.9369.24
测试精度均值65.7465.8868.35
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F006.jpg
ReLUELUArcReLU
10:00:20.510:00:21.910:00:23.08
20:00:20.720:00:21.800:00:22.58
30:00:21.380:00:22.020:00:22.81
40:00:20.990:00:22.720:00:23.44
50:00:21.530:00:21.710:00:23.28
60:00:20.990:00:21.630:00:23.53
70:00:20.700:00:21.780:00:22.60
80:00:21.060:00:21.660:00:22.55
90:00:20.780:00:21.560:00:22.57
100:00:20.570:00:21.680:00:22.75
平均0:00:20.920:00:21.850:00:22.92
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F007.jpg
函数ReLUELUArcReLU
10.983 20.976 70.984 2
20.983 20.982 70.984 2
30.981 20.970 70.979 7
40.983 70.980 10.984 7
50.981 20.980 70.981 2
60.477 80.977 60.986 2
70.980 20.979 70.979 7
80.983 70.973 20.982 7
90.990 60.980 10.989 6
100.982 70.979 70.981 2
平均0.932 80.978 10.983 3
函数ReLUELUArcReLU
训练精度均值58.5692.3392.56
测试精度均值59.0093.0093.10
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F008.jpg
函数ReLUELUArcReLU
10:09:17.690:09:47.490:10:12.74
20:09:07.610:09:34.860:10:00.52
30:08:40.510:09:17.140:09:53.02
40:09:04.490:09:12.600:09:36.44
50:08:47.470:09:15.800:09:37.68
60:08:49.290:09:16.880:09:40.56
70:09:43.180:10:15.650:10:04.45
80:09:29.010:10:12.800:10:45.25
90:09:17.570:09:50.080:10:26.01
100:09:19.510:10:05.430:10:24.07
平均0:09:09.630:09:40.870:10:04.07
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F009.jpg
函数ReLUELUArcReLU
10.472 70.767 00.808 6
20.545 10.807 30.832 5
30.441 50.768 40.816 5
40.514 90.777 40.799 3
50.808 30.793 70.813 1
60.830 40.732 80.788 6
70.456 70.713 50.738 3
80.509 20.775 40.778 2
90.519 40.815 60.821 3
100.480 20.768 30.766 6
平均0.557 90.771 90.796 3
函数ReLUELUArcReLU
训练精度均值73.6575.6976.79
测试精度均值73.7875.5877.46
函数ReLUELUArcReLU
10:33:33.830:37:04.690:36:36.00
20:33:54.200:37:06.580:38:25.26
30:34:00.340:37:04.620:36:03.46
40:34:09.220:37:07.000:36:22.22
50:33:54.670:37:15.030:36:27.91
60:34:45.880:37:50.400:36:46.70
70:35:37.620:38:01.660:37:17.77
80:33:49.480:37:01.780:37:51.61
90:36:26.110:39:55.570:37:56.82
100:36:16.600:40:31.250:39:14.33
平均0:34:44.790:41:42.020:37:24.31
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F010.jpg
实验数据集名数据集大小/KBArcReLU相较于ELU的计算时间增量/%ArcReLU相较于ReLU的计算时间增量/%
1鸢尾花的分类1.744.99.56
2皮马印第安人糖尿病的数据统计23.42.436.95
3汽车评估25.33.999.9
4美国人口普查收入90.5-10.37.65
5阿维拉1 1401.121.28
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F011.jpg
函数ReLUELUArcReLU
10.500 60.836 00.836 4
20.778 90.798 10.802 1
30.782 50.803 70.807 5
40.786 00.846 20.851 8
50.761 90.837 50.841 5
60.747 80.841 20.841 3
70.777 50.752 30.783 5
80.536 40.803 60.808 4
90.763 20.793 60.785 9
100.548 90.770 20.759 0
平均0.698 40.808 20.811 7
函数ReLUELUArcReLU
训练精度均值60.1977.1877.41
测试精度均值60.1276.7477.23
函数ReLUELUArcReLU
12:24:43.662:25:54.312:29:51.45
22:28:03.932:29:07.712:33:03.55
32:49:25.602:34:03.752:34:47.67
42:39:48.432:39:25.502:40:57.36
52:37:04.152:42:47.762:44:04.48
62:40:25.602:43:18.962:46:54.79
72:51:43.592:52:32.242:56:51.12
82:23:15.662:27:16.912:30:43.26
92:47:21.392:48:32.572:50:29.54
102:33:36.812:34:53.212:27:42.96
平均2:37:32.542:37:47.242:39:33.45
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F012.jpg
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F013.jpg
函数ReLUELUArcReLU
10.514 00.520 50.690 7
20.492 10.655 80.667 1
30.521 00.581 60.633 3
40.769 80.710 90.751 1
50.545 90.614 70.652 8
60.521 10.523 30.580 2
70.619 20.635 30.573 1
80.673 70.699 70.703 3
90.538 80.541 50.595 6
100.678 70.558 10.673 5
平均0.587 40.604 10.652 1
函数ReLUELUArcReLU
训练精度均值68.6669.9470.69
测试精度均值68.0568.3770.59
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F015.jpg
html/sjcjycl/201903015/alternativeImage/8bd4bb3e-d62f-4cda-8be9-b0b3c8b16b37-F014.jpg

图1 ReLU 函数图像

Fig.1 Graph of function ReLU

图2 Arctan函数图像

Fig.2 Graph of function Arctan

图3 ArcReLU 函数

Fig.3 Graph of function ArcReLU

表1 皮马印第安人糖尿病数据集

Tab.1 Pima Indians diabetes data set

表2 鸢尾花数据集

Tab.2 Iris data set

表3 汽车评估数据集

Tab.3 Car evaluation data set

表4 美国人口普查收入数据集

Tab.4 Adult data set

表5 阿维拉数据集

Tab.5 Avila data set

图4 第1组数据集中各激活函数收敛速度比较图

Fig.4 Convergence rate comparison of each activation function in the first data set

表6 第1组数据集中各激活函数计算时间

Tab.6 Calculating time of each activation function in the first data set

图5 第1组数据集中各激活函数ROC比较图

Fig.5 ROC comparison of each activation function in the first data set

表7 第1组数据集中各激活函数AUC

Tab.7 AUC comparison of each activation function in the first data set

表8 第1组数据集中各激活函数分类精度均值(%)

Tab.8 Mean classification accuracy of each activation function in the first data set(%)

图6 第2组数据集中各激活函数收敛速度比较图

Fig.6 Convergence rate comparison of each activation function in the second data set

表9 第2组数据集中各激活函数计算时间

Tab.9 Calculating time of each activation function in the second data set

图7 第2组数据集中各激活函数ROC比较图

Fig.7 ROC comparison of each activation function in the second data set

表10 第2组数据集中各激活函数AUC

Tab.10 AUC comparison of each activation function in the second data set

表11 第2组数据集中各激活函数分类精度均值(%)

Tab.11 Mean classification accuracy of each activation function in the second data set(%)

图8 第3组数据集中各激活函数收敛速度比较图

Fig.8 Convergence rate comparison of each activation function in the third data set

表12 第3组数据集中各激活函数计算时间

Tab.12 Calculating time of each activation function in the third data set

图9 第3组数据集中各激活函数ROC比较图

Fig.9 ROC comparison of each activation function in the third data set

表13 第3组数据集中各激活函数AUC

Tab.13 AUC comparison of each activation function in the third data set

表14 第3组数据集中各激活函数分类精度均值(%)

Tab.14 Mean classification accuracy of each activation function in the third data set(%)

表15 第4组数据集中各激活函数计算时间

Tab.15 Calculating time of each activation function in the fourth data set

图10 第4组数据集中各激活函数收敛速度比较

Fig.10 Convergence rate comparison of each activation function in the fourth data set

表16 各激活函数间计算时间增量的比较

Tab.16 Comparisons of calculating time increments among activation functions

图11 第4组数据集中各激活函数ROC比较

Fig.11 ROC comparison of each activation function in the fourth data set

表17 第4组数据集中各激活函数AUC

Tab.17 AUC comparison of each activation function in the fourth data set

表18 第4组数据集中各激活函数分类精度均值(%)

Tab.18 Mean classification accuracy of each activation function in the fourth data set(%)

表19 第5组数据集中各激活函数计算时间

Tab.19 Calculating time of each activation function in the fifth data set

图12 第5组数据集中各激活函数收敛速度比较

Fig.12 Convergence rate comparison of each activation function in the fifth data set

图13 第5组数据集中各激活函数ROC比较

Fig.13 ROC comparison of each activation function in the fifth data set

表20 第5组数据集中各激活函数AUC

Tab.20 AUC comparison of each activation function in the fifth data set

表21 第5组数据集中各激活函数分类精度均值(%)

Tab.21 Mean classification accuracy of each activation function in the fifth data set(%)

image /

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

无注解

  • 参考文献

    • 1

      Haykin S. A comprehensive foundation[J]. Neural Networks, 1994(2): 71⁃80.

    • 2

      Gomar S, Mirhassani M, Ahmadi M. Precise digital implementations of hyperbolic tanh and sigmoid function[C]//Conference on Signals, Systems & Computers. [S.l.]: IEEE, 2016: 1586⁃1589.

    • 3

      Gulcehre C, Moczulski M, Denil M, et al. Noisy activation functions [C]//Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016: 1603. 00391.

    • 4

      Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge⁃Based Systems, 1998, 6(2): 107⁃116.

    • 5

      Djork⁃arné C, Unterthiner T, Hochreiter S. Fast and accurate deep network learning by exponential limear units (ELUs)[J]. Computer Science, 2015: 1511.07289v5.

    • 6

      Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Isreal: ICML, 2010: 807⁃814.

    • 7

      Djork⁃Arné C, Unterthiner T, Hochreiter S. Fast and accurate deep network learning by exponential linear units (ELUs)[C]//International Conference of Learning Representation 2016. Puerto Rico: ICLR 2016, 2016: 1⁃14.

    • 8

      Wu H. Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions[J]. Information Sciences, 2009, 179(19): 3432⁃3441.