书签分享收藏举报版权申诉 / 57

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 数学 > 4人工神经网络.ppt

4人工神经网络.ppt

文档编号：1381465
上传时间：2022-10-21
格式：PPT
页数：57
大小：719KB

4人工神经网络.ppt

《4人工神经网络.ppt》由会员分享，可在线阅读，更多相关《4人工神经网络.ppt（57页珍藏版）》请在冰豆网上搜索。

4人工神经网络.ppt

2022/10/21,1,第四章人工神经网络,4.1简介4.2神经网络表示4.3适合神经网络学习的问题4.4感知器4.5多层网络和反向传播算法4.6反向传播算法的说明4.7*举例：

人脸识别4.8*人工神经网络的高级课题小结,2022/10/21,2,4.1简介（1/2）,人工神经网络（ANN）的研究在一定程度上受到了生物学的启发，因为生物的学习系统（如大脑）是由相互连接的神经元（neuron）组成的异常复杂的网络。

由于ANN只是在一定程度上受生物神经系统的启发，所以ANN并未模拟生物神经系统中的很多复杂特征。

ANN是由一系列简单的单元相互密集连接构成的:

每一个单元有一定数量的实值输入（可能是其他单元的输出）每一个单元产生单一的实数值输出（可能成为其他很多单元的输入）。

ANN领域的研究者分为两个团体:

一个团体的目标是使用ANN研究和模拟生物学习过程（本身）另一个团体的目标是获得高效的机器学习算法（应用），不管这种算法是否反映了生物过程。

2022/10/21,3,4.1简介（2/2）,神经网络学习方法对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法。

在模式识别领域，如学习解释复杂的现实世界中的传感器数据，人工神经网络是目前知道的最有效的学习方法。

比如，学习识别手写字符、学习识别口语等。

常用的反向传播算法，使用梯度下降来调节网络参数，以最佳拟合友输入输出对组成的训练数据，在很多实际的问题中取得了惊人的成功。

2022/10/21,4,4.2神经网络表示例：

ALVINN系统,2022/10/21,5,4.3适合神经网络学习的问题,实例是用很多“属性一值”对表示的:

要学习的目标函数是定义在可以用向量描述的实例之上的，向量由预先定义的特征组成。

目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量。

训练数据可能包含错误:

ANN学习算法对于训练数据中的错误有非常好的健壮性。

可容忍长时间的训练:

网络训练算法通常比像决策树学习这样的算法需要更长的训练时间。

人类能否理解学到的目标函数是不重要的:

神经网络方法学习到的权值经常是人类难以解释的。

学到的神经网络比学到的规则难以传达给人类。

2022/10/21,6,4.4感知器（1/2）,一种类型的ANN系统是以感知器的单元为基础的。

如图4-2所示。

感知器以一个实数值向量作为输入，计算这些输入的线性组合，如果结果大于某个阈值，就输出1，否则输出一1。

图4-2感知器,2022/10/21,7,4.4感知器（2/2）,还可以把感知器函数写为：

其中：

学习一个感知器意味着选择权w0,wn的值。

所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合。

2022/10/21,8,4.4.1感知器的表征能力（1/4）,可以把感知器看作是n维实例空间（即点空间）中的超平面决策面：

对于超平面一侧的实例，感知器输出1，对于另一侧的实例输出一1，这个决策超平面方程是:

某些正反样例集合不可能被任一超平面分割。

那些可以被分割的称为线性可分（linearlyseparable）样例集合。

2022/10/21,9,4.4.1感知器的表征能力（2/4）,图4-3两输入感知器表示的决策面a）一组训练样例和一个能正确分类这些样例的感知器决策面。

b）一组非线性可分的训练样例（也就是不能用任一直线正确分类的样例）。

x1和x2是感知器的输入。

“+”表示正例，“一”表示反例。

2022/10/21,10,4.4.1感知器的表征能力（3/4）,单独的感知器可以用来表示很多布尔函数。

假定用1（真）和一1（假）表示布尔值，那么使用一个有两输入的感知器:

实现与函数（AND）的一种方法是设置权w0=一0.8,并且wl=w2=0.5。

实现或函数（OR），那么只要改变它的y阈值w0=一0.3,AND和OR可被看作m-of-n函数的特例:

也就是要使函数输出为真，那么感知器的n个输入中至少m个必须为真:

OR函数对应于m=1AND函数对应于m=n。

任意m-of-n函数可以很容易地用感知器表示，只要设置所有输入的权为同样的值（如0.5），然后据此恰当地设置阈值。

感知器可以表示所有的原子布尔函数:

与、或、与非和或非。

然而，一些布尔函数无法用单一的感知器表示，例如异或函数（XOR），它当且仅当x1x2时输出为1。

4.4.1感知器的表征能力（4/4）,2022/10/21,12,4.4.2感知器训练法则（1/3）,感知器的学习任务是决定一个权向量，它可以使感知器对于给定的训练样例输出正确的1或-1（拟合训练数据）。

两种算法:

感知器法则和delta法则。

这两种算法保证收敛到可接受的假设，在不同的条件下收敛到的假设略有不同。

这两种方法提供了学习多个单元构成的网络的基础。

2022/10/21,13,4.4.2感知器训练法则（2/3）,为了得到可接受的权向量，一种办法是：

从随机的权值开始然后反复地应用这个感知器到每个训练样例只要它误分类样例就修改感知器的权值。

重复这个过程，直到感知器正确分类所有的训练样例。

每一步根据感知器训练法则来修改权值：

wiwi+wiwi（to）xit是当前训练样例的目标输出，o是感知器的输出，是一个正的常数称为学习速率。

学习速率的作用是缓和每一步调整权的程度。

可以证明：

在有限次地使用感知器训练法则后，上面的训练过程会收敛到一个能正确分类所有训练样例的权向量，前提是训练样例线性可分，并且使用了充分小的。

如果数据不是线性可分的，那么不能保证训练过程收敛。

4.4.2感知器训练法则（3/3）,2022/10/21,15,4.4.3梯度下降和delta法则（1/2）,问题提出：

如果训练样本不是线性可分的，那么感知器训练法则不能保证训练过程收敛,delta法则会收敛到目标概念的最佳近似。

delta法则的关键思想是使用梯度下降来搜索可能的权向量的假设空间，以找到最佳拟合训练样例的权向量。

delta法则为反向传播算法提供了基础。

且对于包含多种不同类型的连续参数化假设的假设空间，梯度下降是必须遍历这样的假设空间的所有学习算法的基础。

2022/10/21,16,4.4.3梯度下降和delta法则（2/2）,把delta训练法则理解为训练一个无阈值的感知器，也就是一个线性单元，它的输出o如下：

（感知器：

）为了推导线性单元的权值学习法则，先指定一个度量标准来衡量假设相对于训练样例的训练误差。

一个常用的特别方便的度量标准为:

在一定的条件下，对于给定的全部训练数据使E最小化的假设也就是H中最可能的假设。

2022/10/21,17,1.可视化假设空间（1/2）,图44不同假设的误差,按照E的定义，对于线性单元，这个误差曲面必然是具有单一全局最小值的抛物面。

具体的抛物面形状依赖于具体的训练样例集合。

2022/10/21,18,1.可视化假设空间（2/2）,确定一个使E最小化的权向量:

梯度下降搜索从一个任意的初始权向量开始然后以很小的步伐反复修改这个向量:

每一步都沿误差曲面产生最陡峭下降的方向修改权向量（参见图4-4），继续这个过程,直到得到全局的最小误差点。

2022/10/21,19,2.梯度下降法则的推导（1/4）,可以通过计算E相对向量的每个分量的导数来得到沿误差曲面最陡峭下降的这个方向。

这个向量导数被称为E对于的梯度（gradient），记作：

既然梯度确定了E最陡峭上升的方向，那么梯度下降的训练法则是:

其中：

2022/10/21,20,2.梯度下降法则的推导（2/4）,训练法则也可以写成它的分量形式:

其中：

2022/10/21,21,2.梯度下降法则的推导（3/4）,可以从公式（4.2）中计算E的微分，从而得到组成这个梯度向量的分量。

过程如下：

2022/10/21,22,2.梯度下降法则的推导（4/4）,所以有：

2022/10/21,23,训练线性单元的梯度下降算法（标准梯度下降）,GRADIENT-DESCENT（training-examples,）training-examples中每一个训练样例形式为序偶，其中x是输入值向量，t是目标输出值，是学习速率（例如0.05）初始化每个wi为某个小的随机值遇到终止条件之前，做以下操作:

初始化每个wi为0对于训练样例training-examples中的每个做:

把实例x输人到此单元，计算输出o对于线性单元的每个权wi做wiwi+（to）xi对于线性单元的每个权wi做：

2022/10/21,24,3.梯度下降的随机近似（1/3）（随机梯度下降）,梯度下降是一种重要的通用学习范型。

它是搜索庞大假设空间或无限假设空间的一种策略，它可应用于满足以下条件的任何情况:

（1）假设空间包含连续参数化的假设，例如，一个线性单元的权值;

（2）误差对于这些假设的参数可微。

应用梯度下降的主要实践问题是:

（1）有时收敛过程可能非常慢（它可能需要数千步的梯度下降）;

（2）如果在误差曲面上有多个局部极小值，那么不能保证这个过程会找到全局最小值。

2022/10/21,25,3.梯度下降的随机近似（2/3）（随机梯度下降）,缓解这些困难的一个常见的梯度下降变体被称为增量梯度下降或随机梯度下降。

标准梯度下降训练法则在对D中的所有训练样例求和后计算权值更新。

随机梯度下降的思想是根据每个单独样例的误差增量计算权值更新，得到近似的梯度下降搜索。

修改后的训练法则与公式：

相似，只是在迭代计算每个训练样例时根据下面的公式来更新权值，也称增量法则或最小均方（LMS）法则：

wi（to）xi随梯度下降为每个单独的训练样例d定义不同的误差函数：

训练线性单元的梯度下降算法（随机梯度下降）,GRADIENT-DESCENT（training-examples,）training-examples中每一个训练样例形式为序偶，其中x是输入值向量，t是目标输出值，是学习速率（例如0.05）初始化每个wi为某个小的随机值遇到终止条件之前，做以下操作:

初始化每个wi为0对于训练样例training-examples中的每个做:

把实例x输人到此单元，计算输出o对于线性单元的每个权wiwiwi+（to）xi,2022/10/21,27,标准的梯度下降和随机的梯度下降之间的关键区别是:

标准的梯度下降是在权值更新前对所有样例汇总误差，而随机梯度下降的权值是通过考查每个训练实例来更新的。

在标准的梯度下降中，权值更新的每一步对多个样例求和，这需要更多的计算。

另一方面，标准的梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长（对所有样例误差的累加）。

如果有多个局部极小值，随机的梯度下降有时可能避免陷入这些局部极小值中，因为它使用不同的，而不是，对于每个训练样例沿一个不同的误差曲面有效下降，它依靠这些梯度的平均来近似对整个训练集合的梯度。

这些曲面通常有不同的局部极小值，这使得下降过程不大可能陷入任何一个局部极小值。

在实践中，无论是随机的还是标准的梯度下降方法都被广泛应用。

3.梯度下降的随机近似（3/3）（随机梯度下降）,2022/10/21,28,4.4.4小结,迭代学习感知器权值的两个相似的算法间的关键差异是：

感知器训练法则根据阈值化的感知器输出的误差更新权值，增量法则根据输入的非阈值化线性组合的误差来更新权。

这两个训练法则间的差异还反映在不同的收敛特性上。

感知器训练法则经过有限次的迭代收敛到一个能理想分类训练数据的假设，学习过程收敛快，且与初值无关。