已知bp神经网络隐层节点数有m层,隐层k与输出层中各神经元的非线性输入输出关系为

当前位置: >>
第9章 神经网络模式识别 - 西安电子科技大学
第9章 神经网络模式识别第9章 神经网络模式识别9.1 神经网络的基本要素9.2 前馈神经网络9.3 9.4 9.5 习题 自组织特征映射神经网络 支持向量机 神经网络模式识别 第9章 神经网络模式识别9.1 神经网络的基本要素9.1.1 人工神经元模型人工神经元是神经网络的基本处理单元,是对生物神 经元的简化与模拟,单个的神经元模型如图9-1所示。 第9章 神经网络模式识别图9-1 单个人工神经元模型 第9章 神经网络模式识别人工神经元是一个多输入、单输出的非线性元件,其输入输出关系可表示为? n ? y ? g ? ? ki ui ? ? ? ? i ?1 ?(9-1)其中: u1, u2, …, un是从外部环境或其他神经元传来的输入信 号; k1, k2, …, kn是对应于输入的连接权值; θ是一个阈值; 函数g: R→R为传递函数, 也称为激活函数, 表示神经元的输出。常用的三种基本激活函数如下: ? 第9章 神经网络模式识别(1) 阈值型函数。 常用的阈值型函数有阶跃函数和符 号函数。 阶跃函数的表达式为?1 g ( x) ? ? ?0 x?0 x?0(9-2)符号函数的表达式为?1 g ( x) ? ? ?? 1x?0 x?0(9-3) 第9章 神经网络模式识别(2) 分段线性函数。 函数表达式为??0, ? g ? x ? ? ? x, ?1, ?x ? ?1/ 2 ? 1/ 2 ? x ? 1/ 2 x ? 1/ 2(9-4)(3) Sigmoid函数。 如图9-2所示, 函数表达式为?1 g ( x) ? 1 ? exp( ? ?x)或? ?0(9-5)1 ? exp( ? ?x) g ( x) ? 1 ? exp( ? ?x)? ?0(9-6) 第9章 神经网络模式识别图 9-2?Sigmoid函数示意图? (a) 取值在(0, 1)内; (b) 取值在(-1, 1)内 第9章 神经网络模式识别9.1.2神经网络结构?神经网络是由大量的人工神经元广泛互连而成的网络。 根据网络的拓扑结构不同, 神经网络可分为层次型网络和网状结构网络。 在层次型网络模型中, 神经元按层次结构分成若干层顺序相连。 网状结构网络又可称为相互结合型网络, 在 这种模型中, 任意两个神经元之间都可能存在连接, 网络从某 一个状态开始, 经过若干次的变化, 逐渐趋于某一稳定状态。 常见的层次型网络有前馈网络和反馈网络, 下面简单介绍这两种神经网络的基本结构。 第9章 神经网络模式识别1. 前馈网络?前馈网络中神经元分层排列, 网络由输入层、 中间层(也称隐含层)、 输出层组成, 每一层的各神经元只能接受前一层神经元的输出, 作为自身的输入信号。 根据是否有中间层, 前馈网络分为单层前馈网络和多层前馈网络。 常用的前馈网络有感知器、 BP网络、RBF网络等。 第9章 神经网络模式识别单层前馈网络没有中间层。 图9-3给出了输入、 输 出均为四节点的单层前馈网络。 由于输入层只接受外界 输入, 无任何计算功能, 因此输入层不纳入层数的计算中。“单层”是指具有计算节点的输出层。 第9章 神经网络模式识别图9-3单层前馈神经网络 第9章 神经网络模式识别多层前馈网络有一个或多个隐含层。 隐含层节点的输入和输出都是对网络内部的, 隐含层节点具有计算功能, 所 以隐含层纳入层数的计算中。 多层前馈神经网络的结构如 图9-4 所示。 第9章 神经网络模式识别图9-4多层前馈神经网络 第9章 神经网络模式识别2. 反馈网络?反馈网络和前馈网络的不同在于, 反馈网络的输出层接有反馈环路, 将网络的输出信号回馈到输入层。 一个无隐含 层的反馈网络如图9-5所示, 网络由单层神经元构成, 每个神 经元都将其输出反馈到其他所有神经元的输入。 图9-5中所 描述的结构不存在自反馈环路, 即没有输出神经元将输出反 馈到其本身输入的情况。 单层反馈网络有多种, 其中最典型 的是Hopfield网络。 第9章 神经网络模式识别图9-5 单层反馈神经网络 第9章 神经网络模式识别9.1.3神经网络的学习方法?神经网络信息处理包括学习和执行两个阶段。?(1) 学习阶段也称为训练阶段, 给定训练样本集, 按一定的学习规则调整权系数, 使某种代价函数达到最小, 也就是使权系数收敛到最优值。? (2) 执行阶段是指, 利用学习阶段得到的连接权系数, 对输入信息进行处理, 并产生相应的输出。? 第9章 神经网络模式识别根据学习过程的组织与管理, 神经网络的学习可分为两大类: ? ① 有教师(有监督)学习。 对每一个输入训练样本, 都有 一个期望得到的输出值(也称教师信号), 将它和实际输出值 进行比较, 根据两者之间的差值不断调整网络的连接权值,直到差值减小到预定的要求。 ?② 无教师(无监督、 自组织)学习。 网络的学习完全是 一种自我调整的过程, 不存在教师信号。 输入模式进入网络 后, 网络按照预先设定的某种规则反复地自动调整网络结构 和连接权值, 使网络最终具有模式分类等功能。 第9章 神经网络模式识别假设yj为神经元j的输出, xi为神经元i对神经元j的输入, wij是神经元i与神经元j之间的连接权值, Δwij为连接权值 wij的修正值, 即wij(n+1)=wij(n)+Δwij。 下面介绍8种常用的学 习规则。 第9章 神经网络模式识别1. Hebb学习规则? ?Hebb学习规则是假定两个神经元同时兴奋时, 它们之间的连接强度应该加强。 连接权值的学习规则按下式计算:?wij ? ? y j xi(9-7)其中, η为学习速率参数。 ? 第9章 神经网络模式识别2. 感知器的学习规则?感知器的学习规则属于有教师训练, 连接权值的学习规则按下式计算: ??wij ? ? (d j ? y j ) xi(9-8)其中: dj为神经元j的期望响应; dj-yj为误差信号, 一般用rj 表示, 也称为学习信号。 第9章 神经网络模式识别3. δ学习规则?δ学习规则是由输出值和期望值之间的最小均方误差推导出来的。 均方误差定义为2 1 1? ? E ? ? d j ? y j ? ? ? d j ? g ? ? wkj xk 2 2? ? k?? ?? ??2(9-9)从而?E ? ? ? ? ? d j ? y j ? g '? ? wkj xk ? xi ?wij ? k ?(9-10) 第9章 神经网络模式识别要使期望误差最小, 要求在负梯度方向上改变, 所以取?? ?wij ? ? ? d j ? y j ? g ' ? ? wkj xk ? k? ? xi ?(9-11)其中, η为学习速率参数。 一般地, 学习速率参数η选得很小。 ? 4. Widrow-Hoff学习规则? ? Widrow-Hoff 学习规则也是使期望输出值和实际输出值之间平方误差最小。 连接权值的学习规则按下式计算: ?? 第9章 神经网络模式识别rj ? d j ? y j(9-12)?wij ? ? rj xi该规则可以看做δ规则的特殊情况。 ? 5. 相关学习规则? 相关学习规则为?(9-13)?wij ? ? d j xi(9-14) 第9章 神经网络模式识别这是Hebb规则的特殊情况, 但相关规则是有教师的, 要求权初始化wij=0。6. Winner-Take-All(胜者为王)学习规则? 第m层中有一个神经元有最大响应, 这个神经元被宣布为 获胜者, 则???wim ? ? ? xi ? wim ?其中, α是小的学习常数。(9-15) 第9章 神经网络模式识别7.内星和外星学习规则内星和外星学习规则按下式计算:(内星训练法)wij ? n ? 1? ? wij ? n ? ? ? ? xi ? wij ? n ? ? ? ?(外星训练法)(9-16)wij ? n ? 1? ? wij ? n ? ? ? ? y j ? wij ? n ? ? ? ?(9-17) 第9章 神经网络模式识别8. 梯度下降算法?梯度下降算法的学习规则按下式计算: ??E ?wij ? ?? ?wij(9-18)其中, E为误差函数。 第9章 神经网络模式识别9.2 前馈神经网络?9.2.1 感知器?1. 单层感知器网络?如图9-6所示, 单层感知器网络只含有输入层和输出层, 输入层不涉及计算。 输入模式为n维矢量x=(x1, x2, …, xn)T, 此时, 输入层包含n个节点。 输出模式为m个类别ω1, ω2, …, ωm, 输 出层有m个输出节点y1, y2, …, ym, 其中, 每个输出节点对应一 个模式类。 输入节点i和输出节点j的连接权为wij(i=1, 2, …,j=1, 2, …, m)。 输出层第j个神经元的输出为?? 第9章 神经网络模式识别y j ? f (? wij xi ? ? j ) ? f (u j )i ?1n(9-19)其中, 传递函数 f 采用符号函数。 若 yj=1, 则将输入模式x判 属ωj类; 若yj=-1, 则输入模式x不属于ωj类。 感知器的学习 规则为式(9-8)。 第9章 神经网络模式识别图 9-6单层感知器网络结构图 第9章 神经网络模式识别2. 多层感知器网络? 单层感知器网络只能解决线性可分问题。 在单层感知 器网络的输入层和输出层之间加入一层或多层感知器单元作 为隐含层, 就构成了多层感知器网络。 多层感知器网络可以 解决线性不可分的输入向量的分类问题。 第9章 神经网络模式识别9.2.2?BP网络?BP网络是采用误差反向传播(Back Propagation, BP)算法的多层前馈网络, 其中, 神经元的传递函数为S型函数, 网络的 输入和输出是一种非线性映射关系。 ? BP网络的学习规则采用梯度下降算法。 在网络学习过 程中, 把输出层节点的期望输出(目标输出)与实际输出(计算输出)的均方误差, 逐层向输入层反向传播, 分配给各连接节点, 并计算出各连接节点的参考误差, 在此基础上调整各连接 权值, 使得网络的期望输出与实际输出的均方误差达到最小。 ? 第9章 神经网络模式识别第j个样本输入到网络时, 均方误差为1 n0 2 1 n0 ? E j ? ? ? (ei , j ) ? ? ei , j ? ? ( yi , j ? yi , j ) 2 2 i ?1 2 i ?1 i ?1n0(9-20)其中: n0为输出层的节点数; ei,j表示输入第j个样本时, 输出层 第i个节点的期望输出值yi,j与实际输出值? ei , j ? yi , j ? yi , j? yi , j 间的差值, 即。 第9章 神经网络模式识别连接权的调整主要有逐个处理和成批处理两种方法。逐个处理, 是指每输入一个样本就调整一次连接权。 成批处 理, 是指一次性输入所有训练样本, 计算总误差, 然后调整连 接权。 ? 采用逐个处理的方法, 并根据误差的负梯度修改连接权 值, ?BP网络的学习规则为?( ( ( ? Wpr,k) ?1 ? Wpr,k) ? ?Wpr,k) ? ?Ek ? (r ) ? ?Wp ,k ? ?? ?W( r ) p ,k ?(9-21) 第9章 神经网络模式识别其中: k为迭代次数; W(r)p,k表示第r层(从第一个隐含层开始r=1,输入层r=0)的连接权阵W(r)的第p行, 即W(r)p,k是由第r-1层各节点到第r层的第p个节点所有连接权值组成的一个行向量; η为学习步长, 0&η&1; Ek为第k次迭代的均方误差。 ?设BP网络有l个隐含层, 由神经元的输入与输出关系, 有? ? yi ,k ? f 0 ( yi ,k ) ? f 0 (? w j ,i h (j ?k) ) ,j ?1n?(9-22) 第9章 神经网络模式识别? 其中: ? f 0 ( yi ,k ) ? f 0 ( w j ,i h (j ?k) ) 为输出层的传递函数; yi ,k 表示最后一个隐含 ? yi , k ,j ?1?n?层各节点到输出层第i个节点的加权和; nl表示最后一个隐含层的节点数; wj,i表示最后一个隐含层的第j个节点和输出 层的第i个节点之间的权值;? h (j ?k) 表示第l隐含层的第j个节点 ,的输出。 下面讨论各层连接权阵的计算。 ? 第9章 神经网络模式识别1. 输出层(第l+1层)?输出层连接权阵W(l+1)的第p行W(l+1)p,k=(w1,p, w2,p, …, wnl,p)的调整方程为??W( ? ?1) p ,k n0 ?? (ei ,k ) ?Ek ? ?? ? ?? ? ( ? ?1) ( ? ?1) ?Wp ,k i ?1 ?Wp , k?? (ei ,k ) ?f 0 ( y p ,k ) ? y p ,k ? ?? ? ? ? ( ? ? y p ,k ? y p ,k ?Wp?,k?1) i ?1n0?? (e p ,k ) ?f 0 ( y p ,k ) ? y p ,k ? ?? ? ? ( ? ? y p ,k ? y p ,k ?Wp?k?1) , ? ? ? e p ,k f 0' ( y p ,k ) h (k? )(9-23) 第9章 神经网络模式识别其中? ? (p?,k 1) ? e p ,k f 0' ( y p ,k )(9-24)为第k次迭代中输出的局部误差, 取决于输出误差ep,k和输出层? 传递函数的偏导 f 0' ( y p ,k ) ; ? (p?,k 1) ? e p ,k?( ?( ?( ? h (k? ) ? [h1,?k) , h2,?k) ,? , hn??,)k ]为第l隐含层各神经元的输出。 第9章 神经网络模式识别2. 隐含层(第r层, r=1, 2, …, l)? 第r-1层各节点到第r(r=1, 2, …, l)层第p个节点的加权和为??) ? h p(,rk) ? ? w(jr, p h (j rk?1) , j ?1 nr ?1(9-25)其中: nr-1表示第r-1隐含层的节点数;) w(jr, p 表示第r-1隐? 含层的第j个节点和第r隐含层的第p个节点之间的权值; h (j rk?1) ,表示第r-1隐含层的第j个节点的输出。 ? 第9章 神经网络模式识别对第r(r=1,2,…,l)隐含层, 连接权阵W(r)的第p行( ( ( ) ( Wpr,k) ? [ w1,rp) , w2,r p ,? , wnrr?)1 , p ]的调整方程为( ?Wpr,k)(r ) ?Ek ?Ek ?hp ,k ?Ek ? ( r ?1) ? ?? ? ?? ( r ) ? ? ?? ( r ) h k (r ) (r ) ?Wp ,k ?hp ,k ?Wp ,k ?hp ,k ) ? ? ? ? (pr,k h(kr ?1)(9-26) 第9章 神经网络模式识别其中, ?(r ) p ,k?E k ? ? ( r ) 为第k次迭代中第r隐含层的局部误差; ?h p ,k?( ?( ? ? h (kr ?1) ? [h1,rk?1) , h2,rk?1) ,? , hn(rr??1) ] 为r-1第隐层各神经元的输出。 1 ,k下面分析) ? (pr,k???Ek( ?h p rk) ,的迭代方法:) ? (pr,k(r ) ?(r ) ?Ek ?Ek ?h p ,k ?Ek ?f r (h p ,k ) ?Ek ? ? (r ) ? ? (r ) ? (r ) ? ? (r ) ? ? ? ( r ) ? f r' (h p(,rk) ) ? ? ? ?h p ,k ?h p(,rk) ?h p ,k ?h p ,k ?h p ,k ?h p ,k(9-27) 第9章 神经网络模式识别其中: fr(? )为第r隐含层的传递函数; f′r(? r(? )为f )的导数。 BP网络的误差反向传播为??( r ?1) ?Ek 1 nr ?1 ?Ek ?hi ,k 1 nr ?1 ( r ?1) ( r ?1) ? ? ? ? ?? i ,k ? wp ,i ? ( r ) nr ?1 ? ?hi ,(kr ?1) ?h ( r ) ? nr ?1 i ?1 ?hp ,k i ?1 p ,k(9-28)因此,) ? (pr,k1 nr ?1 ( r ?1) ( r ?1) ? f r' (hp(,rk) ) ? ? ? i , k ? w p ,i nr ?1 i ?1? r ? 1, 2,? , ? ?(9-29) 第9章 神经网络模式识别逐个处理的BP算法训练步骤如下: ?(1) 初始化。 根据实际问题, 设计网络连接结构, 例如, 输入变量和输出变量个数、 隐含的层数、 各层神经元的个数, 并随机设置所有的连接权值为任意小值。 假设输入变量为n 个, 输出变量为m个, 每个训练样本的形式为(x1, x2, …, y1, y2, …, ym), 其中, y=(y1, y2, …, ym)是输入为x=(x1, x2, …, xn)时 的期望输出。 第9章 神经网络模式识别(2) 输入一个样本, 用现有的权值计算网络中各神经元的实际输出。 ? (3) 利用式(9-24)和式(9-29)计算局部误差ε(i)p,k(i=1, 2, …, l, l+1), l为隐含层的个数。 ? (4) 根据递推式(9-23)和式(9-26)计算ΔW(i)p,k(i=1, 2, …, l, l+1), 并更新相应的权值。 有时为了加快网络的收敛速度, 考虑 过去权值变化的影响, 使权值变得平滑些, 可增加一个动量项, 即?( ( ( ? ?Wpi,)k ? ? ?Wpi,)k ?1 ? ? ? pi,)k h (ki ?1)0 ?? ?1(9-30) 第9章 神经网络模式识别其中, α称为动量常数。(5) 输入另一样本, 转步骤(2)。 ?训练样本是随机输入的, 并且要求把训练集中所有样本都加 到网络上, 直到网络收敛且均方误差小于给定的阈值, 才结束训 练。 此时, 固定权值, 网络就构成了一个模式分类器。 成批处理时, 将全部N个样本依次输入, 累加N个输出误差后对连接权进行一次调整, 连接权矩阵各行的调整方程可表示为??W(r ) p? ? ?Wk ?1N(r ) p ,k)? ? ? ? ? (pr,k h(kr ?1) k ?1N? r ? 1, 2,?, ?, ? ? 1?(9-31) 第9章 神经网络模式识别【例 9.1】 隐含层为一层的BP网络的结构如图9-7所示。网络共分为三层: i为输入层节点, j为隐含层节点, k为输出层节点。 隐含层节点的激活函数采用Sigmoid函数:f ( x) ?定义网络的误差函数为E?1 1 ? e? x1 ?d k ? y k ?2 ? 2 k其中: dk表示网络的期望输出; yk表示网络的实际输出。 第9章 神经网络模式识别图 9-7一个隐含层的BP网络的结构图 第9章 神经网络模式识别各层连接权值修正公式如下: ?(1) 隐含层与输出层:??w jk (t ? 1) ? w jk (t ) ? ?? k x?j , ? k ? yk (1 ? yk )(d k ? yk )(2)输入层与隐含层wij (t ? 1) ? wij (t ) ? ?? j xi ,? j ? x?j (1 ? x?j )?? k wjkk其中: η为学习率; δk、 δj为修正值; xj′为隐含层节点j的输出, 即?? 第9章 神经网络模式识别x?j ? f (u j ) ?1 1? e?u j?1 1? e? ( ?wij xi ?? j )BP学习算法是神经网络学习中最常用的学习方法之一, BP 网络被广泛应用于模式识别、 函数逼近、 数据压缩等多个方 面。 但是, BP算法存在一些不足, 例如, 隐含层数和隐含层神经 元数目通常是通过实验确定的, 缺乏理论依据; 有可能收敛到一 个局部极小点, 得到局部最优解; 学习算法的收敛速度较慢。 第9章 神经网络模式识别9.2.3径向基函数网络?径向基函数(Radial Basis Function, RBF)网络的结构与BP 网络类似, 它是一个三层前馈网络, 包含1个输入层、 1个隐含 层和1个输出层, 其结构如图9-8所示。 ? 第9章 神经网络模式识别图9-8RBF网络结构 第9章 神经网络模式识别在RBF神经网络中, 隐含层单元提供了一系列“函数”, 这些函数就称作为径向基函数, 它是关于中心点对称的非线性 函数。 当输入模式(向量)传输到隐含层时, 这些径向基函数构 成了输入模式的一个 “基”。 当RBF的中心点确定后, 映射 关系就确定了, 将输入向量直接映射到隐含层空间, 其中不需 要连接权。 ? 第9章 神经网络模式识别隐含层空间到输出层空间为线性映射, 也就是说, 网络的输出是隐含层单元输出的线性加权和: ??y j ? ? wij zi ? b ji ?1Lj ? 1, 2,?, m(9-32)其中: wij为隐含层中节点i到输出层节点j的连接权值, 有监督学 习时, 可利用δ学习规则反向修改权值; L为径向基函数的个数,即隐含层节点数; bj为输出层节点j的偏移(阈值); zi为隐含层中节点i的输出: ? 第9章 神经网络模式识别zi ? ?i ? x ?(i=1, 2, …, L)(9-33)这里, x=(x1, x2, …, xn)T∈Rn为输入信号; φi为一个正的径向基 函数, 其中心矢量为ui∈Rn, 分布宽度为αi&0(形状参数)。 BF函数有多种形式, 例如:(1) 高斯核, 其函数表达式为?? (x ? u i )T (x ? u i ) ? zi ? exp ? ? ? 2? i2 ? ?(i=1, 1, 2,?L) j ? 2, …, , L(9-34) 第9章 神经网络模式识别?(2) 三角核, 其函数表达式为??1 ? ? 1 x ? ui ? ? ?1 ? zi ? ?? i ? ? i ? ?0 ?x ? ui ? ? i x ? ui ? ? i(i=1, 2, …, L) (9-35)(3) 双指数核, 其函数表达式为?? x ? ui ? 1 zi ? exp ? ? ? 2? i ?i ? ?(i=1, 2, …, L)(9-36) 第9章 神经网络模式识别最常用的RBF函数形式是高斯核函数。 网络学习时, RBF函数的中心矢量ui和形状参数αi也参与学习修正。 中心矢量修 正的方法主要有自组织特征映射方法和K均值聚类方法。 RBF 函数的形状参数αi应根据样本的特性自适应地选择。 若αi取得 较大, 则隐含层中节点i能感受较大范围内的模式, 容错性好, 但 局部性差; 若αi取得较小, 则容错性差, 但局部性好。? 第9章 神经网络模式识别理论上而言, RBF网络和BP网络一样可近似任何的连续非线性函数, 二者的主要差别在于各使用不同的传递函数。BP网络中隐含层单元的传递函数一般为非线性函数, RBF网 络隐含层单元的传递函数是关于中心对称的径向基函数。? BP网络各层单元间通过权连接, RBF网络输入层和隐含层间 为直接连接, 隐含层到输出层通过权连接。 第9章 神经网络模式识别9.3 自组织特征映射神经网络?生理学研究表明, 人脑中不同的细胞其作用并不相同, 处于 空间不同位置的脑细胞区域有各自的分工, 控制着人体不同部 位的运动。 类似地, 处于不同区域的脑细胞对来自某一方面的 或特定的刺激信号的敏感程度也不同。 某一外界信息所引起的兴奋刺激并不只针对某一个神经细胞, 而是针对以某一个神经细胞为中心的一个区域内各细胞的兴奋刺激, 并且响应强度 在区域中心最大, 随着与中心距离的增大, 强度逐渐减弱, 远离中心的神经元反而还要受到抑制。 这种特定细胞对特定信号的特别反应能力是由后来的经历和训练形成的。 第9章 神经网络模式识别9.3.1网络结构?自组织特征映射神经网络由输入层和输出层组成, 输出层 也称为竞争层。 其网络结构如图9-9所示。 输入层为输入模 式的一维阵列, 其节点数为输入模式的维数。 输入层和输出 层神经元间为全互连方式, 即所有输入层节点到所有输出层节 点都有权值连接。 输出层神经元按二维阵列形式排列, 且相互 间也可能存在局部连接, 每个神经元代表一种输入样本。 第9章 神经网络模式识别图 9-9自组织特征映射网络结构图 第9章 神经网络模式识别对于给定的输入模式, 网络在学习过程中不断调整连接权 值, 形成兴奋中心神经元(获胜神经元)j*。 在神经元j*的邻域NEj*内的神经元都在不同程度上得到兴奋, 而在NEj*以外的神经元都被抑制。 这个邻域NEj*可以是任意形状, 如正方形、六边形。 区域NEj*的大小是时间t的函数, 用NEj*(t)表示。 随着时间t的增大, NEj*(t)的面积逐渐减小, 最后只剩下一组神经元或一个神经元, 反映了某一类输入模式的特性。 采用正方形的邻域形状图如图9-10所示。 第9章 神经网络模式识别图 9-10不同时刻特征映射的拓扑邻域(t0&t1&t2) 第9章 神经网络模式识别9.3.2自组织特征映射算法?设自组织特征映射网络的输入模式x=(x1, x2, …, xn)T, 输出 层每个节点(神经元)对应一个权向量Wj=(w1j, w2j, …, wnj)T, wij 是输入节点i到输出节点j的连接权值。 输入一个模式x时, 将 其和输出层每个节点的权向量都进行比较, 然后对距离最近的 节点及其邻域中的节点的权向量进行修正。 第9章 神经网络模式识别Kohonen给出了自组织特征映射算法, 具体过程如下: ?(1) 初始化权值。 初始化从n个输入节点到m个输出节点的权值, 取值为小的随机数, 设定邻域的半径的初始值。 ?(2) 提交t时刻的输入模式: x(t)=(x1(t), x2(t), …, xn(t))T。? (3) 计算输入模式到所有输出节点的距离: ??nd j ? ? ( xi (t ) ? wij (t )) 2i ?1j ? 1, 2, ?, m(9-37) 第9章 神经网络模式识别其中: xi(t)是t时刻输入节点i的输入; wij(t)是t时刻输入节点i到输出节点j的连接权值; dj为输入模式到输出节点j的距离。? (4) 选择具有最小距离的输出节点j*:j * ? arg min d j1? j ? m(9-38)(5) 更新节点j*及其邻域NEj*(t)中的节点的权值:wij (t ? 1) ? wij (t ) ? ? (t )( xi (t ) ? wij (t ))(1≤i≤n, j∈NEj*(t)) (9-39) 第9章 神经网络模式识别其中: η(t)为增益项, 0&η(t)&1, η(t)是时间t的递减函数; NEj*(t)为节点j*的邻域。 ? (6) 若还有输入样本数据, 令t=t+1, 则返回到步骤(2)。 在学习过程中, 邻域在初始时可选大些, 然后逐步收 缩; 学习系数η(t)在初始时可取接近于1.0的常数, 然后逐 渐变小。 第9章 神经网络模式识别SOFM网络中, 输出层各神经元的连接权向量的空间分布能够准确反映输入模式空间的概率分布, 这就是SOFM网络的自组织能力。 因此, 可以利用SOFM网络对未知概率分布模式进行学习, 由网络的连接权向量的空间分布获得输入模式的概率分布。 第9章 神经网络模式识别自组织特征映射算法属于非监督学习, SOFM网络也可用于有监督的学习。 当已知类别的学习模式x输入网络时, 仍按式(9-38)选择获胜神经元j*。 如果获胜神经元是输入模式的正确类别, 则将获胜神经元的连接权向量向x靠拢的方向调整, 否则向反方向调整。 调整方程为wij ? (t ? 1) ? wij ? (t ) ? ? (t )( xi (t ) ? wij ? (t ))(j*是正确类别) (j*不是正确类别)wij ? (t ? 1) ? wij ? (t ) ? ? (t )( xi (t ) ? wij ? (t )) 第9章 神经网络模式识别9.4 支 持 向 量 机?统计学习理论是一种建立在小样本统计学上的理论。 小 样本统计学理论指的是依据有限样本进行统计推断。 支持向量机(Support Vector Machine, SVM)是一种基于统计学习理论的机器学习算法, 建立在统计学习理论的结构风险最小化原则 之上。 针对两类分类问题, SVM在高维空间中寻找一个超平 面作为两类的分割, 以保证最小的分类错误率。 少数与超平面 最接近的那些训练样本称为支持向量, 它们决定了推广性能。SVM有三个关键的概念: 分类间隔(margin)、 对偶(duality)以及核。 ? 第9章 神经网络模式识别9.4.1线性可分情况?SVM从线性可分情况下的最优分类发展而来, 如图9-11所 示。 方点和圆点各代表一类样本, H为分类线, H1和H2分别为 过两类中距离分类线最近的样本且平行于分类线的直线, 它们 之间的距离称为分类间隔。 最优分类线就是要求分类线不但 能将两类样本正确分开, 而且使分类间隔最大。 ? 第9章 神经网络模式识别图 9-11 线性可分情况下的最优分类 第9章 神经网络模式识别假设存在训练样本(xi, yi), i=1, 2, …, N, xi∈Rn, yi∈{-1, +1}在线性可分情况下会有一个超平面使得这两类样本完全分开。n维空间中线性判别函数的一般形式为f(x)=〈w, x〉+b, 则超平面描述为?? w, x ? ?b ? 0(9-40)其中, 〈w, x〉是n维向量空间中的两个向量的内积, w是超平 面的法向量。 判别函数满足以下条件: ?? 第9章 神经网络模式识别? w, xi ? ?b ? 0? w, xi ? ?b ? 0(yi=+1) (yi=-1)将判别函数进行归一化, 使两类所有样本都满足|f(x)|≥1, 则判 别函数变为yi (? w, xi ? ?b) ? 1 ? 0 (i=1, 2, …, N)此时样本点到超平面的最小距离为 1/ w 使 2/ w(9-41),分类间隔等于使最大等价于使‖w‖2 最小。 满足式(9-41)并且 第9章 神经网络模式识别使‖w‖2最小的分界面称为最优分界面, H1和H2上的训练样本点称为支持向量。统计学习理论指出: 在n维空间中, 设样本分布在一个半径 为R的超球形范围内, 则满足条件‖w‖≤A的正则超平面构成的 指示函数集f(x, w, b)=sgn{〈w, x〉+b}(sgn()为符号函数)的? VC维(Vapnik Chervonenkis Dimension)h满足下式表明的界: 第9章 神经网络模式识别h ? min(| R 2 A2 |, N ) ? 1因此, 使‖w‖2最小就变成了求下面的函数解: 最小化:(9-42)1 V ( w , b) ? ? w , w ? 2使满足:(9-43)?a yi ?1 iNi?0ai ? 0, i ? 1, 2,?, N(9-44) 第9章 神经网络模式识别利用Lagrange优化方法可以把上面问题转化为其对偶问题:1 最大化:W (a) ? ? ai ? ? ai a j yi y j ? xi , x j ? 2 i, j i ?1使满足:N(9-45)?a yi ?1 iNi?0ai ? 0, i ? 1, 2,?, N(9-46)其中, ai为每个样本对应的Lagrange乘子。 这是一个在等式约束和不等式约束下的凸二次优化问题, 存在唯一解, 且解中只有一部分ai不为零, 对应的样本就是支持向量。 第9章 神经网络模式识别此时最优分类函数为?f (x) ? sgn{? w, x ? ?b} ? sgn{? ai yi ? xi , x ? ?b}i ?1N(9-47) 上式求和计算取ai中不为零的值, b可以利用任一支持向量满 足式(9-41)中的等号求得。 第9章 神经网络模式识别9.4.2线性不可分情况?对于线性不可分情况, 可以在条件中增加松弛项ξi≥0, 约 束条件为yi(〈w, xi〉+b)≥1-ξi, 其中ξi≥0, i=1, 2, …, N, 此时目 标函数变为N 1 ?( w, ?i ) ? ? w, w ? ?C ? ?i 2 i ?1(9-48)其中, C为可调参数, 表示对错误的惩罚程度, C越大惩罚越重。 上述问题可描述为 第9章 神经网络模式识别最大化:1 N N W (a) ? ? ai ? ?? yi y j ai a j ? xi , x j ? 2 i ?1 j ?1 i ?1N(9-49)使满足:?yai ?1Ni i? 0, 0 ? ai ? C , i ? 1, 2,? , N(9-50) 第9章 神经网络模式识别非线性SVM问题的基本思想是: 通过非线性变换将非线性问题转换为某个高维空间中的线性问题, 在变换空间求最优分类面。 一般地, 新空间维数要高于原空间维数。 这种映射可表 示为: 将x作变换Φ: Rn→H(H为某个高维特征空间)??x ? ?(x) ? (?1 (x), ? 2 (x),?, ?i (x),?)T(9-51)其中, Φi(x)是实函数。 则可以建立在新空间中的优化超平面: ? (9-52) ? w, ?(x) ? ?b ? 0 第9章 神经网络模式识别注意到, 对偶问题中只涉及训练样本之间的内积运算〈xi,xj〉, 这种内积运算是可以用原空间中的函数实现的, 甚至不需要知道变换的形式。 根据泛函的有关理论, 只要一种核函数K(xi, xj)满足Mercer条件, 它就对应某一变换空间中的内积。? 定义非线性映射Φ: Rn→H, H为高维Hilbert空间, 核函数K(x, y)=〈Φ(x), Φ(y)〉, 那么最大间隔非线性支持向量机的目标函数就变为? 第9章 神经网络模式识别1 N N W (a) ? ? ai ? ?? yi y j ai a j K (xi , x j ) 2 i ?1 j ?1 i ?1相应的分类函数为?N(9-53)f (x) ? sgn[? w, ?(x) ? ?b] ? sgn[? yi ai K (xi , x) ? b]i ?1N(9-54) 非线性支持向量机的最优化问题为 第9章 神经网络模式识别最大化:1 N N W (a) ? ? ai ? ?? yi y j ai a j K (xi , x j ) 2 i ?1 j ?1 i ?1使满足:N(9-55)?yai ?1Ni i? 0, 0 ? ai ? C , i ? 1, 2,? , N(9-56) 第9章 神经网络模式识别采用不同的内积核函数将形成不同的算法, 常用的核函 数有以下几种: ? (1) 多项式函数, 表达式为??K (x, xi ) ? (? x, xi ? ?c) q(c≥0)(9-57)此时, 支持向量机是一个q阶多项式学习机器。 当c&0时, 称 它为非齐次多项式核; 当c=0时, 称为齐次多项式核。 ? (2) 高斯径向基函数(RBF), 表达式为?? 第9章 神经网络模式识别2? ? 1 K (x, xi ) ? exp ? ? 2 x ? xi ? ? 2? ?(9-58)(3) ?Sigmoid函数, 表达式为?K (x, xi ) ? tanh[ ? ? x, xi ? ?c](9-59)其中, μ&0, c&0。? 第9章 神经网络模式识别9.5 神经网络模式识别?人工神经网络由大量结构和功能简单的处理单元广泛互连组成, 用以模拟人类大脑神经网络的结构和功能。 模式识别的研究目标是利用计算机实现人类的识别能力, 而人对外界感知的主要生理基础就是神经系统, 因此, 根据人脑生理结构构造而成的人工神经网络系统具有模式识别的理论和结构基础。 事 实上, 模式识别是神经网络理论应用最成功的一个方面。 目前, 被广泛用于模式识别的神经网络模型包括感知器、 BP网络、 径向基函数网络、 自组织特征映射网络和支持向量机等。 第9章 神经网络模式识别9.5.1神经网络模式识别与统计模式识别?神经网络模式识别与统计模式识别是模式识别的两个重要 分支, 它们之间关系密切。 一方面, 统计模式识别为神经网络 分类器设计提供指导; 另一方面, 神经网络分类器可以提高统 计分类器的性能。 ? 传统的统计模式识别包括Bayes分类器、 线性判别函数、 分段线性判别函数、 近邻分类器、 特征提取和聚类分析等内 容。 这些内容均可以找到相应的神经网络实现方法。 例如, 单层感知器网络实际上就是一种线性分类器, 多层感知器网络则可看做非线性分类器; 自组织特征映射网络可以较好地完成聚 类的任务; 神经网络的隐含层具有特征提取的功能。 第9章 神经网络模式识别当表征模式的不是特征向量, 而是包含特征的原始数值时,统计模式识别必须解决特征提取和选择问题。 例如, 图像识别 中, 需要从图像点阵中提取图像特征; 语音识别中, 需要从采样 量化后得到的原始数据中提取语音特征。 统计模式识别的性能 对特征提取和选择具有很大的依赖性。 ? 神经网络具有自学习功能, 网络的隐含层具有特征提取的 功能, 此外, 神经网络的并行结构使得它对输入模式信息的不完备或特征的缺损不太敏感。 因此, 神经网络分类器在背景噪声统计特性未知的情况下, 性能优于统计模式识别, 并且具有更好 的推广性。 ? 第9章 神经网络模式识别9.5.2神经网络模式识别的基本思想?神经网络用于模式识别时, 输入神经元用来输入模式或表征模式的特征向量, 输出神经元的输出值对应分类结果。 通常,神经网络模式识别分为训练和识别两个阶段。 ?(1) 训练阶段根据训练样本集, 按一定的学习规则调整权系数, 使权系数收敛到最优值, 得到神经网络分类器。?(2) 识别阶段利用训练阶段得到的神经网络分类器, 对输入模式进行识别, 生成分类结果。 第9章 神经网络模式识别下面以前馈神经网络为例, 介绍神经网络模式识别方法, 具体的应用可以参见后续各章。 在各种人工神经网络模型中, 前馈神经网络在模式识别领域应用较多, 特别是BP网络和RBF网络。 前馈网络用于模式识别时网络输入是表征模式的特征向量, 每一个输入节点对应样本的一个特征, 网络的输出值对应分类结果, 根据输出节点的数量一般可分为多输出型和单输出型两种。 ? 第9章 神经网络模式识别1. 多输出型?在训练阶段, 如果输入训练样本属于第i类, 那么, 对应于第一种方式, 令第i个输出节点的期望输出为1, 而其余输出节点的 期望输出均设为0; 对应于第二种方式, 训练时的期望输出应为 第i类对应的编码。 在识别阶段, 当一个未知类别的样本输入时, 检查输出层各节点的输出值, 根据网络选择的输出方式判定样 本所属的类别。 对于第一种方式, 若输出值最大的节点与其他 节点输出的差距较小(如小于某个阈值), 则可以做出拒绝决策。 第9章 神经网络模式识别2. 单输出型?单输出型方式, 即网络的输出层只有一个神经元。 一个单输出型网络只能判断输入样本是否属于某个类别, 对每个类别 都要构建一个网络, 且要对每个网络分别进行训练。 ? 在训练阶段, 将网络对应类别的样本的期望输出设为1, 而 把属于其他类别的样本的期望输出设为0。 在识别阶段, 将未 知类别的样本输入到每一个网络, 如果某个网络的输出接近1或 大于某个阈值, 则判断该样本属于这个网络对应的类别; 如果多 个网络的输出均大于阈值, 则可以将样本判属具有最大输出值的网络所对应的类别, 或者作出拒绝决策; 当所有网络的输出均小于阈值时, 也可以采取类似的决策方法。 ? 第9章 神经网络模式识别习9-1 9-2题?有教师的学习和无教师的学习有什么区别?? 分析多层感知器网络比单层感知器网络具有更强的分类能力, 能解决非线性可分问题。 ? 9-3 网络。 ? 试设计用于分类识别、 函数逼近等应用目的的BP 第9章 神经网络模式识别9-4对两类线性可分问题, 将线性判别函数f(x)=〈w, x〉+b进行归一化, 使两类所有样本都满足|f(x)|≥1, 证明此时样本 点到超平面的最小距离为1/‖w‖。 ? 9-5 前馈网络用于模式识别时, 多输出型和单输出型的基本思想是什么?
更多搜索:
All rights reserved Powered by
文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 神经网络隐藏层的作用 的文章

 

随机推荐