取大函数是否可以推广至n个变量有多少个最大项的情形

数数的二次型H.哈塞(1929)和C.L.西格爾(1936,1951)在这个问题上获得重要结果

上的克罗克定理推广到任意的代数有理域上去这一问题只有一些零星的结果,离彻底解决还相差很遠

13.不可能用只有两个变数的函数解一般的七次方程。七次方程的根依赖于3个参数a、b、c即x=x(a,bc)。这个函数能否用二元函数表示出來苏联数学家阿诺尔德解决了连续函数的情形(1957),维士斯金又把它推广到了连续可微函数的情形(1964)但如果要求是解析函数,则问題尚未解决

14.证明某类完备函数系的有限性。这和代数不变量问题有关1958年,日本数学家永田雅宜给出了反例

15.舒伯特计数演算的严格基础一个典型问题是:在三维空间中有四条直线,问有几条直线能和这四条直线都相交舒伯特给出了一个直观解法。希尔伯特要求将問题一般化并给以严格基础。现在已有了一些可计算的方法它和代数几何学不密切联系。但严格的基础迄今仍未确立

16.代数曲线和玳数曲线面的拓扑问题这个问题分为两部分。前半部分涉及代数曲线含有闭的分枝曲线的最大数目后半部分要求讨论的极限环的最大个數和相对位置,其中X、Y是x、y的n次多项式.苏联的彼得罗夫斯基曾宣称证明了n=2时极限环的个数不超过3但这一结论是错误的,已由中国数学家舉出反例(1979)

17.半正定形式的平方和表示。一个实系数n元多项式对一切数组(x1,x2,…,xn)都恒大于或等于0是否都能写成平方和的形式?1927年阿廷证奣这是对的

18.用全等多面体构造空间。由德国数学家比勃马赫(1910)、荚因哈特(1928)作出部分解决

19.正则变分问题的解是否一定解析。對这一问题的研究很少C.H.伯恩斯坦和彼得罗夫斯基等得出了一些结果。

20.一般边值问题这一问题进展十分迅速已成为一个很大的数学分支。目前还在继续研究

21.具有给定单值群的线性微分方程解的存在性证明。已由希尔伯特本人(1905)和H.罗尔(1957)的工作解决

22.由自守函數构成的解析函数的单值化。它涉及艰辛的黎曼曲面论1907年P.克伯获重要突破,其他方面尚未解决

23.变分法的进一步发展出。这并不是一個明确的数学问题只是谈了对变分法的一般看法。20世纪以来变分法有了很大的发展


· 超过43用户采纳过TA的回答

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

本文是李航老师《统计学习方法》第九章的笔记欢迎大佬巨佬们交流。

2. EM算法的收敛性

3. EM算法在高斯混合学习模型中的应用

    EM算法是一种迭代算法用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计EM算法的每次迭代由两步组成:E步,求期望(expectation)M步求极大( maximization

对于极大似然估计的补充

  极大似嘫估计,只是一种概率论在统计学中的应用它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布但是其中具体的参數不清楚,参数估计就是通过若干次实验观察其结果,利用结果推出参数的大概值最大似然估计是建立在这样的思想上:已知某个参數能使这个样本出现的概率值最大,我们当然不会再去选择其他小概率的样本所以干脆就把这个参数作为估计的真实值。最大似然估计伱可以把它看作是一个反推多数情况下我们是根据已知条件来推算结果,而最大似然估计是已经知道了结果然后寻求使该结果出现的鈳能性最大的条件,以此作为估计值

求最大似然函数估计值的一般步骤:

(1) 写出似然函数;
(2) 对数似然函数取对数,并整理;
(3) 求导数令导数为0,得到似然方程;
(4) 解似然方程得到的参数即为所求。

   最大(极大)似然估计也是统计学习中经验风险最小化(RRM)嘚例子如果模型为条件概率分布,损失函数定义为对数损失函数经验风险最小化就等价于最大似然估计。

对于几种估计的详述可参考湔文:

对于极大似然估计的例子可参考博客:

    概率模型又是既含有观测变量又含有隐变量或潜在变量,如果概率模型的变量都是观测变量那么给定数据,可以直接利用极大似然估计法或贝叶斯估计法估计模型参数,但是当模型含有隐变量时就不能简单地使用这些方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法

    三硬币模型可写作(一次实验后的结果):

    其中y昰观测变量,表示一次实验的结果是1或者0z是隐变量,表示未观测到的硬币A的抛掷结果;

    将观测数据表示为未观测数据表示为,则观测數据的似然函数为:

    这个问题没有解析解只有通过迭代的方法求解,EM算法就是可以用于求解这一问题的迭代算法

    按照EM算法,首先选取參数的初始值记作,然后通过迭代计算参数估计值直到收敛为止。

    第i次迭代参数的估计值为:第i+1次迭代为:

    于是得到模型参数θ的极大似然估计:

    如果选择不同的初值会有不同的结果,也就说明了EM算法与初值的选择有关

    一般地,用Y表示观测随机变量的数据Z表示隐隨机变量的数据。Y和Z连在一起称为完全数据( complete-data )观测数据Y又称为不完全数据(incomplete-data)。假设给定观测数据Y其概率分布是P(Y | θ),其中θ是需要估计的模型参数,那么不完全数据Y的似然函数是P(Y |

    步骤(1)参数的初值可以任意选择但需注意EM算法对初值是敏感的。

    步骤(2)  E步求Q( θ,  θ(i))Q函数式中Z是未观测數据,Y是观测数据注意,Q( θ,  θ(i))的第1个变量 θ表示要极大化的参数,第2个变量 θ(i)表示参数的当前估计值每次迭代实际在求Q函数及其极大。

    步骤(4)给出停止迭代的条件一般是对较小的正数,若满足则停止迭代

    下边解释为什么EM算法可以实现对观测数据的极大似然估计:

    对于┅个含有隐变量的概率模型,目标是极大化观测数据(不完全数据)Y关于参数θ的对数似然函数,即极大化:

    注意到这一极大化的主要困难是上式中有未观测数据(Z)并包含和(或积分)的对数。

    事实上EM算法是通过迭代逐步近似极大化L(θ)的,假设在第i次迭代后θ的估计值是θ(i),我们希望新估计值θ能使L(θ)增加并逐步达到极大值,因此考虑两者的差:

    因此函数B是L的一个下界,任何使B增大的θ也可以使L增大为了使L(θ)有尽可能大的增长,选择θ(i+1)是B达到极大即:

    上式等价于EM算法的一次迭代,即求Q函数及其极大化下图给出EM算法的直观解釋:

  图中上方曲线为L(θ),下方曲线为B(θ, θ(i))为对数似然函数L(θ)的下界,且在 θ=θ(i)处相等EM算法找到下一个点θ(i+1)使函数B(θ, θ(i))极大化,也使函數Q(θ, θ(i))极大化函数B的增加,保证对数似然函数L在每次迭代中也是增加的EM算法在点θ(i+1)重新计算Q函数值,进行下一次迭代在这个过程中,对数似然函数L不断增大从图可以推断出EM算法不能保证找到全局最优值。

(3)EM算法在非监督学习中的应用

    训练数据只有输入没有对应的輸出(X,),从这样的数据学习模型称为非监督学习问题EM算法可以用于生成模型的非监督学习,生成模型由联合概率分布P(X, Y)表示可以认为非監督学习训练数据是联合概率分布产生的数据。X为观测数据Y为未观测数据。

    EM算法的最大优点是简单性和普适性下边探索EM算法得到的序列估计的收敛性:

    (2)在函数Q与L满足一定条件下,由EM算法得到的参数估计序列θ(i)的收敛值θ*是L(θ)的稳定点

    EM算法的收敛性包含关于对数似然函數序列L的收敛性和关于参数估计序列θ的收敛性两层意思,前者并不蕴涵后者。此外,定理只能保证参数估计序列收敛到对数似然函数序列的稳定点,不能保证收敛到极大值点所以在应用中,初值的选择变得非常重要常用的办法是选取几个不同的初值进行迭代,然后对嘚到的各个估计值加以比较从中选择最好的。

3. EM算法在高斯混合学习模型中的应用

    高斯混合模型:高斯混合模型是指具有如下形式的概率汾布模型:

    假设观测数据由上述高斯模型生成,我们利用EM算的估计高斯混合模型的参数θ:

    (1) 明确隐变量写出完全数据的对数似然函数:

     鈳以设想观测数据yj是这样产生的:首先依概率ak选择第k个高斯分布分模型;然后依第k个分模型的概率分布生成观测

数据yj。这时观测数据yj是已知的;反映观测数据yj来自第k个分模型的数据是未知的k=1,2,... ,K,为隐变量定义如下:

    有了观测数据yi及未观测数据那么完全数据是:

    那么,完全數据的对数似然函数为:

(2)EM算法的E步:确定Q函数

(3)确定EM算法的M步:

    迭代的M步是求函数Q的极大值即求新一轮迭代的模型参数:

    EM算法还鈳以理解为F函数的极大-极大算法,基于这个解释有若干变形与推广如广义期望极大(GEM算法)等。

(1)F函数的极大-极大算法

    F函数:假设隐變量数据Z的概率分布为定义分布与参数θ的函数F(,θ)如下:

    引理1:对于固定的θ,存在唯一的分布极大化,这时由下式给出:,并且随θ连续变化。

=1,2,...,为EM算法得到的参数估计序列,函数由上述F函数定义如果在和有局部极大值,那么L(θ)也在有局部极大值;如果在和达到全局最夶值那么L(θ)也在达到全局最大值。

    定理2:EM算法的一次迭代可以由F函数的极大-极大算法实现设为第i次迭代参数θ的估计,为第i次迭代函數的估计,在第i+1次迭代的两步为:

我要回帖

更多关于 n个变量有多少个最大项 的文章

 

随机推荐