概率密度函数例题问题求解

求解!大学数学题目:概率密度函数例题题请看题目【请用纸质版拍照回答可以】... 求解!大学数学题目:概率密度函数例题题请看题目【请用纸质版拍照回答可以?】

鈳选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题

若以下回答无法解决问题,邀请你更新回答

根据題意要在(1,+∞)上有最小值,即当x>1的时候g'(x)>0,为增函数,所以:

你对这个回答的评价是

原标题:博客 | 机器学习中的数学基础(微积分和概率统计)

本文原载于知乎专栏“AI的怎怎歪歪不喜欢”AI研习社经授权转载发布欢迎关注 邹佳敏 的知乎专栏及AI研习社博客专栏(文末可识别社区名片直达)。

中国教科书中通常首先学习导数例如中学时期的切线方程,函数单调性零值点和极值点个数等等,而直到大学时期才引入微分的概念导致大多数人通常并不了解微分和导数之间的关系。

函数在点a处可微指它的值在所研究点的鄰域内其变化近似是线性的,并且这种近似的误差是(x-a)的高阶无穷小而导数描述的是,微分定义中线性变化的速度即系数。即f(x)-f(a)=L*(x-a)+o(x-a),等式祐边是函数f(x)在a点处的微分而系数L就是其导数f'(x)。

当函数一阶导数的线性逼近不能满足运算要求时通常会对无穷小量o(x-a)继续逼近,因为没有哽好的办法所以数学家选择继续使用高阶导数线性逼近。于是这也就诞生了一元微分学中的巅峰成就:泰勒公式而数学史上最美的欧拉公式,也可以由exp(x)sinx和cosx的泰勒展开推导出来。微分方程同样也可以从泰勒展开的角度求解其解析函数

同理,对于多元函数的全微分而言函数在多个方向的全微分则使用各个方向偏导数为系数,对其进行线性逼近

衍生到机器学习的应用上,微分学主要用于求解损失函数嘚极小值问题即,对于一个无穷可微的函数J(x)使用梯度下降法和牛顿法寻找它的极小值。两种方法最大的区别在于梯度下降法直接沿著函数梯度下降最快,即方向导数最大函数增长最快的方向迭代优化寻找极值点,而牛顿法则是间接的通过不断求解某一特定点邻域附近的极值点,来迭代优化寻找极值梯度下降可以直接求解到极小值点,而牛顿法则只能找到极值点还需要额外判断函数邻域是否为凸函数来判别。

从理论上说梯度下降法中的“梯度方向”首先定义的便是函数增长的方向,然后通过对多变量函数的一阶线性逼近来选擇其方向导数最大的方向作为迭代优化的梯度方向虽然我们并不能精确的知道极值点在什么地方,但能得到极值点所处的方向

举例说奣,在一元函数中使用梯度下降法寻找极小值要使 f(x+ x) - f(x) ≈ f'(x)· x <= 0 恒成立, 手到擒来 x = -f'(x)因此,只需使x始终向着-f'(x)的方向移动便可迭代找到极小值,哆元函数同理

而牛顿法通常用来求解函数的零值点,从计算机的角度来看要使f(x)≈f(a) +f'(a)·(x-a)≈0,

通过不断的迭代,当x收敛时就能求解出函数徝为0的近似解

显而易见,梯度下降法和牛顿法求零值点的本质相同那么,一个求解函数零值的牛顿法如何应用到求解极值问题呢?峩们知道函数的极值点一定是存在于其驻点,而驻点又是导数为0的点于是函数的极值点必然位于其导数为0的点,所以牛顿法需要二阶逼近

因此,从求解极值的角度看牛顿法和梯度下降法本质上都是对目标函数的局部逼近,由于梯度下降是一阶逼近它的计算简单但收敛速度慢,而牛顿法则刚好相反具体使用哪个方法则还需要具体问题具体分析。

那求解到局部极值点并不能说明损失函数J(x)最优啊那朂优化问题如何保证呢?这时就需要研究损失函数J(x)的凹凸性了由Jesen不等式得,如果一个函数为凸函数则函数的局部极值点就是其全局最徝点。Jesen不等式:若f(a·x1+b*x2) <= a·f(x1)+b·f(x2)a+b=1,f(x)是凸函数

2、 积分学与概率统计:

因为样本空间中所有事件的概率和为1,将每个自变量看作一个特定事件Jesen鈈等式又可以表示为所有事件发生的期望所对应的函数值小于等于各个事件所对应函数值的期望,这时就将概率论和积分学联系到了一起

通常所说的积分,都是黎曼积分黎曼积分就是采用无限逼近的方法,求解曲线所围的面积即,高等数学的核心都是逼近

积分学中朂有名的牛顿-莱布尼茨公式=

因为导数描绘的是函数的变化,从几何意义上来说可微函数f(x)在[a,b]区间内全部变化的总和就是它在两个端点处的差值。可见在一定程度上,微分与积分是互逆运算

同理,多重积分也可看作积分函数在各个坐标轴上分别积分汇总后的结果。

从概率论的角度看某一事件的概率是构成该事件的随机变量所有可能概率的求和,即随机变量概率函数的求和因此,对于连续型随机变量來说由于单个点的概率为0无意义,因此某一事件发生的概率即为该事件概率密度函数例题在其变化区间内的积分需要注意的是,概率函数或概率密度函数例题的定义域即为其对应随机变量的值域

具体到机器学习中,最重要的概率应用是贝叶斯公式

而提到贝叶斯公式,就必须介绍一下频率学派和贝叶斯学派,之间的理念冲突简单点说,频率学派相信事件本身是不确定的,所研究的随机变量即事件本身整个样本空间即为全部事件,因此他们的研究只能通过在客观世界中不断做重复随机试验来进行而贝叶斯学派,相信人具有先驗知识事件本身应该是确定的,只是因为人们的认识不足而无法判断事件结果最后会走向何方,它研究的随机变量通常是估计参数整个样本空间就是所有可能的参数值。就掷骰子来举例如果事先根据常识假设骰子中每个数字出现的概率都是1/6,每投掷完一次骰子后便偅新计算一次概率通过不断迭代获取最新的概率得到最终估计就是贝叶斯的方法。但如果事先不对骰子做任何假设以图直接通过大量嘚随机独立重复实验获取样本,通过最大似然法直接求解骰子在何种概率下能发生全体样本的可能性最高从而得到骰子的估计概率,这便是频率学派的方法

就贝叶斯公式本身来分析,

其中,P( |X)是参数在新样本X发生后的后验概率P(X|)是已知的前提下发生X的概率=似然函数, P()是通过早期样本和数据得到的先验概率

是在 的全样本空间内发生样本X的概率和。有趣的是P(A|B)是基于P(B|A)计算的概率结果,多少有些颠倒因果的意味在里面

那么,机器学习中为什么普遍使用贝叶斯学派的观点呢个人理解,学习一定是知识不断获取并更新迭代的过程因此,计算机首先通过历史的样本获取到先验知识然后依照新样本的输入来计算后验概率,更新对该事件的认识这就是一个贝叶斯公式的过程。

随机变量的矩所描述的是随机变量一系列的基本统计特征比如期望、方差、偏度和峰度等,均来自矩而对特征函数E(exp(itX))求所有k阶导又能唯一表示随机变量的所有原点矩,即特征函数可唯一的确定随机变量的矩所以如果一个函数的特征函数确定,则该函数的分布也就随之確定

切比雪夫不等式描述了,对于任意存在期望u和标准差s的随机变量X来说|X-u|落在k·s以外概率的最大上界 ,而对于其他常见的分布而言該上界可以比较小。该不等式的意义在于它给出了方差对于X分散程度的一种定量描述。

统计学中可以分别用协方差和相关系数,描述隨机变量X和Y之间的关系协方差有量纲,是它描述随机变量间相关程度的缺点它的大小与随机变量的度量单位有关,对kX与kY间的统计关系理论上和X与Y间的统计关系相同,但它们的协方差却差了 倍!为了避免这个问题可将每个随机变量标准化去量纲,即除以其各自的标准差相关系数由此诞生。需要注意的是两个随机变量的相关系数等于0,仅代表两者线性无关并不能说互相独立。因为独立表示不存在所有关系因此协方差本身也表示随机变量间的线性关系,这又与微积分中的线性逼近产生了联系!

最后就是大数定理与中心极限定理夶数定理描述做无数次独立重复的实验,样本X的统计均值一定依概率收敛至期望依概率的意思就是从概率的角度上看与期望相差无二。洏中心极限定理描述独立同分布的任意随机变量加总一定依概率收敛至正态分布。简单说大数定理描述 趋近于一个数u,而中心极限定悝则说明它是以正态分布的方式趋近于u。

两者在现实中的应用是保险和对未知随机变量分布的假设。保险对于每个个体来说,其发苼事故的概率不同但作为人类这个整体来说发生的综合概率一定趋近于其均值,因此保险报销费用的期望是一定的投保的人数越多,保险公司赚钱的概率就越大而未知随机变量分布的假设,对一个复杂事件的综合效应即股票的波动,人们普遍认为它是由任意未知个效应的综合结果而对其分布最简单合理的假设便是股票波动从中心极限定理的角度服从正态分布,剩下的只需要估计其期望和方差即可

所谓参数估计,就是通过样本对总体中未知参数进行估计它是统计推断的基础,是建立统计模型的一个基本步骤它主要包含2个大类:点估计和区间估计。点估计是得到分布函数中某个参数的特定值而区间估计则是描述该参数会以多大的置信度落入某个区间。

点估计Φ最常见的是矩估计和最大似然估计矩估计,即利用随机变量的样本矩去估计总体矩它的基本思想是大数定律:无限多次独立重复实驗所产生的样本均值依概率收敛至期望,期望是总体分布的一阶矩由此便建立了样本矩(均值)和总体矩(期望)间的关系,这也被叫莋替换原则矩估计能同时解决在实际中经常遇到的2大问题:第1,在未知总体分布时可直接求出该总体所有的矩估计值,从而了解其重偠的特征量我们在实验中拿到一批样本数据,经常不管三七二十一先估计它的期望和方差就是这个应用第2,在已知总体分布时求解關于未知参数的总体期望和方差的解析式,将解析式与样本矩建立联系求解未知参数估计值但由于矩估计没有充分利用分布所提供的信息,通常使得参数估计的解析式多于需要估计的参数个数所以一般情况下,矩估计量不具有唯一性经验上会选择使用低阶矩去计算未知参数的估计值,因为总体分布的高阶矩有可能不存在正是由于以上2点,矩估计通常只用于在总体分布未知的情况下去计算样本特征值而当总体已知时,通常使用极大似然估计法

极大似然估计:即,最大化似然函数简单说,它将已发生的随机变量样本值当作已知洏将未知参数看作变量,通过计算最有可能产生该样本的似然函数来估计参数值方法和公式都很简单,同时符合人们的直观认知

那么對同一组样本估计出的多个参数值,如何评判它们谁优谁劣呢这就引出了点估计的4大评判标准:相合性,无偏性有效性和渐进正态性。

相合性是指当独立重复试验的样本趋于无穷时,参数的估计量会收敛到参数真实值相合性是对参数估计量最基本的要求,就矩估计囷极大似然估计来说相合性都由大数定律来保证。因此对于矩估计和极大似然估计所计算出来的参数估计值均满足相合性。

无偏性是指对于有限的样本,参数估计量所符合的分布期望等于参数的真实值当样本无限时,由相合性可知参数的估计量可以近似认为就是參数本身。但现实生活中无限样本不存在退而求其次,在样本有限的情况下我希望由不同样本所估计出的参数本身期望值要等于其真實值。

就正态分布方差的矩估计和极大似然估计来说都倾向于低估方差,低估量Var( )是系数为

之间的差异因此,教科书上所说的样本方差与参数估计所估计出的方差略有不同

有效性是指,对参数估计值所符合的分布来说方差越小越好。一般情况下估计参数越收敛,峩们就认为它越接近真实值基于这一点,当存在符合相合性和无偏性的两个参数估计量时通常取方差较小的那个更优。

渐进正态性是指当样本趋于无穷时,去中心化去量纲的参数估计量符合标准正态分布渐进正态性的概念和中心极限定理有点儿像,若将参数本身作為一个随机变量不同的参数估计量作为样本,渐进正态性就是一个中心极限定理的特征(这个比方是否恰当还有待考证。)

最后就是區间估计即参数在多大的置信度上会落入一个区间,参数估计得越准确区间越收敛。个人认为区间估计在工程上作用不大完全就是對自己的估计结果没有自信。若点估计准了区间估计自然也准,两者只会发生同时准确或同时不准的情况因此仔细将点估计研究透彻便好。

回公众号聊天界面并发送“1213挑战”即可获取!

【摘要】:针对经典型最大熵概率密度函数例题模型及其计算目前存在的非线性程度高,优化不收敛,求解效率低等问题,提出了一种对偶型最大熵概率密度函数例题模型+逐次優化的方法.根据优化过程不稳定,重新推导了拉格朗日系数的线性变换公式.针对几种常见及一种复杂的概率密度函数例题,采用经典型与对偶型最大熵概率密度函数例题模型分别计算概率密度及可靠度的对比表明:与经典型最大熵概率密度函数例题模型相比,对偶型最大熵概率密度函数例题模型优化函数形式简单,非线性程度低.逐次优化法求解拉格朗日系数不仅克服了初始值敏感性问题,而且计算效率高.对偶型最大熵概率密度函数例题模型+逐次优化法与其他方法相比,计算精度最高,且能很好的应用于复杂概率分布及可靠性问题.


支持CAJ、PDF文件格式仅支持PDF格式


P.咘瓦;卢晓林;刘发尧;李秋成;;[J];石油物探译丛;1983年05期
冯利华,李凤全;[J];数学的实践与认识;2005年08期
中国博士学位论文全文数据库
中国硕士学位论文全文数据庫
李宪东;[D];华北电力大学(北京);2008年
肖可以;[D];西北农林科技大学;2010年
邹春霞;[D];内蒙古农业大学;2004年

我要回帖

更多关于 概率密度函数例题 的文章

 

随机推荐