常用的统计方法有哪些学问题

  • 回归分析研究的主要问题是:

(1)确定Y与X间的定量关系表达式这种表达式称为回归方程;

(2)对求得的回归方程的可信度进行检验;

(3)判断自变量X对因变量Y有无影响;

(4)利用所求得的回归方程进行预测和控制。

  • 回归分析的主要内容为:

①从一组数据出发确定某些变量之间的定量关系式,即建立数學模型并估计其中的未知参数估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验

③在许多自变量共同影响着一個因变量的关系中,判断哪个(或哪些)自变量的影响是显著的哪些自变量的影响是不显著的,将影响显著的自变量入模型中而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应鼡是非常广泛的常用的统计方法有哪些软件包使各种回归方法计算十分方便。

在回归分析中把变量分为两类。一类是因变量它们通瑺是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量用X来表示。

本文总结了常用的常用的统计方法有哪些学习方法包括模型定义,原理适用场景,模型参数学习方法等常用的统计方法有哪些学习是根据一部分标记好的实例数据,推断待分类实例的类别所以并不知道数据的真实分布函数。有些场景只能选择某种常用的统计方法有哪些模型也有一些场景可以套鼡不同的模型,得到待分类实例的不同的分类结果哪个模型更好需要根据实际分类的结果进行判别。下面是最常使用的传统的常用的统計方法有哪些学习方法其中有些方法的思路也会被借鉴用于神经网络模型中。

感知机的思想是用一个超平面把所有训练数据分为两类


感知机的使用有一个前提,就是训练数据集是线性可分的在此前提下,通过训练数据学习感知机的参数w和b找出一个可将正负实例完全汾开的分离超平面。

其中线性可分的定义如下:



也就是说只要训练集是线性可分的,就一定能够找到w和b从而确定这样一个分离超平面,而且这样的超平面不是唯一的有许多解。这些解既依赖于初始值的选择也依赖于迭代过程中误分类点的选择顺序。

感知机模型训练過程首先要确定损失函数的定义有两个选择,一个是将误分类点的总数作为损失函数但是这样会使得损失函数不是参数w和b的连续可导函数,不方便对w和b进行优化所以选择了第二种方法,就是将误分类的点到超平面的总距离作为损失函数它是连续可导的。

任一点X0到超岼面的距离计算如下:


忽略签名的参数项并将所有误分类点的距离累加,作为感知机的损失函数:


这样一来感知机的训练过程就是求解w和b使得改损失函数极小化:


具体的训练过程采用梯度下降方法,任意选取一组w和b确定一个超平面,然后将改超平面下误分类的点一次隨机选取一个进行梯度下降,更新w和b:


损失函数对w和b的偏导数

训练过程算法描述如下:


使用和当前用例最近的k个用例根据多数原则,判别当前用例的分类属于哪个类
k临近方法的三要素:k值的选择,距离计算的度量方法以及判别某个类别的方式。
可以利用kd树实现对k个朂临近点的快速搜索

朴素(naive)的由来是因为该方法对条件概率的分布做了条件独立性的假设,这是一个很强的假设可以极大的简化分析和計算,但是由此算出的分类结果不一定准确

根据训练数据计算出先验概率P(X, Y)=P(Y)P(X|Y),然后根据先验概率计算待分类的数据对各种分类结果的条件概率取条件概率最大的那个作为分类结果。先验概率的计算有两种方法极大似然估计和贝叶斯估计,其中极大似然估计可能导致估算嘚概率为0这会影响条件概率的计算结果,使得在训练数据不均衡的情况下某些事件永远没有发生的机会(发生概率为0);而贝叶斯估计加入了修正项使得概率永远大于0,可以使得任何事件总有一个发生的可能

上面是使用了极大似然估计计算朴素贝叶斯分类器的过程,還可以使用贝叶斯估计计算朴素贝叶斯分类器(注:贝叶斯估计和朴素贝叶斯法是不同的概念)这里略去。

逻辑回归是一种经典的分类方法既可以用于二分类,也可以用于多分类用于多分类的逻辑回归模型如下:


二项逻辑回归模型简化为:


使用二项逻辑回归进行预测時,对输入的x值分别计算P(Y=1)和P(Y=0)两个概率选取概率值大的类别作为x的分类。

逻辑回归模型的参数可以通过梯度下降法或拟牛顿法进行估算。

支持向量机(SVM)和感知机原理是类似的都是通过一个超平面来划分正负实例,区别在于满足感知机模型要求的超平面有无数多个,洏其中将正负实例间隔最大化的超平面才满足SVM模型的要求而这个超平面是唯一的。同时SVM既可以用来处理实例线性可分的情形,也能处悝近似线性可分(存在被超平面错误分类的误差实例)甚至非线性可分的情形。所以可以认为SVM是对感知机模型的扩展和泛化。

间隔最夶化的含义是所选择的超平面不仅能将正负实例点分开,而且对最难区分的实例点也就是距离超平面最近的点,也能以最大的确信度將它们分开可以证明这个超平面是唯一的。这种模型称为硬间隔支持向量机(又叫线性可分支持向量机)


硬间隔支持向量机最优化问題

实际上几乎不可能满足所有实例点都线性可分,噪音点总是存在的实例整体线性可分,但是存在噪音点的情况称为近似线性可分。


這时需要在优化函数中添加误差项这种模型称为软间隔支持向量机(又叫线性支持向量机),具有更广泛的适用性:


软间隔支持向量机朂优化问题

对于非线性可分的实例能否用支持向量机模型进行分类,答案是肯定的可以利用核函数将非线性可分的实例转换成某个高維空间的线性可分实例,然后再用支持向量机模型进行分类即可


非线性可分转换成线性可分

常用的核函数有多项式核函数,高斯核函数囷字符串核函数
SMO算法是学习支持向量机模型参数的一种快速算法。

先给一个隐马尔科夫模型的例子以便有个直观的概念:


由(A, B, π)这三个參数构成的这个模型,就是隐马尔科夫模型这三个参数成为隐马尔科夫模型的三要素。
其中π代表各初始状态的概率,A代表状态转移概率,也就是从一个编号的盒子跳转到另一个编号的盒子的概率B表示观测概率,也就是选定某个盒子后该盒子里红球和白球的概率。这里盒子选择的状态转移序列是隐藏的不可观测的,而只能观测到观测序列这就是隐马尔科夫模型中的“隐”的由来。
隐马尔科夫模型有彡个基本问题:

  1. 概率计算:模型已知如何根据模型计算某个观测序列的概率
  2. 模型学习:模型未知,如何根据观测序列来计算(A, B, π)三个参数
  3. 預测(decoding问题):模型已知如何根据观测序列反推条件概率最大的状态转移序列

问题一概率的计算通过递推公式(前向算法)进行,看下媔的例子:


前向算法计算HMM的概率

问题二模型的学习分两种情况一种是既有观测序列,又有状态序列这种情况通过监督学习方法极大似嘫估计实现,简单;另一种只有观测序列没有状态序列,这种情况通过非监督学习方法Baum-Welch算法实现复杂。

问题三预测方法分为两种一種是简单不准确的近似算法,另一种是复杂准确的维特比算法该方法利用了动态规划的原理来寻找观测序列对应的概率最大化的状态序列,下面是一个维特比算法的例子

维特比算法计算最优路径

我要回帖

更多关于 常用的统计方法有哪些 的文章

 

随机推荐