朴素而有紧张感的米分类器,其实也是对人们常识的算法的完善。 用更准确的量化判断分类,使用后验概率。 本文通过与决策树的比较,介绍先验概率与后验概率的关系,详细介绍朴素紧张的美国算法的流程。
朴素、紧张的大米算法比较简单,所以这篇文章大多保留下来进行面试前复习。 整理各问题之间的关系很重要。
我们学习经典决策树算法后,可以认识到决策树的特征总是按照特征来切分的。 随着楼梯的前进,这个划分越来越细。 大概是这样的:
对决策树不熟悉的朋友们可以看到我这篇文章《经典决策树算法》
今天在此基础上,我将介绍在概率框架下实施决策的基本方法。 同样,这也很符合我们人类的经验思维。 这就是紧张的大米分类器。 与决策树相比,其分类示意图如下。
这里的蓝色和红色交织在一起,表示概率的大小。 紧张的米分类器名字很高,但其实背后的原理非常简单。 是根据概率选择将某个个体分为哪个类别。
我们可以理解如此紧张的大米分类器。 可疑的老鼠哈密瓜甜的概率是0.7,如果只看到哈密瓜藤,我们就判定可疑的老鼠哈密瓜是哈密瓜。 引入西瓜纹理这一第二个特征,假设纹理完整的瓜甜概率为0.8。 此时,我们是奇怪的老鼠,纹理齐全的甜瓜会计算出甜美的概率。 例如,请考虑0.9 (为什么大于前两个概率。 这样,在看到纹理和瓜藤这两个特征时,就可以概率地判断甜瓜是否甜。
在这里,可以尝试将分类决策树进行类比。 对决策树不熟悉的人可以读我的文章《经典决策树算法》。 比起决策树直接把奇怪的老鼠哈密瓜的甜概率变成奇怪的老鼠,我们认为哈密瓜更甜。 我们紧张的大米有概率承受能力,结果会更准确可靠。 但是,紧张的米分类器需要比决策树对数据的要求更高、更容易说明且不同维度之间的相关性小的模型。 稍后我会详细谈谈这个。
后验概率是先验概率,一般是人主观给出的。 紧张的大米中的先验概率一般指它。 是有条件的概率,也称为似然概率,一般根据历史数据统计得出。 一般不称为先验概率,但从定义上来看也符合先验定义。 其实也是先验概率。 但是,在紧张的大米的很多应用中并不重要(最大后不求绝对值),根据需要大多用全概率公式计算得到。 可见先验概率、后验概率和似然概率密切相关。 值得注意的是,a和b的顺序与这个事前事后有关。 a和b相反,事前和事后也需要相反。 例如,如果桌子上有肉和醋,吃完肉后觉得酸,你觉得肉里有醋的概率是多少?
对于这个问题,在吃起来很酸的条件下肉中有醋的概率是事后概率。 在肉中有醋的前提下食用,酸的概率为似然概率,肉中有醋的概率和酸的概率为先验概率。
总之,A事件是原因的结果,B事件是原因之一。 这里肉酸是多种原因的结果,肉里有醋是这个A结果的很多原因之一。 要说为什么,那是因为不仅放了醋,还有肉变质的可能性。
朴素紧张的大米分类算法
首先,用经典的例子说明朴素紧张的大米分类的算法。 从下表的数据中学习朴素紧张的米的分类器而决定的w类的标记。 表中、特征、可取值的集合分别为、和类的标记。
此时,对于给定的可以计算如下。
可以看出事后概率很高。 所以呢
通过以上例子可以看出,朴素而有紧张感的大米的做法其实是固定的。 拉普拉斯曾经说过,用数学公式表达人们的常识是概率论。 接下来,我们来看看最完整朴素紧张的美国分类算法的数学表示。