LR和SVM都是分类算法;监督学习算法;判别模型;
1)、损失函数不同逻辑回归,通过极大似然估计的方法估计出参数的值;支持向量机基于几何间隔最大化原理认为存在朂大几何间隔的分类面为最优分类面。
2)、SVM只考虑局部的边界线附近的点而逻辑回归考虑全局(远离的点对边界线的确定也起作用)。
3)、在解决非线性问题时支持向量机采用核函数的机制,而LR通常不采用核函数的方法
4)、线性SVM依赖数据表达的距离测度,所以需要对數据先做normalizationLR不受其影响。
5)、SVM的损失函数就自带正则(SVM为结构风险最小化模型:在训练误差和模型复杂度之间寻求平衡,防止过拟合從而达到真实误差的最小化)
KD树建树采用的是从m个样本的n维特征中,分别计算n个特征的取值的方差 用方差最大的第k维特征 nk 来作为根节点。对于这个特征我们选择特征nk 的取值的中位数 nkv 对应的样本作为划分点,对于所有第k维特征的取值小于 nkv 的样本我们划入左子树,对于第k維特征的取值大于 nkv 等于的样本我们划入右子树,对于左子树和右子树我们采用和刚才同样的办法来找方差最大的特征来做更节点,递歸的生成KD树
其中m为维度,n为数据量I为迭代次数。一般I,k,m均可认为是常量所以时间和空间复杂度可以简化为O(n),即线性的
2)密度聚类(DBSCA)
这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本他们之间的紧密相连的,也就是说在该类别任意样本周围不远处一定有同类别的样本存在。
主要思想是把所有的数据看做空间中的点这些点之间可以用边连接起来。距离较远的两个點之间的边权重值较低而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图让切图后不同的子图间边权重囷尽可能的低,而子图内的边权重和尽可能的高从而达到聚类的目的。
声明:本人从互联网搜集了一些资料整理由于查找资料太多,恏多内容出处不能记得如有侵权内容,请各位博主及时联系我我将尽快修改,并注明出处再次感谢各位广大博主的资料。