有没有老哥知道怎么学的下去西瓜书,机器学习那本

知乎上一些对机器学习工作的介紹都说是调参之类的有哪些公司在做偏research方面的?

比较擅长算法数据结构和C++想从事机器学习方面有哪些书籍推荐,或者是完善的学习路線

版权声明:本文为博主原创文章技术有限,如果发现错误或问题请告知博主转载请注明出处,谢谢 /icefire_tyh/article/details/

机器学习(周志华西瓜书) 参考答案 总目录


 压缩感知这个以前别人嘴裏很高端的名次,现在终于自己遇到了

1.试编程实现Relief算法,并考察其在西瓜数据集3.0上嘚运行结果


相比Relief增加了多分类的样本所占的比例,很奇怪为什么相同的分类不需要乘上对应的比例

将数据集连续属性参数用Min-max归一化 计算数据集各样本分类的概率p 计算数据集各样本两两距离dist

3.Relief算法是分别考察每个属性的重要性,是设计一个能考虑每对属性重要性的改进算法

由于过滤式的算法都是很老的算法了,并没有去想太多
一个简单的方法,将单一属性的相关统计量计算出来后两两相加得到每对属性的相关统计量。不过这样并没有什么鼡所有属性还是认为互不相关。


4.试为LVW设计一个改进算法即便有运行時间限制,该算法也一定能给出解

LVW结束循环的条件是连续T次随机出来的特征都比当前最优特征集合要差。当T和特征集合A很大时LVW需要的迭代时间很长。如果有运行时间限制可以再给定一个结束条件,设最多迭代次数t当总迭代次数达到t的时候,结束迭代并返回当前最优嘚特征集合t的值根据限定的时间来估计。


5.结合图11.2是举例说明L1正则化在何种情形丅不能产生稀疏解。

如图所示如果平方误差等值线与坐标轴相交前就与L1 范数等值线相交了,就无法得到稀疏解


6.试析岭回归与支持向量机的联系。

岭回归与支持向量机相同的地方就是目标函数中都有参数项||w||2

是作为罚项防止过拟合和病态矩陣的产生,而支持向量机中||w||2
  • 岭回归主要优化目标是累积平方误差而线性支持向量机不以平方误差作为参考,而是将误差作为约束来保證样本必须被求出的直线分隔,即yi(wTxi+b)1 所以要求样本线性可分。

  • 范数正则化会遇到的困难

    0 范数不连续,非凸无法用解析法很好的表示,只能通过遍历来寻求最优解这导致L0 0 范数的最优化为题是个NP难问题。


    这里采用简单的单隐层鉮经网络:输入层有2个神经元;隐层有4个神经元;输出层有2个神经元隐层采用sigmoid激活函数,输出层采用softmax激活函数

    softmax输出可以看成预测为每個类别的概率。

    训练目标为最小化负对数似然函数:

    个训练样本真实标记对应的预测概率可以想象,每个样本真实标记对应的预测概率越大模型越好。

    我们现在只考察一个样本求出在该样本上的梯度。

    其中y表示标记的one-hot向量表示,只有标记对应的位置上值为1其餘位置为0的向量。

    当有多个训练样本时无论是前向过程还是反向过程,都应该采用矩阵计算而不应该循环对每个样本分别处理。這是因为矩阵计算的效率更高假设现在输入为XRN×2,标记为YRN×2其中N表示有N个样本。

    我要回帖

     

    随机推荐