为什么高维低维展开数据位于一个低维超平面上


· TA获得超过1.4万个赞

可以!去掉不偅要的因子主要因子作成饼图就行了!

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头裏或许有别人想知道的答案。

原标题:技术 | 数据降维知识40题(附答案)

摘要:本文例举了一个针对数据科学家的数据降维测试测试总共有40道题,涉及的内容主要有PCA、t-SNE以及LDA降维技术想检验下自己对降维技术掌握的情况就赶快测测吧。

:数据科学家、IIIT Allahabad研究助理热爱解决复杂的数据挖掘问题、了解更多关于数据科学和机器学习算法,目前致力于预测软件缺陷的项目

在处理现实生活中的问题时,数据科学家经常会遇到数百列及以上的数据集并通过这些大型数据集构建预測模型,这会是一个较复杂的工程幸运的是有降维技术的存在,降维是数据科学中的一项重要技术任何数据科学家都必须具备该技能。这项技能测试测试你掌握的降维技术知识测试问题包括PCAt-SNE和LDA等主题。在还有更具挑战性的比赛

共有582人参加该测试,以下问题涉及理論到实践的方方面面

如果错过测试,可以在参加测试

以下是分数的分布,这将有助于评估自己的表现:

你可以并查看自己的分数以丅是关于分配的一些统计数据。

平均得分(所有分值的平均值)19.52

得分中位数(按顺序排列的中间值)20

模型得分(最常出现的得分)19

1)想象一下机器学习中有1000个输入特征1个目标特征,必须根据输入特征和目标特征之间的关系选择100个最重要的特征你认为这是减少维數的例子吗?

2)[真或假]没有必要有一个用于应用维数降低算法的目标变量

LDA是有监督降维算法的一个例子。

3)在数据集中有4个变量如A,BC和D.执行了以下操作:

步骤2:然后只使用变量E和F建立了一个随机森林模型。

上述步骤可以表示降维方法吗

因为步骤1可以用于将数据表示為2个较低的维度。

4)以下哪种技术对于减少数据集的维度会更好

A.删除缺少值太多的列

B.删除数据差异较大的列

C.删除不同数据趋势的列

如果列的缺失值太多(例如99%),那么可以删除这些列

5)[真或假]降维算法是减少构建模型所需计算时间的方法之一。

降低数据维数将花费更尐的时间来训练模型

6)以下哪种算法不能用于降低数据的维数?

所有算法都是降维算法的例子

7)[真或假] PCA可用于在较小维度上投影和可視化数据。

有时绘制较小维数据非常有用可以使用前两个主要分量,然后使用散点图可视化数据

8)最常用的降维算法是PCA,以下哪项是關于PCA

1.PCA是一种无监督的方法

2.它搜索数据具有最大差异的方向

3.主成分的最大数量<=特征能数量

4.所有主成分彼此正交

9)假设使用维数降低作为預处理技术,使用PCA将数据减少到k维度然后使用这些PCA预测作为特征,以下哪个声明是正确的

A.更高的“k”意味着更正则化

B.更高的“k”意味著较少的正则化

较高的k导致较少的平滑,因此能够保留更多的数据特征从而减少正则化。

10在相同的机器上运行并设置最小的计算能力以下哪种情况下t-SNE比PCA降维效果更好?

A.具有1百万300个特征的数据集

C.具有10,0008个特征的数据集

t-SNE具有二次时空复杂度

11)对于t-SNE代价函数,以下陈述Φ的哪一个正确

A.本质上是不对称的。

C.与SNE的代价函数相同

SNE代价函数是不对称的,这使得使用梯度下降难以收敛对称是SNE和t-SNE代价函数之间嘚主要区别之一。

12想像正在处理文本数据使用单词嵌入(Word2vec)表示使用的单词。在单词嵌入中最终会有1000维。现在想减小这个高维低维展开数据的维度这样相似的词应该在最邻近的空间中具有相似的含义。在这种情况下您最有可能选择以下哪种算法?

t-SNE代表t分布随机相鄰嵌入它考虑最近的邻居来减少数据。

13)[真或假] t-SNE学习非参数映射

t-SNE学习非参数映射,这意味着它不会学习将数据从输入空间映射到地图嘚显式函数从该获取更多信息。

14)以下对于t-SNE和PCA的陈述中哪个是正确的

A.t-SNE是线性的,而PCA是非线性的

D.t-SNE是非线性的而PCA是线性的

选项D是正确的。从获取说明

15)在t-SNE算法中可以调整以下哪些超参数?

B.平稳测量有效数量的邻居

选项中的所有超参数都可以调整

16)与PCA相比,t-SNE的以下说明哪个正确

A.数据巨大(大小)时,t-SNE可能无法产生更好的结果

B.无论数据的大小如何,T-NSE总是产生更好的结果

C.对于较小尺寸的数据,PCA总是比t-SNE哽好

17)XiXj是较高维低维展开度表示中的两个不同点,其中YiYj是较低维度中的XiXj的表示

1.数据点Xi与数据点Xj的相似度是条件概率p(j | i)。

2.数据點Yi与数据点Yj的相似度是条件概率q(j | i)

对于在较低维度空间中的XiXj的完美表示,以下哪一项必须是正确的

两点的相似性的条件概率必须楿等,因为点之间的相似性必须在高维低维展开和低维中保持不变以使它们成为完美的表示。

18)LDA的以下哪项是正确的

A.LDA旨在最大化之间類别的距离,并最小化类内之间的距离

B. LDA旨在最小化类别和类内之间的距离

C. LDA旨在最大化类内之间的距离并最小化类别之间的距离

D.LDA旨在最大囮类别和类内之间的距离

19)以下哪种情况LDA会失败?

A.如果有辨识性的信息不是平均值而是数据的方差

B.如果有辨识性的信息是平均值,而不昰数据方差

C.如果有辨识性的信息是数据的均值和方差

20PCA和LDA的以下比较哪些是正确的

2. LDA是有监督的,而PCA是无监督的

3. PCA最大化数据的方差而LDA最夶化不同类之间的分离,

21)当特征值大致相等时会发生什么

当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等

22以下情况中PCA的效果好吗?

1. 数据中的线性结构

2. 如果数据位于曲面上而不在平坦的表面上

3. 如果变量以同一单元缩放

23)当使用PCA获得较低維度的特征时会发生什么?

1. 这些特征仍然具有可解释性

2. 特征将失去可解释性

3. 特征必须携带数据中存在的所有信息

4. 这些特征可能不携带数据Φ存在的所有信息

当获取较低维度的特征时大部分时间将丢失一些数据信息,您将无法解释较低维的数据

24)想象一下,在高度和重量の间给出以下散点图

选择沿哪个轴捕获最大变化的角度?

选项B的数据的差异可能最大

25)以下哪个选项是真的?

1.在PCA中需要初始化参数

2.在PCAΦ不需要初始化参数

3. PCA可以被困在局部最小问题

4. PCA不能被困到局部最小问题

PCA是一个确定性算法它不具有初始化的参数,并且不像大多数机器學习算法那样具有局部最小问题

以下快照显示了两个特征(X1X2)与类别信息(红色、蓝色)的散点图,还可以看到PCA和LDA的方向

26)以下哪種方法会导致更好的类别预测?

A.建立PCA分类算法(PCA方向的主成分)

B.建立LDA分类算法

如果目标是对这些点进行分类PCA投影只会带来更多的危害——大多数蓝色和红色点将重叠在第一个主成分上,这样会混淆分类器

27)在图像数据集上应用PCA时,以下哪个选项是正确的

1.它可以用于有效地检测可变形物体。

2.仿射变换是不变的

3.它可用于有损图像压缩。

28)在哪种条件下SVD和PCA产生相同的投影结果?

B.当数据均值为零时

当数據具有零均值向量时二者会相同,否则在进行SVD之前必须首先对数据进行中心处理

29这些数据的第一个主成分是什么 ?

第一个主要组成部汾是v = [√2/ 2√2/ 2] T,请注意主成分应该被归一化。

30)如果通过主成分[√2/2√2/2]T将原始数据点投影到1子空间中,他们在1子空间中的坐标是什么

31)对于投影数据为(( √2),(0)(√2))。现在如果在二维空间中重建并将它们视为原始数据点的重建,那么重建误差是多少

重建误差为0,因为所有三个点完全位于第一个主要分量的方向上或者计算重建;

32)LDA的思想是找到最能区分两类别之间的线下图中哪个是好的投影?

PCA是一种很恏的技术因为它很容易理解并通常用于数据降维。获得特征值λ1≥λ2≥???≥λN并画图

看看f(M)(贡献率)如何随着M而增加,并且在M = D处獲得最大值1给定两图:

33)上述哪个图表显示PCA的性能更好?其中M是主要分量D是特征的总数

如果f(M)渐近线快速到达1则PCA是好的;如果苐一个特征值较大且其余较小,则会发生这种情况如果所有特征值大致相等,PCA是坏的

34以下哪个选项是真的?

A. LDA明确地尝试对数据类别の间的差异进行建模而PCA没有。

B.两者都试图模拟数据类之间的差异

C.PCA明确地试图对数据类别之间的差异进行建模,而LDA没有

D.两者都不试图模拟数据类之间的差异。

35)应用PCA后以下哪项可以是前两个主成分?

对于前两个选择两个向量不是正交的。

36)以下哪一项给出了逻辑回歸与LDA之间的差异

1. 如果类别分离好,逻辑回归的参数估计可能不稳定

2. 如果样本量小,并且每个类的特征分布是正常的在这种情况下,線性判别分析比逻辑回归更稳定

37)PCA中会考虑以下哪个偏差?

总是将残差视为垂直偏移正交偏移在PCA的情况下是有用的

38假设正在处理10類分类问题,并且想知道LDA最多可以产生几个判别向量以下哪个是正确答案?

LDA最多产生c-1个判别向量可以参考(需翻墙)获取更多信息。

給定的数据集包括胡佛塔”和其他一些塔的图像现在要使用PCA(特征脸)和最近邻方法来构建一个分类器,可以预测新图像是否显示胡佛塔”该图给出了输入的训练图像样本

39)为了从特征脸”算法获得合理的性能,这些图像将需要什么预处理步骤

1. 将塔对准图像中楿同的位置。

2. 将所有图像缩放或裁剪为相同的大小

40)下图中主成分的最佳数量是多少?

可以在上图中看到主成分的数量为30时以最小的數量得到最大的方差。

希望你喜欢参加的这个测试并参考答案获取一些帮助。测试侧重于降维的概念和实践知识如果有任何关于以仩测试题的疑问,可以在评论中注明;如果有任何的建议可以在评论中让我们知道你的反馈。

本文由北邮老师推荐组织翻译。

techniques作鍺,译者:海棠审阅:李烽,文章为简译更为详细的内容,请查看

在多项式曲线拟合的例子中我們只有一个输入变量x。但是对于模式识别的实际应用来说我们不得不处理由许多输入变量组成的高维低维展开空间,这个问题是个很大嘚挑战也是影响模式识别技术设计的重要因素。

为了说明这个问题我们考虑一个人工合成的数据集。这个数据集中的数据表示一个管噵中 石油、水、天然气各自所占的比例这三种物质在管道中的几何形状有三种不同的配置,被称为:

三种物质各自的比例也会变化这個测量技术的原则的思想是,如果一窄束伽马射线穿过管道射线强度的衰减提供了管道中材料密度的信息。例如射线通过石油之后的衰减会强于通过天然气之后的衰减。

石油、水、天然气的三种几何配置用来生成石油流数据集。对于每种配置三种成分的比例可以改變

管道的横切面,表示六个射线束的配置每个射线对应着一个双能量伽马射线密度计。注意垂直射线束关于中心轴(虚线表示)不是对称嘚。 

每个数据点由一个12维的输入向量组成输入向量是伽马射线密度计的读数,度量了一窄束伽马射线穿过管道后强度的衰减

下图图给絀了数据集里的100个点,每个点只画出了两个分量x6和x7(为了说明的方便剩余的10个分量被忽略)。

石油流数据的输入变量x6和x7的散点图其中红色表示“同质状”类别,绿色表示“环状”类别蓝 色表示“薄片状”类别。我们的目标是分类新的数据点记作“×”。 

每个数据点根据咜属于的三种几何类别之一被标记。我们的目标是使用这个数据作为训练集训练一个模型,能够对于一个新的(x6, x7)的观测(图中标记为“叉”嘚点)进行分类

我们观察到,标记为“叉”的点周围由许多红色的点因此我们可以猜想它属于红色类别。然而它附近也有很多绿色的點,因此我们也可以猜想它属于绿色类别似乎它不太可能属于蓝色类别。

直观看来标记为“叉”的点的类别应该与训练集中它附近的點强烈相关,与距离比较远的点的相关性比较弱事实上,这种直观的想法是合理的我们如何把这种直观想法转化为学习算法呢? 

一种简單的方式是把输入空间划分成小的单元格,如下图所示当给出测试点,我们要预测类别的时候我们首先判断它属于哪个单元格,然后峩们寻找训练集中落在同一个单元格中的训练数据点测试点的类别就是测试点所在的单元格中数量最多的训练数据点的类别,这其实就昰KNN的原理

这种朴素的观点有很多问题。当需要处理的问题有很多输入数据并且对应于高维低维展开的输入空间时,有一个问题就变得尤为突出

问题的来源如下图所示。

如果我们把空间的区域分割成一个个的单元格那么这些单元格的数量会随着空间的维数以指数的形式增大。当单元格的数量指数增大时为了保证单元格不为空,我们就不得不需要指数量级的训练数据 

让我们回到多项式拟合的问题,栲虑一 下我们如何把上面的方法推广到输入空间有多个变量的情形如果我们有D个输入变量,那么一个三阶多项式就可以写成如下的形式 

隨着D的增加独立的系数的数量(并非所有的系数都独立,因为变量x之间的互换对称性)的增长速度正比于D3

在实际应用中,为了描述数據中复杂的依存关系我们可能需要使用高阶多项式。对于一个M阶多项式系数数量的增长速度类似于DM 。虽然增长速度是一个幂函数而鈈是指数函数,但是这仍然说明了这种方法会迅速变得很笨重,因此在实际应用中很受限 

我们在三维空间中建立的几何直觉会在考虑高维低维展开空间时不起作用。例如考虑D维空间的一 个半径r = 1的球体,请问位于半径r = 1 ? ε和半径r = 1之间的部分占球的总体积的百分比是多尐?

我们注意到D维空间的半径为r的球体的体积一定是rD 的倍数,因此我们有:

其中常数KD 值依赖于D因此我们要求解的体积比就是:

上图给絀了不同D值下,上式与ε的关系。我们看到,对于较大的D,这个体积比趋近于1即使对于小的ε也是这样。

因此,在高维低维展开空间中一个球体的大部分体积都聚集在表面附近的薄球壳上

考虑高维低维展开空间的高斯分布的行为。如果我们从笛卡 尔坐标系变换到极坐标系然后把方向变量积分出来,我们就得到了一个概率密度的表达式p(r)这个表达式是关于距离原点的半径r的函数。

因此 p(r)δr 就是位于半径 r 处厚度为 δr 的薄 球壳内部的概率质量对于不同的D值,这个概率分布的图像如下图所示我们看到,对于大 的D值高斯分布的概率质量集中茬薄球壳处。

不同的维度D中的高斯分布的概率密度关于半径r的关系在高维低维展开空间中,高斯分布的大部分概 率质量位于某个半径上嘚一个薄球壳上 

虽然维度灾难在模式识别应用中是一个重要的问题,但是它并不能阻止我们寻找应用于高维低维展开空间的有效技术原因有两方面。

  • 第一真实的数据经常被限制在有着较低的有效维度的空间区域中,特别地在目标值会发生重要变化的方向上也会有这種限制。
  • 第二真实数据通常比较光滑(至少局部上比较光滑),因此大多数情况下对于输入变量的微小改变,目标值的改变也很小因此對于新的输入变量,我们可以通过局部的类似于插值的技术来进行预测

成功的模式识别技术利用上述的两个性质中的一个,或者都用  

降维是将高维低维展开数据映射到低维空间的过程,该过程与信息论中有损压缩概念密切相关同时要明白的,不存在完全无损的降维

囿很多种算法可以完成对原始数据的降维,在这些方法中降维是通过对原始数据的线性变换实现的。即如果原始数据是 d 维的,我们想將其约简到 n 维(n < d)则需要找到一个矩阵使得映射。选择 W 的一个最自然的选择的是在降维的同时那能够复原原始的数据 x但通常这是不可能,区别只是损失多少的问题

降维的原因通常有以下几个:

1. 首先,高维低维展开数据增加了运算的难度
2. 其次高维低维展开使得学习算法的泛化能力变弱(例如,在最近邻分类器中样本复杂度随着维度成指数增长),维度越高算法的搜索难度和成本就越大。
3. 最后降維能够增加数据的可读性,利于发掘数据的有意义的结构

以一个具体的业务场景来说:

n-gram这个时候,x轴(代码段的byte向量)高达45w再乘上y轴(最少吔是256),直接就遇到了维数灾难问题导致神经网络求解速度极慢,甚至内存MMO问题

这个时候就需要维度约简技术,值得注意的是深度神經网络CNN本身就包含“冗余信息剔除”机制,在完成了对训练样本的拟合之后网络之后的权重调整会朝着剔除训练样本中的信息冗余目标湔进,即我们所谓的信息瓶颈

0x1:为什么需要随机投影

主成分分析将数据线性转换到低维空间,但代价昂贵为了找出这个转换,需要计算协方差矩阵花费的时间将是数据维数的立方。这对于属性数目庞大的数据集是不可行的

一个更为简便的替代方法是将数据随机投影箌一个维数预先设定好的子空间,也即找到一个所谓的随机投影矩阵

那么问题来了,找到随机投影矩阵是很容易但效果是否好呢?

随機投影的理论依据是J-L Lemma公式的核心思想总结一句话就是:

在高维低维展开欧氏空间里的点集映射到低维空间里相对距离,可以在一定的误差范围内得到保持

至于为什么要保持,主要是很多机器学习算法都是在以利用点与点之间的距离信息(欧氏距仅是明氏距的特例)及楿对位序展开计算分析的。

也就是说很多的机器学习算法都作了一个假设:点集之间的距离,包含了数据集蕴含的概率分布

偏最小二塖不同于主成分分析的是,在构建坐标系统时和预测属性一样,它考虑类属性其思想是计算派生的方向,这些方向和有高方差一样昰和类有强关联的。这在为有监督学习寻找一个尽可能小的转换属性集时将很有益处

0x1:偏最小二乘计算方法

有一种迭代方法用于计算偏朂小二乘方向,且仅仅涉及点积运算

  • 量纲归一化:从输入属性开始,所有属性被标准化为拥有零均值和单位方差
  • 初始偏差计算:用于第┅个偏最小二乘方向的属性系数是通过每一个属性向量和类向量之间以此进行点积运算得到的点积结果代表方向上的偏差。
  • 残差驱动的啟发式属性选择:用同样的方法找到第二个方向但是,此时的原始属性要被替换为该属性原始值与用上一轮迭代选定的单变量属性回歸所得的预测值之间的差值,这个单变量属性回归使用的是上一轮选定的属性(上一轮的残差)作为属性预测的单一预测因子这些差值被称为残差(redidual)。每次的残差(新属性)都代表针对当残差的一个方向上的修正然后再通过点积度量依然存在的方向上的偏差
  • 用同样的方式继续运行此流程以得到其余的方向,用前一次迭代所得的残差作为属性形成输入来找到当前偏最小二乘的方向
  • PLSR结束:整个流程结束後得到的所有属性,就是不断修正方向以靠近目标类方向的属性集合

用一个例子来说明这个过程:

CPU性能数据中的前5个实例

任务是:要依据其他两种属性找到一种新的表达方式用于表示目标属性PRP

  • 第一个偏最小二乘方向的属性系数是通过在属性和类属性之间依次进行点积运算得到的表a)列出了原始属性值

我要回帖

更多关于 高维低维展开 的文章

 

随机推荐