k means聚类算法所需要最少的维度是多少

本文由机器之心编辑,“机器之心”专注生产人工智能专业性内容,适合开发者和从业者阅读参考。点击右上角即刻关注。机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机器学习的系列文章《人人读得懂的机器学习(Machine Learning for Humans)》,用普通人能理解的语言对机器学习领域的一些核心概念进行了阐述。机器之心在这里编译了这一系列文章的第三部分「无监督学习」,对主要的聚类和降维算法进行了介绍,其中包括 K 均值聚类、层次聚类、主成分分析(PCA)和奇异值分解(SVD)。机器之心将逐步向读者介绍该系列更多的文章。我们可以怎样发现一个数据集的底层结构?我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是无监督学习的目标,之所以称之为「无监督」,是因为这是从无标签的数据开始学习的。我们将在这里探索的两种无监督学习任务是:1)将数据按相似度聚类(clustering)成不同的分组;2)降维(reducing dimensionality),以便在保留数据结构和有用性的同时对数据进行压缩。无监督学习方法可能有用的案例:一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb 需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。和监督学习不同,要找到评价无监督学习算法优劣的指标可并不轻松。「表现水平」往往是主观的,而且因领域不同而各不相同。聚类聚类的一个有趣的真实应用案例是营销数据提供商 Acxiom 的人生阶段聚类系统 Personicx。这项服务将美国家庭分成了 70 个不同的聚类,它们分属于 21 个人生阶段分组,可以被广告主用于投放定向 Facebook 广告、陈列式广告和直邮广告等。Personix 人口学特征聚类的一部分他们的白皮书表明他们使用了重心聚类(centroid clustering)和主成分分析,这两种技术在这一节都有覆盖。你可以想象,如果广告主想(1)理解他们已有的客户群,(2)通过相关的人口学特征、兴趣和生活习惯向潜在新客户投放定向广告以便高效利用广告开支,那么这些聚类将对他们非常有用。实际上,你只需要在 Acxiom 的「我属于哪个聚类?」工具中回答几个简单问题,你就能知道你个人属于哪个聚类,体验地址:/personicx/personicx.aspx让我们了解几种聚类方法,看看这样的任务是如何完成的。K 均值聚类「重心之赛有 k 个魔戒,在那之上,是希望的力量。」聚类的目标是为数据点分组,使得不同聚类中的数据点是不相似的,同一聚类中的数据点则是类似的。使用 K 均值聚类,我们希望将我们的数据点聚类为 K 组。K 更大时,创造的分组就更小,就有更多粒度;K 更小时,则分组就更大,粒度更少。该算法的输出是一组「标签」,这些标签将每个数据点都分配到了 K 组中的一组。在 K 均值聚类中,这些组的定义方式是为每个组创造一个重心(centroid)。这些重心就像是聚类的心脏,它们可以「捕获」离自己最近的点并将其加入到自己的聚类中。你可以把这些重心看作是派对上成为关注焦点的人,他们就像是有磁性一样。如果只有一个这样的人,每个人都会围绕在他周围;如果有很多这样的人,就会形成很多更小一点的活动中心。K 均值聚类的步骤如下:定义 K 个重心。一开始这些重心是随机的(也有一些更加有效的用于初始化重心的算法)寻找最近的重心并且更新聚类分配。将每个数据点都分配给这 K 个聚类中的一个。每个数据点都被分配给离它们最近的重心的聚类。这里的「接近程度」的度量是一个超参数——通常是欧几里得距离(Euclidean distance)。将重心移动到它们的聚类的中心。每个聚类的重心的新位置是通过计算该聚类中所有数据点的平均位置得到的。重复第 2 和 3 步,直到每次迭代时重心的位置不再显著变化(即直到该算法收敛)。这就是 K 均值聚类工作方式的精简版!该算法的可视化演示可在这里查看:/blog/visualizing-k-means-clustering/,你可以像读漫画一样理解。平面上的每个数据点都根据离自己最近的重心加了颜色。你可以看到这些重心(更大一点的蓝点、红点和绿点)一开始是随机的,然后很快进行了调整,得到了它们各自的聚类。K 均值聚类的另一个真实应用是分类手写数字。假设我们有用像素亮度的长向量表示的数字的图像。假设这些图像是黑白两色的,大小为 64×64 像素。每个像素代表一个维度。那么这些图像就生活在一个有 64×64=4096 个维度的世界里。在这个 4096 维的世界里,K 均值聚类让我们可以按接近程度对这些图像分组,并且假设这些靠得很近的图像都是同一个数字。这种算法可以在数字识别上得到相当好的结果,参阅:http://ieeexplore.ieee.org/document/6755106/?reload=true层次聚类「让我们把 100 万个选项变成 7 个选项。或者 5 个。或者 20 个?呃,我们可以过会儿决定。」层次聚类类似于常规的聚类,只是你的目标是构建一个聚类的层次。如果你最终的聚类数量不确定,那这种方法会非常有用。比如说,假设要给 Etsy 或亚马逊等网络市场上的项目分组。在主页上,你只需要少量大组方便导航,但随着你的分类越来越特定,你需要的粒度水平也越来越大,即区别更加明显的项聚类。在算法的输出方面,除了聚类分配,你也需要构建一个很好的树结构,以帮助你了解这些聚类之间的层次结构。然后你可以从这个树中选择你希望得到的聚类数量。层次聚类的步骤如下:首先从 N 个聚类开始,每个数据点一个聚类。将彼此靠得最近的两个聚类融合为一个。现在你有 N-1 个聚类。重新计算这些聚类之间的距离。有很多可以办到这件事的方法(参见这个教程了解更多细节:https://home.deib.polimi.it/matteucc/Clustering/tutorial_html/hierarchical.html)。其中一种方法(平均连接聚类,average-linkage clustering)是将两个聚类之间的距离看作是它们各自元素之间所有距离的平均。重复第 2 和 3 步,直到你得到包含 N 个数据点的一个聚类。你就会得到如下图所示的树(也被称为树状图))。选择一个聚类数量,然后在这个树状图中划一条水平线。比如说,如果你想要 K=2 个聚类,你应该在距离大约为 20000 的位置画一条水平线,你会得到一个包含数据点 8、9、11、16 的聚类和包含其它数据点的另一个聚类。一般而言,你得到的聚类的数量就是水平线与树状图中的竖直线的交叉点的数量。更多有关层次聚类的详细信息,可参阅这个视频:/watch?v=OcoE7JlbXvY降维「对于那些该砍去的非精髓部分的态度,并不是每天增加吸收,而是每日尽量排减。」——李小龙降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。如果你有一张简单的 128×128×3 像素的图像(长×宽×RGB 值),那么数据就有 49152 维。如果你可以给这个图像空间降维,同时又不毁掉图像中太多有意义的内容,那么你就很好地执行了降维。我们将了解两种实际中很常用的降维技术:主成分分析和奇异值分解。主成分分析(PCA)首先,了解一点线性代数知识——看看空间(space)和基(base)。你应该知道由原点 O(0,0) 和基向量 i(1,0) 与 j(0,1) 定义的坐标平面。事实上,你也可以选择一个完全不同的基础,其中的数学仍然有效。比如说,你可以保持原点仍然为 O,但选择 i'=(2,1) 和 j'=(1,2) 作为基向量。如果你有耐心计算一下,你会发现在 i', j' 坐标系统中标记为 (2,2) 的点在 i, j 系统标记为 (6, 6)。使用 Mathisfun 的「交互式笛卡尔坐标」绘制:/data/cartesian-coordinates-interactive.html这意味着我们可以修改空间的基础。现在想象有更高维度的空间,比如有 5 万维。你可以为这个空间选择一个基础,然后根据这个基础仅选择 200 个最重要的向量。这些基向量被称为主成分,而且你可以选择其中一个子集构成一个新空间,它的维度比原来的空间少,但又保留了尽可能多的数据复杂度。要选择出最重要的主成分,我们需要检查这些数据的方差,并按这个指标给它们排序。理解 PCA 的另一个思路是 PCA 将我们数据中存在的空间重映射成了一个更加紧凑的空间。这种变换后的维度比原来的维度更小。仅需使用重映射空间的前几个维度,我们就可以开始理解这个数据集的组织结构。这就是降维的目的:减少复杂度(即这里的维度),同时保留结构(方差)。这里有篇 Samer 写的论文,介绍了使用 PCA(以及扩散映射等技术)试图理解维基解密披露的电报:/cargocollective/675_xuesabri-final.pdf奇异值分解(SVD)假设我们将我们的数据表示成一个 A=m×n 的大型矩阵。SVD 让我们可以将这个大型矩阵分解成 3 个较小的矩阵的乘积;这 3 个矩阵分别是 U=m x r、对角矩阵 Σ=r x r、V=r x n,其中 r 是一个很小的值。在这个 r×r 的对角矩阵 Σ 中的值被称为奇异值。这些值的奇妙之处是可以被用于压缩原来的矩阵,如果你丢弃奇异值中最小的 20% 以及矩阵 U 和 V 中相关的列,你就可以节省大量空间,同时仍然能很好地表征原来的矩阵。为了更准确地了解其中的含义,我们来看看一张小狗的图片:我们将使用 Andrew Gibiansky 写的关于 SVD 的文章中代码:/blog/mathematics/cool-linear-algebra-singular-value-decomposition/。首先,我们发现如果我们根据大小排序这些奇异值(矩阵 Σ 的值),那么前 50 个奇异值将包含整个矩阵 Σ 的大小的 85%。根据这个事实,我们可以丢弃后面的 250 个值(即将它们设为 0),仅保留这张小狗图像的「rank(秩)50」版本。这里,我们创建了秩为 200、100、50、30、20、10 和 3 的小狗照片。显然,照片变小了。但假设我们认为秩为 30 的小狗仍然很好,现在让我们看看我们实现了多少压缩。原先的图像矩阵有 305*275 = 83,875 个值,秩为 30 的图像则有 305*30+30+30*275=17,430 个值。值的数量差不多少了 5 倍,但质量却下降很少。上述计算的原因是当我们执行 UΣ'V 运算时,U 和 V 矩阵中的一部分因为乘 0 也被丢弃(其中 Σ' 是 Σ 的修改后版本,其中仅包含了前面的 30 个值)。无监督学习常常被用于数据预处理。一般而言,这意味着以某种平均-保留的方式压缩数据,比如 PCA 或 SVD;之后,这些数据可被用于深度神经网络或其它监督式学习算法。
本文仅代表作者观点,不代表百度立场。本文系作者授权百度百家发表,未经许可,不得转载。
分享到微信朋友圈
打开微信,点击 “ 发现 ”
使用 “ 扫一扫 ” 即可将网页分享至朋友圈。
扫一扫在手机阅读、分享本文
百家号作者平台APP
扫码下载安卓客户端
便捷管理文章信息
随时查看文章收益上传用户:gcfptuhnlz资料价格:5财富值&&『』文档下载 :『』&&『』学位专业:&关 键 词 :&&&&权力声明:若本站收录的文献无意侵犯了您的著作版权,请点击。摘要:(摘要内容经过系统自动伪原创处理以避免复制,下载原文正常,内容请直接查看目录。)现有的主流在线批发网站广泛采取了一些简略的在线信用体系来试图处理收集生意业务中信赖缺掉的成绩,固然起到了必定感化,但年夜多存在着分歧商品共用统一评价维度、信用评价模子维度辨别度不高的情形,不克不及精确表达用户的真实选择志愿。针对上述成绩,本文从用户的文本评论自己动身,应用客不雅的聚类办法挖掘客户的真实感触感染,从定性的客户评论研讨在线信用体系,以期可以或许加倍精确地给出用户所存眷的信用评价维度。本文在回想后人的相干研讨以后,采取文本聚类剖析的办法对客户评论内容停止了剖析。本研讨编写了Asp。net法式抓取原始数据,应用Visual C++,Java,Matlab等说话对数据停止了剖析、聚类。经由抓取文本评论数据,分词,生成特点项聚集,编码标注,肯定词义类似度盘算办法,机械聚类,对聚类簇停止剖析等步调,得出了一个加倍公道的信用评价维度。个中,依据研讨的详细情形,本文对TFIDF处置的详细步调做出了改良,把词义类似度运用于聚类剖析,而且在DBSCAN算法中参加了对聚类簇停止TFIDF过滤的内容。经由对原始的信用评价维度和聚类剖析得出的信用评价维度停止比较,本文发明原本的信用评价模子确切漏掉了一些比拟主要的评价维度,并且有些评价维度不敷周全、清楚,而应用聚类剖析的办法剖析文本评论数据,可以从用户评论中找出用户真正关怀的信用维度。研讨成果证实,聚类剖析做为一种新的信用维度确立办法,可以尽可能削减工资地干涉,防止客观影响搅扰剖析成果,确保可以或许从用户评论自己动身,迷信地、公道地得出客不雅的信用评价维度。Abstract:Existing mainstream online wholesale website widely adopted some simple online credit system to collect business reliance missing results, of course, played a certain effect, but mostly there is a different commodities to share the same dimensions of the evaluation, credit evaluation model dimensions distinguish degree is not high and cannot accurately express the user's real voluntary choice. To address these issues, this paper from user comment text leave yourself, mining customer application objectively clustering approach the true feeling, from qualitative customer reviews research online credit system, in order to can may double accurately gives the user the attention of credit evaluation dimension degree. After looking back to the future generations of the relevant research, the text clustering analysis of the way to stop the analysis of customer reviews. This study prepared the Asp. Net French grab the original data, the application of C++ Java, Visual, Matlab and other words to stop the analysis of the data, clustering. Through grasping the comment text data, participle, generation item aggregation code marking, certainly semantic similarity calculation methods, mechanical clustering, clustering analysis steps, it is concluded that the double reasonable credit evaluation dimensions. Medium, according to the discussion in detail, in this paper, a detailed steps for the disposal of TFIDF makes improvement and the meaning of a word similar use in clustering analysis and in the DBSCAN algorithm participated in the TFIDF filter the content of the cluster. Through to the original credit evaluation dimension and cluster analysis obtained credit evaluation dimensions compared, the invention of the original credit evaluation model exact missing some comparative evaluation of main dimensions, and some of the dimensions of evaluation is not comprehensive enough, clear, and application of cluster analysis method for the analysis of text reviews data can find users actually care about the dimensions of credit from the user reviews. Research results confirmed that the clustering analysis and establish the way for a new dimension of the credit can be as much as possible wage cuts to interfere, prevent affect subjective interference analysis of the results, to ensure that you can perhaps left from the users to comment on their own, superstition, reasonably draw objectively credit evaluation dimensions.目录:摘要4-5ABSTRACT51 绪论8-17&&&&1.1 研究背景与意义8-10&&&&1.2 国内外研究现状10-14&&&&1.3 论文框架与主要研究内容14-172 文本聚类的关键技术和主要方法17-23&&&&2.1 特征项选取方法17-19&&&&2.2 文本的数值表示19-21&&&&2.3 聚类分析方法21-233 客户评论数据的获取和预处理23-29&&&&3.1 数据获取23-27&&&&3.2 数据预处理27-294 基于词义相似度的文本聚类过程29-39&&&&4.1 特征项的选择29-31&&&&4.2 编码标注和词义相似度的计算31-33&&&&4.3 数据聚类33-36&&&&4.4 结果分析及信誉维度发现36-395 全文总结与研究展望39-42&&&&5.1 全文总结39-41&&&&5.2 研究展望41-42致谢42-43参考文献43-47附录1 特征项子集级编码标注表47-50附录2 攻读硕士学位期间发表论文目录50-51附录3 攻读硕士学位期间参加及完成的科研课题51分享到:相关文献|数据聚类综述第5章——聚类技术_博客园
当前位置: >
>数据聚类综述第5章——聚类技术
数据聚类综述第5章——聚类技术
& 作者:眺望海接天 & 来源: 博客园-siegfang &
原文:A.K.JAIN,M.N.MURTY和P.J.FLYNN所写的的第5章,本文系毕业设计时与搭档的外文翻译。转载请说明出处。前7节(11页)由搭档翻译,后5节(12页)由我翻译。
5. 聚类技术
不同的文本聚类技术可以用图7的层次图来加以描述(其它对于聚类方法的分类描述也是可以的;我们的方法是基于在Jain和Dubes的描述[1988])。在顶层,层次聚类和划分聚类有所不同(层次聚类产生一系列嵌套的分区,而划分聚类产生只一个分区)。在图7中显示的分类必须以跨领域的问题讨论作为补充,这些问题可能会影响所有分类方法,不管它们在分类法中的位置如何。
图7 聚类方法分类
——聚合VS划分:这方面涉及到算法的结构和运行。一个聚合方法开始时,每种模式都在一个独立的(单一的)类中并且此后持续的合并类在一起知道某一个停止条件被满足。一个划分方法开始时,所有的模式都是在一个类中,并以此为基础进行分裂知道某个停止条件被满足。——单元VS多元:这方面涉及到在聚类过程中文本特征的连续或关联应用。大部分的算法是多元的;也就是说所有的特征都进入到特征之间距离的计算,并且结论是以这些距离为基础。在安德伯格会议上[1973]的一个简单的单元算法是循序的考虑文本特征来划分给定模式的集合。这在图8中有阐明,根据特征x1把集合分为两组;垂直的虚线是一个分割线。每一个分组有根据特征x2划分为独立的分组,如图虚线H1和H2所示。这种算法最主要的问题是会形成2d个聚类(d是模式的维度)。当d的值很大时(信息检索应用中一般使用d&100[Salton 1991]),聚类结果如此巨大以至于数据集被分成没有意义的小碎片。 图8 单元分割聚类 图9三个聚簇中的点——精确VS模糊:硬聚类算法在执行和它的输出中会把每一个模式分配给唯一的聚类结果。一个模糊聚类会根据隶属程度把一个模式划分到几个类当中。模糊聚类可以通过把模式划分到最大隶属程度的类中的方式转换为硬聚类。——确定性VS随机: 这个问题和为优化方差函数的分割方法联系最紧密。最优化可以通过传统的技术或者通过一个针对包含所有标签的状态空间的查询。——增量VS非增量:当用于分类的模式集很大时并且受到执行时间的限制或者内存空间的影响算法的体系结构时,这个问题就会产生。早起的聚类方法论不包含一些用于大数据集的算法的例子,但是数据挖掘的出现促进了聚类算法的发展,这些算法通过模式集合使扫描达到最少,在运行过程中减少对模式的检测或减少算法操作中的数据结构尺寸。Jain和Dubes[1988]切实观察到聚类算法的规范化常常会为实现留出灵活性。
5.1. 层次聚类算法
图9中用二维数据集阐明了层次聚类算法的操作。这个图形描述了七个特征标签A、B、C、D、E、F和G在3个聚类中。一个层次聚类算法生成 一个树来表示嵌套的分组模式和相似的水平在分组内改变。一个生成树和图九中相一致的七个点(从Jain和Dubes单连接算法得到)在图10中表示。生成树可以被分成不同的层次来表不同的聚类子集。
&图10 单链接算法的系统树图 图11两个同心聚簇
大部分的层次聚类算法是单连接层次算法[Sneath 和Sokal 1973]、全连接[King 1967]和最小方差连接算法[Ward 1963;Murtagh 1984]的变形,其中单连接和全连接是最常用的。这两种算法在描述相似群集的方法上不同。在单链接方法中,两个聚类的距离用聚类之间所有模式距离(一个模式来自一个聚类,另一个模式来自另外一个聚类)的最小值来表示。在全连接算法中,聚类之间的距离是两个类中相距最远的两个对象的距离。在这两种情况下,两个较小聚类合并成为一个大的聚类是基于最短距离标准。全连接算法产生紧密牢固或者紧凑的聚集。与之相比,但连接算法则受到连接的影响[Baeza-Yates 1992].可能会倾向于产生散乱此文来自: 马开东博客
转载请注明出处 网址:
相关阅读:
来源:(微信/QQ:,微信公众号:makaidong-com) &&&&&& 欢迎分享本文,转载请保留出处!
&&&&&& 【原文阅读】:
上一篇:没有了
【相关文章】
用HTML5的标签兼容各版本IE浏览器的方法技术
每日最新文章
每日最热文章
本周最热文章
本月最热文章
本年最热文章
Powered by
Copyright &
, All Rights Reserved您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
谱聚类算法研究.pdf 49页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:200 &&
谱聚类算法研究
你可能关注的文档:
··········
··········
硕士学位论文
谱聚类算法研究
姓名:王莉莉
申请学位级别:硕士
专业:应用数学
指导教师:杨晓慧
聚类分析是机器学习的经典问题。聚类可以分为无监督聚类和半监督聚类,无监督
聚类是通过抽取数据中“潜在”结构,将相似数据组成类或类的层次结构,不需要任何
先验和假设。在现有的无监督聚类算法中,K一均值聚类作为一种基于中心的聚类算法,
是最简单、使用最普遍的方法之一。它在紧凑的超球形分布的数据集合上有很好的性能,
然而当数据结构是非凸的,或数据点彼此交叠严重时,K一均值算法往往会失效,而且算
法利用迭代最优化方法寻找最优解,因而不能保证收敛到全局最优解。
新近出现的一种无监督聚类算法一谱聚类算法克服了K一均值算法的缺点,具有识别
非凸分布聚类的能力,适合于求解实际问题,而且实现简单,不会陷入局部最优解,且
能避免数据的过高维数所造成的奇异性问题。本文基于谱聚类算法做了以下两方面的研
1.提出了一种新的聚类算法一层次谱聚类算法。层次谱聚类算法融合了层次聚类算
法较高的聚类正确率的优点,和谱聚类算法避免聚类过程中歪斜划分的优点。实验结果
表明提出的层次谱聚类算法的聚类正确率比层次聚类算法、谱聚类算法的聚类正确率都
要高,同时层次谱聚类算法与层次聚类算法相比又大大节省了计算时间。
2.提出了一种基于最近邻传递的谱聚类算法。利用谱聚类的维数缩减特性获得数据
在映射空间的分布,在此基础上利用最近邻传递聚类算法在映射空间中对样本进行聚
类。该方法通过谱映射为后续的最近邻传递聚类提供低维而紧致的输入。而最近邻传递
聚类算法具有快速收敛到全局最优并且对初始化不敏感的特性。对于MPEG-7图像库及
其子图像库的聚类结果验证了最近邻传递谱聚类算法用于图像聚类的有效性。
关键词:聚类,
K一均值聚类, 层次聚类,
最近邻传递聚类
is theclassic
canbedividedinto
Clusteringanalysis
learning.Clustering
clustering
unsupervised semi-supervisedclustering.Unsupervisedclusteringpotential
thesimilar
dataintothesameclusterwithout and
information.Inthe
data,groups
anypriorassumption
unsupervised
clusteringalgorithms,k-meansclusteringpopularsimpleclustering
distributiondata.Butk-means
algorithm.K—meansclusteringgoodperformancespherical
正在加载中,请稍后...

我要回帖

更多关于 聚类分析需要标准化吗 的文章

 

随机推荐