kmeans聚类算法案例分析实证案例分析过程算法有哪些

“985工程”大学质量工程实施成效分析——基于主成分分析法和聚类分析法的实证研究(《教育学术月刊》2013年第4期)
视力保护色 -
“985工程”大学质量工程实施成效分析——基于主成分分析法和聚类分析法的实证研究(《教育学术月刊》2013年第4期)
更新时间:
  摘&& 要:采用主成分分析法和聚类分析法,对“985工程”大学质量工程实施成效进行分析,结果表明,“985工程”大学质量工程建设项目评选相对公平;不同类型大学质量工程实施成效存在差异;国家级建设项目对质量工程实施成效有较高的解释力。  关键词:“985工程”大学;质量工程;实证研究  基金项目:本文系教育部重大攻关课题“我国本科人才培养质量研究”(课题编号:0JZD0038)之成果。  中图分类号:G64&&&&& 文献标识码:A&&&&& 文章编号:13)04-0029-04  作者简介:汪雅霜,男,厦门大学教育研究院博士生,研究方向: 教育经济与管理;矫怡程,女,厦门大学教育研究院硕士生(福建厦门&& 361005)。  一、研究背景  质量是高等教育事业的生命线,提高质量是高等教育发展的永恒主题。为了保障和提高高等教育质量,我国政府采取了一系列重大措施。特别是2007 年经国务院批准,教育部和财政部联合发布了《关于实施高等学校本科教学质量与教学改革工程的意见》后,正式启动的“高等学校本科教学质量与教学改革工程”(以下简称质量工程)就是其中一项重大举措之一。质量工程是继“211 工程”、“985 工程”和“国家示范性高等职业院校建设计划”之后,我国在高等教育领域实施的又一项重要工程。质量工程的建设内容主要包括以下六个方面:1. 专业结构调整与专业认证。2. 课程、教材建设与资源共享。3. 实践教学与人才培养模式改革创新。4. 教学团队与高水平教师队伍建设。5. 教学评估与教学状态基本数据公布。6. 对口支援西部地区高等学校。[1]质量工程自实施以来受到了各高校的极大重视,引起了社会各界的密切关注。2010年是第一期质量工程的收官之年,教育部提供的一组数字可以显示质量工程实施以来取得的成效[2]: 建设了3376个本科特色专业、3862门国家级精品课程、501个人才培养模式创新实验区、502个国家级实验教学示范中心、1013个国家级教学团队;资助了2360名受援高校教师和466名教学管理干部到支援高校进修和学习锻炼等。从这一组数据可以看出我国高校质量工程自实施以来硕果累累,成效显著。  在我国高等教育系统中,“985工程”大学处于整个系统的最高端,代表着我国高等教育的最高水平,其质量工程实施情况也能反映出我国高校质量工程实施的最优成绩。因此,对“985工程”大学质量工程实施成效进行分析,具有非常重要的意义。通过实施成效分析,可以对“985 工程”大学质量工程实施情况有一个更全面的了解,有利于各大学更清楚地认识到自己所处的位置。“985 工程”大学于2011 年发布了《2010 年度本科教学质量报告》(以下简称《质量报告》)。《质量报告》中提供了各大学关于其质量工程实施情况的详细数据。因此,《质量报告》的发布使得对“985 工程”大学质量工程实施成效进行分析成为可能。考虑到对“985 工程”大学质量工程实施成效进行分析所涉及的变量较多、数据庞大,需要采用多元统计方法对其进行数据精简、排名和分类,因此本研究采用主成分分析法(Principal Component Analysis)和聚类分析法(Cluster Analysis Method)对其实施成效进行分析。因为主成分分析法可以对数据进行精简,并根据数据结构来客观确定权重,通过主成分表达式可计算出各大学的实施成效得分与排名。而聚类分析法则是对数据进行分类的有效方法,运用聚类分析法可以对各大学进行分类和综合评判。  二、研究设计  (一)数据来源  本研究的数据主要来源于“985 工程”大学2011 年发布在各大学官方网站上发布的《质量报告》。考虑到国防科技大学有部分数据缺失,所以没有对其进行分析。  (二)研究方法  主成分分析法[3]就是在寻找几个能解释原有变量Xi线性组合函数(主成分),这些线性组合必须能够保有原来变量的信息,且这些变量必须相互独立,能以“较少”的主成分代替原来“多个”解释变量,以达到精简的目的。使用主成分分析法进行信息的浓缩,确定权重[4],可以客观地对各大学的实施成效进行排名与评价。在主成分分析法的基础上,同时采用聚类分析法对各大学进行分析,便于各大学间的比较与分类。聚类分析法[5]在于将对象加以聚集、分类,使得在群体内的个体的同质性很高,群体之间的异质性也很高。“聚类分析与其他多变量分析方法最大的不同,就在于它不像其他方法都是在估计样本在变量上的变异量,恰好相反的是,它是利用样本在变量上的变异量的不同,进而将样本区分的统计方法”。[6]  (三)测量指标  《质量报告》对质量工程建设的专业、课程、教学团队与师资队伍以及实践教学等方面提供了详细的数据。考虑到“985工程”大学的质量工程建设代表着我国高校质量工程建设的最高水平,所以主要选取国家级建设项目作为其测量指标。质量工程国家级建设项目主要包括国家级教学名师、国家级教学团队、国家级特色专业、国家级精品课程、国家级双语示范课程、国家级实验教学示范中心、大学生创新性实验计划、人才培养模式创新实验区以及大学生竞赛活动。[7]基于《质量报告》对所提供数据的完整性的考量,研究最终选取了6个测量指标(见表1)对“985 工程”大学质量工程实施成效进行分析。                
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 表一:测量指标
国家级教学名师数
国家级精品课程数
国家级教学团队数
国家级双语示范课程数
国家级特色专业数
国家级实验教学示范中心数
  三、研究分析  (一)“985 工程”大学质量工程实施成效的主成分分析  使用统计软件IBM SPSS19.0进行主成分分析时前,先将原始数据进行标准化处理,然后要进行KMO和Bartlett检验。通过分析可知KMO=0.901(&0.7)、Bartlett检验值达到显著(P&0.001),认为非常适合进行主成分分析。主成分个数提取原则为特征值大于1,通过分析得出特征值大于1的主成分有1个,累积贡献率为74.839%,方差解释率好。通过初始主成分载荷矩阵(见表2)即可得到主成分表达式,有学者[8]建议将其乘以特征值的平方根得到的结果更准确。但也有学者认为“直接从初始主成分载荷阵按列的分析写出主成分表达式问题也不大,即不乘以特征根的平方根不影响主成分本身的结构和性质”[9]。  &&&&&&
表二:初始主成分载荷矩阵
国家级特色专业数
国家级精品课程数
国家级教学团队数
国家级教学名师数
国家级实验教学示范中心数
国家级双语示范课程数
解释变异量%
累积解释变异量%
  本研究通过初始主成分载荷矩阵直接便得到了主成分表达式:实施成效(F)=国家级特色专业数 × 0.941 + 国家级精品课程数 × 0.931 + 国家级教学团队数 × 0.920 + 国家级教学名师数 × 0.915 + 国家级实验教学示范中心数 × 0.812 + 国家级双语示范课程数 × 0.627。  根据主成分表达式便可计算出各大学的得分和排名(见表3)。根据得分可以看出清华大学、北京大学、武汉大学、浙江大学、华中科技大学、吉林大学、南京大学、四川大学、山东大学、中南大学、中山大学、天津大学、东南大学、上海交通大学、哈尔滨工业大学、北京师范大学、西安交通大学、复旦大学、南开大学这19所大学的得分大于0,说明这19所大学质量工程实施成效相对于其他学校来说要好。通过具体排名可以看出,实施成效位于前10位的是清华大学、北京大学、武汉大学、浙江大学、华中科技大学、吉林大学、南京大学、四川大学、山东大学和中南大学。&&&&&&
实施成效很好
实施成效好
华中科技大学
上海交通大学
实施成效较好
哈尔滨工业大学
北京师范大学
西安交通大学
中国人民大学
大连理工大学
实施成效一般
华南理工大学
华东师范大学
西北工业大学
中国科学技术大学
北京理工大学
电子科技大学
中国农业大学
实施成效较低
西北农林科技大学
中国海洋大学
北京航空航天大学
中央民族大学
    (二)“985工程”大学质量工程实施成效的聚类分析    聚类分析法分为阶层性(hierarchical)与非阶层性(nonhierarchical)聚类分析两类。“阶层性聚类分析方法产生的树状图更加直观形象,易于解释,并且,阶层性聚类分析方法提供方法、距离计算方式、标准化方式的丰富程度是其他方法所无法比拟的。”[10]因此,本研究采用的是阶层性聚类分析方法。同时,在具体进行阶层性聚类分析时,采用Ward最小变异法(Ward’s method)。通过聚类树状图(见图1)看出,可以将各大学分为5类(具体类别见表3)。&&&&&& 图一:聚类树状图  
    第1类为质量工程实施成效很好的大学,共有3所,分别是清华大学、北京大学、武汉大学;第2类为质量工程实施成效好的大学,共有10所,分别是浙江大学、华中科技大学、吉林大学、南京大学、四川大学、山东大学、中南大学、中山大学、天津大学、东南大学;第3类为质量工程实施成效较好的大学,共有9所,分别是上海交通大学、哈尔滨工业大学、北京师范大学、西安交通大学、复旦大学、南开大学、同济大学、中国人民大学、厦门大学;第4类为质量工程实施成效一般的大学,共有11所,分别是大连理工大学、华南理工大学、湖南大学、华东师范大学、重庆大学、西北工业大学、兰州大学、中国科学技术大学、北京理工大学、电子科技大学、东北大学;第5类为质量工程实施成效较低的大学,共5所,分别是中国农业大学、西北农林科技大学、中国海洋大学、北京航空航天大学、中央民族大学。同时,使用one-way ANOVA对分类结果进行检验发现其有很好的区分度(P&0.001),分类结果效度高。  四、研究结论  本研究基于 “985 工程”大学《质量报告》中的相关数据,通过选取6个测量指标,采用主成分分析法和聚类分析法对其质量工程实施成效进行了分析,并得出以下几点结论:  首先,“985 工程”大学质量工程建设项目评选相对公平。使用聚类分析法,根据实施成效得分情况将“985 工程”大学分为5类,处于第1类的大学共3所,处于第5类的大学共5所,其他的大学(占样本的79%)都处于中间位置,这样使得“985 工程”大学质量工程实施成效呈现出“两头小、中间大”的格局。这种格局正好符合正态分布,这进一步验证了“985 工程”大学质量工程建设项目的评选相对公平,并未出现“马太效应”的现象[11]。  其次,不同类型大学质量工程实施成效存在差异。通过从主成分分析得到的排名可以看出,实施成效位于前10位的是清华大学、北京大学、武汉大学、浙江大学、华中科技大学、吉林大学、南京大学、四川大学、山东大学和中南大学。这10所大学中有7所为综合性大学。排名相对靠后的5所大学均为与农业、海洋、航空等行业紧密相关的行业特色性大学。排名处于中间位置的大学以理工科大学为主。因此,通过分析可以得出综合性大学实施成效较好、行业特色性大学实施成效相对较低、理工科大学实施成效处于两者之间。  最后,国家级建设项目对质量工程实施成效有较高的解释力。本研究选取6个国家级建设项目作为质量工程实施成效测量指标。通过主成分分析发现其累积贡献率为74.839%,高于社会科学中累积贡献率为60%[12]的标准,足够用来解释“985 工程”大学质量工程实施成效。而通过主成分表达式也可以看出,有5个测量指标的载荷量高于0.8,更好地说明了此主成分的可靠性。  参考文献  [1] 高思. 提高高校本科教学质量的重大举措[N].中国教育报,.  [2]李斌.我国高校质量工程达到预期目标[N].中国青年报,.  [3]王保进.多变量分析[M].北京:北京大学出版社,2007:62.  [4]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,.  [5]荣泰生.SPSS与研究方法[M].大连:东北财经大学出版社, .  [6]王保进.多变量分析[M].北京:北京大学出版社,.  [7]李硕豪.“985工程”大学本科教学质量绩效分析[J].国家教育行政学院学报,2012,(6).  [8]林海明.主成分分析与因子分析的异同和SPSS软件[J].统计研究,2005,(3).  [9][10]张文彤.SPSS统计分析高级教程[M].北京:高等教育出版社,8.  [11]李硕豪.“985工程”大学本科教学质量绩效分析[J].国家教育行政学院学报,2012,(6).  [12]吴明隆.SPSS操作与应用——多变量分析实务[M].台北:台湾五南图书出版社,.  责任编辑:陈国庆&&&&&&&   A Empirical Research on Outcome of “Quality Project”of “985 Project” Universities  Wang Yashuang, Jiao Yicheng  (Institution of Education, Xiamen University, Xiamen, 361005,China)  Abstract: Six indicators from the data of the “Annual report on the quality of undergraduate education and teaching (2010) are selected to assess the outcome of “Quality Project” of the “985 project” universities. The result of principal component analysis and cluster analysis shows that the selection of “Quality Project” of the “985 project” universities is relatively equal and there are some differences in the outcome of different kinds of universities and the construction projects at the national level have good explanatory power to the outcome of “Quality Project” of the “985 project” universities.  Key words: the “985 Project” U Quality P empirical research
上一篇:&&下一篇:&&
文章作者:&&>>&&>>&&>>&正文
一种新的聚类判别分析框架及其实证研究
  2.3平衡样本个数的有指导动态聚类  将人文发展指数案例中的待判样本加入聚类样本中,并且把待判样本以外的其他样本的组别作为动态聚类的起点,得到的聚类结果如表9、10所示。聚类结果与经典判别分析结果一致,并且指标权重的计算结果表明实际人均GDP指标具有显著的判别能力,成人识字率判别能力不显著。    3结束语    本文在分析经典聚类分析和判别分析方法实质的基础上,给出了一种新的聚类判别分析框架,并利用改进的两总体判别分析算法依据此分析框架构造并实现了一种动态聚类判别分析算法。实证结果表明逐步动态聚类算法具有相对较好的稳定性;无指导动态聚类算法很适合寻找样本中的奇异点,适合作为一种数据挖掘算法使用;有指导的动态聚类更适合于经典聚类算法的聚类问题。    参考文献:  [1]沈毅,陈峰.六种常见的条件系统聚类法比较[J].中国卫生统计,):338-340.  [2]WALTERDF.Ongroupingformaximumhomogeneity[J].AmericanStatisticalAssociationJournal,):789-798.  [3]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,.  [4]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,.  [5]朱孔来.评价指标的非线性无量纲模糊处理方法[J].系统工程,):58-62.  [6]魏世振,杨磊,陈传明.上市公司财务状况判别分析算法的实证研究[J].系统工程,):108-110.  [7]张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982.  [8]保罗?斯特里滕.关于人文发展指数的争论[J].国际社会科学杂志:中文版,1996(1):31-44.  [9]金玉国.新HDI评介[J].山西统计,1995(5):44-45.  [10]陈峰.带约束的聚类分析[J].数理医药学杂志,):112-113.  [11]蔡红艳,韩立岩.上市公司财务状况判定模型研究[J].审计研究,2003(1):62-64.  [12]徐成志,陈少军.ODBC配置数据库应用程序[J].山东农业大学学报:自然科学版,):238-241.  [13]贺智明,李雯.采用动态数据库连接技术开发多课程通用考试信息系统[J].计算机应用与软件,):16-17,77.  [14]赵宇峰,张烨,黑新宏,等.VB6访问数据库技术的应用[J].计算机应用研究,):223-224.  [15]谷震离.ADO访问SQLServer数据库技术分析及其应用[J].计算机应用与软件,):32-33,77.  [16]BRADLEYJC,MILLSPAUGHAC.VisualBasic6.0高级编程[M].常晓波,刘颖,等译.北京:清华大学出版社,2003.  [17]ALTMANE.Financialratios,discriminantanalysisandthepredictionofcorporatebankruptcy[J].JournalofFinance,):589-609.  [18]吴德胜,梁牛笠煌P驮诓莆裨ぞ抵ぶ械谋冉涎芯[J].管理工程学报,):105-108.  [19]刘洪,何光军.基于人工神经网络方法的上市公司经营失败预警研究[J].会计研究,2004(2):42-46.  [20]乔韦华韦华,牛芳.上市公司财务困境预测的Fisher判别分析模型[J].统计与信息论坛,):69-71.  [21]ZMIJEWSKIME.Methodologicalissuesrelatedtotheestimationoffinancialdistresspredictionmodels[J].StudiesonCurrentEconometricIssuesinAccountingResearch,):5982.  [22]GRICEJS,INGRAMRW.TestsofthegeneralizabilityofAltman’sbankruptcymodel[J].JournalofBusinessResearch,):53-61.  [23]郭亚军.综合评价理论与方法[M].北京:科学出版社,2002.  [24]杨淑娥,徐伟刚.上市公司财务预警模型――Y分数模型的实证研究[J].中国软科学,2003(1):56-60.  [25]MUTAPIF,MDULUZAT,RODDAMAW.Clusteranalysisofschistosomespecificantibodyresponsesartitionsthepopulationintodistinctepidemiologicalgroups[J].ImmunologyLetters,):231-240.    [26]YUANH,PARRILLA.ClusteranalysisandthreedimensionalQSARstudiesofHIV1integraseinhibitors[J].JournalofMolecularGraphicsandModelling,):317-328.  [27]TerBRAAKCJF,HERBERTH,WIESA,etal.Bayesianmodelbasedclusteranalysisforpredictingmacrofaunalcommunities[J].EcologicalModelling,):235-248.  [28]LIANGGS,CHOUTU,HANTC.Clusteranalysisbasedonfuzzyequivalencerelation[J].EuropeanJournalofOperationalResearch,):160-171.  [29]ALEXYU,VERENASP,WOLFGANGSH,etal.Clusteranalysisofindividualswithsimilartrendsoffatintakeduringchildhoodandadolescence:anewapproachtoanalyzingdietarydata[J].NutritionResearch,):251-260.  [30]PECEAEC.Generativemodelbasedtrackingbyclusteranalysisofimagedifferences[J].RoboticsandAutonomousSystems,):181-194.  [31]KWONSH.Thresholdselectionbasedonclusteranalysis[J].PatternRecognitionLetters,):.&&&&[3]&
也许您还关注以下文章:
没有相关论文10258人阅读
数据挖掘(34)
& & & 本文摘自中国科学院计算技术研究所周昭涛的硕士论文《文本聚类分析效果评价及文本表示研究》的第三章,算是一则读书笔记吧,希望对大家有点帮助。
文中提到的准确率和召回率的定义可参见&
其他相关链接:
作者: peghoty&
欢迎转载/分享, 但请务必声明文章出处.
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:650072次
积分:16976
积分:16976
排名:第350名
原创:104篇
转载:13篇
评论:540条君,已阅读到文档的结尾了呢~~
一种新的聚类判别分析框架及其实证研究,聚类分析和判别分析,聚类分析与判别分析,聚类分析 判别分析,聚类分析的研究现状,聚类算法研究,谱聚类集成算法研究,用户研究 聚类分析,聚类分析,聚类算法
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
一种新的聚类判别分析框架及其实证研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口

我要回帖

更多关于 聚类分析算法代码 的文章

 

随机推荐