如何根据一组数据，excel剔除重复数据偏离较大的异常值后，自动生成区间

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>编程语言 >>如何根据一组数据，excel剔除重复数据偏离较大的异常值后，自动生成区间

如何根据一组数据，excel剔除重复数据偏离较大的异常值后，自动生成区间

来源：蜘蛛抓取(WebSpider) 时间：2017-07-20 06:33 标签： excel剔除重复数据

当前位置： >>
数据挖掘中的数据预处理
内容提要随着社会的发展和数据库的应用，各领域的应用数据库中都积累了大量的历史数据。如何利用这些有潜在价值的数据，从中提取出有用的信息和知识，是应用者日益关注的问题，也是数据挖掘技术的关键所在。要进行数据挖掘，首先要保证数据质量，良好的数据能提高数据挖掘效果和效率，数据预处理逐渐成为数据挖掘不可缺少的重要前提。在数据挖掘的过程中如果只着眼于数据挖掘算法
的探讨，而忽视了对数据预处理的研究，在一定程度上往往会失去数据挖掘的某些重要意义。因为实际系统中的数据一般都具有不完整性、冗余性和模糊性，很少能直接满足数据挖掘算法的要求。另外，海量的数据中无意义的成分很多，严重影响了数据挖掘算法的执行效率，而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此，对不理想的原始数据进行有效的归纳和预处理，已经成为数据挖掘系统实现过程中的关键问题。本文通过对数据挖掘、数据预处理技术和理论的学习，以及对国内外数据挖掘与数据预处理系统的发展情况的研究，归纳总结了国内、外数据挖掘系统中数据预处理的特点，根据当今数据挖掘技术和数据挖掘系统的发展趋势，设计了一个数据预处理系统，该软件设计实现的预处理系统主要包括数据预处理过程中最常用、最直接、最有效的和有一定通用价值的维规约、聚集、过滤异常值、去掉重复记录处理，软件在一定程度上实现了对大量数据的清洗工作，为进一步数据挖掘提供了可靠的数据保障。关键词：数据挖掘数据预处理维规约聚集过滤异常值重复记录处理目内容提要第一章绪录论......................................................................................................... 11.1 引言................................................................................................................... 1 1.2 数据挖掘（DATA MINING）............................................................................. 1 1.3 数据挖掘与知识发现简介............................................................................... 2 1.4 数据挖掘系统简介........................................................................................... 6 1.5 本文的主要内容............................................................................................. 12 第二章国内外数据挖掘系统介绍....................................................................... 132.1 国外数据挖掘系统......................................................................................... 13 2.2 国内数据挖掘系统......................................................................................... 15 2.3 国内数据挖掘系统的发展环境及趋势......................................................... 17 2.4 本章小结......................................................................................................... 20 第三章数据预处理简介....................................................................................... 213.1 数据预处理..................................................................................................... 21 3.2 数据清洗(DATA CLEANSING) ........................................................................... 22 第四章数据预处理方法....................................................................................... 284.1 数据预处理方式............................................................................................. 28 4.2 发现异常......................................................................................................... 29 4.3 识别重复记录................................................................................................. 30 第五章软件实现数据预处理............................................................................... 325.1 系统的总体框架及流程................................................................................. 32 5.2 系统的功能模块及实现情况......................................................................... 341第六章全文总结................................................................................................... 546.1 结论和展望..................................................................................................... 54 参考文献................................................................................................................... 56 摘要ABSTRACT 致谢导师及作者简介2吉林大学硕士学位论文第一章1.1 引言绪论数据作为现代企业的宝贵资源，占据着越来越重要的地位，它是科学管理的基础、正确决策的前提、有效调控的手段。人们越来越希望从大量的数据中提取出有用的信息供决策使用。从数据中提取有用的信息或发现知识可以通过数据挖掘的方法来实现，但前提是数据必须具有正确性（ Correctness ）、一致性（ Consistency ）、完整性（ Completeness ）和可靠性（ Reliability ） [1 ] ，而目前的现存数据库或数据仓库中的数据普遍存在很多的问题。如数据输入错误、不同来源的数据引起的不同表示方法，数据间的不一致等，导致现有的数据中存在这样或那样的脏数据（即存在数据质量问题）。他们主要表现为：拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示（重复）、不遵循应用完整等。这样的数据被定义为脏的数据，这些脏数据可能带来如数据质量不高、决策制定失败甚至于错误等等。因此，针对脏数据的有效处理是进行数据挖掘，尤其是辅助决策的必要步骤。而数据预处理可以有效的清除脏数据、保证数据的质量。1.2 数据挖掘（Data Mining）数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，是当前计算机科学研究的热点之一。数据挖掘的主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是由于企业数据库的广泛使用积累了大量的数据，并迫切需要从这些数据中获取有用的信息的知识。数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩1吉林大学硕士学位论文尿布和啤酒之间有着惊人的联系。经过十多年的发展，数据挖掘的研究重点逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多学科之间的相互渗透。数据挖掘系统也从第一、二代系统转向第三、四代系统的研制。数据挖掘是面向应用的多学科交叉领域，应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁，对数据挖掘技术的推广起到很大的作用。数据挖掘定义包括好几层含义：数据源必须是真实的、大量的、不含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解，最好能用自然语言表达所发现的结果。数据挖掘可分为两类：预言性数据挖掘和描述性数据挖掘。预言性数据挖掘是进行数据分析，建立一个或一组模型，并根据模型产生关于数据的预测；描述性数据挖掘是以概要的方式对数据信息进行描述，提供数据的有趣的一般性质。1.3 数据挖掘与知识发现简介计算机技术的迅猛发展的今天，数据库技术和数据库管理系统（ DBMS ）的广泛使用，商业、各级政府机构和科研部门等的数据库中存储的数据量急剧增大并趋于分散。人们迫切需要有效地处理大规模数据的方法，希望能从中提取深层次的用于描述信息、整体特征以及事物发展趋势的预测内容。有需求就有发展， 1989 年 8 月在美国底特律召开的第 11 届国际人 [2] 工智能联合会议（ AAAI ）上，首次提出基于数据库的知识发现（ KDD ）一词。人们给 KDD 下过很多定义，内涵也各不相同，目前公认的定义是由 Fayyad 等人提出的。所谓基于数据库的知识发现（ KDD ）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘（ DM ）是知识发现过程的一个重要步骤。2吉林大学硕士学位论文1.3.1 数据挖掘与知识发现过程知识发现（ KDD ）是一个反复迭代的人机交互处理过程，该过程需要经历多个步骤，并且很多决策需要由用户提供。从宏观上看， KDD 过程主要由三个部分组成，即数据整理、数据挖掘和结果的解释评估。详细的， KDD 过程主要由以下步骤组成： 1. 数据准备：了解 KDD 应用领域的有关情况。该步骤包括熟悉相关的背景知识，搞清用户需求。 2. 数据选取：数据选取的目的是确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关的处理。 3. 数据预处理：对步骤 2 中选出的数据进行再处理，检查数据的完整性及数据一致性，消除噪声，滤除与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况利用统计等方法填充丢失的数据。 4. 数据变换：根据知识发现的任务对经过预处理的数据进行再处理，主要是通过投影或利用数据库的其它操作减少数据量。 5. 确定 KDD 目标：根据用户的要求，确定 KDD 是发现何种类型的知识，因为对 KDD 的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、时间序列、关联规则、聚类等。 6. 选择算法：根据确定的任务选择合适的知识发现算法，包括选取合适的模型和参数。同样的目标可以选择用不同的算法来解决，可以根据具体情况进行分析选择。有两种选择算法的途径，一是根据数据的特点不同，选择与之相关的算法；二是根据用户的要求，有的用户希望得到描述型的结果，有的用户希望得到预测准确度尽可能高的结果，不能一概而论。总之，要做到选择算法与整个 KDD 过程的评判标准相一致。 7. 数据挖掘：这是整个 KDD 过程中很重要的一个步骤。运用前面选择的算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来 (如产生式规则等 )是数据挖掘的目的。 8. 模式解释：对在数据挖掘步骤中发现的模式 (知识 )进行解释。经过用户或机器的评估后，可能会发现这些模式中存在冗余或无关的模式，此时应该将其剔除。当然，有些模式也许不能满足用户的要求，这就需要返回到前面的某些处理步骤中去反复提取。例如，重新选取数据、采用新的数据变换方法、修改数据挖掘算法的某些参数值，甚至换另外的一种挖掘算法，从而提取出更有效的知识。3吉林大学硕士学位论文9. 知识评价：将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检查，以确信本次发现的知识不会与以前发现的知识相抵触。由于挖掘出来的知识最终是呈现给用户的，所以，应该以用户所能够理解的最直观的方式作为最终结果。因此，知识发现工作还包括对模式进行可视化处理等等。在上述步骤中，数据挖掘主要目的是利用某些特定的知识发现算法，在一定的运算效率范围内，从数据中发现出有关知识，数据挖掘决定了整个 KDD 过程的效果与效率。人们已经遵循以上知识发现过程开发了很多实用的数据挖掘工具。1.3.2 数据挖掘的相关领域图 1.1 粗略地展示了一些数据挖掘方法。数据挖掘方法的三个主要来源是机器学习、数据库技术和统计学，与数据挖掘相关的理论和技术可以分别按挖掘任务、挖掘对象和挖掘方法来分类。数据库统计学基于规则的系统可视化技术高性能计算模糊集知识发现与数据挖掘知识表示机器学习粗糙集模式识别人工神经网络图 1.1 数据挖掘方法与相关领域1. 按挖掘任务分类：包括分类与预测、聚类、关联规则、时序模式、数据总结、依赖关系或依赖模型发现、异常和趋势发现等。 2. 按挖掘对象分类：包括关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、数据仓库、演绎数据库和 Web 数据库等。 3. 按挖掘方法分类：包括机器学习方法、统计方法、数据库方法和神经网络方法等。机器学习方法可以细分为归纳学习方法 [3] （决策4吉林大学硕士学位论文树、规则归纳等）、基于范例学习、遗传算法等。统计方法又可细分为回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主成分分析、相关分析等）等。数据库方法主要是多维数据分析和 OLAP 技术，此外还有面向属性的归纳方法。神经网络方法可以进一步分为前向神经网络（ BP 算法等）， Hopfield 神经网络，自组织神经网络（自组织特征映射、竞争学习等）。1.3.3 数据挖掘的任务和方法数据挖掘可以理解为能从数据中自动提取有用模式的一组特定方法。数据挖掘的任务是从数据中发现模式，它的任务主要包括： 1. 数据约简数据约简的目的是对数据信息进行浓缩，给出信息的紧凑描述。最简单的数据约简方法是利用统计学理论计算出和值、平均值、方差值等，或者利用简单、直观的图形方式（如直方图、饼状图等）表示统计结果。 2. 分类与估计分类旨在找到一个分类函数或分类模型，利用分类函数或分类模型将被分类数据项映射到某一个给定类别中。分类可从历史数据结果中自动推导出给定数据的推广描述，从而预测未来数据，预测准确性的检验需等待事件完成。分类模型的构造方法包括：数理统计、机器学习、决策树、贝叶斯网络、神经网络及粗糙集等方法。针对不同分类对象构造不同的分类模型，不存在适合于各种数据的模型构造方法。分类处理的输出结果是离散的类别值，与分类方法不同，估计处理的结果是连续的，但两者的函数定义类似。分类与估计都可用于预测。 3. 聚类聚类是根据对象数据的不同特性，将对象数据集划分为多个组，聚类生成的组称为簇（ Cluster ），即簇是数据对象的集合。聚类的目的是使簇内对象间的差别或距离尽可能小，簇间对象的差别或距离尽可能大。聚类与分类的区别在于聚类并不依赖于已确定的组别。聚类方法主要包括统计法、机器学习法、神经网络法等。 4. 关联分析关联分析的任务是发现数据对象之间的相互依赖性或相互关联5吉林大学硕士学位论文性。如果由对象 A 可以推导出对象 B，可以用 A → B 表示，并称为对象 B 依赖于对象 A。常用的分析技术有估计分析、关联规则、信念网络等。关联分析主要是针对事务型数据库（如销售数据库等），构造出的关联规则可利于商业决策，能帮助规划市场、降低成本、预测市场趋势、改进客户关系管理等。目前国内从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。所涉及的研究领域一般集中于数据挖掘算法的研究、实际应用和有关理论方面的研究。领域研究者进行的多数项目，如国家自然科学基金、 863 计划、 “十五”计划等，都是由国家政府资助的研究项目，有关于国内数据挖掘系统的报道较少，数据挖掘工具的开发与国际先进水平还有很大差距。数据挖掘是应用于大型数据库中的技术，是具有广阔前景的研究领域，除理论和技术方面的问题外，在开发和应用中经常遇到的技术难题包括：海量数据、噪声数据、数据类型不一致、数据缺陷、数据的动态性和数据的私有性、安全性等问题。今后可能的研究方向是：高效并行的挖掘算法，挖掘结果有效性、确定性的提高，多源数据挖掘，多抽象层次上的交互式数据挖掘，数据挖掘系统的实用性、安全性和保密性等。1.4 数据挖掘系统简介随着数据库技术的迅速发展以及数据库管理系统的广泛应用，数据规模的膨胀和分析需求的增长给数据库、数据仓库厂商和各种数据库应用企业带来了前所未有的冲击和挑战。在这种情况下，各种类型的数据挖掘系统和商业智能（ Business Intelligence ）软件不断被开发、研制产生。数据挖掘系统属于智能决策支持系统，是一种以信息技术为手段，应用管理科学、计算机科学及有关学科的理论和方法，结合具体行业的知识背景和历史数据，针对半结构化和非结构化的决策问题，通过提供背景材料、协助明确问题、修改完善模型、列举可能方案、进行分析比较等方式，为管理者提供知识和模式，帮助管理者做出正确决策的智能人机交互信息系统。近年来，人们已经对数据挖掘过程和数据挖掘系统进行了大量研究。 1996 年，美国人工智能协会的 Brachman 和 Anand 在文中提出强调以用户为中心的过程模型， Reinartz 在文章中进一步强调了以用户为6吉林大学硕士学位论文中心的重要性，上述工作都强调了用户交互的必要性以及用户交互在成功的数据挖掘过程中的作用。 Williams 对整个数据挖掘过程进行了理论上的形式化描述，从而有助于对不同的方法进行比较和区分。 Imielinski 和 Mannila 在 96 年提出了第二代数据挖掘的概念， Virmani 在 98 年实现了一个第二代数据挖掘系统， Grossman 在 98 年提出了第四代数据挖掘系统的概念， Goeble 等在 KDD’99 上对 43 个数据挖掘系统进行了分析和比较，提出了一种数据挖掘系统分类的方法，Piatetsky Shaprio 在 KDD2000 上总结了数据挖掘系统发展的三个阶段 [ 4 ] ， Hongjun Lu 在 PAKDD’01 上进一步提出数据挖掘系统与数据库管理系统集成的趋势， Jiawei Han 在 2001 年提出数据挖掘技术与应用相结合开发纵向的数据挖掘系统的发展方向。1.4.1 数据挖掘过程模型数据挖掘过程模型是开发数据挖掘系统的基础，对数据挖掘系统的开发设计有着直接的指导作用。对于数据挖掘过程模型的研究很多，根据这些过程模型，设计和实现了许多相应的数据挖掘原型系统和商业系统。 KDNuggests （ /software ）上介绍了上百个数据挖掘系统，大致可以将数据挖掘模型分为两类，一种是 Fayyad 总结出的过程模型，另一种是遵循 CRISP―DM 的过程模型。 Fayyad 过程模型（如图 1.2 ）的主要步骤：数据选择、数据预处理、数据转换、数据挖掘、解释和评估。 Fayyad 过程模型是一个偏重技术的模型，该模型从数据入手，到知识结束。目前早期开发的大部分数据挖掘系统都遵循 Fayyad 过程模型，即数据挖掘系统的功能是发现模式，生成模型，但是该模型存在几个问题： ① 为什么选择这些数据 ② 模型如何被使用 ③ 如何与现有的信息系统集成以上几点这些系统并没有实现。典型的遵循 Fayyad 过程模型的系统有： IBM Intelligent Miner 、 SAS Enterprise Miner 、 DBMiner 等。7吉林大学硕士学位论文选择预处理转换挖掘评估数据目标数据处理后数据转换数据模式知识图 1.2Fayyad 提出的过程模型CRISP-DM [ 5 ] 全称为 Cross- Industry Standard Process for Data Mining ，即交叉行业数据挖掘过程标准。由 SPSS 、NCR 、Daimler-Benz 在 1996 年制定， CRISP-DM 模型（如图 1.3 ）注重技术的应用，解决了 Fayyad 模型存在的两个问题，该模型经过不断的完善和实验，于 1999 年发布了 CRISP-DM1.0 。CRISP-DM 过程模型从数据挖掘技术应用的角度划分数据挖掘任务，将数据挖掘技术与应用紧密结合，更加注重数据挖掘模型的质量和如何与业务问题相结合、如何应用挖掘出的模型等实际应用中用户最关心的问题，因此 CRISP-DM 过程模型从商业的角度给出了对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循 CRISP-DM 标准，将模式的挖掘和模型的部署紧密结合。 CRISP-DM 模型包括以下主要步骤：商业理解、数据理解、数据准备、建立模型、模型评估、模型发布。图 1.3 CRISP-DM 过程模型8吉林大学硕士学位论文1.4.2 数据挖掘系统的发展1. 四代数据挖掘系统 [ 5 ] Grossman 从技术层面提出将数据挖掘系统划分为四代（如表 1.1 ）表 1.1 四代数据挖掘系统数据挖掘算法支持一个或者多个算法多个算和数据库以第二代及数据仓库集成法：挖掘一次不能放进内存的数据和预言模型系统集成和移动数据第四代 /各种计算设备的数据联合多个算法数据库管理系统：包括数据库和数据仓库数据库管理多个算法系统和预言模型系统数据库管理、预言模型、移动系统移动和各种计算设备同质、局部区域的计算机集群有些系统支持对象、文本、和连续的媒体数据支持半结 intranet/extrane t网络计算构化数据和 Web 数据普遍存在的计算模型独立的系统单个机器向量数据代特征集成分布计算模型数据模型数据挖掘作第一代为一个独立的应用第三代概括地讲，第二代系统提供数据库管理系统和数据挖掘系统之间的有效接口，这可以作为如何标记合适的数据挖掘原语的一个研究问题，数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能；第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效接口。这些接口的研究与开发使得数据挖掘系统能够和预言模型系统以及数据库 / 数据仓库合并，以提供一个集成的系统来管理日常的商业过程。9吉林大学硕士学位论文与数据挖掘过程模型对应起来，第一、二代系统支持 Fayyad 过程模型，第三、四代支持 CRISP-DM 模型。第一代系统和第二代系统相比由于不具有和数据管理系统之间的有效接口，所以在数据预处理方面有一定的缺陷，第三、四代系统强调预言模型的使用和在操作型环境下的部署，能更好的支持 CRISP-DM 模型。目前，随着新的挖掘算法的开发和研究，第一代数据挖掘系统仍然会出现，第二代系统是商业软件的主流，部分第二代系统在开发上已经研制出相应的第三代数据挖掘系统，第四代数据挖掘系统尚未见报道，只在 PKDD2001 上 Kargupta 发表了一篇在移动环境下挖掘决策树的论文。 2. 数据挖掘系统的三个发展阶段上面从技术层面将数据挖掘系统划分为四代，并没有涉及数据挖掘系统的应用发展，下面从应用的角度将数据挖掘系统的发展归纳为三个阶段： 1) 第一阶段：独立的数据挖掘系统独立的数据挖掘系统对应第一代系统，出现在数据挖掘技术发展早期，研究人员开发出一种新型的数据挖掘算法，就形成一个软件。这类系统要求用户对具体的算法和数据挖掘技术有相当的了解，还要负责大量的数据预处理工作。比如 C4.5 决策树，平行坐标可视化（ parallel-coordinate visualization ）等。 2) 第二阶段：横向的数据挖掘工具随着数据挖掘应用的发展，人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合： ①数据库和数据仓库 ②多种类型的数据挖掘算法 ③数据转换、数据清洗等预处理工作随着这些需求的出现， 1995 年左右软件开发商开始提供称之为 “ 工具集 ”的数据挖掘系统。此类工具集的特点是提供多种数据挖掘算法（通常有关联规则、分类和聚类等），同时也包括数据的转换和可视化。由于此类工具并非面向特定的应用，是通用的算法集合，可以称之为横向的数据挖掘工具（ Horizontal Data Mining Tools ）。数据挖掘系统的第二、三、四代系统都属于横向的数据挖掘工具。横向的工具一般都支持 Fayyad 过程模型，部分系统增加了模型评价和部署，比如： SPSS Clementine ，从而支持 CRISP-DM 模型。典型的横向工具有： IBM Intelligent Miner 、 SAS Enterprise Miner 、 SPSS Clementine 、 SGI 的10吉林大学硕士学位论文Mineset 、 Oracle Darwin 等。 3) 第三阶段：纵向的数据挖掘解决方案随着横向数据挖掘工具使用的日渐广泛，人们也发现这类数据挖掘工具只有精通数据挖掘算法的专家才能熟练使用，如果对算法不了解，难以得出好的模型。所以为了推动数据挖掘技术的应用，从 1999 年开始，大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案，即针对特定的应用提供完整的数据挖掘方案，这些方案提供商主要有 KD1 （主要用于零售业）、 Option&Choice （主要用于保险业）、 HNC （欺诈行为侦测）和 Unical Model （主要用于市场营销）等。纵向的解决方案大都支持 CRISP-DM 模型，强调模型的应用和部署，以及与操作型系统的集成。1.4.3 数据挖掘系统的国际业界标准数据挖掘国际会议（ KDD ）在 2000 年开始专门开辟标准专题讨论区，目前数据挖掘已经存在一些标准，包括数据挖掘过程标准 CRISP-DM ，预言模型交换标准 PMML ，Microsoft 的 OLE DB For Data Mining 等。 CRISP-DM 已经被许多数据挖掘系统遵循， PMML 和 OLE DB For DM 因为正在制定和发展中，遵循的数据挖掘系统较少。 CRISP-DM ：全称是交叉行业数据挖掘过程标准（ Cross-Industry Standard Process for Data Mining ）。它由 SPSS 、 NCR 以及 DaimlerChrysler 三个公司在 1996 年提出，是数据挖掘公司和使用数据挖掘软件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商用来指导其数据挖掘软件的开发，同时也是开发数据挖掘项目过程的标准方法。 PMML ：全称是 “ 预言模型标记语言 ” （ Predictive Model Markup [6] Language, PMML ）。它由数据挖掘协会（ The Data Mining Group, http://www.dmg.org, DMG ）开发。 PMML 是对数据挖掘模型进行描述和定义的语言，已经被 W3C 接受，成为国际标准。如果数据挖掘系统在模型定义和描述方面遵循 PMML 标准，那么各数据挖掘系统之间可以共享模型。 OLE DB For DM ：是微软公司在 2000 年 3 月推出的数据挖掘标准。 OLE DB for DM 的规范包括创建原语以及许多重要数据挖掘模型的定义和使用（包括预言模型和聚集）。它是一个基于 SQL 语言的协议，为软件商和应用开发人员提供了一个开放的接口，该接口将数据11吉林大学硕士学位论文挖掘工具更有效地和商业以及电子商务应用集成。同时， OLE DB for DM 已经与 DMG 发布的 PMML 标准结合。1.5 本文的主要内容本文综合目前市场及科研领域较为流行和成熟的数据挖掘产品（如 SAS Enterprise Miner 、 Weka 等）的优点，设计了一个数据挖掘系统的预处理过程，目前国内外数据挖掘系统，都侧重于挖掘算法的实现，数据的预处理软件相对较少，功能有限，更没有通用的软件，本文通过对数据预处理进行了深入的研究，软件设计实现了数据预处理一些常用的算法的通用处理程序。能够通过维规约、聚集、过滤异常值、去掉重复记录处理办法对数据进行一定程度的清洗，达到去掉脏数据、去掉噪声、提高数据挖掘算法的效率的作用。软件设计本身也进行一定程度的优化，达到高效数据预处理的目的。主要内容如下：第一章介绍了数据挖掘和知识发现的概念和方法，对数据挖掘系统的产生和发展进行了介绍。第二章对国内外同类的数据挖掘系统进行了较为全面的介绍，对数据挖掘工具的发展前景和趋势进行了分析。第三章介绍了数据挖掘系统中数据预处理的必要性、以及数据预处理的功能和主要的方法。第四章详细介绍了软件设计实现的几种数据预处理方法的处理过程。第五章介绍了软件开发情况，介绍了软件的界面功能，和部分程序设计主要代码编写情况。第六章对全文进行总结，提出了数据预处理在今后发展时值得研究和注意的问题。12吉林大学硕士学位论文第二章国内外数据挖掘系统介绍2.1 国外数据挖掘系统在国外，数据挖掘理论研究开展得相对早，数据挖掘技术的发展也很迅速。在这种环境下，很多实力强大、技术领先的商业公司和研究机构投入大量的人力和财力来开发各自的数据挖掘产品。目前，已经开发出了许多功能强大并且使用简便的数据挖掘系统，其中很多系统已经形成产品，为需要对数据进行处理的企业提供支持。下面，对当前国外流行的一些数据挖掘系统作一些简单介绍： 1. SAS Enterprise Miner SAS 系统全称为 Statistics Analysis System ，最早由北卡罗来纳大学的两位生物统计学研究生编制，并于 1976 年成立了 SAS 软件研究所，正式推出了 SAS 软件。 SAS 是美国使用最为广泛的三大著名统计分析软件（ SAS ， SPSS 和 SYSTAT ）之一，是目前国际上最为流行的一种大型统计分析系统，被誉为统计分析的标准软件。 SAS Enterprise Miner 模块是一个基于图形化界面、菜单驱动、拖拉式操作、对用户非常友好且功能强大的数据挖掘集成环境。其中集成了：数据获取工具、数据抽样工具、数据筛选工具、数据变量转换工具、数据挖掘数据库、数据挖掘模型、多种形式的回归工具、为建立决策树的数据剖分工具、决策树浏览工具、人工神经元网络、数据挖掘的评价模型等工具。这些具有明确代表意义的图形化模块将各个数据挖掘的工具单元组成一个处理流程图，并依此来组织数据挖掘的过程。同时可以根据具体情况的需要进行修改、更新并将需要的模式存储起来，以便此后重新调出来使用。目前 SAS 已在全球 100 多个国家和地区拥有 29000 多个客户群，直接用户超过 300 万人。在我国，国家信息中心、国家统计局、卫生部、中国科学院等都是 SAS 系统的大用户。 SAS 已被广泛应用于政府行政管理、科研、教育、生产和金融等不同领域，并且发挥着愈来愈重要的作用 [7]。 2. SPSS Clementine SPSS 是世界上最早的统计分析软件之一，由美国斯坦福大学的三位研究生于 20 世纪 60 年代末研制，同时成立了 SPSS 公司，并于 1975 年在美国伊利诺斯的芝加哥市组建了 SPSS 总部。迄今 SPSS 软件已有 30 多13吉林大学硕士学位论文年的成长历史，全球约有 25 万家产品用户，他们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业，是世界上应用最广泛的专业统计软件之一。 SPSS 是世界上最早采用图形菜单驱动界面的统计软件，它最突出的特点就是操作界面极为友好，输出结果美观漂亮。 SPSS 采用类似于 EXCEL 表格的方式输入与管理数据，数据接口较为通用，能方便地从其它数据库中读入数据。 SPSS 数据挖掘产品和服务通过支持交叉行业数据挖掘标准 CRISP-DM 来保证及时、可靠的结果。其中 SPSS Clementine 模块把有价值的商务知识融入到数据挖掘的每一步过程，实现交互式数据挖掘。并且提供分类、神经网络、关联规则、聚类、时间序列等丰富的数据挖掘模型，应用业界领先的模型发布技术使数据挖掘结果更好的传递到相应的管理和决策人员手中。 3. IBM Intelligent Miner IBM 公司的 Intelligent Miner 通过其领先的技术，如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现等技术，可以自动实现数据选择、数据转换、数据挖掘和结果呈现等一整套数据挖掘操作。可以帮助用户从企业数据资产中识别和提炼有价值的信息，包括分析软件工具 Intelligent Miner for Data 和 IBM Intelligent Miner for Text ，帮助企业选取以前未知的、有效的、可行的业务知识。 Intelligent Miner for Data 可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息。拥有改进的用户界面，增强了并行性，提供新的平台支持、统计功能、新的价值预测技术以及优化的算法。其采集算法已成功应用于 IBM 的客户及贸易伙伴之中，能够满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。 IBM Intelligent Miner for Text 允许企业从文本信息中获取有价值的客户信息。文本数据源可以是 Web 页面、在线服务、传真、电子邮件、 Lotus Notes 数据库、协定和专利库。它扩展了 IBM 的数据采集功能，可以从文本文档和数据源中获取信息。数据源包括客户反馈、在线新闻服务、电子邮件和 Web 页面。其功能包括：识别文档语言；建立姓名、用语或其它词汇的词典；提取文本的涵义；将类似的文档分组；根据内容将文档归类等。新版本中还包括一个多功能的先进文本搜索引擎和非常高效的 Web 文本搜索功能。 4. Insightful Miner Insightful Miner （ I-Miner ）是由美国 Insightful 公司开发的具有高度可扩展性的数据分析和数据挖掘软件。它既适用于数据挖掘初学者，又适用于有经验的数据分析专家。其主要特点是： I-Miner 可视化编程14吉林大学硕士学位论文界面减少了数据挖掘的复杂性，使得广泛的非高级用户也能使用复杂的预测模型建模；用户界面基于独特的管道式架构确保高度可扩展性；所有的 I-Miner 组件，如数据获取、探索性分析、数据操纵、数据清洗、统计模型、机器学习、模型评估和发布都充分利用独特的管道式架构保证在数据规模和数据处理速度方面的可扩展性；与其它挖掘工具不同的是，所有 I-Miner 组件既能运行于驻留内存中的数据集，又能运行于驻留于内存外的数据集； I-Miner 与数据分析语言 ― S 语言的集成使其成为数据挖掘市面上算法最丰富和最具有可扩展性的工具之一； I-Miner 在数据挖掘工具市场上设立了新的性价比标准，低成本初始费用、提供桌面版、永久的 License 无需每年缴纳年费。 Insightful Miner 目前在金融、生物科技、政府机构等企事业单位应用非常广泛。除此以外，国外还有其它一些比较成熟的数据挖掘系统，包括： Oracle 公司从 Thinking Machines 公司取得的 Darwin ； Unica 公司开发的 Affinium Model ； Angoss Software 所开发的 KnowledgeSEEKER ；加拿大 Simon Fraser 大学开发的 DBMiner ； SGI 公司和美国 Standford 大学联合开发的 Minset ； HNC 公司开发的用于信用卡诈骗分析的 Database Mining Workstation ；IBM 公司 Almaden 研究中心开发的 Quest 、NeoVista 开发的 Decision Series ；以及 KEFIR 系统、SKICAT 系统等。这些数据挖掘系统的特点各不相同，有的适合大规模企业的长期数据挖掘项目，有的针对特殊行业的数据应用，还有的用于实验室科研机构的数据挖掘理论研究等。这些数据挖掘系统面向应用，并且在应用中得到了广泛的推广和使用，反过来也大大推动了数据挖掘理论的研究与发展。2.2 国内数据挖掘系统1. DMiner DMiner 是由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘平台。平台提供了关联规则、序列模式、决策树分类、神经元网络、聚类、异常检测等多种数据挖掘算法，并提供了相应的数据挖掘模型可视化方法，用户可以查看模型可视化结果，了解数据分布情况，并能用预测模型对未来的情况做出合理的预测。 DMiner 智能分析平台采用自定义的基于 XML 的数据分析流程语言 DMAPML 将数据分析的各种方法（ ETL 、数据探索、数据处理、统计分析、数据挖掘、信息发布等）以可视化分析流程的方式集成。采用可扩展的数据分析功能库，提供丰富的数据可视化控件，使用 JDBC 作为数据访问接口，15吉林大学硕士学位论文支持目前主流的数据库管理系统。 DMiner 采用基于构件的软件设计方法，通过 OLE DB 可以与多种数据源（关系、文本、数据立方体等）进行连接，利用插件的概念实现了系统对新算法的可扩展性，对于挖掘出的模型采用基于 XML 的 PMML 标准格式进行存储和管理，方便了系 [8] 统和预言模型系统之间的集成。 2. iDMiner iDMiner 是由海尔青大公司开发的具有自主知识产权的数据挖掘系统。系统中的数据挖掘算法符合 OLE DB For Data Mining 规范，并且被独立封装，与应用服务层之间存在统一的接口；算法与算法之间不存在任何联系，只需对算法的 DLL 动态链接库进行注册、注销操作，即可增删算法，系统具有良好的可扩展性。系统中，无论哪类算法生成的模型，都以 PMML 格式描述，用 PMML 描述数据挖掘模型，可以将系统分析出的规则和知识描述成单独的 XML 文档。这些文档可以脱离系统环境使用。由于 XML 文档的可读性及平台无关性，能够很轻易的重用于其它系统中。该软件的着眼点不在于算法的精确性或界面的美观性，而致力于构造一个开放的、可重构、可扩展的软件平台。尤其对国际通用业界标准的大胆采用，为该软件今后的发展预留了很大的空间，同时也为国内同类软件融入世界及开发提供了一条新的思路。 3. MSMiner MSMiner 是由中科院计算技术研究所智能信息处理实验室开发的多策略数据挖掘平台。系统的基本特点是：集成基于数据仓库和新型的元数据管理，按照主题创建数据仓库，并通过元数据进行管理和维护；数据的抽取、转换、装载等方便的预处理手段；支持多维数据在线分析处理（ OLAP ）；提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经网络计算等多种数据挖掘算法；支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能，并支持高层次的决策分析；挖掘平台利用扩展了数据仓库某些功能和特征的数据库管理系统（如 SQL Server, Sybase, Oracle, Informix ）作后台，可以与现有的系统无缝的连接，也从关系型数据库、文本、万维网等外部数据源中抽取数据，费用低，周期短；实现了可视化的任务编辑环境，以及功能强大的任务处理引擎，能够快捷有效地实现各种数据转换和数据挖掘任务；具有良好的可扩展性，转换规则和挖掘算法是封装的、模块化的，系统提供了一个开放的、灵活通用的接口，使用户能够加入新的规则和算法，容易进行二次开发。将 MSMiner 与具体的领域相结合，构造实际的应用系统时具有方便、快16吉林大学硕士学位论文速、灵活、高效等特点，能够有效地进行验证性发现和探索性发现。除此之外，国内还有一些其它相关数据挖掘产品的报道，如：复旦德门公司开发的 ARMiner 和 CIAS 、东北大学开发的面向先进制造企业的综合数据挖掘系统 ScopeMiner 、东北大学软件中心基于 SAS 开发的 OpenMiner 以及长春工业大学开发的数据挖掘工具软件等。2.3 国内数据挖掘系统的发展环境及趋势2.3.1 数据挖掘系统的市场环境如何有效的从大量历史数据中找到有价值的信息，从而帮助企业对未来变化做出及时正确的决策，最终在激烈的市场竞争中占据主动，已经成为当前企业越来越迫切需要解决的问题。商业智能（ BI ： Business Intelligence ）就是这样一种用于从大量的企业数据中创建出智能知识的技术。从它诞生到现在的短短几年发展中，其技术和市场都取得了巨大的发展，各种 BI 产品也纷纷面世。数据挖掘系统、决策支持系统等都属于 BI 软件。据权威研究报告显示， 2003 年全球 BI 软件市场价值约为 71 亿美元，比 2002 年的 55 亿美元增长了近三成，成为继 ERP 之后，管理软件领域的新的增长点。从国内市场来看， 2003 年以来中国 BI 软件市场增长速度较快，并且远未达到成熟和饱和，市场潜力还很大。据权威研究报告预测未来 5 年中国 BI 市场的年复合增长率将达到 64.6% 。低端数据挖掘运用的是那些提供几种机器学习算法如决策树、神经网络等的厂商。通常不具有可扩展性，没有自己的脚本语言，也不提供任何操作日志记录。低端数据挖掘工具不能很好地支持数据获取和预处理，而这部分任务往往占据数据挖掘任务 60%-80% 的工作量。最为关键的是低端数据挖掘工具算法的计算过程必须一次性进入内存，因此本质上使其不具有可扩展性；而同时他们也缺乏丰富的数据分析语言，所以不能快速适应用户需求的变化。总体上说，低端数据挖掘工具价格便宜，但不能单独解决数据挖掘问题，也根本不具有处理大数据量的能力。高端数据挖掘主要来自于那些将数据挖掘工具与其数据库系统捆绑的厂商。这些厂商优势在于 IT 技能而非数据分析能力。这种硬件与软件系统相捆绑的方式保证了挖掘产品的可扩展性。但是严格的讲，他们更多的不是工具而是花费巨大的系统集成项目。他们所依赖的实17吉林大学硕士学位论文施流程反映出很大 ERP 和 CRM 的痕迹。不幸的是，高端数据挖掘工具也往往不能很好满足用户运行效率、投资回报上的期望。总而言之，高端数据挖掘平台适用于那些大的系统集成项目，而不是 “量体裁衣 ” 的解决方案。处于中间层次的数据挖掘工具数量众多。这是数据分析和贴身解决方案的领域。这些数据挖掘工具能支持整个数据挖掘流程并拥有可集成的分析语言。但是，这些工具在扩展性、灵活性、易用性等方面仍然存在严重缺陷。受他们的核心架构限定，这些缺陷难以解决。让人疑惑的是，这些工具并不要求整个 IT 部门实施，但他们却不提供可供给广大用户买得起的桌面版。事实上，他们拒绝了那些希望使用单授权密码的桌面版用户。这些工具初始购置费用十分昂贵（约 $35,000-$100,000 ），有些还要收取年费以保证继续拥有所有权 [9]。2.3.2 国内数据挖掘系统的分类中国的高端 BI 市场被国际大厂商占据，低端市场是国内的 BI 厂商及行业的 ISV 和集成商在竞争。可以将国内市场的 BI 软件公司分为以下三类。第一类公司是那些提供数据库软件或统计分析软件的跨国大公司，凭借着先进的技术势力和雄厚的资金支持，将产品延伸到 BI 领域，并将其 BI 产品打包在其数据库或统计软件中推广，从而抢占高端市场。第二类公司是专门做 BI 软件的厂商。第三类公司是国内的 BI 厂商及行业 ISV ，他们一直在开发一些联机分析数据类软件，并将其作为财务套装软件的一部分，进行捆绑销售。作为 BI 产品，他们所服务的是低端市场。随着 BI 在国内需求日趋迫切， BI 市场规模巨大，而且增长迅速。但是从以上分析可以看出，国内的 BI 厂商并没有完整的 BI 产品，主要是利用国外的产品在各个行业进行 BI 解决方案的实施，或者在开发报表和联机分析等功能的低端分析软件。国内数据挖掘相关产品，根据技术特点大致分为三类： 1. 面向某一行业甚至某一应用的专用数据挖掘产品。这些产品是由开发商为某一特定用户或者特定应用开发的专用数据挖掘系统衍化而来的。其特点是算法针对性强，模型设计科学严谨，功能较强；缺点是通用性差，不易修改。18吉林大学硕士学位论文2. 基于国外产品经过二次开发而来的软件。国内有一些数据挖掘产品是在 SAS 、 SAP 等国外产品的基础上经过二次开发得到的。严格意义上讲，这些软件不具有完全的自主知识产权，不是纯粹的 “ 国货 ” 。 3. 自主研发的通用数据挖掘产品。也有少量数据挖掘软件是国内厂商完全自主开发的。该类软件功能比前两类强，不但包含算法多，可用范围广，同时可修改、可维护性较强。但是由于某些原因的影响，国内自主版权的软件绝大多数未遵照国外数据挖掘业界的工业标准，造成扩展性及兼容性的缺陷。2.3.3 国内数据挖掘系统的发展趋势目前，国内的一些数据挖掘软件开发厂商已经开发了一系列的数据挖掘产品。这些产品有的功能不够完善，有的针对具体行业，适用范围小，与国际领先水平还有很大差距。因此，国内数据挖掘软件开发业的发展潜力和上升空间都很大，结合当前国内数据挖掘系统的发展趋势，在今后开发过程中主要应该注意的有： 1. 与国际标准接轨，采用数据挖掘业界的通用标准。采用数据挖掘的业界标准（如： CRISP-DM 、 PMML 、 OLE DB for DM ）可以使数据挖掘系统更好的与国际先进水平接轨，共享系统的数据挖掘模型，为软件今后的发展预留空间，使国产软件尽早融入世界。 2. 对日益增长的大规模海量数据的高效处理。数据挖掘面临着如何处理现实数据库中日益增长的大规模海量数据的问题，目前系统可以采用数据仓库、嵌入灵活的数据预处理语言、缓冲技术、并行数据挖掘等技术来解决此类问题。 3. 数据挖掘算法的行业适用性及灵活的嵌入、更新策略。利用数据挖掘算法对数据进行挖掘是整个数据挖掘过程的核心，因此，开发准确性好、效率高、行业适用性强的数据挖掘算法和提供灵活、方便的算法嵌入策略，也是开发数据挖掘系统时应当注意的问题。 4. 开发友好的交互界面和图形可视化技术。友好、方便的数据选取、算法设置，结果显示等图形可视化技术，是好的数据挖掘系统应该具备的。 5. 建立好的预言模型打分方法和模型评估评价标准。如何评价多个数据挖掘模型之间的效率高低、准确程度，也是数据挖掘系统急待解决的问题。 6. 网络环境、新兴领域（如生物技术、基因工程）以及移动设备19吉林大学硕士学位论文联合方面的挖掘。在一些新兴领域开发具有 Web 挖掘功能和与移动设备结合的数据挖掘系统，符合现代数据挖掘的发展趋势。2.4 本章小结本章分别介绍了当前数据挖掘行业国内外流行的几种数据挖掘系统以及这些系统的基本特点和应用领域。接下来结合整个数据挖掘系统的市场环境，重点分析了国内数据挖掘系统的分类及发展情况，并且分析了国内数据挖掘系统今后的发展趋势，为 DBIN Miner 系统的开发指明了方向。20吉林大学硕士学位论文第三章3.1 数据预处理数据预处理简介3.1.1 系统的原始数据中存在的问题1. 杂乱性，原始数据是从各个实际应用系统中获取的，由于各应用系统的数据缺乏统一标准的定义，数据结构也有较大的差异，因此各系统间的数据存在较大的不一致性，往往不能直接拿来使用。 2. 重复性，是指对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。这是应用系统实际使用过程中普遍存在的问题，几乎所有应用系统中都存在数据的重复和信息的冗余现象。 3. 不完整性，由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的，数据记录中可能会出现有些数据属性的值丢失或不确定的情况，还可能缺失必需的数据而造成数据不完整。实际使用的系统中，存在大量的模糊信息，有些数据甚至还具有一定的随机性质。3.1.2 预处理的必要性一个完整的数据挖掘系统必须包括数据预处理模块。它以发现任务作为目标，以领域知识作为指导，用全新的“业务模型”来组织原来的业务数据，摈弃一些与挖掘目标不相关的属性，为数据挖掘内核算法提供干净、准确、更有针对性的数据，从而减少挖掘内核的数据处理量，提高挖掘效率，提高知识发现的起点和知识的准确度。数据预处理是数据挖掘前的数据准备工作，一方面保证挖掘数据的正确性和有效性，另一方面通过对数据格式和内容的调整，使数据更符合挖掘的需要。其目的在于把一些与数据分析、挖掘无关的项清除掉，为了给挖掘算法提供更高质量的数据。目前进行的关于数据挖掘的研究工作，大多着眼于数据挖掘算法的探讨，而忽视了对数据预处理的研究。但是一些比较成熟的算法对要处理的数据集合一般都有一定的要求，比如数据的完整性要好、数21吉林大学硕士学位论文据的冗余少、属性之间的相关性小。然而，实际系统中的数据一般都具有不完整、冗余性和模糊性，很少能直接满足数据挖掘算法的要求。另外，海量的实际数据中无意义的成分很多，严重影响了数据挖掘算法的执行效率，而且由于其中的噪音干扰还会造成挖掘结果的偏差。因此，对不理想的原始数据进行有效的归纳分析和预处理，已经成为数据挖掘系统实现过程中必须面对的问题。3.1.3 数据预处理的功能和主要方法数据预处理的主要方法有基于粗糙集理论的约简方法；基于概念树的数据浓缩方法；信息论思想和知识发现；基于统计分析的属性选取方法；遗传算法。而常见的数据预处理方法有：数据清洗、数据集成、数据变换和数据归约。 1. 数据集成（ Data Integration) 是将多文件或多数据库运行环境中的异构数据进行合并处理，解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。 2. 数据清洗（ Data Cleaning ）：数据清洗的目的不只是要消除错误、冗余和数据噪音。其目的是要将按不同的、不兼容的规则所得的各种数据集一致起来。 3. 数据变换（ Data Transformation ）：是找到数据的特征表示，用维变换或转换来减少有效变量的数目或找到数据的不变式，包括规格化、规约、切换和投影等操作。 4. 数据简化（ Data Reduction ）：是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据模型，从而在尽可能保持数据原貌的前提下最大限度的精简数据量。其主要有两个途径：属性选择和数据抽样，分别针对数据库中的 [9] 属性和记录。3.2 数据清洗(data cleansing)3.2.1 研究背景各领域用户在实际工作中积累了大量数据，由于企业合并以及企业环境随着时间的推移而改变，形成对数据的不同要求、录入错误等22吉林大学硕士学位论文这些都会影响所存放数据的质量。因此，有必要以形式化的方法定义数据的一致性 (consistency) 、正确性 (correctness) 、完整性 (completeness) 和最小性 (minimality) ，而数据质量则被定义为这四个指标在信息系统中得到满足的程度。数据质量的衡量指标分为两类：数据质量指示器 [10] 和数据质量参数。数据质量指示器是客观的信息，比如数据的收集时间、来源等；数据质量参数是主观性的，比如数据来源的可信度 (credibility) 、数据的及时性 (timeliness) 等。在单个数据源中可能存在的质量问题。例如，某个字段是一个自由格式的字符串类型，比如地址信息、参考文献等，可能会录入错误的字段值。在多个数据源的情形，比如数据仓库系统或者是基于 Web 的信息系统，问题更加复杂。来自不同数据源的数据，对同一个概念有不同的表示方法。还有相似重复记录的问题，需要检测出并且合并这些记录。解决这些问题的过程称为数据清洗过程。其目的是检测数据中存在的错误和不一致，剔除或者改正它们，这样就提高了数据的质量。在模式转化和集成方面，人们已经做了很多的研究工作。而对于数据清洗，尽管工业界已经开发了很多数据抽取、转化和装载工具 (ETL tool) ，但是它并没有得到足够多的研究人员的关注。一些研究人员研究相似重复记录的识别和剔除，还有一些与数据清洗相关的工作。在通过模式转化和集成获得了一致模式以后，在实例层次上仍然需要消除不一致性。同一个现实实体在两个数据源的记录中可能用不同的主键来标识，它们的信息可能存在冗余，有些互为补充，甚至有些互相矛盾。绝大多数相关领域的研究认为，要很好地完成数据清洗过程，一定要结合特定应用领域的知识。因此，通常将领域知识用规则的形式表示出来。利用专家系统，以方便规则的表示和利用于清洗过程中。当系统碰到不能处理的情况时，报告异常，要求用户辅助做出决定。同时，系统可以通过机器学习的方法修改知识库，以后碰到类似情况时，它就知道怎样做出相应的处理了。市场上的各种数据抽取、转化和装载工具或多或少提供了一些数据清洗功能，但是都缺乏扩展性。鉴于此，一些研究人员提出了数据清洗系统的框架。他们围绕这样的框架，提出了数据清洗的模型和语言。这些语言在 SQL 基础上扩展了新的数据清洗操作，比如 Merge 、 Cluster 等。有的框架模型采用了分层抽象的方法，最上面是逻辑层，可以用来定义数据清洗的流程，不需要关心具体采用的算法；最下面是物理实现层，这一层根据用户定义的逻辑流程，采用合适的算法和23吉林大学硕士学位论文参数，对算法的优化过程也是在这一层完成的。最初，数据清洗过程应用在数据仓库装载数据之前，其目的是为了提高数据的质量。这样，后继的联机分析处理 (OLAP) 和数据挖掘应用才可能得到正确的结果，决策支持系统才能够辅助管理者做出正确的决策。但是，一些研究人员提出，可以反过来将数据挖掘的技术应用到数据清洗过程之中。结合数据挖掘和数据清洗，利用数据挖掘技术可以发现数据中的模式和匹配规则。3.2.2 国内外研究现状及发展趋势数据清洗主要在数据仓库（ Data Warehousing ）、数据库中的知识发现 (KDD)和总体数据质量管理 (Total Data qualitymanagement，TDQM) 这三个领域应用。数据清洗处理是进行数据挖掘的第一步，鉴于数据的海量，不可能进行人工处理，因此自动化数据清洗受到工业界的广泛关注。提出了自动数据清洗：定义和判断错误类型；查找并标示错误实例；修改发现的错误。但是，又由于这个问题比较凌乱而显得难以采用通用的方法进行处理，数据清洗的研究目前并不是特别活跃。大多数研究工作都针对特定领域的数据集，或者是对不同性质的异常数据进行的通用处理。目前还没有提出一个公认的自动数据清洗的通用处理系统。想要使用专门的数据清洗工具的公司能从多个来源获得。过去，最常见的选择是自己编制这些工具，但现在想购买数据清洗软件的公司有很多选择。Oracle 公司和 Group1 软件公司是领先于其他公司的供应商。其他还有 PeopleSoft 、 SAS 和 Informatica 等公司。主要的数据仓库和业务智能软件供应商在其产品中也有数据清洗功能。 Acxiom 公司和 Sagent 技术公司等提供在线的数据清洗和增强服务。这些服务通过因特网以近实时的方式提供数据清洗，以及在一个一个记录的基础上补充信息。国内关于数据仓库领域的研究都是以理论为主，很少涉及实例层次的研究。上海交通大学模式识别和智能系统专业有一位博士对数据处理进行了研究，其的重点就是在于挖掘中的数据处理，结合领域背景知识构建专家系统，处理了数据侧重于数据离散化，数据清洗讨论了对空值等几种单一数据源问题的处理。有一些比较成熟的数据清洗软件，例如，DBPut 2.0 通用数据转换工具。 DBPut 是一款比较实用的数据转换软件。使用方法简单，但功24吉林大学硕士学位论文能不多，不需掌握任何程序设计技术或 SQL 语法，最多只需要掌握 DBPut 的几个关键功能和一些常用的函数，通过图形化的设计界面，就可以将复杂的数据转换成所需格式的数据。 DBPut 2.0 的特点：支持 Oracle 直接连接、 ODBC 连接，能直接读取文本格式数据。支持图形化的数据转换规则模型编辑方式。通过任务模型编辑器模块，可设计出比较复杂的数据转换规则模型。任务运行调试。可设置任务的调试断点，并能单步运行或暂停，可监控任务执行过程中的数据抽取、计算结果和装载情况。其界面如下图：图 3.1 DBPut 2.0 的软件界面现在国外的相关研究主要包括以下几个方面： 1) 提出高效的数据异常检测算法，来避免扫描整个庞大的数据集； 2) 在自动检测数据异常和进行清洗处理的步骤之间增加人工判断处理，来防止对正确数据进行错误处理； 3) 数据清洗时对数据集文件的并行处理； 4) 如何消除合并后数据集中的重复数据； 5) 建立一个通用的领域无关的数据清洗框架； 6) 关于模式集成问题。理想的状况是，被清洗过的数据是没有错误的和一致的，有些数据清洗软件甚至还能对处理中的数据检查其有用性。对于任何公司的 IT 运行来说，数据清洗是一件基础工作，但它只是开端。25吉林大学硕士学位论文3.2.3 数据清洗问题研究意义众所周知，数据仓库和知识发现、数据挖掘已经从理论走向了实际的应用，世界 500 强企业中 99% 使用了数据仓库进行信息辅助决策。而数据清洗保证信息源的数据质量，从而保证了辅助决策的原始数据的正确性和准确性。没有数据清洗，很可能就会导致错误的决策，因此数据清洗是构建数据仓库和知识发现的必要因素。从前面提到的研究现状看来，数据清洗处理的是海量数据集，因此，增量式的数据异常检测、数据转换算法是必需的，而且对于算法的效率提出了很高的要求。数据清洗又是一个领域相关性非常强的工作，国内外的研究人员始终没有提出一个通用的自动化的数据清洗框架，所有关于该领域的研究都是针对特定领域数据的，通用的清理方案会受到越来越多的重视。3.2.4 数据清洗总结数据清洗的目的不只是要消除错误、冗余和数据噪音。数据清洗过程必须满足如下几个条件：不论是单数据源还是多数据源，都要检测并且除去数据中所有明显的错误和不一致；尽可能地减小人工干预和用户的编程工作量，而且要容易扩展到其他数据源；应该和数据转化相结合；要有相应的描述语言来指定数据转化和数据清洗操作。如果没有数据清洗，当将它们进行数据挖掘时，所得的结论就是不可靠、不真实。数据清洗在不同的应用领域其要求不完全相同。例如，在数据仓库环境下，数据清洗是 ETL（抽取、转换、转贮）过程的一个重要部分，要考虑数据仓库的集成性与面向主题的需要（包括数据的清理及结构转换）；在 KDD（ K nowledge discovery in databases ）中数据清洗主要是提高数据的可利用性（去除噪音、无关数据、空白数据域，考虑时间顺序和数据的变化等），但主要内容还是一样的。数据清洗（ Data Cleaning）是一个减少错误和不一致性、解决对象识别的过程。数据清洗原理：利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据，如图所示：26吉林大学硕士学位论文图 3.2 数据清洗原理在早期阶段，大多数数据清理是用手工完成的。单靠人的双眼做这件事的时候，发现并改正错误的、不完整的或重复的纪录是一项很费钱的辛苦任务，还常常会导入新的错误。现在，专门的软件工具利用专业的算法分析、标准化、纠正、匹配和合并数据。它们的功能包括从简单的清洗和单一数据集的增强，到来自不同数据库和文件系统的数据项进行匹配、纠正和合并。27吉林大学硕士学位论文第四章4.1 数据预处理方式数据预处理方法数据预处理方式可分为 4 种： 1. 手工实现，通过人工检查，只要投入足够的人力物力财力，也能发现所有的错误，但效率底下。在大数据量的情况下，几乎是不可能的。 2. 通过专门编写程序，这种方法能解决某个特定的问题，但不够灵活，特别是在清洗过程需要反复进行（一般来说，数据清洗一遍就达到要求的很少）时，导致程序复杂，清洗过程变化时，工作量大。而且这种方法也没有充分利用目前数据库提供的强大数据处理能力。 3. 解决某类特定应用域的问题，如根据概率统计学原理查找数值的记录，对姓名、地址、邮政编码等进行清洗，这是目前研究得较多的领域，也是应用最成功的一类。如商用系统： Trillinm software system, MatchMakert 等。 4. 与特定应用领域无关的数据清洗，这一部分的研究主要集中在清洗重复的记录上，如 Data Cleanser DataBlade Modul,Integrity 系统等。这四种实现方法，由于后两种具有某种通用性，较大的实用性，引起了越来越多的注意。但是不管那种方法，大致都由三个阶段组成： ①数据分析、定义错误类型；②搜索、识别错误记录；③修正错误。数据预处理系统发展阶段：第一阶段，尽管已有一些数据分析工具，但仍以人工分析为主。第二阶段，有两种基本的思路用于识别错误：一种是发掘数据中存在的模式，然后利用这些模式清理数据；另一种是基于数据的，根据预定的清理规则，查找不匹配的记录。后者用得更多。第三阶段，某些特定领域能够根据发现的错误模式，编制程序或借助于外部标准文件、数据字典，来一定程度上修正错误；对数值字段，有时能根据数理统计知识自动修正，但经常须编制复杂的程序或借助于人工干预完成。绝大部分数据预处理方案提供接口用于数据挖掘系统。它们一般来说包括很多耗时的排序、比较、匹配过程，且这些过程多次重复，用户必须等待较长时间。下面介绍一个交互式的数据清洗方案：系统28吉林大学硕士学位论文将错误检测与清洗紧密结合起来，用户能通过直观的图形界面一步步地指定清洗操作，且能立即看到此时的清洗结果，（仅仅在所见的数据上进行清洗所以速度很快）不满意清洗效果时还能撤销上一步的操作，最后将所有清洗操作编译执行。并且这种方案对清洗循环错误非常有 [11] 效。许多数据预处理工具提供了描述性语言解决用户友好性，降低用户编程复杂度。数据预处理属于一个较新的研究领域，直接针对这方面的研究并不多，中文数据清洗系统更少。现在的研究主要为解决两个问题：发现异常、清理重复记录。4.2 发现异常所有记录中如果一个或几个字段间绝大部分遵循某种模式，其他不遵循该模式的记录就可以认为是异常的。例如，如果一个整型字段 99%的值在某一范围内（如 0-1 间），则剩下的 1%的记录（该字段 &1 或 &0）可认为是异常。最容易发现的是数值异常（特别是单一字段的数值异常），可用数理统计的方法（如平均值、值域、信任区间等）。 Maletic 和 Marcus 将人工智能的方法（如聚类、基于模式的方法、关联规则）引入到数据清洗中，并做了一些实验测试其效果。尽管这些方法在其他领域（如数据仓库，决策支持系统）中能教好地使用，但在用于发现异常时，却达不到预期的目的。下面介绍几种发现异常的方法： 1. 基于契比雪夫定理的统计学方法：这种方法可以随机选取样本数据进行分析，加快了检测速度，但是这是以牺牲准确性为代价的。 2. 模式识别的方法：基于数据挖掘和机器学习算法来查找异常数据，主要牵涉关联规则算法。 3. 基于距离的聚类方法（聚类分析是一种新兴的多元统计方法，是当代分类学与多元分析的结合。聚类分析是将分类对象置于一个多维空间中，按照它们空间关系的亲疏程度进行分类。通俗的讲，聚类分析就是根据事物彼此不同的属性进行辨认，将具有相似属性的事物聚为一类，使得同一类的事物具有高度的相似性。）：这也是数据挖掘中的算法，重点在于它的类的评测标准为 Edit 距离，来发现数据集中的重复纪录。 4. 增量式的方法：如果数据源允许，我们可以采取随机的方法获取元组。这允许给异常检测算法一个随机元组流的输入。一些异常检测算法对这种输入可以使用增量、统计学方式，可以发现更多的异常。29吉林大学硕士学位论文从数据源中获得元组，然后转换之后作为异常检测算法的输入。异常的清洗过程主要统分为六个步骤 [12]： ① 元素化 (elementizing) ：将非标准的数据，统一格式化成结构数据。 ② 标准化 (standardizing) ：将元素标准化，根据字典消除不一致的缩写等等。 ③ 校验 (verifying) ：对标准化的元素进行一致性校验，即在内容上修改错误。 ④ 匹配 (matching) ：在其它记录中寻找相似的记录，发现重复异常。 ⑤ 消除重复记录：根据匹配结果进行处理，可以删除部分记录或者多个记录合并为一个更完整信息的记录。 ⑥ 档案化 (documenting) ：将前 5 个步骤的结果写入元数据存储中心。这样可以更好地进行后续的清理过程，使得用户容易理解数据库以及更好地进行切片、切块等操作。4.3 识别重复记录由于各种原因，数据中可能包含重复的记录，它们（主要指字符串）的表示形式可能不同，但指的是同一对象实体。例如，两条记录除了日期字段不同（分别为
）其它都相同，我们有理由相信 20006 就是 2006 ，两记录应该是重复记录。检测这种语义相同，而表现形式不同的记录是数据预处理的一项重要任务，也是目前研究最多的内容。检测出的重复记录可用两种方法处理：把一种作为正确的，删除其它重复的记录；或者综合所有的重复记录，从而得到更完整的信息。标准地检测完全相同记录（两个字符串一一对应）的方法是先将数据库中的所有记录排序，然后看邻近的记录是否相同。在数据预处理中必须将其扩展到能识别的大致相同的记录，但即使如此，由于时间复杂性太大（所能检测所有重复记录时，需比较 N(n-1)/2 次，其中 N 为总的记录数），为了提高匹配效率，有一种基本领近排序方法（ the Basic Sorted_Neighborhood Method) ，其主要思想：先选定某一个字段或根据已有字段生成一个新字段作为关键字，然后按照此关键字排序，将一个固定长度为 W 的窗口中的最后记录与前面的 W-1 条记录相比较。每次将窗口中最前面的一条记录作为下一轮比较对象，这种方法30吉林大学硕士学位论文相对地提高了识别速度，只要进行 WN 次比较（其中 N 为总记录数）但仍存在一些缺陷，例如，关键字的选取非常重要。选取不当时容易造成识别遗漏，从而增加识别次数，这极大地影响了识别效率。但并没有一种明确的方案作为选取关键字的标准，人们提出了各种改进方法：多次选取不同字段作为关键字，将每次识别出的记录合并作为所有重复记录。也可将基本领近排序法做改进（通过将排序的记录分成两个列表：一个重复表，一个非常重复表。在这两种不同类型的表上操作）但基本领近排序法的缺陷仍存在。这几种方法，都没有避免这样一个问题。为了识别更多的重复记录（高精确度）必须增加检测次数（效率低），而效率高必然降低检索精度。在记录排序后，将比较领近记录的各对应字段，计算其的相似度，如果两记录相似度超过了某一阀值，则记录为两条记录是相同的，否则，认为是指向不同实体的记录，其中计算字段相似度是其核心，目前常用的算法有： 1. 基本字段匹配算法。其思想为：将待比较的两个字符串划分为最小的子串（不包括无意义的字串）将其排序，比较一个字符串是否与另一字符串子串相同或为起前缀。是相似度 K/((|A|+|B|)/2), 其中 |A| ， |B| 分别为两个字符串的子串数， K 为所有匹配的子串数的和。缺点：子串匹配没有考虑非前缀缩写的情况。 2. 递归字段匹配算法。考虑了几个缩写情况（包括其前缀、前缀后缀混合、首字母缩写、前缀序列）。其思想为：如果两字符串匹配，其相似度为 1 ，否则为 0 。字段相似为字符串 A 中所有子串与字符串 B 中具有最大匹配的子串的相似度的和的平均值。缺点：具有二次时间 [12] 复杂度，及 Smith Waterman 算法等。31吉林大学硕士学位论文第五章软件实现数据预处理数据预处理软件是参照 SAS 等数据挖掘软件的一些特点和一些数据筛选工具（如 DBPUT ）、数据变量转化工具的处理流程进行的总体设计和开发。软件功能包括：数据变换：数据维规约、聚集；数据清洗：过滤异常值（空值处理、条件判定异常值处理）、去掉重复纪录。数据选取之后首先要进行维规约，数据的维度（数据属性的个数）较低，使数据挖掘的算法的效果更好，因为维规约可以删除不相关的特征并降低噪声，数据挖掘中可能只涉及到较少的属性如特征属性集，使用维规约降低了数据挖掘算法对时间和内存的需求。数据的聚集，是将两个或多个对象合并成单个对象。如数据集中记录了一段时间内在各地商店的商品销售情况，对该数据集的聚集方法可以是用新的按商品分类汇总（价格可以求平均值、销售额求合计）的商店数据对象替换商店的所有单个数据对象（商品销售明细），也可以是对数据对象进行按月、按商店，而不是按天、按商品分类的大量记录进行挖掘，这样聚集后的数据对象大大降低了数据挖掘的数据量。实际上聚集起到了标度转换的作用。过滤异常值包括对空值处理，采用平均值、中位值或默认值替换方法，软件筛选出数据集中某个属性为空缺值的记录，然后替换空缺值，也可以输入判定条件筛选出异常记录，进行相应替换。软件通过分析能对选取的数据进行多个字段和全部记录的比对，挑选出重复记录，对重复记录进行删除处理，并保留最新一条记录。5.1 系统的总体框架及流程系统的实现采用灵活的处理流程，预处理过程首先接受已经选好地数据样本，然后根据情况进行有选择的进行预处理工作，在进行数据预处理过程中，可以执行维规约、聚集、过滤异常值或删除重复记录中的一项或几项功能，但一般是要先进行维规约、聚集后再进行过32吉林大学硕士学位论文滤异常值或删除重复记录处理。当然也可以根据需要直接进行过滤异常值或删除重复记录处理，而不经过维规约、聚集等环节，系统的框架及流程如下：数据抽样数据变换维规约聚集数据清洗过滤异常值（空值处理）去掉重复纪录准备好的数据用于数据挖掘图 5.1 系统的框架及流程图1. 数据选取数据选取是从用户的原始数据库中由用户指定选出用户感兴趣的与知识发现任务相关的数据表项，用户在选择过程中可以通过查看所选数据表的记录数据，来作出进一步的选择判断，通常用户都是对数据库中的数据包含的某个主题感兴趣，希望通过数据挖掘工具对相关数据的操作来发现该主题下一些隐含的规律，从而对所从事的行业行为有所指导。而数据库中的数据数量巨大，涵盖范围也相对比较广泛，有些数据表格中的数据根本上是没有联系的，如果不对数据库进行简单筛选，则会使无用数据参与挖掘过程，造成各种资源上的浪费。更为严重的问题是，由于一般挖掘算法仅对抽象的数据进行操作 , 即使完全不相关的数据也会挖掘出规律，这种规律可以说毫无实际意义，仅33吉林大学硕士学位论文是数据海量造成的结果。考虑到数据量的巨大，如果完全由人来进行选取是不现实的，一般我们采取人机结合的方式由人来选择较高概念层次上的数据类别，而通过预先编制好的程序来选择数据库中具体的数据表格。如果数据挖掘在数据仓库的基础上进行，那么操作起来会方便一些。如果没有建立数据仓库，在数据表选取的时候会遇到所谓实体识别问题，即同一实体在不同数据表中由不同的属性来表示，通常我们可以通过元数据的查询来解决这一问题，实体识别问题在数据表属性一致化中将得到根本解决。 2. 数据表属性一致化当待挖掘的数据表已经选取完毕时，我们开始对这些数据表中的数据进行挖掘前的预处理。首先，在数据表的属性这一层次上进行统一，主要解决上边提到的实体识别问题。具体来说 , 一个在商品销售数据库中，商品名称字段在一个数据表中可能记为“ 商品名称 ” ，而在另一个数据表中可能以拼音来描述： “ spmc ” ，作为挖掘前的准备，需要根据数据字典对同一实体的不同命名表示来进行一致化，得到一个统一的、清晰的数据表示。具体实现方法可以以其中的某一个表示方式为准，更改其他的表示方式，或者重定义一个表示。需要注意的是，有时候同一属性的属性值有可能采用不同的度量单位，如商品质量等级有的表示为一等、二等、三等，有的表示为优质、中等、一般等，我们可以根据需要来确定一个标准，并且规定一个转换方式，将非标准表示转换为标准表示。所有的更改需要记录下来，已备将来查阅或者数据更新时需要。 3. 在数据预处理方法选取上应根据不同的数据情况有选择的进行，比如实际试验对于商店销售记录，一般应先进行维规约去掉操作员、商品描述信息、备注等字段，因为这些信息可能对数据挖掘没有意义。对于商品销售信息聚集就有着十分重要的意义，可以按地域或时间的维度去观察数据，希望能挖掘出关于不同季度的商品销售的有关知识，就应该对数据进行按时间、地域等方面的聚集，原来的商品销售是按天的明细，可以计算出按月的累计情况再进行数据挖掘。选取适当的角度对数据进行聚集对数据挖掘的结果十分重要。5.2 系统的功能模块及实现情况软件采用开发环境： Jdk-1.5.0-windows-i586.Multi-language.34吉林大学硕士学位论文Eclipse-SDK-3.1.2-win32 数据库采用目前较流行： Oracle9i 软件实现的维规约、聚集、过滤异常值、去掉重复记录算法都采用插件的方式开发，使得算法能较好的被数据挖掘系统灵活调用。5.2.1 数据变换中的维规约软件实现维规约是找到数据的特征表示，用维变换或转换来找到数据的不变式以减少有效变量的数目。数据归约可以通过聚集、删除冗余特性或聚类等方法来压缩数据。这些数据处理技术在数据挖掘之前使用，可以大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。而数据归约 (datareduction) 得到数据集的压缩表示，它虽小但能够产生同样的 (或几乎同样的 )分析结果。有许多数据归约的策略，包括数据聚集 (例如 :建立数据立方体 )、维归约 (例如 :通过相关分析 ,去掉不相关的属性 )、数据压缩 (例如 :使用诸如最短编码或小波等编码方案 )和数字归约 (例如 :使用聚类或参数模型等较短的表示替换数据 )、概化也可以归约数据。用于数据分析的数据可能包含数以百计的属性，其中大部分属性与挖掘任务不相关，是冗余的。例如，分析任务是按顾客听到广告后 , ，是否愿意在该商场买流行的磁带将顾客分类，与属性 age 、music 、taste 不同，诸如顾客的电话号码多半是不相关的。冗余特征重复地包含了一个或多个属性中的许多或所有信息。例如，一种产品的购买价格和所支付的销售税额包含许多相同的信息。不相关特征包含对于手头的数据挖掘任务几乎完全没用的信息，如学生的 ID 号码对于预测学生的总平均成绩是不相关的。冗余和不相关的特征可能降低分类的准确率或所发现的聚类的质量。尽管领域专家可以挑选出有用的属性，但这可能是一项困难而费时的任务，特别是数据的行为不清楚时更是如此。遗漏相关属性或留下不相关属性是有害的，会导致所用的挖掘算法无所适从，导致发现的模式质量很差。此外，不相关或冗余的属性增加了数据量，可能会减慢挖掘速度，维归约通过删除不相关的属性 (或维 )减少数据量。当确定分析问题的主题后，与该主题相关的属性可能很多，其中35吉林大学硕士学位论文大部分属性可能与挖掘并不相关。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布，在压缩的属性集上进行挖掘，它减少了出现在发现模式上的属性数目，使得模式更易于理解。如何找出原属性的一个好的子集，穷举搜索可能是不现实的，特别是当属性集的数目很大的时候。因此，对于属性子集选择，通常使用压缩搜索空间的启发式算法。通常，这些算法是贪心算法，在搜索属性空间时，总是做看上去是最佳的选择的策略是做局部最优选择，期望由此导致全局最优解。实践中，这种贪心方法是有效的，并可以接近最优、最好的解。属性使用统计意义的测试选择，这种测试假定属性是相互

如何根据一组数据，excel剔除重复数据偏离较大的异常值后，自动生成区间

我要回帖

更多关于 excel剔除重复数据的文章

随机推荐

如何根据一组数据，excel剔除重复数据偏离较大的异常值后，自动生成区间

我要回帖

更多关于 excel剔除重复数据 的文章

随机推荐

更多关于 excel剔除重复数据的文章