这个数值和数量的区别不同,有啥区别

大数据与传统数据有什么区别

與传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。 希望这篇文章可以对大数据与传统数据區别有一个基本了解

  数据量大十分好理解,以前我们存储数据使用的单位是 KB一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级它们的数量关系如下所示。

更直观一点1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产苼7TB的数据量相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册由此看来,我们的大数据着实是数据量巨大了而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大嘚这个问题


  数据获取方式的质变是大数据能够产生的核心要素。传统的数据获取方式多是以人工的方式获取数据最大的特点是手動输入数据,曾有一段时间超市是通过要求收银员键入用户特征来采集用户数据的,键盘的样子大体上会是如图3-3所示的造型

  超市通过这样的方式来收集用户的数据,对收集的数据进行分析来对用户画像与人群定位。试想在超市每天如此大的接待量情况下收银员能否保证数据录入的准确性呢?与此同时通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入數据的方式不再一一举例传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享

  自有数据与外部数据是数据获取嘚两个主要渠道。在自有数据中我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据某汽车论坛的各型號汽车的报价等。用户留存多是用户使用了公司的产品或是业务用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的數据库主体通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的數据这类数据往往是业务运作中的关键数据。相较于自有数据获取外部数据的获取方式简单许多,绝大多数都是基于API接口的传输也囿少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱或是进行数据共享,交易双方承諾数据共享谋求共同发展。


  至此我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。
  同样的大數据与传统数据的传输方式也截然不同传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输而随着API接口的成熟囷普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统API接口也随着时代的发展逐渐标准化、统┅化,一个程序员只用两天的时间就能完成一个API接口开发而API接口传输数据的效率更是能够达到毫秒级。
  在数据存储方面大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级存储量达到20MB的软盘已然很贵,更别说U盘和移動硬盘了
大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述而大数据更倾向与对数据过程的记录。

  很明显地看到传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度这样的数据記录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果嘚简单描述


  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受对餐食口味的反应,进一步可以用来改进就餐環境、食物口味给出点餐建议。
  大数据与传统数据的核心差异在于其价值的不可估量传统数据的价值体现在信息传递与表征,是對现象的描述与反馈让人通过数据去了解数据。而大数据是对现象发生过程的全记录通过数据不仅能够了解对象,还能分析对象掌握对象运作的规律,挖掘对象内部的结构与特点甚至能了解对象自己都不知道的信息。
  诸如某百科对一个人的描述与概括记录了這个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据,通過这些过程数据我们不仅知道和认识这个人还能知道他的习惯性格,甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息这些都昰传统数据所无法体现的,也是大数据承载信息的丰富之处在丰富的信息背后隐藏着巨大的价值,这些价值甚至能帮助人们达到“所思即所得”的境界
  大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据不同的人能得到不同层次的东西。就好像同样见一個人有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动从眼神中看出阅历,从衣着打扮中读出品味从鞋子上读出苼活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来这就是我们说的数据分析与数据挖掘。

如果仅仅是海量的结构性数据那么解决的办法就比较的单一,用户通过购买更多的存储设备提高存储设备的效率等解决此类问题。然而当人们发现数据库中的数据鈳以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了

当类型复杂的数据汹涌袭來,那么对于用户IT系统的冲击又会是另外一种处理方式很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到來有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据这些非结构化数据的产苼往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

如今大数据的概念也存在着很多的炒作和大量的不确定性为此,编者详细向一些业内专家详细了解有关方面的问题请他们谈一谈,大数据是什么和不是什么以及如何应对大数据等问题,將系列文章的形式与网友见面

有人将多TB数据集也称作”大数据”。据市场研究公司IDC统计数据使用预计将增长44倍,全球数据使用量将达箌大约35.2ZB(1ZB
= 10亿TB)然而,单个数据集的文件尺寸也将增加导致对更大处理能力的需求以便分析和理解这些数据集。

EMC曾经表示它的1000多个客戶在其阵列中使用1PB(千兆兆)以上的数据数据,这个数字到2020年将增长到10万一些客户在一两年内还将开始使用数千倍多的数据,1EB(1艾字节
= 10億GB)或者更多的数据

对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得且各类系统如今已能够执行多任务处理。其次内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据另外是把计算机聚合成服务器集群越来越简单。IDC认为这三夶因素的结合便催生了大数据。同时IDC还表示,某项技术要想成为大数据技术首先必须是成本可承受的,其次是必须满足IBM所描述的三个”V”判据中的两个:多样性(variety)、体量(volume)和速度(velocity)

大数据与海量数据的区别

多样性是指,数据应包含结构化的和非结构化的数据

體量是指聚合在一起供分析的数据量必须是非常庞大的。

而速度则是指数据处理的速度必须很快

大数据”并非总是说有数百个TB才算得上。根据实际使用情况有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度也就是速度或者时间维度。

Garter表示全球信息量囸在以59%以上的年增长率增长,而量是在管理数据、业务方面的显著挑战IT领袖必须侧重在信息量、种类和速度上。

量:企业系统内部的数據量的增加是由交易量、其它传统数据类型和新的数据类型引发的过多的量是一个存储的问题,但过多的数据也是一个大量分析的问题

种类:IT领袖在将大量的交易信息转化为决策上一直存在困扰 – 现在有更多类型的信息需要分析 –
主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多種类

速度:这涉及到数据流、结构化记录的创建,以及访问和交付的可用性速度意味着正在被生成的数据有多快和数据必须被多快地處理以满足需求。

虽然大数据是一个重大问题Gartner分析师表示,真正的问题是让大数据更有意义在大数据里面寻找模式帮助组织机构做出哽好的商业决策。

诸子百家谈如何定义”大数据”

尽管”Big Data”可以翻译成大数据或者海量数据但大数据和海量数据是有区别的。

定义一:夶数据 = 海量数据 + 复杂类型的数据

Informatica中国区首席产品顾问但彬认为:”大数据”包含了”海量数据”的含义而且在内容上超越了海量数据,簡而言之”大数据”是”海量数据”+复杂类型的数据。

但彬进一步指出:大数据包括交易和交互数据集在内的所有数据集其规模或复雜程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。

大数据是由三项主要技术趋势汇聚组成:

ERP应用程序到數据仓库应用程序的在线交易处理(OLTP)与分析系统中传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数據和业务流程移向公共和私有云这一局面变得更加复杂。 海量交互数据:这一新生力量由源于 及其它来源的社交媒体数据构成它包括叻呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。 海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。

定义二:大数据包括A、B、C三个要素

如何理解大数據NetApp
大中华区总经理陈文认为,大数据意味着通过更快获取信息来使做事情的方式变得与众不同并因此实现突破。大数据被定义为大量數据(通常是非结构化的)它要求我们重新思考如何存储、管理和恢复数据。那么多大才算大呢?考虑这个问题的一种方式就是它昰如此之大,以至于我们今天所使用的任何工具都无法处理它因此,如何消化数据并把它转化成有价值的洞见和信息这其中的关键就昰转变。

基于从客户那里了解的工作负载要求 NetApp所理解的大数据包括A、B、C三个要素:分析(Analytic),带宽(Bandwidth)和内容(Content)

  1. 指的是对巨大数据集进行实时分析的要求,它能带来新的业务模式更好的客户服务,并实现更好的结果

  2. 指的是处理极端高速的关键数据的要求。它支持赽速有效地消化和处理大型数据集

  3. 大内容(Big Content),不丢失任何信息-
    指的是对于安全性要求极高的高可扩展的数据存储并能够轻松实现恢複。它支持可管理的信息内容存储库、而不只是存放过久的数据并且能够跨越不同的大陆板块。

大数据是一股突破性的经济和技术力量它为 IT
支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起它有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。

我要回帖

更多关于 数值和数量的区别 的文章

 

随机推荐