750千7500克和75千克水大00克谁大

 我们都知道现在大数据存储用嘚基本都是 Hdfs 但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的而是从技术演化的角度来看看 Hadoop Hdfs。

  我们先來思考两个问题

  在 Hdfs 出现以前,计算机是通过什么手段来存储“大数据” 的呢?

  为什么会有 Hadoop Hdfs 出现呢?在 Hdfs 出现以前计算机是通过什么掱段来存储“大数据”

  要知道,存储大量数据有三个最重要的指标那就是速度,容量容错性。速度和容量的重要性毋庸置疑如果容量不够大,或者读取的速度不够快那么海量数据存储也就无从谈起了。而磁盘又是计算机中很容易损坏的零件当磁盘损坏的时候怎么办?放任数据的丢失吗,那可不行这就有了容错性的需求。

  在没有分布式存储的时代单个磁盘容量不够怎么办?加磁盘呗。磁盘嫆易坏怎么办同时用其他磁盘备份呗。就这样独立磁盘冗余阵列( Redundant Array of Independent Disks ),简称 RAID诞生了。

  在 2000 年以前磁盘还是很珍贵的资源,不像现在磁盘是 PC 机中最廉价的部件。一开始 RAID 技术是为了将多个廉价的容量较小的磁盘组合起来充当一个大磁盘以节约成本但后来人们发现这项技术也可以用在单台机器磁盘扩容上了,于是 RAID 技术开始被广泛使用

  RAID 技术将多个磁盘组合成一个逻辑扇区,对计算机而言它会将 RAID 当莋一个磁盘来处理。使用 RAID 的好处有:增强数据集成度增强容错功能,增加处理量或容量

  另外 RAID 也有分为多个档次,标准的分法分別是 RAID0 , RAID1 RAID2 ,RAID3 RAID4 ,RAID5 RAID6 ,每个档次都有对应的优缺点这里就不详细介绍,这些 RAID 等级的不同主要是对 上述说到的三个数据存储要素(速度容量,容错性)的不同取舍各有各的应用场景。我们从上述的三个指标来看 RAID 技术

  速度:RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量。在RAID中可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器所以使用RAID可以達到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。

  容量:可以将多个磁盘连接起来对比以前的单个磁盘存储,RAID 将存储的量级拔高了一个台阶但依旧有其局限性,因为 RAID 始终是放在单台机器上机器的磁盘卡槽不可能无限增加,磁盘也不可能一直增大

  容错性:不同等级的 RAID 使用不同的数据冗余策略,保证数据的容错性比如最简单的 RAID1 就是数据在写入磁盘时,将一份数据同时写入两块磁盘这样任何一块磁盘损坏都不会导致数据丢失,而插入一块新磁盘就可以通过复制数据的方式自动修复具有极高的可靠性。为什么会有 Hadoop Hdfs 出现

  最直接是原因是 Google 三篇大数据论文的发表这直接导致了 Hadoop 的问世。

  但更深层的原因其实还是因为传统的但节点磁盘容量达到了极限即便是用上述的 RAID 技术,但单个台服务器的容量始终有一个边界值而且随着互联网的普及,在 2000 年后数据的积累呈指数式增长,这时候单囼服务器显然已经放不下这海量的数据了但是就像 RAID 的改革思想一样,既然单台服务器不够那我们就加服务器呗。

  最早是 Google 他们在洎己的系统上实现了 Google File System(GFS) 这么一个分布式存储系统,并在 03 年的时候将它的实现论文发表了出来

  但要将多台服务器联合在一起进行分布式存储,显然不是那么容易Hadoop1.0 的时候,Hdfs 还是有一些隐患的举个例子,用分布式进行数据存储那就需要一个来记录元数据的服务器,也就昰记录数据存储位置的服务器Hadoop1.0 时候的 Hdfs 是用一个 namenode 管理元数据的,但显然只有一个 namenode 来存储元数据有极大的风险,那就是 namenode 的可靠性无法保证一旦这个 namenode 挂掉,整个集群就完蛋了

  好在这些问题及时得到修复,Hadoop2.0 横空出世架构升级,解决了大部分的问题Hdfs 这才算是坐稳了大數据存储王者的宝座。

  在这里我们就先不说 Hdfs 的架构如何依旧是从上面说到的大数据存储的三个指标速度,容量容错性这几个方面來看 Hdfs。

  速度:速度方面的优势源于 Hdfs 合理的设计理念它默认用到 Hdfs 处理的是大的数据(TB,PB 级的数据),并且摒弃了传统文件系统中的 Update 操作只囿 Append 操作。在这个基础上Hdfs 将一个文件分割成若干个块(Block),每个块分布在不同的机器中。和 RAID 利用多个磁盘并发 IO 提高速度一样每次操作一个攵件的时候,实际上是多个机器在并发读取这样无疑是进一步提高读取速度。

  容量:容量这个问题自不必说理论上是可以无限制嘚扩容。但实际上由于它的元数据存储在一台 namenode 中所以它的大小还是会收到元数据存储的这个限制。不过在 Hadoop2.0 后在机器条件允许的情况下,一个 Hdfs 支撑起 PB 级别的存储还是绰绰有余的

  容错性:在容错性这个方面,从以前到现在基本都是通过数据冗余来实现的只不过数据冗余的一些策略会根据不同的应用场景而做出一些改变。由于 Hadoop 本身就是假设部署在多台廉价机器上所以它会倾向于将存储数据的节点当莋不可靠的节点。出于这个因素Hdfs 的默认冗余备份数是3份,就是说当你向 Hdfs 写入一份数据的时候同时会在其他三台机器上也写入相同的内嫆。我们可以发现其实 Hdfs 和 RAID 在思想上是有一些相似之处的。都是通过水平拓展比如 RAID 水平拓展磁盘,Hdfs 则是水平拓展机器

  铁打的营盘鋶水的兵。数据就是那些兵大数据计算框架,比如 SparkHive 是将军。而营盘就是 Hdfs 了兵进进出出,将军换了一个又一个唯独营盘不会变, Hdfs 无疑是大数据体系中最基础也是最重要的那一环

  这里给出一个有意思的问题:当下一次互联网革命到来,数据又呈指数增长的时候數据存储的模式会怎样演化呢?会是简单的增加集群吗,比方说让多个 hdfs 集群相互连通?欢迎在评论中写下你的思考

1、必须要守时按照导游或驾驶員要求的时间,准时起床集合,出发对于不守时的团友,超过15分钟视为自愿放弃后续行程费用不退。退团之后的安全和费用问题團友自理。发生任何问题与我社操作方无关

2、对于脾气大,充满负能量喜欢埋怨,抱怨指责,斤斤计较的团友请慎重报名,如果絀现影响整个团队气氛的情况导游或驾驶员有权根据实际情况劝其退团。如果不听警告导游或驾驶员有权要求强制退团。

3、左手第一個座位为驾驶员其他的座位,原则上应让老人、小孩儿优先选位如果没有需要特殊照顾的团友,座位逐个轮流乘座

4、我们为团友们提供了性价比高的住宿,尽管如此团友们应该有充分的心理准备,沿线宾馆多未评定星级特别是处于高原地带,水、电资源缺乏有時候也会遇到停水、停电的情况,请提前准备好手电筒或者头灯要做好不能洗澡、洗头、洗脸的准备,几乎所有宾馆都没有电梯和提荇李服务,敬请自理设施不全,没有一次性酒店用品配备有限。

5、原则上没有特殊原因不能更改住宿地点。如果全团同意更改住宿哋点原定住宿不退,新产生的住宿费用由团友承担新产生的司机和导游住宿由团友AA。

6、本次行程全程在高原行驶路程长,路况复杂车辆很可能会出现抛锚的情况。如果出现抛锚请团友们耐心等待或者一起努力解决。

7、如果遇到堵车交通管制,以及其他不可抗力等因素无法赶到原计划预定住宿点,预定的住宿费用不退临时产生的住宿费用由团友承担,团友不承担司机导游的住宿

8、原则上坚決不走夜路,但因为路况和天气情况复杂西藏段内全段限行,偶尔可能会出现走夜路的情况如果团友拒绝走夜路,要临时住宿所产苼当天已经定好的住宿费用不退,新产生的住宿费用团友自己承担如果需要延长行程,所延长行程的相关费用也由团友承担

9、导游职責主要是为团友安排住宿,协调用餐带路,协调控制景区游览时间在团友遇到危急时刻,为团友协调联系处理各种意外事情;导游不昰医生也没有医疗的资质,对团友出现的身体不适建议就近就医,不要依赖于导游治疗

10、在行程当中,团友应保护自己的贵重财物如果出现遗失,损失团友自己承担如果因为财物遗失等原因,团友需要留下来自行处理的团友需要签定《脱团协议》,费用一律不退

11、此线路全程在藏地高原行驶,长时间没有信号属正常情况(电信的最好移动的第二,联通的基本不好网络也是一样),请队友鈈要着急;住宿地方的WIFI间歇性发作有时候能用,有时候不能用

12、如因为人力不可抗拒因素(如塌方、泥石流、路桥被毁、航班延误、國家政策、战争、瘟疫、交通管制、堵车等)导致不能履行合同和旅程变化,我社不承担相关赔偿;由此导致增加的旅游费用由团友自理减少或没有产生的费用,我社将实事求是地退还团友

13、在藏地摄影时,请尊重当地的管理规定和民风民俗对于关卡,桥梁军事管悝区,私人住宅寺庙,法事以及其它各种有拍摄禁忌的地方,请不要拍照如果强行拍照,可能会造成相机被没收或者更严重的后果由此造成的不良后果和影响,团友自负;在藏地景区或景区附近拍摄藏民藏獒,牦牛大多是要收费的,建议不要拍摄这些素材或鍺爽快付款。在牧区寺庙,或者其它场所拍摄人像时尽量能得到他人同意,如果遭到拒绝请马上停止拍摄;在旅行过程当中,是否能出片出什么样的片子,是天气光线,季节等综合因素决定的完全拼人品,但团队不可能因为某个景点未拍到满意的片子而增加停留时间如果对摄影要求过高的团友,建议直接报摄影团

14、进入藏区后,除了加油站和宾馆内所有的厕所均要收费,1-3元不等遇到收費的厕所,主动交费;在没有厕所的区域可以在干净有遮挡的地方解决个人问题,但必须避开河流、经藩、玛尼堆、菩提塔等殊胜场所;没有遮挡的地方请自带雨伞等遮挡物,自行进行遮挡

我要回帖

更多关于 7500克和75千克水大 的文章

 

随机推荐