一定范围内,很多人来大数据服务平台的话,网络会不会很慢

为什么你家里的网速慢?答案全在这里
为什么你家里的网速慢?答案全在这里
" 什么破网络?不是说好的 100M 吗?&*¥#%&&"这样的投诉事件多次上演,科普一下 " 网速为什么慢 " 很必要。1. 你家的宽带是怎样访问互联网的?如果把上网比喻为自来水供水,整个过程无非就是由三部分组成:水源、供水管道和茶壶。水源就是你访问的互联网网站,供水管道就是运营商的网络,茶壶就是你家里电脑、平板等上网设备。水要流到你的茶壶里,其实是一个非常复杂的过程。宽带网络是一个极其复杂的端到端系统,当你坐在家里上网时,数据要经流多个网络节点才能到达你的电脑或手机,如下图所示:图中蓝色和红色路径正是你访问互联网网站时的数据走向示意图。首先你访问的网站托管在运营商的 IDC 机房。访问网站的数据由运营商的国家骨干网传送到省骨干网,若你访问的网站托管在另一家运营商的 IDC 机房,这中间还需要运营商之间的互联互通链路。▲核心网路由器数据经过各种国家骨干网、省骨干网、地市城域网的核心网路由器多跳转发后,再通过 SR/BRAS 来到接入网的 OLT......▲ OLT 设备再经过光分器连接到 ONU,再连接到 WiFi 路由器,WiFi 无线网络再将数据传送到你的电脑、平板或手机。现在你终于可以上网了。这背后除了网络内无数的通信设备,还有一群苦逼的通信维护工程师 ......现在,根据水流的路径,我们来看看是什么影响了你的网速。简单的讲,影响用户上网网速主要涉及用户端、网络、网站三个环节,每个环节出现问题,都可能引起上网不畅。2. 用户端问题导致网速慢用户端指的是从 WiFi 路由器到电脑、平板、手机等上网设备这一段。从用户投诉情况来看," 网速太慢 " 的投诉有 90% 以上是由用户端原因造成。宽带运营商就像是自来水公司,他们将水输送到你家里,WiFi 路由器就像是你家里的连接水龙头、淋浴花洒等的内部水管道。与自来水公司不同的是,即使你家里的 " 内部管道 " 出了问题,运营商的维护工程师们也会尽力帮你维修,但他们能做的也只有这些了,如果你家的水龙头、淋浴花洒等质量有问题,他们也无能为力,这需要你更换质量更好的设备。这些问题主要包括:(1)终端上网设备硬件老旧、性能较低。如果电脑网卡性能差、内存不够等,将导致无法达到最高网速。比如,宽带升级到了 200M,但是电脑网卡还是 10M — 100M 的,网速当然不达标。(2)终端设备软件问题,比如浏览器插件过多、电脑感染病毒、木马等都会影响网速。(3)配置不当,比如 DNS 配置错误,用户错误配置 DNS 可能会造成跨营运商、跨地区访问而导致上网慢,这种情况经常发生在用户更换运营商后。正确的方法是应该在电脑或路由器上使用本地运营商的 DNS 地址,如果不知道本地运营商的 DNS 地址,可采用自动获取 DNS 或者拨打宽带客服电话咨询。(4)线缆问题,如网线、水晶头损坏、老化或质量差等。(5)WiFi 路由器问题。WiFi 路由器问题是导致网速慢的常见原因,如何让你的 WiFi 运行良好,让网速飞起来,建议如下:①选择正确的安装位置如果你家的 WiFi 太慢,别激动,请深呼吸,再抬头看看你家的灯泡。如果你想让房间里的每个角落都被照亮,你会将灯泡安装在哪里?WiFi 就像一个灯泡:如果你想要更好的信号覆盖,更快的网速,请尽可能把它安装在更好的位置。这是一张 WiFi 信号的传播路径图 ......你可以看到 WiFi 信号不但要遭受墙壁的反射,还会因墙壁或其他障碍物阻挡而变得越来越弱,室内信号不能到达的覆盖盲区也是清晰可见的。所以,如果你想上网速度快,尤其是要享受高清的 IPTV 电视,请多给 WiFi 路由器一点特权,就像你刚买了一幅漂亮的画,把它挂在客厅里最显眼的位置,而不是放在角落或隐藏在壁橱中。此外,WiFi 使用无线电波工作,任何可能发射无线电波的电子设备都可能会干扰你的 WiFi 连接,比如电视机、微波炉、无绳电话等,请让你的 WiFi 路由器尽可能远离这些设备。②合理选择 WiFi 路由器刚才说了,要想高速上网,你应该重视你家里的 WiFi 路由器,这包括选择一个质量更好的设备。据统计,有 80% 以上的用户使用 100 元以下的 WiFi 路由器,而这个价格的路由器故障率普遍在 15% 以上,而 100 元以上的路由器故障率要低很多,在 10% 以下。在购买 WiFi 路由器时,也请认准其支持的 WiFi 协议,不同的 WiFi 协议支持的最高网速是不一样的,可参考下表:另外,相对于 2.4GHz,支持 5GHz 的路由器通常速率更高,但覆盖距离更短;更多的 MIMO 技术可支持更快的速率。如今网络已经像水、电一样成为人们日常生活不可或缺的一部分,就像你家装修时通常会选择质量更好的水管、电线一样,选择质量更佳的路由器,把它安装在更合理的位置,我们认为网络时代的 " 内部水管 " 同样应该值得重视。3. 网络问题导致上网速度慢网络部分是指从 ONU 到运营商 IDC 机房部分。通常的原因如下:(1)ONU 光功率不达标等原因ONU 接收光功率范围为 -8dBm~-24dBm,如果超出此范围的话就会导致设备无法上线。OLT 通过光纤、分光器、熔接头等设备连接到 ONU,其间分光器损耗、熔接损耗、光纤传输损耗等将影响 ONU 的接收光功率,当 ONU 接收光功率小于 -24dBm 时,维护人员通常会检查 ONU 光纤头有无污损、入户光纤是否折损、ONU 硬件是否有故障等。因此,光纤入户后请注意:①不要弯折扭绞光纤,光纤曲率半径不能小于 4cm,否则衰耗过大影响上网速率甚至不能连接网络。②注意光猫的通风、防潮、勿摔,运行环境温度不能高于 45 度以上,建议避开大功率电气设备,如冰箱、空调等,以免干扰光猫设备正常运行。③若无法上网时,请先查看光猫的 POWER(电源指示灯)是否常亮,确认光猫电源开关是否打开,电源线是否连接。当 LINK /LOS 灯(链路状态指示灯)不亮时,可判断为运营商网络的光路故障。(2)网络拥塞、设备处理能力不足等原因这包括 PON 口下挂用户超限、OLT 设备上联带宽利用率和 PTN 环网利用率过高(超过 70%)等造成流量拥塞、丢包,并导致网速下降,主要表现为白天闲时网速较快,而到晚间忙时,小区同时上网用户增加时,网速明显感觉下降,为此运营商通常会选择扩容的方式来解决。(3)互联互通、缓存、CDN、IDC 等原因运营商的网络就是通往互联网公司服务器(如百度、阿里、腾讯等)的管道,服务器托管在运营商的 IDC 机房,如果 A 运营商的 IDC 机房引入了 XXX 网站,而你家里用的是 B 运营商的宽带,现在你要访问 XXX 网站,就需要 A 运营商和 B 运营商网络之间互联互通,同时,B 运营商还得向 A 运营商支付网间结算费用。受制于别人,B 运营商一定会感觉很不爽。这中间涉及到的运营商间的 IDC 出口带宽不足也会导致用户上网速度慢。因此,B 运营商采取的策略是:大力建设 IDC,大力引入互联网内容,目标就是为了提升用户上网速率和感知。另外,CDN(内容分发网络)的基本原则是将热门内容资源下沉到离用户最近的地方,节省主干网、核心网的传输带宽,使用户可就近取得所需内容,提高访问速率。CDN 是视频时代、IPTV+ 宽带战略不可或缺的应用基础设施,在提升用户感知上发挥着重要的作用。4. 网站问题网站问题包括:网站本身接入带宽不足、服务器处理能力不足,网站页面设计不合理,页面插件多等。运营商根据互联网公司的接入带宽来连接网站或服务器,像自来水管一样,这个接入带宽决定了出水速度,若接入带宽过低,且有大量用户涌入时,你感受到的上网速率就会下降,同时服务器处理能力不足,也将导致反应速度慢,影响上网感知。原网页已经由 ZAKER 转码以便在移动设备上查看
大家都在看阮敬:大数据高端人才是怎样炼成的
阮敬 首都经济贸易大学研究生院副院长
今天我讲的主要内容是大数据人才培养的问题。学习大数据技术就像修炼功夫,途径有很多种。比较正统的是到某个名门正派去拜师学艺;当然也有野路子,自己在家里面练;或者有的人天赋异禀,生来就会,不过这样的人毕竟是少数。现在大数据产业越来越热,大家对它非常关注,但是我们并没有专门的大数据专业,那么,想要学习大数据分析技术的人要到哪里去学,该怎样修练呢?今天我就给大家分享一些学习办法和途径。
我主要从以下几个方面跟大家分享:首先,我们为什么会有学习大数据分析技术的需要。第二,大数据分析的数据是从网络上搜集并经过提取得来的,我们也可以通过大数据分析,来得出比较好的学习大数据的途径。第三,大数据学习的成果必须要得到社会的认可,得到认可的方式都有哪些?目前最具说服力的就是国外的认证证书。第四,关于大数据人才培养,我们国内现在是怎样的一种状况?在国内,几乎每个月都会有不同的学校成立带大数据字样的研究院或学院,他们是如何培养人才的?具体成效如何?第五,通过国外、国内的各种培养方式培养出的大数据人才,是否能与社会需求相适应?现在的就业市场对大数据高端人才的要求是怎样的?我接下来对上述问题的阐释,都是建立在数据分析的基础上的,没有夹杂个人或团队的主观思想,但在分析过程中可能会带有一些个人想法,这些都是可以和大家分享交流的部分。
就目前来看,整个人才市场上的大数据人才是供不应求的。2012年我曾在国外访学一年,那时“大数据(Big data)”这个词的出现频率已经可以让人听到耳朵起茧了;但是在国内,直到12年底13年初,这个概念才开始变得热了起来。我是学统计的,所以对计算领域比较熟悉,就我了解,早在十年前,海量数据(Massive data)、巨量数据、数据挖掘等与大数据相似的概念就已经出现了。经过这么多年的发展,大数据人才短缺问题逐渐凸显。相较于国外来说,我国的大数据人才培养尚在起步阶段。
看上图中列出的第一点:大数据市场规模呈爆炸性增长,这指的是全球的数据量。全球互联网的各个服务器到底承载了多少数据,这很难统计。1TB是1024G,1G是1024兆,还有PB、ZB等好多单位,1ZB大概是十万亿字节,这是一个巨大的数字。知识爆炸的年代,网上的信息量很大,铺天盖地,难以估计。有一家叫作Wikibon的公司对全球大数据的市场规模做过估算,2016年时大概是453亿美元。这家公司很有意思,它的员工只有五到七个人,但却在全球范围内非常有名气,很多大数据相关产业的从业人员引用的数据都是他们的。453亿美元这个数字具体是怎么估出来的?人家有自己的方法,我们要学习大数据与数据分析,不必纠结于这个数字到底是多少,只要能从中看出趋势就可以了。大数据的市场规模肯定是在逐年上升的,不管是大数据人才培养还是大数据技术学习,都具有商业价值。
抛开商业价值不说,现在我们的互联网、电视媒体,包括中央电视台的新闻联播等,经常会用到“大数据告诉我们……”或者“一图看懂……”之类的说法,这些都是对数据的分析。麦肯锡全球研究院(MGI)和麦肯锡商业技术部门通过研究检查数字数据的状态,并记录其可能被解锁的重要价值后发现:大数据中每个维度的数据都可以产生价值。也就是说,对大数据的分析利用可以有效提高企业的利润,比如一家使用大数据的零售商,可以将营业利润增加60%以上。当然这只是估算,旨在说明大数据能帮助企业挣到更多的钱。在这个前提条件下,大数据高端人才就更显得稀缺了。什么是高端人才呢?它是有严格的界限划分的,需要具备一定的学历和学位,具有熟练的工作技巧和经验。据职业社交网站LinkedIn(领英)统计,数据分析师是目前互联网行业需求最旺盛的六类职位之一。美国劳动统计局每年都会公布薪水排名前十位的职业。2014年,排第一的是精算师,第二的是大学终身教授,第三的就是数据分析师。2015年,数据分析师的排名又往前提了。这里的数据分析就包含了大数据的运用。
看到这些消息,所有搞数据分析和统计的人都非常振奋。尤其在国内,数据分析人才供给指数非常低,从业人员跳槽的速度很快,并且平均从业年限特别短,仅两到三年的时间。用数据说话是大数据分析的一个基本要求。针对这种现状,我特地到各大招聘网站上去检索了一下,发现这方面的人才确实处于高度稀缺的状况。国内是这样的,国外更是如此。我们看下面这张图。
这是根据麦肯锡的数据绘制的图表。过去的数据基本上可以不用看了,以前搞数据分析的人非常苦。我学的是统计专业,本科毕业的时候找工作相当困难。别人一听说这个专业,第一反应就是到统计局去工作,然而国家统计局每个省只有一个,这就业面显然不太广。实际上统计就是为了分析数据,只不过那时候你要是对别人讲自己学的是数据分析,大部分人都很难理解。
官方统计也是数据分析的一部分。图表显示,2008年美国高端人才供大于求;2018年,数据科学发展日益蓬勃,缺口出现了。根据预测,2018年美国高端人才的需求量将达到44万到49万人,而供给量只有30万人左右,预计缺口14万到19万人。这个数字在我们国家看来可能不是很大,可是美国的劳动力人口基数小,所以总体来看大数据高端人才的市场需求还是非常大的。
针对这种情况,国外已经有了针对性的措施。比如美国国家科学基金会邀请了很多人员,对大数据领域做了一些比较深入的研究;法国、日本则将大数据上升为国家战略,推出了一些新举措。2015年,我国提出了《促进大数据发展行动纲要》;另外,“加大大数据人才培养力度”等提议也不断地被代表委员们提上“两会”的议程。相较于国外,我们还没有形成系统的高校大数据人才培养体系,大部分高校还处于摸索阶段,因此高端人才的缺口成为了阻碍大数据发展的重大因素。
鉴于国外已经形成了比较完整的大数据高端人才培养体系,那我们完全可以在培养国内人才时把它借鉴过来,这样做的好处是比自己摸索来的省时省力,可以尽快突破人才培养过程中的各个壁垒。
具体要怎么借鉴?还是要靠搜集客观数据来得出结论,这也是做数据分析的基本原则。如何实现从数据得出结论呢?数据的来源在哪里?在座的大部分是学生,以我们要了解的国外大数据高端人才的培养方式为例,将来你们如果要出国的话,在择校的时候肯定会先到国外学校的官网上去浏览,了解他们有哪些项目是你可以申请的,这就是搜集数据的过程。这个工序我已经帮你们做了,就是通过网络将开设了大数据人才培养项目的学校的数据搜集起来。这些资料有文本、图片、声音、表格、数字等各种形式,叫非结构数据。对这些数据进行处理之后,我们可以把它以我们能够分析的形式呈现出来,具体怎么做属于技术问题,不是今天讨论的重点。需要说明的是,国外的院校何其多,想要全部搜集到是不可能的,这里面涉及到一个权重设置的问题。像哈佛、耶鲁、普林斯顿等名校,在大多数人心目中肯定很有分量,但更多的是那些你没听说过的学校,比如我们首都经贸大学,我自己觉得挺有名气,但保不准在座的就有人没听说过。设置权重,可以让我们的结论更加靠谱,更有说服力。
下面具体跟大家分享下我获取相关数据的途径。在搜索引擎中键入大数据(big data)、深度学习(deep learning)、商业智能(business intelligent)、计算机科学(computer science)、统计学(statistics)等与大数据分析有关的词汇,这些词汇都是专家组讨论得到的。经过统计,这些词在该搜索引擎上一共有八亿六千三百多万条搜索记录。我们把它们从网络上采集下来编个程序,整理成可供分析的数据库。另外,网络搜索有一个热度高低的问题,有的网址热度高,有的热度低,像那些一万年都没有人访问,可能也没有人更新的,我们搜集来也没有什么用处,这就需要用技术来控制数据来源。留学要耗费一定的时间和金钱,鉴于国人普遍对排名靠前的学校认可度比较高,我们可以根据最新的美国大学排名(U.S.NEWS)把排名靠前的学校按照重要程度分别设置权重,数字越大越重要或者越小越重要都可以,这个可以根据个人习惯来。
通过统计并分析数据我们可以得到哪些信息呢?包括大数据分析要修炼多少年,即需要学多长时间;再有就是要花多少钱,即学费是多少;还有具体该去哪里练,是欧洲国家还是美洲国家;另外就是你是实地学习还是在线学习,最终是要兼职还是全职等。这些都跟你想要学习什么专业,是否适合这个专业方向及今后市场的需求有关。
通过文本分析、文本聚类、特征相关度等方法,我们把各个专业门派归纳出来,对大部分开设了这些课程的学校的信息进行提炼,当然其中的某些专业可能跟市场需求并不匹配。经过研究,未来市场认可的大数据人才大概分为三类。第一类人是有相关专业权威证书的;第二类是有博士学位的;第三类是有硕士学位的。在国外,很多专业证书跟硕士学位是并行的,也就是说拿到硕士学位以后证书自然也有了。本科的专业五花八门,虽然国外的很多学校可以自己设置专业,但一般没有大数据专业,所以国外的高端人才一般被定义为硕士以上学历的人。
经过统计,截止到2016年,世界范围内有300多个学校的384个项目和大数据相关;其中博士点11个,硕士点293个,能够通过学历直接获得证书的有83个。由于数量太多,我们把它们划分为数据科学、应用统计、商业分析、商务智能、健康医疗、信息系统、MBA七类。
有些朋友可能会觉得很奇怪,这些项目里找不到大数据的字样啊!事实上并没有明确的大数据专业,有的只是大数据分析的技术;学校教授的是计算机框架该怎么搭建,硬件、软件该怎么学习,以及数据分析的套路等;把这些内容都掌握以后,还需要结合具体的业务实践来运用。所以我们不能为了做大数据去学大数据,那样学完以后也不知道该怎么操作。
刚才我们把大数据相关专业的方向分了七类,相当于七大门派,商业分析是最热门的方向,大概有97个项目。国外的商科比较多,学起来相对容易,学成以后在现实生活中的应用比较广泛,毕竟一般的商业企业用不着特别繁复的分析手段。
上图是我们经过信息提取之后得到的词云图,每一个大字母都代表与大数据相关的一类专业,均由许多能表现主题词的字符组合而成。比如大字母B代表的是商业分析,在这个大主题下包含着管理(Management)、技术(Skills)、市场(Marketing)、计算机(Program)、数据(Data)等跟商业活动相关的词。其中线条粗、个头大,显示突出的词汇在商业分析这个大主题中发挥着比较重要的作用。词云图是可以令数据可视化的一种工具。相对应的字母I表示的是信息系统,G指得是商务智能,D是数据科学,T是健康医疗,还有两个字母A,一个是应用统计,一个是MBA。工商管理学硕士为什么也要用到大数据分析呢?做管理如果连数据都不能掌握,那是一件不可想象的事情,一会儿我们后面会讲到。除了这七大门派以外,对大数据的学习还有一些小的分支,因为不属于主流我们就不用考虑了。
下图列举了国外高校大数据相关七大学位项目的招收群体及培养目标,大家可以对照这张表了解下自己想要学习的专业方向。
第一项是数据科学,招收面向的群体是想利用数据科学提升企业业绩的专业人士及在相关领域获得竞争优势的学生;目标是要能够利用统计分析技术发现大规模数据中隐藏的价值。
第二项是应用统计硕士,就是要把数据分析的思想用到各个领域中去解决实际问题。不同的行业有不同的复杂的数据,凭借对数据的分析作出正确的推断和预测是统计要做的事情。
第三个方向是商业分析。这一类型主要吸纳有统计学、数学和计算机编程背景的学生及现在正在从事数据行业且想补充技能的专业人士。因为商业分析能够帮助解决企业管理过程中的技术问题并通过数据分析帮助企业获得竞争优势,所以这个专业方向现在非常的火。
由于字数比较多,这里我们就不逐个说了,大家想要了解的话可以自己看图片,咱们直接看一下博士是干什么的。目前大数据分析方向的博士是极其少见的,数据科学方向的相对多一些。比如计算机、统计等领域的博士,还有数据挖掘、经济学习、深度学习等方向,这些都可以算作是大数据方向的博士。博士主要是搞学术研究的,是被作为新一代的数据科学家来培养的。以我们国家为例,硕士学位分为两类,第一类是学术硕士,第二类是专业硕士。专业硕士主要做实际应用,说白了就是干活挣钱的;学术硕士是为了培养博士做准备的,主要是为了搞学术研究。
上图是国外高校大数据学位项目需要花费的平均学习时间及学费,不同的项目类型因为兼职和全职的区别有所不同,大家可以看到兼职的学习时间几乎是全职的两倍,大部分专业全职学习的时间是一到两年。我曾经去过美国北卡州立大学,这个学校的排名非常靠前,学时很短,十个月就可以学成毕业。
再看学费那一栏,欧洲高校那一列的单位是英镑,非欧洲高校那一列是美元,大家可以理解为是美国、加拿大等国家的学校。总体来说,去欧洲国家留学的费用要比去美洲国家低得多,甚至还有个别专业在欧洲是免费的。原因就在于美国很多人都找不到工作,我认识一位朋友,他已经有了好几个博士和硕士学位,还要再去念一个应用统计学硕士。我就问他:“这是为什么呢?你真的那么喜欢学习吗?”他说:“不是,主要是这个专业好找工作,出来年薪都是13——15万美元。”13到15万美元是一个什么概念呢,美国家庭人均年收入的中位数大概是四到五万美元之间,十几万美元就属于高薪了,转换成人民币更是不得了,所以说这个行业还是很有发展前景的。
欧美的学分体系跟国内不同,一个学分大概是25到30个学时,但是核心课程的学分大体相同,都是25到35之间,换算成课的话大概是七八门的样子,只要掌握了这些核心课程,就可以顺利毕业了。
我们来看一下大数据到底怎么练,需要练些什么。我们把各个“门派”、各个专业方向的授课内容都通过网络搜集,整理了出来。国外网站上的信息资源丰富且开放,可以查到很多详细内容,包括授课老师的简历,甚至他们曾经做过的一些具体事情。
这是一个无像图形,由结点、路径或边组成,结点是我们提取出来的主要文本信息。图形中的点越大,字体越大,说明其代表的信息越重要;两点间相连的线段越粗越醒目,说明它们之间的联系越紧密。如此一来各项信息的重要性及相关性都能一目了然。这是数据科学设置的一个课程,说白了就是你需要“修炼”的内容。课程是学习的必要途径,不管是在网上学还是到学校学,又或者你来听讲座,都绕不开它,光坐在家里空想肯定不行啊!
我们看图上的machine和learn两个词,它们之间的线段很粗,组合起来叫machine learning,即“机器学习”。这需要主观提炼,如果因为不熟悉理解成“学习机器”就偏了,我们讲座的目的之一就是帮大家厘清它们之间的相关关系。大数据的很多要点在于相关分析,包括变量和研究对象之间的关系等,这也是现在很多数据分析的误区。你可能知道两者之间存在关系,但具体谁影响了谁,哪个是原因哪个是结果,不一定能搞清楚。我要说明的是,现在网络上的许多诸如一张图告诉你什么或者大数据告诉你什么之类的内容,基本上都犯了一个逻辑错误,那就是大部分大数据分析都只局限在分析数据之间的关联性,而要了解因果性,还得靠其他技术去实现。
图形中罗列的机器学习、可视化、信息系统、计算机模式识别等词汇,都是计算机中常见的字眼,通过它们我们就可以大体了解到具体的学习方向和内容,从而有针对性地去下功夫学习。以此类推,其他学习方向的课程也可以通过这种形式来表现。以数据科学硕士为例,我们可以按照刚才的图形把关键词提炼出来,再通过观察这些关键词跟其他词之间的关联性的强弱,按从小到大的顺序组合并排序,这个过程需要具有专业经验的主观判断的帮助,排列之后我们就得到了课程的具体内容。需要注意的是,有的课程比较冷门,可能无法从图形中提炼出来,另外,国外好多课程的名称取得比较随意,不同课程名称对应的也许是相同的内容。
数据科学硕士有好多门必修课,就是必须具备的能力,包括机器学习、WEB数据挖掘、数据管理、统计分析、分析程序设计、系统设计等。除了必修课以外还有选修课,就是你还需要具备的其他技能。而机器学习这门课程,在必修和选修中都有提到,这是因为课程设置会因为学校的不同而有所差异,但总的来说,几乎所有的课程都跟计算机、统计、数据有关,那这些肯定就是我们“修炼”的重点。
数学是学习大数据技术的选修课。学习大数据最好有一定的数学基础,如果没有基础,学习起来会比较困难,但也不是一个无法逾越的障碍。大数据时代,人们都是用工具去梳理数据的,现在的数据量巨大,不借助工具根本不可能梳理得过来。那么,都要用到哪些工具呢?最常见的是EXCEL;其次,还有一个叫SAS的商业软件,是世界五百强企业的产品,美国《财富》杂志评选推荐的;再有,必须要了解的两款开源软件:R语言和Python。R目前是一款免费软件,搞统计的人如果不会R语言那是不可想象的。有一句话说得好,R的出现使搞统计的人终于可以使用计算机了,Python的出现使用计算机的人终于可以搞统计了。以上列举的几个工具必须要非常熟悉,因为很多学校都不会开工具课,它默认你已经掌握了。除此以外还有Hadoop,它是大数据处理的架构,现在不是很主流了,但对理解课程来说还是必须的。
应用统计硕士必需进行数据研究和模型推断。著名统计学家弗洛伦斯·南丁格尔说:“如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。”这可以理解为根据统计来推断的过程。比如你到医院去看病抽血,护士可以从你的手指或是手臂上抽出少量的血,而不会把你全身的血都放出来。那么为什么你每次去医院,医生都让你重新抽血呢?这是因为由于时间地点及身体状况的不同,血液里包含的各类物质的量总是在发生变化的,有可能今天你测的数值异常,回去睡了一觉之后再测就是正常的了。古人说的“管窥蠡测”就是统计推断的思想。
线性模型是统计研究里最重要的内容。据不完全统计,刊物上的大部分模型都是线性模型,比如《美国经济评论》杂志上的线性模型数量达到了90%。不管是搞研究还是做实际应用,模型数据建模的主要内容就是线性建模,非线性模型也可以转化为线性,具体怎么操作有赖于具体学习。
应用统计硕士的必修课包括统计理论、实验设计与分析、贝叶斯分析、概率统计计算、应用回归分析、多元统计分析、定量数据分析等,这些都是该方向必须具备的技能。还有一些可供选择的课程,比如数据挖掘。据我了解,全中国所有的统计系都会开设数据挖掘这门课,还有离散分析等其他应用性的课程。
数学和统计学是要先修的课程,学习者还需具备一定的编程基础,掌握相应工具软件的使用方法。除了我们上面提过的比较贵的商业软件SAS和目前免费但是处理大数据速度相对较慢的软件R这两个首选统计分析工具以外,现在绝大多数学校更倾向于使用Python和Minitab。Minitab是现代质量管理统计的领先者,主要用来做数据分析。
商业分析硕士则更强调可视化内容,比如Tableau就是一个可视化工具。其他比较流行的数据库应用工具还有Mahout、Weka这两个做数据挖掘的可视化工具。除了必不可少的专业技术课程以外,商业分析硕士还要具备商业管理系统的一些技能,可供选择的有文本分析、管理战略运筹、时间序列分析、风险管理及其他一些市场研究方面的内容,总之是跟业务有关的。
商务智能硕士跟商业分析有类似的地方,必须要先熟悉计算机科学方面的知识,并且对这方面知识的要求比较高。大数据的商务智能跟我们国内讲的BI(Business Intelligence)不同,国内的很多BI就是一个软件,有点类似于飞机上的仪表盘,客观的说那个软件也是BI的一种可视化形式。如何更好地把内容展示出来,这里面有很多可供研究的内容,比如商务智能、数据分析、文本挖掘、数据管理等。掌握BI的人肯定已经掌握了经济数据分析常见的方法,除了商业智能BI以外,还需要学习一些选修课程,甚至是人工智能AI(Artificial Intelligence),因为它们是彼此联系的。
医学的发展也离不开统计学的应用,医生敢对症下药,原因就在于他的结论是在大量统计分析的基础上得到的。
健康医疗硕士的课程很多都是属于统计方面的,它与生物、流行病等医学方面的课程组合在一起就成了健康医疗,这个领域还有一个比较流行的叫法——大数据医疗,该方向主要研究怎么用医疗数据去看病问诊。要“修炼”这门功夫必须有一定的数学、统计学、生物学或医学基础。另外,编程也是必须要掌握的技能。在应用工具上,SAS、R和Java是用到比较多的。JAVA主要用来做开发,如果要做医疗大数据系统就需要做开发,因此必修课当中包含了医疗信息系统、数据库系统等课程。
信息系统硕士跟计算机有关,需要有扎实的编程基础,JAVA、C++等做开发的软件要提前掌握。就像学统计的必须要会SAS和R一样,编程软件属于计算机人的看家本领。
在学习的过程中我们一定要着重熟悉业务,好比我们练射击一定要有靶子,不然学会了开枪也不知道该往哪里打,所以学习一定要跟具体的业务实践相结合。做到这一点以后,再看你选择的方向更偏重于软硬件系统、系统设计、系统管理、数据开发、网络信息安全等哪一个方面。
MBA(工商管理学硕士)国内外都有,不过国内将它与大数据结合得很少,而国外结合得相对紧密,发展得也较为成熟。MBA偏重金融管理,大家可以看到会计也在必修课程列表里,它也是属于管理学的一个东西,细分下来还有供应链、管理会计、金融市场学、会计实务、市场营销等,这些都可以为你用大数据技术在这个领域开创一片天地打下基础。当然你必须要储备一些统计和计算机科学方面的知识,但不必熟练精通。
最后我们看博士。博士属于理论型的高端人才,或者说是精英。成为博士以后就要去搞研究了,目前的大数据研究主要有以下几个方面:第一个是计算机应用方面,比如说你觉得Hadoop不好用,可以发明一个新的架构,使存储速度更快;第二个是研究算法,比如知识限量该怎么进行并行计算,怎样使数据分析的效率更快,别人要分析一整天的数据,你用一秒钟就搞定了。大数据有优化数据算法的作用,很多时候统计计算、统计分析、数据分析等都是为了得出最优化的结果,都是必须要掌握的技能。大数据技术具有专业性,对它的学习有一定的门槛,除了前面提到过的计算机及数学基础,要到国外去学习大数据还要具备学士或同等以上的学位,考雅思、托福,基点4.0是满分,分数至少也要达到3.0以上,这个因学校而异。
接下来我们看就业机会,上图中列举的主要是国外的一些就业机会,国内也可以作为参考。其中数据科学硕士在各行业的需求量都很大,大家应该听说过一个名词叫数据科学家,主要为社交媒体、互联网公司(比如谷歌、推特等)服务,金融和零售业是他们的出口。应用统计硕士,学成后有些人进入了大型咨询公司,工资普遍比较高。只要是有数据的地方,我们都可以进行数据分析,前提是你有一定的业务背景。各个行业需要什么类型的大数据人才,他们分布在哪儿,这些信息我们都可以从互联网中提取出来,方便大家有针对性的去学习。比如我就想进入谷歌,研究AlphaGo是怎么下棋的,那就要先了解这类互联网公司需要什么样的人才。当然公司里面还有很多不同的岗位,我们就不展开了。
再来看证书,有时候我们练功没必要非得到哪个山头去拜师,去攻读学位,也可以自己修炼再找一个权威的认证机构来见证。遗憾的是,在这方面我们国内的权威认证非常少,国外的比较多,比如SAS证书,还有一些专业学校会给学生颁发证书,证明其学习经历。国内的证书必须得到教育部的认可才行,如果教育部不认,企业就不可能认。在资源有限的前提条件下,若想提高个人在大数据领域里的技能水平,可以考虑考取相关证书。
证书主要分成五项:数据科学、应用统计、商业分析、商务智能和健康医疗。数据科学就是在大型企业里面从事与数据分析相关工作的专业人士,主要培养能从大企业的数据中挖掘出有效信息的建模的能力。商业分析就是分析商业数据的,可以跟不同的行业结合起来,比如健康医疗行业。商务智能类似数据的自动处理。应用统计就是要掌握统计方法,提高人们的统计思维能力和数据分析能力。数据分析里最核心的内容就是统计分析,所以应用统计分析证书在国外非常吃香。并且,相对于其他动辄一两万美元的证书来说,这个证书比较便宜。如果大家要申请证书,建议尽量集中在美洲地区,因为那里没有价格歧视。什么是价格歧视呢?比如在国外申请学位,当地居民和非当地居民的学费是不一样的,往往当地居民只需外地居民的三分之一。
有些证书要求的学费和学分都很少,这一般都是给具备一定专业基础的人去学的。以修满10个学分就够了的证书为例,10分转换成课程也就是三门左右,通过三门课就想掌握大数据,几乎是不可能的。包括现在国内的好多培训班请我去讲课,让我在两三天内就把大数据说明白,这么短的时间说个大概还可以,但对没有基础的人,那是行不通的。所以去学证书的通常都是具有大数据专业基础的一批人。
国外的我们就先说到这里。为什么要分析国外的?我们不能说国外的就好,但是对于大数据人才培养这一块,我们要认识到国外有先例,有其自身的培养特色,而国内也有这方面的需求,所以我们要把他们做得好的地方借鉴过来。
我们来看看国内在数据人才培养方面是怎么做的。事实上到目前为止,国内在大数据高端人才培养方面已经做了很多工作,比如数量庞大的大数据科研机构、院校、行业协会等。通过搜集网上的文本资料,我们把国内大数据高端人才的培养方式归纳为三类:第一是以统计为依托的人才培养平台;第二是以计算机科学为依托的平台;第三是以业务为依托的人才培养。
上图是国内开设的大数据机构在各个省的分布情况。据统计,全国范围内开设带有“大数据”字眼项目的高校大概有28家,其中有研究院、实验室、学院,还有以此为专业名称的。截止到2015年4月,北京的机构数量最多,北京大数据协会是全国首家大数据协会。贵州每年都会举行数博会,沿海地区也很关注大数据产业的发展。整体而言,发达地区对大数据更为关注。除发达地区以外,西南地区也有一些发展大数据的天然优势,如气候宜人、地价便宜、人才需求更为旺盛等。
先说以统计为依托的人才培养平台。中国人民大学、北京大学、中国科学院大学、中央财经大学及首都经济贸易大学共同合作打造了一个大数据分析硕士培养创新平台,专门用来培养从事大数据分析的高端人才。该项目建立在全国应用统计专硕教组委的基础上,其中最关键的是设计课程内容。结合国内的实际情况,我们从国外成熟的模式中提取出了相应的主要课程,其中最核心的是与计算相关的技术,没有这方面的基础是做不好大数据的。
大家看上图,创新平台的主要课程那一项,大数据统计基础里有抽样技术、探索性数据分析、数据预处理、空间统计、数据可视化等,这些都是统计基础必须要掌握的。后面还有数据挖掘与机器学习、大数据分布式并行计算(MapReduce框架)、大数据非结构数据分析(我们前面的分析就属于非结构化的大数据分析),另外还有大数据统计建模、大数据开发基础、面向数据编程语言、大数据分析案例等。大数据分析案例的课程操作起来比较困难,因为很多公司企业不愿意提供数据让你去分析他们的情况,除非你的学生要到他那里去工作。但是这种情况下,企业会在学生去之前对他们进行挑选,非常的麻烦。那这个问题到底要怎么解决呢?现在我们鼓励创业,就要靠老师去跟外界交流,达成紧密的商业合作。该项目的目标主要是培养大数据分析人才,重点是分析,至于软件、硬件,自然有精通计算机的人去弄,这个需要相互配合。
大数据分析硕士培养协同创新平台建立于2014年9月,第一期共招收了来自5所合作院校的55位学生,他们在2016年6月已经毕业,现就职于阿里巴巴、腾讯、百度、京东等互联网企业的总部,99%的同学担任的都是数据分析、数据挖掘的岗位,薪酬都相当可观,还有个别同学去攻读数据科学的博士去了。他们受到了业界的认可,可以说已经成长为真正的大数据领域的高端人才了。
在国内,以计算机为依托的可以学习大数据技术的院校有北京航空航天大学、交通大学、中国科学技术大学、人民大学、山东大学等,其中不乏各个学校、各个部门相互合作开设的平台。他们设置的课程比较偏技术范畴,比如数据库。如果想了解大数据的软件、硬件技术或系统,可以去上述学校找到一些门路。
以业务需求为依托的培养方式落脚点比较明确,专注于培养某个特定行业里的大数据人才,你可以根据想进入的行业对号入座。
怎么练,练什么内容,需要花多长时间多少钱,国内国外的各种途径,前面我们大致都介绍到了,那么学成之后找不到好工作怎么办?有两种途径,第一种是直接转行,但是好不容易才学成,转行的话就前功尽弃了。还有一种办法是自立门派,自己去创业,接受市场的检验。市场是最好的检验标准,我们把市场上的人才招聘信息收集起来,与刚才讲到的学习内容和途径相对照,就能看出它们之间的匹配程度。我们就能知道学成之后自己适合从事哪些工作,并且了解到大概的薪资情况。匹配度可以用0到1之间的数来表示,越往1靠近匹配度就越高,应用统计的匹配度就很高,达到了0.81,不过学成之后做数据分析师的话,在全国范围内的平均工资是不高的。比较之下,做数据挖掘的薪酬就高多了,相应的难度系数也会增加。凡是带有大数据或数据分析字眼的职位我都把它们挑出来汇总到一起,比如大数据工程师。总体来说,有工作经验的普遍比没有工作经验的工资水平高,但是大数据行业发展起步得比较晚,工作时间达到四年在这个领域里已经是相当长的了。这个行业对学历也有一定要求,80%的企业规定应聘者须具有本科以上学历。刚才我们看国外的数据要求是硕士以上,这种差异主要是由于国内对硕士的培养还没达到普及的程度。招聘人数较多的职位主要集中在数据分析类,软件类的则不是很多。
匹配程度和薪资高低应与其他因素综合来看,不要一味追求高薪的职位,今年是高薪,到了明年不一定还高。总之,就市场的需求量来说,分析类的岗位是人才需求量最多的,管理类和软件类的较少,对大数据的学习一定要适应市场的需求。
国内大数据高端人才培养的分布情况是,北上广及以贵州、四川为代表的西南地区人才培养基地比较多,其中北京最多,上海和广东也有零星分布。北上广除了是人才培养机构的聚集地,同样也是人才需求量最高的地区。这一点很容易理解,因为经济发达,必然就有需求、有供给,培养出的人才可以直接在当地工作。反观西南地区,以有大数据基地的贵州为代表,相关人才的需求量其实很少,它培养的人才都供给到北上广等经济比较发达的沿海地区了。
最后我们总结一下通过上面罗列的一系列数据得出的结论,要修炼成大数据高端人才,要讲究“四板斧”,即需具备四种能力。
第一个是计算机技能,没有计算机技能,做数据分析可能会非常辛苦。比如计算机技能包括数据库技能,好多非结构化数据都是转化成结构化数据去做的,所以一定要在数据库管理使用的技术上下功夫。还有,比如说Hadoop和MapReduce,都是架构在Linux/Unix环境下的,这个操作系统还需要运用一些脚本语言。另外,你还要掌握大数据分析的框架,至少要做到熟悉了解。
第二个是编程技能,要做大数据分析或成为大数据高端人才,编程技能是必不可少的,比如今天我分享给大家的这个内容,其实就是用我们编程自动提取出来的信息整理得出的结论,不论对错与否,它至少是客观的。当很多信息没有现成的东西去分析的时候,你就必须去做开发编程。需要精通的工具有我们上面说到过的JAVA、C++,做统计的话用SAS、Python和R。现在还有新的框架Spark等,都需要你去熟悉了解。
第三个也是最核心的技能,就是大数据挖掘和统计建模分析的技能。很多学计算机的朋友问我,要开一家做大数据医疗的公司要怎么做。这一块的技能很难掌握,需要聚类、关联、分类等。分类很关键,人脑一直在不断分类,比如你来或者不来听我的讲座,你的脑子里面不断地在做类似的决策。你说的每一句话,每一个字都可能是分类的结果,包括我们下棋,你走哪一步,同样也是分类的结果。还有聚类,聚类就是本来没有类别,人为的划分类别,比如把人类分成男和女。如果你要跟数据打交道,多多少少应当具备这方面的技能。在此基础上,你还能对算法进行改进,如果没有改进,那你也只是停留在用一用的层面,想要自创门派或提高工作效率的话,难度还是比较大的。
最后一个是业务和管理技能。没有业务,空有一身本事也是白搭,所以必须要找一个途径去实现你的价值。我们发现有很多计算机技术好,统计模型、大数据挖掘、机器学习都学得非常好的人,在实际工作中却发挥不出什么作用,逐渐被边缘化,甚至没干几年就被开除了,这是为什么呢?这就是太过于钻研技术,没有业务技能的后果。如果连业务流程都不熟悉,要怎么去做分析呢?没有业务能力,公司里每一项业务的数据流流向,数据来了以后数据口径,就无法得出正确的结论。
综上所述,必须同时具备四大要素,才能成为一个真正的大数据高端人才。
当今时代正是大数据产业蓬勃发展的好时机。对于大数据高端人才的培养,国外有先例,国内有需求。具备以上四项能力中某一项或几项能力的人应当珍惜这份幸运,抓住这次机会,根据自身的特点进一步完善自己各方面的技能,朝着适合自己的方向去努力,有朝一日一定能修炼成才。
今天就跟大家分享这么多,谢谢大家。
(根据宣讲家网报告整理编辑,未经许可,不得印刷、出版,违者追究法律责任)
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点

我要回帖

更多关于 贵阳大数据就是吹牛 的文章

 

随机推荐