区块链 大数据如何大数据化?

大数据、区块链如何影响软件架构?
用微信扫描二维码分享至好友和朋友圈
用微信扫描二维码分享至好友和朋友圈
    作为比特币背后的技术,区块链的用途远不止在加密货币领域使用。本文解释了区块链背后的用例和技术概念,给出了可用服务的概述,并指出为什么在这个领域里中间件是成功的一个关键因素。  关键点:区块链不是仅仅用于支撑比特币的技术、区块链是用于为交易构建一套不可变的历史记录的协议和账本。  区块链的背后没有什么新技术,只是用新的方式将已经有组件组合在了一起而已,中间件是成功地将区块链与其它企业架构整合起来的关键。  自己搭建一套区块链系统是很复杂的。当今时代,令人激动不已的新技术层出不穷。每个人都在谈论着云、容器、大数据和机器学习。另一个新热点就是区块链。可能你已经听说过区块链,知道它是实现了比特币的底层技术。但实际上,比特币只展现出了冰山的一角。  区块链的动机和用例  去年,在线市场中已经有超过700种在交易中的加密货币了,但只有9种的市场估值超过了1000万美元。一个新名词也由此而生:山寨币(Altcoin,“Bitcoin Alternatives”,意思是“比特币的替代品”)。但事实上,山寨币与区块链并不一样,它只不过是金融交易的另一种替代品而已。  区块链是加密货币底下的一层,它的主题是关于“在商务网络内对资产的传输”。区块链技术使得在交易伙伴以及公众用户之间创建一个安全的、可信的、对等的网络成为可能,从而可以构建任意分布式商业应用。因此,区块链的用途远不限于经济交易领域。下面是一些例子:  Lazooz:协同运输的乘车共享。  OpenBazaar:不需要Ebay或Amazon作中间平台,就可以自己开店。  Skuchain:下一代供应链管理。  物联网与智能合约:这可能是在金融领域之后的下一件“大事”了。  那么,为什么我们不能满足于已有软件和应用程序的现状,而必须关注区块链技术呢?  在许多行业的流水线处理流程中,智能合约可以取代昂贵而又缓慢的中间人,比如转让契约等;  现在我们能用区块链实现的还都是比较肤浅的用例。事实上我们没办法想像出客户和他们的伙伴们到底会构建出什么样的系统。这与开放式API的想法很相似,我们只是通过组合各种各样的内部或外部API,就实现了新的附加值,甚至新的业务模型。  技术概念及框架  接下来我们深入了解一下区块链技术背后的技术概念及框架。区块链是用于为交易构建一套不可变的历史记录的协议和账本。对区块链的实现意味着:  账本记录交易——在属主之间的价值传递;交易是基于时间的;一旦一笔交易被记录下来,你就再也不能修改它的内容了;你要有能力检测到你的账本是不是被修改了;  区块链背后没有什么新技术,仅仅是将现有技术用一种新方式组合在了一起而已——如微软的以太坊博客文章里的FAQ部分所说:  一个名为区块链的数据结构被用作分布式后台数据库;一个加密令牌,比如比特币协议中的比特币(Bitcoin,BTC),或以太坊用到的以太(ether,ETH);  用于发现和通信的对等网络(peer-to-peer,P2P);一致性形成算法。请注意许多企业区块链并不和比特币一样,使用挖矿来达到一致性;  一台虚拟机,用于支持比特币中的可编程货币,以及在以太坊中完成程序的去中心化;  区块链组成了一个网络,在其之上各个成员跟踪并且交换资产,以及对所有交换行为的记录(账本),这些都会被复制给所有的参与成员。部署到区块链网络中的程序包含自动执行的合约,以及通过SDK或API与网络交互的客户端程序。如图一所示:    区块链技术、框架和标准  现在已经有许多种不同的区块链技术了,它们之间可以按下面这些标准分类:  公有与私有(内部与合作伙伴);已经采用的、新的和已经被淘汰的;不同的特性(速度、安全、一致性算法等);  最近似乎有两种开放式区块链框架吸引了许多眼球:  Hyperledger:通过共同努力来推进区块链技术的发展,具体方式是为分布式账本识别和判断出重要特征,以此形成跨行业的开放式标准,改变在全球范围内进行商业交易的方式;  以太坊(Ethereum):一个运行智能合约的去中心化平台:应用程序可以以一种无宕机、无审查、无欺诈或第三方介入的方式进行编程。ConsenSys是以太坊背后的主要推动公司。  两套框架背后的理念不同,大概可以类比成IaaS和PaaS技术之间的区别。  区块链即服务  许多公司并不会为了区块链项目而完全自己构建自己的基础设施。他们会使用云服务,也就是所谓的区块链即服务(Blockchain as a Service,BaaS)。IBM和微软在这方面起着主导作用,他们基于开放式技术和框架在为开发和企业提供着云平台。他们提供的服务组合包括区块链和对他们其它云服务的整合。  区块链与中间件  区块链会不会是又一场炒作而已?每个人都会像使用网页浏览器或手机APP一样使用它吗?为什么它和中间件有关呢?答案很简单,上海和数软件有限公司技术总监牟先生告诉记者:“区块链会成为主力军,只不过是在各个场景的后台而已”。从许多业务用户的角度来看区块链和自己不会有什么关系,但对于许多分布式系统以及中间件来说,它却是底层的核心组件。设想一下区块链会怎样被用在企业的软件架构中,你就可以很快想明白它为什么和中间件有关了。关于中间件有两个主要挑战:  区块链架构没有中间节点,只有自依赖的对等网络。要与这个网络整合起来,你必须成为它的一部分,也就是说,你必须在你的系统里运行区块链客户端,或者集成一个。考虑到安全审计与治理的要求、分布式系统的概念、可信对端、区块链网络底层的公钥架构等等,这种整合的工作量并不小。  区块链每时每刻都在产生着新事件,附带着技术和业务信息,但却没有中心数据库。要处理这些区块链事件,你就要能够分析、关联和对这些事件做出响应。除了与区块链进行整合之外,你还要能够分析并将这些事件可视化,再把这些数据中携带的信息与其它非区块链网络中的数据关联起来。  因为存在着这些挑战,所以在真实的区块链项目中我们就必须利用许多关键的中间件功能:实时地与许多不同的数据源进行整合,比如区块链客户端、各种不同后台(比如ERP、CRM、旧系统等)、云服务、合作伙伴的API、以及各种网关和API管理等;组合各种不同的区块链;在历史数据中进行数据发现活动,以找出洞察和某种模式,有时也要用上机器学习;实时地将区块链和非区块链事件进行关联,有些场景也包括应用机器学习和分析模型;在企业架构中对服务进行分辨和加密,以保证各个合作方之间的通信可以满足安全和治理需要。  咱们现在再来想一下上文中提到的航班延误赔偿的问题。航空协会将实现区块链基础设施,并且定义智能合约,在出现航班延误或取消的情况下,强迫航空公司对乘客进行赔偿。由于存在着许多区块链独有的概念和需求,航空公司在把区块链基础设施与他们自己的系统和流程整合的过程中,会面临许多挑战。  这时候中间件就派上用场了。它可以用来弱化或化解这些挑战,因为它存在的根本就在于将各种系统用不同技术、标准和通信协议连接起来。此外,中间件还可以通过事件关联和可视化来增强系统的智能,以此来满足监管需求,或者通过发现新的洞察(比如错误的流程、性能问题、恶意使用以及额外的机会)来创造附加值。  区块链和中间件的参考架构  一个区块链和中间件的参考架构。    参考架构包括:  区块链网络的底层使用了各种不同的框架,比如Hyperledger、以太坊基础设施等;  云整合层包括了API管理功能,可以将区块链和其它系统或云服务集成起来。请参考“对进代应用程序集成架构的调查”,中间讲到了中间件集成可以使用的可选技术;  数据发现和可视化分析,加上大数据存储(比如Apache Hadoop)和机器学习框架(比如R、Apache Spark ML或H2O.ai等),可以在区块链和非区块链的历史数据中发现洞察和模式。而且,在把不同的数据源整合起来的过程中,你也经常可以发现许多非常有价值的洞察;流式分析可以将不同的区块链和非区块链事件关联起来,实时地应用模式或分析模型;  一个在黑客马拉松上用以太坊和集成中间件实现的例子  接下来我们看一个在某次最近的黑客马拉松上实现的具体例子(见图三)。我们的目标是基于区块链基础架构实现一个投票APP,并利用中间件来与各种非区块链客户端进行集成。  我们选择用以太坊来实现区块链,因为现在看起来,它似乎与Hyperledger相比是“做应用开发的更加全面的平台”。不过从我作为一个开发者的角度来看,Hyperledger也有许多不错的特性,比如它是基于Docker的,自带提供REST接口,可以用Go做编程语言来实现智能合约而不必去学一种独特的智能合约语言&&等等。总之,在真地建立起一套区块链基础设施之前,你非常有必要了解一下两者之间的优劣对比(还有其它的可用的选择)。  在以太坊上,你开发的是所谓的Dapp(decentralized app),也就是去中心化的APP,它包含两部分:一个前端(用HTML写成的网页APP,或者任意它支持的编程语言写成的别的客户端),和一个后端(可以把它当成是你的前端的数据库)。前端可以是区块链的一个端点,直接与后端进行通信。这样做有个非常大的好处,就是每个客户端都是可信区块链网络的一个完全的成员。这就是理想的区块链场景。不过,这样也让实现和部署这些客户端变得更加复杂:想想供应链管理或者物联网的场景就可以明白了。因此,另一个选择就是从一个完全的区块链端点“将信任传递”给中间件,这样只需要运行一个轻量级区块链客户端就够了,而不是一个完全的对端。我们把这两种选择结合起来,就有了完全的弹性。在一个真实场景中这也是有效的,就是让完全的客户端具备全部功能,另外所有人都可以通过中间件访问区块链网络,但却只能做一部分受限的事情。将数据可视化,来获得对区块链通信、区块链用户的行业及智能合约的洞察。这样做可以优化业务逻辑(考虑一下欺诈检测或其它预测行为)。通过流式分析进行关联可能会实时地将这些新洞察应用于新的区块链事件。  区块链会颠覆现有企业解决方案,中间件是成功的关键  区块链不是什么新东西,只不过是若干种已有技术的结合使得颠覆成为了可能而已,比特币只是冰山的一角。区块链的用途远不止于金融交易,各种不同行业都会有所相关。下一个主要采用区块链技术的行业可能是物联网,具体方式是在伙伴之间实现自动化智能合约。区块链即服务可以让大家快速采用区块链技术,用快速试错的方法来验证想法和初创项目安全真实。  在企业架构中区块链获得成功的一个关键因素就是中间件。你需要实时地把区块链与区块链,以及许多其它系统集成起来,要用到各种不同的技术及通信协议。在真实的项目中,区块链还要用到许多中间件功能,比如数据发现、事件关联、API管理、安全审计及治理等。  PS:单身汪们要找女票,国民岳母说我有好多女儿,这样吧我给你们出点题目,解出一个就给其中一个姑娘的微信号。  单身汪们疯狂竞争,想破脑袋去解题。只要其中一只汪解出一道题,就立马得意洋洋地昭告天下,示威全部单身汪,这个姑娘是我的啦,你们放弃吧。其他单身汪们即使不服也没有办法,惆怅懊恼也不是个事儿啊,还是麻溜地立马去解下一道题目吧。这只喜赢姑娘的幸运小汪被岳母认可后还能得到25个货币单位的彩礼,简直人生赢家。  岳母会通过解题的速率去调整题目的难度,有时候吧,出的太难了,好久没小伙子有能力来上门提亲,她一寻思,这可不行,这女儿不能砸手里啊,得把题目难度降一点。有时候难度太简单,不到10个时间单位就嫁出去一个,这更不行,赶紧使用难度提升技能。对了今年就是2016年,岳母的礼金还会减半........  
特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
阅读下一篇
网易通行证/邮箱用户可以直接登录:51CTO旗下网站
区块链及其对大数据的意义
区块链可以说是过去几年来信息技术最重大的发展之一,有可能改变世界采用大数据的方式,其安全性和数据质量的加强只是企业使用区块链诸多好处的其中两个。
作者:HERO 译来源:| 11:38
区块链可以说是过去几年来信息技术最重大的发展之一,有可能改变世界采用大数据的方式,其安全性和数据质量的加强只是企业使用区块链诸多好处的其中两个。人们将会更多地得益于区块链创始人中本聪(Satoshi
Nakamoto)创建这一标志性的技术。
什么是区块链?
区块链是一个分布式数据库系统,作为一种&开放式分类账&来存储和管理交易。数据库中的每个记录都称为一个块,并包含诸如事务时间戳记以及上一个块的链接等详细信息。这使得任何人都无法追溯地改变记录的信息。此外,由于在多个分布式数据库系统上记录相同的事务,所以该技术通过设计之后是安全的。
考虑到上述情况,区块链是不可变的,而只要有网络存在,其信息就保持在相同的状态。
区块链和大数据
当人们在比特币的背景下谈论区块链时,与大数据的联系似乎有些牵强。如果不是比特币,那么区块链是其他金融交易的分类账?还是商业合同?还是股票交易?
金融服务行业正在开始认真研究区块链技术。瑞银集团首席信息官Oliver Bussmann表示,区块链技术可以将交易处理时间从几天缩短到几分钟。
金融服务业务采用区块链技术势在必行。想象一下这个数量级的区块链。其庞大的数据湖包含了所有金融交易的全部历史记录,并且全部可供分析。区块链提供了分类账的完整性,但不能用于分析。这就是大数据和相关分析工具将会发挥作用的地方。
大数据分析的机会
最近,一家由47家日本银行组成的财团与一家名为Ripple的区块链创业公司签约,以促进采用区块链在银行账户之间进行资金转账。签署这个交易的主要原因是以极低的成本对资金进行实时传输。传统实时转账昂贵的原因之一是具有潜在的风险因素。双重支出(这是一种重复使用相同安全令牌的交易失败形式)是实时传输面临的一个实际问题。通过区块链,可以显著地避免这种风险。大数据分析使得识别消费者支出模式成为可能,并且比现在可以更快地识别高风险交易。这降低了实时交易的成本。
而在银行以外的行业,采用区块链技术的主要动力是安全性。在医疗保健、零售、以及公共管理领域,企业已经开始试验区块链来处理数据,以防止黑客入侵和数据泄露。在医疗保健方面,区块链等技术可以确保在各个级别的数据访问中寻求多个&签名&。这可以帮助防止再次发生诸如2015年的袭击事件,导致超过1亿份病历被盗。
实时分析的可能性
到目前为止,对实时欺诈进行检测只是一个梦想,银行机构一直依靠技术来识别欺诈交易。由于区块链拥有每笔交易的数据库记录,因此,如果需要的话,它可以为机构提供实时挖掘模式的途径。
但所有这些可能性也引发了有关隐私的问题。这与区块链和比特币受到欢迎的原因相反。一些业内专家对此表示担心,这种能够提供每笔交易记录的技术,能够被用于从客户资料分析到用于其他目的分析的所有事情。
但从另一个角度来看,区块链大大提高了数据分析的透明度。与以前的算法不同,区块链的设计会拒绝任何无法验证的输入,而且这种输入被认为是可疑的。因此,零售行业的分析师只能处理完全透明的数据。换句话说,区块链系统识别的客户行为模式可能比现在更为精确。
发现交易数据
据预测,区块链中的数据价值数万亿美元,因为区块链将继续在银行,小额支付,汇款和其他金融服务应用。实际上,截至2030年,区块链账本的价值可能达到大数据市场的20%,其年收入可达1000亿美元。从这个角度来看,这个潜在的收入超过了Visa,Mastercard和PayPal等金融支付工具目前所产生的收入。大数据分析对跟踪这些活动至关重要,帮助组织使用区块链做出更明智的决策。
数据情报服务正在出现,以帮助金融机构、政府机构以及各种组织深入研究他们可能与区块链互动并发现&隐藏&模式。
发现社交数据
随着2014年和2015年比特币的日益普及,虚拟货币开始由于现实世界事件和大众对技术的看法而大幅波动,而这些波动证明,虚拟货币有几个特征,使其成为社交数据预测的理想选择。
行业专家表示,&使用社交数据预测消费者行为并不是什么新鲜事,许多交易者一直在寻求将社交指标纳入其交易算法。但是,由于大多数金融工具定价涉及的因素太多,所以要预测市场将如何变化是非常困难的。&
幸运的是,比特币和社交媒体的用户趋于一致,使用这两种数据进行数据分析可能是有益的,他对此进行了进一步解释:
比特币用户往往与社交媒体用户在相同的人口统计范围内,因此他们对比特币的态度、观点和看法都有详细记录。
比特币和其他加密货币的价值几乎完全由市场需求决定,因为市场上的货币数量是可以预测的,不受任何实物商品的束缚。
比特币主要由个人而不是大型机构进行交易。
影响比特币价值的事件首先在社交媒体上传播。
数据分析师现在正在挖掘社交数据,以洞察关键的加密货币趋势。这反过来帮助组织发
现强大的人口统计信息,并将比特币的表现与世界发生的事件联系起来。
揭开数据货币化的新形态
Dell EMC公司服务首席技术官Bill
Schmarzo表示,区块链技术也有可能通过消除中间人促进交易,以实现数据和分析的共享和货币化。&在商业世界中,这给消费者提供了更强大的谈判能力。它允许消费者通过区块链控制谁有权访问他们的数据。然后,他们可以要求定价折扣,以换取消费者对于企业产品或服务的个人消费数据。
Schmarzo对区块链如何可能导致新的数据货币化形式进行了阐述,因为它具有对大数据的以下几方面的影响:
参与交易的所有参与方都可以访问相同的数据。这加快了数据采集、共享、数据质量,以及数据分析。
所有交易的详细记录都保存在一个&文件&或区块链中。这提供了从开始到结束的事务的完整概述,消除了对多个系统的需求。
个人可以管理和控制他们的个人数据,而无需第三方中介或集中式存储库。
最终,区块链可以通过创建新的市场,让公司和个人可以直接共享、出售以及提供他们的数据和分析见解,从而成为数据货币化的关键推动者。
在比特币的大规模采用的带动下,区块链技术在商业和金融领域获得了成功。它促进的快速和安全的交易可能会彻底改变传统的数据系统。根据毕马威和Forrester咨询公司的调查,三分之一的决策者信任他们公司的数据。但是区块链技术可以大大加强这种信任,其实时应用将变得更加普遍。
【编辑推荐】
【责任编辑: TEL:(010)】
大家都在看猜你喜欢
聚焦专题头条热点热点
24H热文一周话题本月最赞
讲师:107285人学习过
讲师:35696人学习过
讲师:44091人学习过
CTO专属活动
精选博文论坛热帖下载排行
本书是数据库系统方面的经典教材之一。国际上许多著名大学包括斯坦福大学、耶鲁大学、得克萨斯大学、康奈尔大学、伊利诺伊大学、印度理工学...
订阅51CTO邮刊人工智能、区块链、算法...这30个大数据热词你知道吗
本文为您挑选了30个和大数据相关的网络热词,看看你了解多少?
2017年,我国大数据产业保持高速发展态势,各级政府和企业大力推进,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强。展望2018年,大数据产业发展将迎来&黄金期&,在满城尽谈大数据的时代,与时俱进地了解一些大数据知识对生活和工作都大有裨益。本文为您挑选了30个和大数据相关的网络热词,看看你了解多少?
一.人工智能
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的&容器&。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种&复杂工作&的理解是不同的。2017年12月,人工智能入选&2017年度中国媒体十大流行语&。
狭义来讲,区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一 种链式数据结构, 并以密码学方式保证的不可篡改和不可伪造的分布式账本。广义来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。
三.图灵测试&
图灵测试(The Turing test)由艾伦&麦席森&图灵发明,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。图灵测试一词来源于计算机科学和密码学的先驱阿兰&麦席森&图灵写于1950年的一篇论文《计算机器与智能》,其中30%是图灵对2000年时的机器思考能力的一个预测,目前我们已远远落后于这个预测。
四.回归分析&regression analysis
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
五.MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
六.贪心算法
贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。
贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。
贪心算法的基本思路是从问题的某一个初始解出发一步一步地进行,根据某个优化测度,每一步都要确保能获得局部最优解。每一步只考虑一个数据,他的选取应该满足局部优化的条件。若下一个数据和部分最优解连在一起不再是可行解时,就不把该数据添加到部分解中,直到把所有数据枚举完,或者不能再添加算法停止 。
七.数据挖掘
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
八.数据可视化
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
九.分布式计算&Distributed computing
在计算机科学中,分布式计算(英语:Distributed computing,又译为分散式计算)这个研究领域,主要研究分散系统(Distributed system)如何进行计算。分散系统是一组电子计算机(computer),通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。
十.分布式架构
分布式架构是 分布式计算技术的应用和工具,目前成熟的技术包括J2EE, CORBA和.NET(DCOM),这些技术牵扯的内容非常广,相关的书籍也非常多,本文不介绍这些技术的内容,也没有涉及这些技术的细节,只是从各种分布式系统平台产生的背景和在软件开发中应用的情况来探讨它们的主要异同。
十一.Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
十二.BI&商业智能
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。而这些数据可能来自企业的CRM、SCM等业务系统。
商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
十三.非关系型数据库&NoSQL
非关系型数据库,又被称为NoSQL(Not Only SQL ),意为不仅仅是SQL( Stmuctured QueryLanguage,结构化查询语言),据维基百科介绍,NoSQL最早出现于1998 年,是由Carlo Storzzi最早开发的个轻量、开源、不兼容SQL 功能的关系型数据库,2009 年,在一次分布式开源数据库的讨论会上,再次提出了NOSQL 的概念,此时NOSQL主要是指I非关系型、分布式、不提供ACID (数据库事务处理的四个本要素)的数据库设计模式。同年,在业特兰大举行的&NO:SQL(east)&讨论会上,对NOSQL 最普遍的定义是&非关联型的&,强调Key-Value 存储和文档数据库的优点,而不是单纯地反对RDBMS,至此,NoSQL 开始正式出现在世人面前。
十四.结构化数据
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。
基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
十五.半结构化数据
和普通纯文本相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库的数据相比。OEM(Object exchange Model)是一种典型的半结构化数据模型。
在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等;我们就会建立一个对应的staff表。
十六.非结构化数据
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
十七.数据清洗
数据清洗从名字上也看的出就是把&脏&的&洗掉&,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为&脏数据&。我们要按照一定的规则把&脏数据&&洗掉&,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
十八.算法&
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。
十九.深度学习
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
二十.人工神经网络&
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
二十一.数据聚类&
数据聚类 (英语 : Cluster analysis) 是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
二十二.随机森林&
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 &Random Forests& 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 &Bootstrap aggregating& 想法和 Ho 的&random subspace method&& 以建造决策树的集合。
二十三.分治法
在计算机科学中,分治法是一种很重要的算法。字面上的解释是&分而治之&,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题&&直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)。
二十四.支持向量机&
在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。
SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
二十五.熵&
熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵的概念由鲁道夫&克劳修斯(Rudolf Clausius)于1850年提出,并应用在热力学中。1948年,克劳德&艾尔伍德&香农(Claude Elwood Shannon)第一次将熵的概念引入信息论中。
二十六.辛普森悖论
辛普森悖论亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
二十七.朴素贝叶斯模型
贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一。
朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
通过以上定理和&朴素&的假定,我们知道:P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)。
二十八.数据科学家
数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
二十九.并行处理&
并行处理是计算机系统中能同时执行两个或更多个处理机的一种计算方法。处理机可同时工作于同一程序的不同方面。并行处理的主要目的是节省大型和复杂问题的解决时间。为使用并行处理,首先需要对程序进行并行化处理,也就是说将工作各部分分配到不同处理机中。而主要问题是并行是一个相互依靠性问题,而不能自动实现。此外,并行也不能保证加速。但是一个在 n 个处理机上执行的程序速度可能会是在单一处理机上执行的速度的 n 倍。
三十.云计算
云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。
原文标题:人工智能、区块链、算法...这30个大数据热词你知道吗?
文章出处:【微信号:tyutcsplab,微信公众号:通信信号处理研究所】欢迎添加关注!文章转载请注明出处。
关注电子发烧友微信
有趣有料的资讯及技术干货
下载发烧友APP
打造属于您的人脉电子圈
关注发烧友课堂
锁定最新课程活动及技术直播
发布评论请先
作为链圈和币圈的风云人物,李笑来的一举一动都备受关注。昨晚(4月18日),李笑来和快校CEO、搜狐前....
化学家有了新的实验助手——人工智能(AI)。随着深度学习算法的进一步应用,AI计算机程序能帮助药物化....
近年来,一些悲观的媒体与专家开始担忧人工智能的高速发展将会对人类自身的生存产生威胁,甚至连理论物理学....
在历史的长河中,有些古城盛极一时,是经济、文化之冠上的璀璨明珠。但后来因为种种原因转而消失在世人眼中....
有“人机大战”中,人工智能机器人AlphaGo强势战胜世界顶尖围棋天才棋手李世石,后有百度Apoll....
美光科技今天宣布128GB和256GB 容量的边缘存储 microSD 卡解决方案的全面供货,同时与....
随着人工智能的发展,它不仅被用于提高人们的日常生活水平,还应用于军事作战中,成为各国人工智能发展的领....
IBM目前已经在全球拥有至少400家与区块链相关的客户,同时IBM的“区块链即服务”公共云服务目前已....
关注人工智能的朋友一定还记忆犹新,世界围棋第一人柯洁在去年5月的中国乌镇围棋峰会上,以0:3败给美国....
为了终结枪枝暴力问题,我们可以进一步思考如何有效利用计算机视觉和人工智能(AI)的最新进展。例如让“....
对数字货币的崛起感到新奇的我们,并且想知道其背后的技术——区块链是怎样实现的。本文通过 Python....
阿里巴巴作近年来在人工智能方面的布局可见其野心,不小,甚至专门成立达摩学院,致力于探索未知科技。如今....
4月17日,科大讯飞“魔力生态o飞享未来”智能家居生态合作峰会在上海南新雅大酒店盛大召开,科大讯飞携....
近日,百融(北京)金融信息服务股份有限公司(以下简称百融金服)宣布完成10亿元人民币的C轮融资。本轮....
市场普遍认为,美国制裁中兴后,中国对芯片、人工智能、5G的投入力度将进一步加强。
2017年,人工智能的发展又到达了一个高峰期,首席信息官、顾问和学者们纷纷表示,这项技术将使得从商业....
日,由鲲云科技主办的2018年全球人工智能应用创新峰会在深圳五洲宾馆召开,现场来自....
作为新一轮科技革命的重要代表之一,人工智能是当今科技领域最前沿的课题。继2017年首次被写入全国政府....
近日,长沙市政府召开新闻发布会,发布《长沙市关于加快新一代人工智能产业发展推动国家智能制造中心建设的....
作为一个数学系出身,半路出家开始搞机器学习的人,在学习机器学习的过程中自然踩了无数的坑,也走过很多本....
法国总统马克龙 (EmmanuelMacron) 宣布了一个 15 亿欧元的计划,目的是使法国成为人....
当医疗产品越来越像智能、精准演进时,微机电系统(Micro ElectroMechanical Sy....
人工智能立法的重点应在于充分利用AI技术所提供的各种机遇,构建适宜的环境以激励、培育大量AI初创公司....
随着网络犯罪背后的黑色产业链获利能力的大幅提高,互联网的无国界性使得网络威胁对全球各国用户造成的损失....
区块链协议运行在互联网之上,在运行该协议的P2P网络上的所有计算机拥有相同的交易账本的副本,通过计算....
霍金生前最担忧的事是未来人工智能,现在的人工智能还不至于对人类造成太大威胁。霍金担心的是成熟之后的人....
随着无人驾驶技术的进步,汽车将获得AI大脑。名为Synopsys的公司在会议上展示了自己的方法,用于....
在网络重构的过程中,如何在基础设施层、网络和业务控制层以及运营和编排层引入AI技术,推动网络向智能化....
从产业发展来看,在产品类型上,全球PCB产业均在向高精度、高密度和高可靠性方向靠拢,不断缩小体积、减....
Hackrod已与一些分享其愿景的大公司合作,包括近期加入的西门子(Siemens)。西门子数码创新....
作为人工智能医疗行业的新星深睿医疗也参加了此次盛会,全面展示了其基于突破性的人工智能“深度学习”技术....
其功能在于发现个人端点中的可疑活动并整理相关信息,从而确定此类个人行为是否代表着隐匿的恶意活动。赛门....
百度已在北京和福建平潭领取了两块自动驾驶测试牌照,同时它与众多的汽车企业达成了合作基于其Apollo....
在前不久结束的2017RoboCup机器人世界杯中国赛比赛中,一支首次参加比赛的年轻的队伍——沈阳城....
除了极大提升有机化学和药物合成的速度和效率,AI还在哪些基础学科领域具有类似潜力?对此张军平说:“只....
人工智能企业上榜4家,包括商汤、旷视、依图、云从等;这三个月大中华区新发现 33 家独角兽企业,总数....
中国人工智能泰斗张钹院士12月20日在地平线的芯片发布会上接过地平线创始人余凯的话筒:“人工智能能走....
近期一份研究报告指出,有75%的制造商不是已有智能工厂施行计画,就是正在规划当中,预估到了2021年....
同时,云成为企业业务的重要承载形式,不管是公有云还是私有云,或者混合云,数据永远是这些业务的核心。“....
今天的人工智能更多的还是一种我们称之为面向消费者的人工智能。在不久的将来,企业人工智能会逐渐的兴起和....
中国金融服务业数字化转型的速度,在全球范围内名列前茅,金融科技发展的规模和前景都不容小觑。伴随着人工....
所谓人工智能(Artificial Intelligence;缩写:AI),是指以人工方式来实现人类....
该研究与已知的“鸡尾酒会效应(cocktail party effect)”有关。所谓“鸡尾酒会效应....
近日,位于上海黄浦区九江路303号的中国建设银行上海市无人银行正式开业。建设银行在上海吃了“第一只螃....
现在有消息称,苹果认为HomePod销量惨淡的原因在于定价太高,但想要HomePod降价却比较困难,....
日前,苹果在自家机器学习刊物《Apple Machine Learning Journal》上发表最....
近日,网络热传快播要做区块链手机的消息让不少网友沸腾起来了,终于可以把拖欠快播会员的钱补上了,我们来....
9月25日,盆塘首尔大学附属医院胸外科钱相勋教授的研究团队与韩国电子通讯研究院(ETRI)李大植(音....
供应链服务
版权所有 (C) 深圳华强聚丰电子科技有限公司
电信与信息服务业务经营许可证:粤B2-

我要回帖

更多关于 区块链与大数据 pdf 的文章

 

随机推荐