大数据安全防护护一直是非常热门的话题,大家有好的办法吗

在2017网络安全生态峰会上观数科技CEO李科分享了政企单位应该如何保证大数据生态组件的安全,在一直播搜索「观数科技」即可查看录播

以下是文字实录,阅读时长15分钟

(请宽容对待此图,怪我们像素太渣老板说把他拍成了丁丁历险记)

大家好,我是李科观数科技是一家为客户提供大数据平台底层保护能力的安全厂商。今天给大家分享的内容是如何保护大数据生态组件的安全,大致分为四个部分:

一、大数据安全面临哪些挑战

熟悉大数据的应该都知道目前所谓的大数据生态组件,比较常见的就是Hadoop

这个组件不是一个软件,是一系列的生态组件现在的列式数据庫、机器学习,还有其他各种各样的应用越来越多它的组件生态越来越复杂。

问题来自两个方面一方面是平台自身确实包含了一些漏洞,另一方面是大数据组件本身提供的一些功能也可能会诱发一些隐患。

这些隐患主要来源于三个方面:

第一个是基于安全配制我们經常用的Apache的发行版,或是CDH、HDP安全配置并不是默认全开了的。

第二个是安全性上比较脆弱我们知道2006年Hadoop从谷歌开源出来,并没有没有考虑咹全性的问题后来版本不断迭代,很多厂商才为它提供了安全的功能

第三个由于采用分布式的架构,这和数据库原来集中式的架构是囿很大区别的它的复杂结构也带来一系列的安全问题。

今年大家关注最多的可能就是勒索攻击了。其实针对Hadoop这种勒索工具在今年1月份巳经产生了

当时MongoDB这种开源的产品,都遭受过勒索攻击我们在1月份推出过针对Hadoop抵御勒索攻击的免费补丁,有兴趣的话大家可以去我们的官网看看

为了给大家更清晰的展示,我们做了一个测试环境在两台客户机上建立自己的用户名,分别叫User1、User2

张三的计算机上有一个用戶叫张三,另外一台上也有叫张三这两台一样吗?肯定是不一样的因为这是两台计算机上用户名相同的不同用户。

在这种情况做测试我们看看大数据平台都面临哪些威胁。

介绍两个配制文件第一个是在Hadoop HDFS里,这个里面有Hadoop相关的权限开关如果你使用Simple模式,你没有任何嘚权限

上传一个文件,比如说修改文件的属性这样的话你在客户机上用同样的User,就可以访问集群中的任何文件

大家知道刚才说的User1,User2呮是操作系统的用户名真正的Hadoop当前用户名是不需要密码的,所以这个普通用户攻击冒充攻击这样就可以很轻松的完成了

2.普通用户的越權访问

因为什么?虽然你校验了用户但是没有校验权限,用户不同没有对比权限,授权关闭的话不同的用户访问其他的文件。

如果Hadoop昰root起的不管是哪个用户建的表,只要用root或者是启用Hadoop用户访问其他用户的表都是可以的。

相对来说比我们破解SSH登陆的简单的多破解SSH破解的是用户的密码,主机上尝试多次以后拒绝连接

但是在Hadoop需要尝试的只是你的用户名,当你的用户名对比成功的时候其实不需要密码,可以把里面的目录列出来

所以在dfs.permissions.enabled关闭的情况下,用户名无效就会有返回权限的提示,直到可以列出目录来他可以暴力破解你的用戶名就可以了。

5.嗅探攻击、Datanode直接访问风险

相信大家都用过Hadoop比如说50070端口开启的时候看到Datanode页面的,可以看到Block ID

通过网络抓包可以把上传或者昰下载一个aa.txt,这是获得Block ID的一个方法

所谓的物理攻击有两种,第一种就是我直接去掏人家的磁盘

接触到磁盘的时候做一个测试,比如说峩们写一个date.txt文件随便敲一个字符,传输到集群里的时候发现Hadoop集群里多了一个文件,这个文件实际上就是刚才data.txt点击生成的文件

直接可鉯看到名文,这说明什么说明我们的文件在意传到datanode的时候,是没有经过任何处理的这种情况下如果我们能够接触到大数据的集群就可鉯做物理攻击。

两个Datanode以前可能带了一百台Datanode节点把其中一个datanode节点网线拔下来,把这个笔记本装了这个Datanode相应的程序并且读取了证书,可以鼡笔记本去接触更强大容错和恢复机制导致的,只要发现有新的Datanode就把自己的数据往那个地方去复制

攻击者可以很轻松的把这一部分数據拿走,而且大家还不知道拿走以后可以把网线插进去。

还有一种可以远程去攻击的主要是利用Mapreduce的框架。

Datanode一部分是分布式文件系统還有一部分是Mapreduce分布是计算框架,我们写完架包上传上传到任何一个节点上,用Mapreduce执行任何节点有可能访问全部的数据,架包里面可以调動集群里面任意的数据

我们看一下比如说这个希望例子,Hadoop里面有很多参数这样里面有Mapper和reducer,执行这指令的时候我们可以读到文件配制這个非常危险。

接下来我相信大家都用过这个工具MSF这是很多渗透测试的时候用了一个开元框架,用这个工具百度可以下载到你们如果昰有兴趣可以自己试一下。

生成一个MSF反联程序到外面指定的技术和端口,这是标准的MSF底下的任何MSF上都可以用。

我们生成这个文件以后我们设置好IP地址等等,之后利用Hadoop这个工具把这个文件传上去,用Mapper执行它起动MSF框架,生成一个文件监听连接端口。

三、目前的有哪些解决办法

我们自己做了一套BIG RADAR全球大数据探测雷达在互联网上一周的时间,这是我们7月份在数博会上的一个展示发现有5.7亿个文件,17PB的數据都是可以被勒索攻击的。

这是我们在互联网上探测到的风险数据我相信内网当中的风险数据要比这个多N倍。那是不是说现在的Hadoop就非常不安全

其实Hadoop比起安全组件,在认证授权这块主要采用的是Kerberos加ldap;

在透明加解密上有KMS上可以使用;

节点间通信有SSL组件去进行加密;

日誌审计Hadoop有自己的基于log4j的形式文件产生,会存放在意本地目录

这是Hadoop里面已经具备的功能,但是这些开源组件的开放程度很低少有人用,吔少有人会用

四、我们在大数据安全领域的解决方案

我们认为,企业对大数据的安全需求主要有四块

第一个是合规性。合规性分两个層面第一个层面是法律法规的合规。大家都听说过等级保护以前等级保护是一个指导性的文件。但是今年以后已经成为法律就是信息系统上线以后,必须要走等级保护那一套体系必须要满足等保的测评。

其次是业务层面的合规必须要具备帐户授权认证审计,这一套4A的体系如果不具备的话那你连基础上线的条件都不具备。实际上现在Hadoop分布式组件这种4A的特性是不满足现在需求的

第二个是数据治理嘚需求。这包括三个方面角色化、任务化、属性化。

1.角色化大家可能都听说过基于角色访问控制,数据堆积到一起发挥价值的时候,需要进行角色区分

做征信的分析师,访问征信的数据是合理的但是做征信去访问人脸识别的数据,实际上业务没有这个需求的而苴也是不合规的。

所以用角色化把我们主课题区分开比较实施访问控制策略是企业一个需求。

2.任务化在自动化生产的过程中,我们需偠把我们的任务在启动的时候赋予它主课题的权限任务结束以后把这个权限收回来。

3.属性化基于属性的访问控制。任何数据都有自己嘚属性可能是机密性的属性,可能是完整性的属性这些随着我们数据在整个大生命周期里只是访问控制的策略。

第三个是安全事件Hadoop組件可能产生大量的日志,这些日志对企业来说没有太多的价值因为没有人那么多时间去分析,企业最关心的是:

这些日志发现什么问題什么是时候发生了什么样的攻击?我受到什么样的损失这是企业比较关心的。所以怎样从日志里面提出安全事件是企业比较关心的問题

第四个是敏感数据。在今年7月1号实施《网络安全法》里面规定了数据的责任保护单位比如说个人隐私,数据发生泄露这些使用数據单位要负责的

这就涉及到数据的透明加解密的需求,涉及到数据脱敏的需求对于敏感数据的脱敏,密钥是必不可少的

这是我们总結四个企业大数据安全需求。现有的常见的保护思路给大家介绍一下。主要是这三种思想:

第一种叫边界我们叫护城河模式,这是最簡单的也就是说我们先把Hadoop建好以后放在内网里面。

在这种情况下外网不能直接访问,风险来源降低了也不会有什么系统损耗。

但是吔带来一定的弊端第一个是无法提供服务,数据无法直接交换;另外内网完全没有防控能力

勒索工具感染大部分地方都是在内网。当伱和互联网脱离以后你的桌面安全防护,包括你的网关都很难及时做到更新所以内网没有任何防护能力。

第二种基于架构的安全防护思路采用SSL加密,采用kerberos做凭证服务实现组件和客户端之间的身份认证。

它的优势是无须部署边界对外提供服务。但是它的问题是部署囷运维成本高

我们知道kerberos你集成上规模的时候,你集群增加节点你需要重新去调整kerberos,看到很多用户出现问题都是因为这个。

第三个就昰以数据为核心的保护思路具体来说就是对数据进行标记化处理,脱敏加密解决的是数据共享的问题。但是坏处就是有明显的性能损耗

以上是三种常见的保护思路,我们观数科技研发的一套产品—BIG DAF实际上是上面三个思路的一个结合体。

我们在边界的基础上增加了两個BIG DAFGatewa起到代理的作用,进行组件的时候需要在Gateway身份认证

这个组件是一个后台,通过访问控制模型配制完以后会分发到各组件产品第三步,部署在每一个应用的节点上把下发的安全规则进行落地。

哪个可以访问哪个用户可以访问哪个文件plugin;审计官员只能看日志,不能配安全规则也不能通数据;操作人员通过Gateway进行访问,既有边界又有访问策略

这种架构在内网当中对性能没有任何损耗,因为我们没有茬中间停串什么东西没有解决流量或者是转发的问题。所以所起到的作用就是对资源的访问权限管理

在今年的贵阳的数博会上,国务院马凯副总理对我们这套完全自主知识产权的产品给予了高度的肯定。

去年在贵阳网络安全攻防演练里边一百多个网络安全高手对这個产品进行攻击测试,三天时间没有任何损耗,所以它的强壮度还是比较高

目前BIG DAF也是国内唯一一个拿到公安部三所检测认证的基于Hadoop的咹全防护产品。

分享就到这里大家有什么问题,可以私底下随时沟通谢谢大家。

【摘要】:计算机网络系统技术嘚广泛应用虽然给人们带肋诸多的方便,但在计算机网络系统技术应用当中,还存在着安全问题互联网技术的广泛应用给人们的生活以及工莋提供了诸多便利,而应用计算机网络系统技术过程中,也要从多方面加强重视,尤其是数据安全与预防的工作要加强力度。这就需要做好计算機网络系统的数据安全与预防工作,从整体上提高计算机网络系统的应用安全水平基于此,本文先就大数据时代的特征以及大数据时代计算機网络系统数据安全与预防的重要性加以阐述,然后就大数据时代计算机网络系统安全问题以及防护策略的实施详细探究。只有保障计算机網络系统的应用安全,才能真正发挥计算机网络系统技术的应用价值


支持CAJ、PDF文件格式,仅支持PDF格式


许祥建;[J];大学图书情报学刊;2003年02期
林元乖;林奣才;;[J];海南广播电视大学学报;2006年02期
中国重要会议论文全文数据库
秦旭宏;;[A];人才、创新与老工业基地的振兴——2004年中国机械工程学会年会论文集[C];2004姩
秦旭宏;;[A];第三届广西青年学术年会论文集(自然科学篇)[C];2004年
顾冠群;徐永南;;[A];第三次全国计算机安全技术交流会论文集[C];1988年
林杰璜;;[A];第三次全国计算机安全技术交流会论文集[C];1988年
孙晖;吴铤;;[A];2019年全国公共安全通信学术研讨会优秀论文集[C];2019年
姚剑波;;[A];大数据环境下安防系统安全等级保护研讨会论攵集[C];2018年
丁宝善;;[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
王全录;刘志文;邹积君;;[A];中国公路学会计算机应用学会2002年年会学术论文集[C];2002年
代均強;;[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
中国重要报纸全文数据库
记者 罗文福 实习生 晏惠轩;[N];贵州日報;2019年
本报记者 周洪双;[N];光明日报;2019年
付锐涵 本报记者 何星辉;[N];科技日报;2019年
南方日报记者 郜小平;[N];南方日报;2019年
汪军 肖艳 施钱贵;[N];中华工商时报;2019年
中国博壵学位论文全文数据库
李昊星;[D];西安电子科技大学;2016年
姜涛;[D];西安电子科技大学;2016年
中国硕士学位论文全文数据库
温兴建;[D];西北农林科技大学;2018年
王亮;[D];覀安电子科技大学;2018年
韦腾;[D];西安电子科技大学;2018年

随着互联网、物联网、云计算等技术的快速发展全球数据量呈现爆炸式增长,毋庸置疑大数据时代已经来临。大数据时代是“数据驱动”的时代是能够对海量数据進行处理和分析,并产生价值的时代

大数据时代的数据具有数据海量、类型多样、产生价值、运算高效四个显著的特点。大数据时代的數据就是财富数据是国家基础战略资源和创新生产要素,其战略价值和资产价值急速攀升数据也无疑是企业和个人最重要的资产,特別是对个人而言它不仅是数字环境中的个人信息的收集、使用、整理、处理和共享,而且关系到个人在数字世界中的存在在互联网的高速发展下,大数据安全防护护显得越发重要

当前,数据应用浪潮正逐渐从互联网、金融、电信等热点行业和领域向融合业务、物联网、传统制造等行业和领域拓展渗透数字化生活、智慧城市、工业大数据等新技术新业务新领域创造出纷繁多样的数据应用场景,使得数據安全保护具体情境更为复杂

大数据时代下,数据的广泛和多源收集对数据安全本身及个人信息保护带来了新的挑战数据来源和真实性验证存在困难,个人信息过度收集并未履行告知义务等现象侵害了个人的合法权益数据开放共享也对国家数据资源和企业商业秘密的咹全构成了一定的威胁。

中国软件评测中心作为专业的网络安全测评机构为了实现维护公民个人合法权益,保障企业的商业秘密、合法匼规、业务正常运转防止数据被泄漏、被窃取、被篡改的目标,站在战略层面总结数据安全保护的防护策略遵照大数据安全防护护的技术和管理思路,通过将二者紧密结合起来实现大数据安全防护护的方式方法提出以下大数据安全防护护策略。

大数据安全防护护技术筞略:

一是大数据安全防护护建设要以“数据为中心”聚焦数据,聚焦数据生态实现从被动防御到主动检测的转变,借助大数据分析囷人工智能等技术实现自动化威胁识别、风险阻断和攻击溯源,从源头上提升大大数据安全防护御水平提升对未知威胁的防御能力和防御效率。

二是提升大数据平台本身的安全防御能力引入用户和组件的身份认证、数据操作安全审计、数据脱敏等隐私保护机制、从机淛上防止数据的未授权访问和泄露,加强对平台紧急安全事件的响应能力实现网络安全技术和数据安全技术的同步演进,打破传统基于咹全边界的防护策略实现更细粒度的访问控制,提高加密和密钥管理的能力从而保证数据安全。

三是建立覆盖数据收集、传输、存储、处理、共享和销毁全生命周期的安全防护体系综合利用数据源验证、大规模传输加密、非关系型数据库加密存储、隐私保护、数据交噫安全、数据防泄露、追踪溯源、数据销毁等技术,并与系统数据库审计、数据库防火墙、数据库脱敏、数据库加密等数据库安全防护技術相结合建立纵深的安全防御体系。

四是在数据的传输、存储、使用、共享上建立不同安全域间的加密传输链路,也可直接对数据进荇加密后传输可以采取数据加密、硬盘加密等多种技术方式保障数据存储的安全。数据使用采用账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控与终端数据防泄露等有效的安全措施数据共享可以与数据安全域技术相结合,建设统一的数据分發平台作为数据离开数据安全域的唯一出口,有效管理数据共享行为

大数据安全防护护管理策略:

一是建设以数据为中心的安全防护管理体系,明确数据来源、数据形态和应用场景构建由数据安全组织管理、制度规程和人员管理组成的大数据安全防护护管理体系,范圍要覆盖数据全生命周期制定数据安全管理的总体要求、数据共享安全管理和个人信息保护等实施细则,形成大数据安全防护护的闭环管理链条

二是建立企业数据安全管理组织,成立专门的数据安全管理团队自上而下地建立起从各个领导层面至基层员工的管理组织架構,着眼全局把握细节,保证数据安全管理方针、策略和制度的统一制定和有效实施

三是建立数据安全管理制度,在大数据安全防护護实践中数据安全制度提供具体的方式,以规范化的流程指导数据安全管理工作的具体落实是数据安全实践工作的制度保障,是数据咹全管理工作的办事规程和行动准则

四是设立网络安全防护专项基金,提供网络安全防护的经济保障数据安全管理要设置管理权限与加密,实行有偿管理负责制有效提升数据信息安全管理工作的质量。企业在人员管理上要建立面向全体员工的数据安全教育培训机制萣期举行企业员工安全培训,加强管理人员的大数据安全防护范意识加强企业内部人员的网络安全防范意识。(通讯员:雷蕾)

我要回帖

更多关于 数据安全防护 的文章

 

随机推荐