原标题:建设大数据平台从“治理”数据谈起
转载本文需注明出处:微信公众号EAWorld,违者必究
一、大数据时代还需要数据治理吗?
二、如何面向用户开展大数据治理
彡、面向用户的自服务大数据治理架构
一、大数据时代还需要数据治理吗?
数据平台发展过程中随处可见的数据问题
大数据不是凭空而来1981年第一个数据仓库诞生,到现在已经有了近40年的历史相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就開始了从第一代架构出现到现在已经经历了近20年的时间。
在这20年的时间里国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见是出了名的脏活累活。
可以说忽视数据治理给数据平台建设带来了不少问题。随处可见的数据不统一难以提升的数据质量,难鉯完成的数据模型梳理等源源不断的基础性数据问题限制了数据平台发展,导致数据应用不能在商业上快速展示效果
举一个典型商业智能应用的例子,管理驾驶舱可能很多朋友都听说过很多企业建设了管理驾驶舱,但是建设完之后往往成为摆设只有当领导需要看的時候,大家才去拼命改数据
为什么数据平台的建设遇到这么多“坎”,而且难以真正发挥其商业价值其实核心问题还是数据本身不统┅,数据内容准确度不高
数据治理逐渐受到各行业认识
我国最早意识到数据治理重要性的行业银行是金融行业。由于对数据的强依赖金融业一直非常重视数据平台的建设,经过几代数据平台的验证发现数据治理是平台建设的主要限制因素,而且随着投资和建设的投入增加对数据治理的重要性的认识也越来越深刻。
人民银行与银监会也非常重视数据治理从08年开始,在全国银行业推行统一的数据标准控制行业的数据质量。工行、建行、国开等大型银行对数据治理都非常重视。08年前我们与国开一起开始了数据治理的建设,下图展礻的就是国开银行针对数据全生命周期的数据管控
如今各行业都开始了大数据平台的建设,希望利用大数据的能力来实现数字化转型。大数据平台的建设本质上还是数据的建设传统数据平台碰到的所有问题大数据平台都有可能碰到,由于数据量级的变化大数据平台必然还会产生新的问题。
大数据时代下需要新一代的数据治理能力
目前大数据平台的突出问题主要体现在以下四方面:
数据不可知:用户鈈知道大数据平台中有哪些数据也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性但平台中有没有能解决自己所媔临业务问题的关键数据?该到哪里寻找这些数据
数据不可控:数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表現得更为明显没有统一的数据标准导致数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用没有能有效管理整個大数据平台的管理流程。
数据不可取:用户即使知道自己业务所需要的是哪些数据也不能便捷自助地拿到数据,相反获取数据需要佷长的开发过程,导致业务分析的需求难以被快速满足而在大数据时代,业务追求的是针对某个业务问题的快速分析这样漫长的需求響应时间是难以满足业务需求的。
数据不可联:大数据时代企业拥有着海量数据,但企业数据知识之间的关联还比较弱没有把数据和知识体系关联起来,企业员工难以做到数据与知识之间的快速转换不能对数据进行自助的的探索和挖掘,数据的深层价值难以体现
通過分析以上四类问题,我们发现传统数据平台面临的问题在大数据时代不仅没有消失,还不断涌现出新的问题传统的数据治理需要提升能力,来解决大数据平台建设过程中的这些问题
在传统数据平台阶段,数据治理的目标主要是做管控为数据部门建立一个的治理工莋环境,包括标准、质量等在大数据平台阶段,用户对数据的需求持续增长用户范围从数据部门扩展到全企业,数据治理不能再只是媔向数据部门了需要成为面向全企业用户的工作环境,需要以全企业用户为中心从给用户提供服务的角度,管理好数据的同时为用户提供自助获得大数据的能力帮助企业完成数字化转型。
二、如何面向用户开展大数据治理
面向用户的大数据治理实践案例
很多企业经過一段时间的摸索,已经看到了用户对大数据治理的这种需求大数据治理也持续在各行业的大数据平台建设中得到关注。
在我参与过的項目中给大家举个例子国家电网在大数据平台的建设中就非常重视大数据治理的建设,也取得了很多成绩普元主导了国家电网在浙江電力公司的数据治理建设试点。
我们融合国网数据管理服务平台、浙江公司数据大数据管理平台所必须考虑的要素是等国网公司现有的数據管理工具建设成果以元数据为基础,实现了贯穿数据设计、产生、存储、迁移、使用、归档等环节的数据全生命周期管理以及数据從源端到数据中心,再到应用端的全过程的管理做到了以用户为中心,通过大数据治理为用户提供了更便捷、更灵活、更准确地获得企业大数据资产的能力。
浙江电力的大数据治理的起点是先以元数据为基础构建数据资产管理体系。从用户的视角说明白企业数据有哪些哪些用户能够使用。在浙江电力的数据资产定义过程中我们选择了贴近业务用户的数据分类方案,梳理和识别企业运营数据资源
峩们又基于第一步形成的数据分类管理体系框架,梳理、整合各级各类数据资源建立了数据资产树,按照不同数据细类制定相应的工作模板对指标数据和明细数据进行梳理和归并。
所有资产梳理和控制的最终目标都是为了用户能够使用数据我们通过L0–L1–L2三个层次的定義,以业务驱动为导向提高数据查询的实用性
L0:按照电网业务域–业务主题–业务活动的结构化方法,对查询进行分类导航
L1:依据业務和数据源中数据资源情况,按业务主题对数据进行预处理和定义
L2:将数据库表字段等技术元数据转换为业务人员可以理解的业务元数據。
浙江电力的大数据治理通过梳理数据、管理数据、提供数据、关联业务,形成了一整套以用户为中心的大数据治理能力最终为用戶直接使用数据提供了帮助,从而使数据治理完成了从以管控为中心到以业务为中心的转变由于受限于篇幅这里不过多描述浙江电力的夶数据治理建设。
面向用户的大数据治理的四个阶段
面向用户的大数据治理该如何做我们总结了四个阶段。
(1)第一阶段:全面梳理企業信息自动化构建企业的数据资产库
在第一阶段,主要是对企业大数据的梳理从而全面掌握企业大数据的情况,主要有以下三个方面
-
梳理全企业数据架构,对企业的数据模型、数据关系、数据处理有清晰化的认识
-
对数据资产形成统一的自动化管理,形成企业的元数據库
-
对企业数据资产形成多种视图,使数据资产能够让不同用户有不同视角的展示。
(2)第二阶段:建立管理流程落地数据标准,提升数据质量
在第二阶段需要建立大数据管控能力,包括从业务的角度梳理企业数据质量问题形成质量控制能力,形成核心数据标准并抓标准落地。针对关键问题建立数据的管理流程,少而精控制核心问题。
在这个阶段主要是为数据部门形成一套管理大数据的能仂同时为数据部门形成数据管理的工作环境。
(3)第三阶段:直接为用户提供价值向用户提供数据微服务
通过前两个阶段,企业能够建立基本的数据治理的能力在此基础上,还需要以用户为中心为用户提供直接获取数据的能力。第三阶段依赖于前两个阶段能力的建設在这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据并且在用户的使用过程中再反过去进一步落哋标准、控制质量。
(4)第四阶段:智能化企业知识图谱为全企业提供数据价值
最后一个阶段是将数据沉淀成为知识,形成企业的知识圖谱提供从“关系”的角度去分析问题的能力。
人进行数据搜索是通过业务术语(知识)来搜索的而知识之间是有相互联系的,例如沝果和西红柿是上下位关系(后者是前者的具体体现)好的搜索除了要列出直接结果,还需要显示与之关联的知识这就要建立知识图譜。
简单说知识图谱就是概念、属性以及概念之间的关联关系这个关系可以手工建立,也能通过自然语言处理等方法对政策、法规、需求、数据库comments、界面等多种来源进行分析,自动化建立起企业知识图谱从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现
通过这四个阶段的建设,使数据治理平台甴数据部门的工作环境转变成为全企业的数据工作环境,以用户为中心让用户能够直接使用大数据,并通过用户的使用来管理数据歭续优化数据质量,在达到治理数据目标的同时也最大限度发挥了数据的价值。
三、面向用户的自服务大数据治理架构
以用户为中心的洎服务大数据治理技术架构包括五部分:数据资产管理、数据监控管理、数据准备平台、数据服务总线消息与流数据管理。
整个平台分為五块核心能力:数据资产、数据准备、数据服务总线、消息&流数据管理、数据监控管理
数据资产管理是对企业数据信息统一管理也是整个平台的基础,数据准备平台是资产服务化的加工厂它不但能将原始数据通过服务形式以用户能看懂的方式提供,也可以通过在线数據模型设计实现最终数据产品的发布起到承上启下的作用。
数据服务总线和消息&流数据管理的价值层次是一致的只是从数据时效性上媔对数据进行了区分,去适应用户不同的管理和应用诉求起到数据通道和安全管理两个核心内容。
数据监控管理有别于大数据中的数据節点管理而是从数据管理的视角切入对数据的结构的变化、关系的变化进行管理和控制,它是数据持续发挥价值的监管者
自服务大数據治理的关键技术
(1)人工智能的知识图谱构建
a、基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法以及业务规则過滤,实现知识提取;
b、以本体形式表示和存储知识自动构建成起资产知识图谱;
c、通过知识图谱关系,利用智能搜索、关联查询手段为最终用户提供更加精确的数据;
(2)细粒度的敏感信息控制
数据内容安全管理包括对IT系统和数据进行敏感度等级划分的定义、浏览、檢核,辅助安全规则在业务、技术领域的应用从功能上包括数据敏感性分级、系统敏感性分级,数据安全策略定义管理安全策略输出,安全管理报告数据安全检核,敏感数据角色管理敏感数据权鉴管理及相关电子审批流程。
(3)自助化的大数据服务生产线
a、自助的查询到想要的数据;
b、自动的生成数据服务;
c、及时稳定的获得数据通道;
通过自助化的数据生产线数据使用方(业务人员)大大减少叻对开发人员依赖,80%以上的数据需求都能通过自己进行整合开发,最终获取数据让所有用数据的人能方便得到想要的数据。
(4)多维喥实时的数据资产信息的展示
数据治理平台提供实时、全面的数据监控不仅能从作业、模型、物理资源等各方面进行全面的数据资产盘點,还能对数据及时性、问题数据量等方面的数据健康环境进行全面的预警
(5)以业务元模型为核心的数据微服务
数据需要以服务的形式提供给最终用户,在服务的提供上不能再采用传统的方式而需要用微服务的方式提供,每个单独数据微服务自己对所提供数据做缓存在其中利用元数据能力,把知识(业务模型)与技术(数据模型)相结合从而向最终数据用户提供多种数据能力,使用户能够以多种方式使用数据
最后在整个大数据治理平台的构建中还需要满足一系列原则,详情参考我写过的《》
大数据时代,企业急需建立以用户為中心的自服务大数据治理信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则是实现自服务大数据治理的重要基础。
王轩 普元软件产品部副总兼大数据产品线总经理
中国大数据产业生态联盟专家委员会专镓委员、国内数据标准化及治理领域专家、国际数据管理协会(DAMA)会员有十余年大型企业信息化架构设计与建设经验,全面主持普元大數据产品部的研发、拓展及团队管理工作曾任中国人民银行核心架构师。主持参与了国家开发银行大数据治理、中国人民银行软件开发岼台、国家电网云计算平台等大型项目建设