当前位置:首页 > 公司动态
数据治理概念辨异
  • 发表时间:2022-07-29 点击数:84
  • 来源:未知

数据治理领域中,经常会有一些概念、名词术语让人感到头痛,比如“水果蛋糕”和“水果味蛋糕”,难以分辨它们的区别和联系。

 

一、数据治理、数据管理、数据管控

数据治理、数据管理、数据管控这三个名词在一定程度上的确是有所重叠的,容易混为一谈,所以就造成了在实际使用中,经常将这三个词语“混着用”、“随机用”的现象。有关数据治理、数据管理区别的讨论有很多,有人认为数据治理是包含在数据管理中的,数据管理的范围要更广,例如:在DAMA-DMBOK中就明确提出数据管理包含数据治理;也有人认为数据治理要高于数据管理,是企业顶层上的策略。

笔者认为以上两个观点都没有错,如果要用一个模型来描述数据治理、数据管理、数据管控这三个名词,那应该是一个“金字塔”模型。
 

图片1

 

最顶层的应该是数据治理。与“治理”相关,我们还会经常看到、听到国家治理、公司治理的概念,从某种意义上讲,治理是一种自顶向下的策略或活动。如果我们将国家治理说成国家管理,把公司治理说成公司管控是不是有点怪怪的?

因此,数据治理应该是企业顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,指明数据管理过程中哪些决策要被制定,以及由“谁”来负责,更强调组织模式、职责分工和标准规范。

数据管理是为实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、实践和项目所做的计划、执行和监督。这个是DAMA-DMBOK中关于数据管理的定义。笔者理解数据管理是实现数据治理提出的决策并给予反馈,强调管理流程和制度,涵盖不同的管理领域,诸如:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据认责管理、数据服务管理等。

数据管控更多的是执行层面,是具体的如何落地执行所涉及的各种措施,例如:数据建模、数据抽取、数据处理、数据加工、数据分析等,数据管控是确保数据被管理和监控,从而让数据得到更好的利用。

因此,数据治理强调顶层的策略,管理是侧重于流程和机制,管控是具体的措施和手段,三者应该是相辅相成的。而如今我们听到的更多的“数据治理”这个词,似乎只要涉及数据管理的,都在说自己在搞数据治理。出现这个问题,主要是企业越来越意识到传统IT驱动或者说技术驱动的专项数据管理项目,在实施过程中很难推进、困难重重,并且很难解决业务和管理上的用数难的问题。而从战略、组织入手的数据治理顶层设计,更有利于推动数据管理目标的实现。

 

二、元数据、数据元、数据源、源数据

元数据、数据元、数据源、源数据,这几意思毫不相干却都带着一个“yuan”词语,让多初学者抓狂。

先说数据元,数据元用一组属性描述定义、标识、表示和允许值的数据单元,由三部分组成:对象、特性、表示。它是组成实体数据的最小单元,或称原子数据、数据元素,例如,客户联系人方式中的联系人姓名就是就可以理解为一个数据元素,姓名为数据元的对象,“张三”为数据元的值。

元数据(MateData),官方定义是描述数据的数据,让数据更容易理解、查找、管理和使用。从分类上,元数据分为了业务元数据、技术元数据、管理元数据。业务元数据,例如:数据的定义、业务规则、质量规则等;技术元数据:数据表、字段长度,字段编码、字段类型等;管理元数据:数据的存储位置、管理人员、更新时间、更新频率等。

元数据是业界公认的数据管理中的基础,元数据管理提供的功能诸如数据地图、血缘分析、影响分析、全链路分析、热度分析等,让用户更容易的对数据进行检索、定位、管理、评估。用哲学的思维理解元数据的话,元数据其实解决的是:我是谁,我在哪里,我从哪里来,我要到哪里去的问题。

● 数据是物料,而元数据是仓库里的物料卡片;

● 数据是文件夹,而元数据是夹子上的标签;

● 数据是书,元数据是图书馆中的图书卡。

数据源(Data Source),顾名思义就是数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息,通过提供正确的数据源名称,可以找到相应的数据库连接。

10年前我们讲数据源,更多的是说一种数据连接的技术,比如:JDBC、ODBC,或者是指数据库的类型,比如:结构化数据库、非结构化数据库。而大数据时代,数据呈多样化发展,数据来源的多样化是时代的一个特征。我们现在提到的数据源,除了上述的含义之外,还涉及到图数据源、时序数据源、键值数据源、内存数据源、文档数据源等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。

源数据(Source Data),注意:这个词与数据源(Data Source)只是词语换了一个顺序,但是它们代表的含义却是大相径庭了。数据源本质是讲存储或处理数据的媒介,而源数据本质是在讲“数据”本身,强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自源文件(业务系统数据库、线下文件、IoT等)的数据,或者直接拷贝源文件的“副本数据”。

“问渠哪得清如许,为有源头活水来”!数据治理的核心还是要从数据源抓起,以确保源数据的标准、准确、完整、真实。

 

三、主数据、基础数据、静态数据

关于主数据以及主数据治理所涉及的概念、方法、体系、技术在我的系列文章中已经讲了很多了,需要系统的看主数据相关文章的话,可以在【谈数据】公众号的历史文章中查找。为了方便与基础数据、静态数据比较,我还是对其概念的理解重新说下。

主数据是企业中需要在多个部门或系统之间共享的,核心的、高价值且相对静态的数据。主数据是企业信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石和企业中的黄金数据。有关主数据的三大特性(即高价值性、高共享性、相对稳定性)和四个超越(即超越业务,超越部门、超越系统、超越技术)的详细解读,请参考《主数据的3个特点、4个超越和3个二八原则》。

基础数据,业界还没有一个标准的定义。但在很多信息化项目中,基础数据这个概念都会被提及和使用。同时,常常会有客户对基础数据和主数据概念混淆。我理解的基础数据是信息系统运行的基础,用来支撑信息系统运行的各种数据和参数,以及业务交易所依赖的基础信息。而主数据是被多个系统共享的基础数据。因此,我理解的主数据可以是基础数据的一部分,但基础数据绝对不等于主数据。

静态数据也是一个使用比较广泛的词语并且是经常与基础数据“随机”来用的。静态数据是指在运行过程中主要作为控制或参考用的数据,它们在很长的一段时间内不会变化,一般不随运行而变。例如:客户的名称、员工的姓名、系统的参数。动态数据是常常变化,直接反映事务过程的数据,比如,网站访问量、在线人数、日销售额等等。因此,笔者认为将静态数据作为基础数据,将动态数据作为业务数据(交易数据)用是没有问题的。只要是使用的人之间达成共同的认知即可。