企业数据治理,从理解数据开始
前言
本文为你解读的是得到APP课程《华为.数字化转型必修课》的私享直播课《马运:企业数据治理到底要怎么做?》,马运老师是华为的数据架构与治理专家,2015年加入华为之后,一直从事数据治理工作,《华为的数据之道》的主要作者。
核心内容
通过两个业务即数据、数据即业务两个方面阐述数据的重要性。只有理解了数据如何产生的,才能更好的进行数据的治理;只有理解的数据对业务的指导意义,才能更谨慎的治理数据,保证数据的真实性。
业务即数据
- 明确数据的定义
什么是数据?《中华人民共和国数据安全法》第三条明确,本法所称数据,是指任何以电子或非电子形式对信息的记录。
那么,企业中数据是什么?以产品数据举例,产品的品牌是什么?产品的型号是什么?产品生命周期是什么?华为和很多其他企业一样,对产品的生命周期描述分为了9个阶段:Planning、Planed、Active、Pilot、Product、GA、EOM、EOFS、EOS。其中,GA是很重要的时点,代表产品可以放开卖了,EOS,代表产品就要停止销售了,这些阶段描述了产品的生命周期,就是数据。这些数据的背后就是业务,如果没有业务的规定,没办法把数据描述出来。
再看鸡蛋,欧盟通过信息架构设计,对现实世界中的农场和鸡蛋进行数字化建模,实现流通过程中的可追溯性。
要描述鸡蛋,就要抽象对象的特征,按一定的形式,加上一定的数据结构放到系统中,这样就把现实世界的鸡蛋,映射到数字世界中了。
欧洲市场上售卖的鸡蛋,每一个上面都有一个编码,相当于这枚鸡蛋的身份证号。那一串数字代表什么呢?
第一个数字,说的是母鸡饲养的方式,后面跟着的是生产国的代码,再加上具体出产地区、农场的代码,就是这个身份证号了。
别小看这几个数字,它们背后的规则是很严谨的。
就拿第一个数字“母鸡饲养方式”来说,有0、1、2、3四个级别:
0代表生态饲养,这背后是什么规则呢?养鸡的场地室内每平方米最多6只母鸡,每只母鸡还必须保证室外活动,每只至少要有4平米的活动区域。这还不算,农场饲养母鸡总数还不能超过3000只。符合上面这几条,这只鸡蛋的身份证才能被打上0这个数字。
1代表野外饲养,刚刚说的那些指标就降低了一些,母鸡的活动范围小了,农场养鸡总数多了。
2代表地面饲养,指标就更低一些,母鸡是不能外出活动的。
3代表笼中饲养。你看,从0到3,是有非常严格的相应的指标规定的,不是随意制定的标准。
而且,这个鸡蛋的身份证号,全欧洲通用。
总结一下,什么是数据:数据是描述一个对象、一个事件、或者一个概念的某个特征的抽象描述。这个描述一定要描述事实,并遵守约定的。
那么,再看一下平常吃火锅的时候,怎么形容辣度,“还行?”、“很辣?”、“特别辣?”。实际上,关于辣不辣,真的有指标进行描述,标示辣度使用的单位是史高维尔单位(Scoville Units)。
辣椒会辣,是因为其中含有辣椒素(capsaicin);早在1912年,药师Wilbur Scoville就发明了测量辣椒素含量多寡的方法,也就是辣椒以糖水稀释到多少倍,才能使舌尖感受不到辣味;需要愈多的糖水稀释的辣椒,代表它辣得愈够劲,目前测量辣度基本单位即以此命名。
辣度级别 Scoville Heat Units(SHU)
一级 0 – 500
二级 500 – 1000
三级 1000 – 1500
四级 1500 – 2500
五级 2500 – 5000
六级 5000 – 15000
七级15000 – 30000
八级 30000 – 50000
九级 50000 – 100000
十级 > 100000
一般火锅的辣度在二级和三级之间。
所以,数据不是IT的事情,是业务怎么来描述事物的特征。
- 企业数据如何创建
业务即数据,那到底是什么概念,首先要把业务活动中的对象数字化、把规则数字化、过程数字化。企业都是要为客户创造价值的,那么创造价值,一定要做事情,做事情我们就要把它记录下来。
对象数字化
比如,我接了一个订单,要把订单从接收、到最后订单交付、关闭整个过程记录下来,那么订单就是一个对象。
处理订单,要把订单交付了,需要很多资源,比如,需要产品、客户、员工等等,这些也都是业务对象。
我要把这些事做的高效,我就需要有一些控制类的对象,比如我的交付计划、业务计划、预算等等。
把对象描述清楚,这是第一步。
规则数字化
在企业做事情,任何事情都需要有一定的规则,比如,出差报销是有规则的,可以住什么标准的酒店;订单怎么处理,是有规则的;产品在研发过程中的每一步都有规则,这些规则也应该数字化。
过程数字化
包括两部分,所有的活动都应该从线下搬到线上,搬到线上之后,就可以把所有的过程记录下来。比如,货物是怎么移动的,从什么地方移动到了什么地方;在做订单的时候,是怎么处理的,这些都记录下来。
有了这三个数字化后,我们就可以落实业务的战略。业务即数据,我们有了业务战略,一定要通过数据才能落下去。
比如,欧盟有一个食品安全法,要求食品一定要可追溯,那么怎么落下去呢?那么就需要一系列的对象数字化、规则数字化、过程数字化,把这些数字化落下去以后,这个业务要求才能落下去。
- 做好数据分类、分而治之
内部数据和外部数据
对于企业来说,很重要的是分清楚内部数据和外部数据。
如果数据企业内经营产生的,比如,合同、项目、组织等,那么就是内部数据。
如果是通过公共领域获取的数据,比如,站点的数据是运营商的,那么就是外部数据。
这两类数据的治理规则是不一样的,自己的数据可以控制,外部的数据,就需要合规。
结构化数据和非结构化数据
管理方式不一样,非结构化数据,比如文档、图片、视频等,一般是按文件等方式进行管理等。结构化数据,一般是用二维表的方式进行管理的。
结构化数据分为基础数据、主数据、事务数据、报告数据、观测数据、规则数据。
- 基础数据:比如国家、币种、合同类型、省、县等,是一些基本的分类,如果选错了,可能会造成很大是损失。
- 主数据:比如客户、产品、供应商等,主数据是参与业务活动的,是跨系统被重复使用的数据,具有唯一、准确、权威的数据源。
- 事务数据:比如合同、订单、收入等,即一次次的事件,比如共享单车扫描使用,到把车归还这一次事件。
- 报告数据:财报、ITO、DSO等,对数据进行加工分析得出来的报告数据,是对业务活动中产生的数据进行了加工的。
- 规则数据:比如财经核算规则、行政差旅规则等。是实现业务规则的核心数据。
- 观测数据:传感器信息、物联网数据、物流运输过程中产生的GPS数据等。通过观测工具获取的对象行为/过程的记录数据,不参与活动,只是记录。
元数据
元数据是描述数据的数据。
比如,刚刚说的鸡蛋,养殖类型0,1,2,3看到了也不知道是什么意思,元数据就是用来解释:0代表生态饲养、1代表野外饲养、2代表地面饲养、3代表笼中饲养。
不同的数据,治理的方法是不一样的,不能“一招鲜”。
数据即业务
我们对数据进行分析,转变成信息、转变成知识、转变成智慧支持决策。DIKW模型很好的描述了这一过程。
做数字化是把这个过程加速,用传感器感知发生了什么、链接、算法、AI分析,直接就能反过来指导业务活动。加速了从数据、到信息、到知识、到智慧的过程。
数据为什么是生产要素,因为数据能够提升我们的认知能力。
但,数据也可能成为“负资产”。
比如,1805年的反法战争乌尔姆之战,奥地利和俄国约定了10月20多号在乌尔姆集结,一起对抗拿破仑军队,但是奥地利到了之后,俄国却没到,导致奥地利失败告终。
后来有多历史学家研究为什么俄国没到,发现俄国在1918年之前使用的是儒略历(阴历),奥地利当时使用的是格里高利历(阳历),在1800年代,阴历晚于阳历13天,这极有可能是俄国没赶到的原因之一。
虽然历史事件形成的因素有很多,但这个例子可以很好的说明,使用错误的数据、或对数据的错误理解会带来负面的效果。
数据思维,最重要的一点,要对数据的真实性,和对数据的理解进行挑战,明确数据是不是真实的。
总结
- 什么是数据:数据是描述一个对象、一个事件、或者一个概念的某个特征的抽象描述。
- 企业只有进行了对象数字化、规则数字化、过程数字化之后,才有可能真正的落实业务战略。
- 数据一定要进行分类,不同的数据,治理的方法是不一样的,不能“一招鲜”。
- 使用错误的数据和对数据的错误理解会带来负面的效果,要对数据的真实性,和对数据的理解进行挑战,明确数据是不是真实。