数据治理容易走进哪些误区?

news2025/8/3 22:02:00

 

在业界,大家都为如何做好数据治理而感到困惑。数据治理工作一定要先摸清楚数据的家底,规划好路线图,再进行决策。不然很容易走进误区中,无法自拔。下面总结了数据治理的7个常见误区,并给出一定建议,希望给予数据治理从业的同仁们一些借鉴参考。

 
误区一:客户需求不明确

客户既然请厂商来帮助自己做数据治理,必定是看到了自己的数据存在诸多问题。但是具体做什么,如何实施,实施范围,先后顺序,最终目标,以及各个角色如何配合做……很多客户其实并没有想清楚自已真正想解决的问题。数据治理,难在找到一个切入点。

其实客户很多时候并不是没需求,只是需求相对比较笼统,模糊不清晰,双方可以花费一定的时间和精力找到真正目标,磨刀不误砍柴工,这样才不致于后续花更多的钱来交学费。

解决办法:有必要的需求调研

如果客户需求不明确,建议先请厂商帮助自己做一个小型的咨询项目,或者实施一个数据现状的调研。通过调研数据架构、现有的数据标准和执行情况,数据质量的现状和痛点,客户目前已经具有的数据治理能力现状等,来摸清楚数据的家底。

由专业的数据治理团队帮助客户设计切实可行的数据治理路线图,双方取得一致的基础上,按照路线图来执行数据治理工作。

数据治理工作,一定要先摸清楚数据的家底,做好需求分析,规划好路线图,切忌一上来就搭平台。


误区二:数据治理是技术部门的事

在大数据时代,很多组织认识到了数据的价值,也成立了专门的团队来负责管理数据,有的叫数据管理处,大数据中心,数据应用处。这些机构往往由技术人员组成,它们的共同点是:强技术,弱业务。当数据治理项目需要实施的时候,往往就是由这些技术部门来牵头。技术部门大多是以数据中心或者大数据平台为出发点,受限于组织范围,不希望扩大到业务系统,只希望把自已负责的范围管好。

数据问题产生的原因,往往是业务>技术可以说大部分的数据质量问题,都是来自于业务,如:数据来源渠道多,责任不明确,导致同一份数据在不同的信息系统有不同的表述;业务需求不清晰,数据填报不规范或缺失,等等。很多表面上的技术问题,如ETL过程中某代号变更导致数据加工出错,影响报表中的数据正确性等,在本质上其实还是业务管理的不规范。

解决办法:多部门协作配合

数据治理既是技术部门的事,更是业务部门的事,一定要建立多方共同参与的组织架构和制度流程,数据治理的工作才能真正落实到人,不至于浮在表面。


误区三:大而全的数据治理

出于投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的,大而全的数据治理项目。从数据的产生,到数据的加工,应用,销毁,数据的整个生命周期他们希望都能管到。从业务系统,到数据中心,到数据应用,里面的每个数据他们希望都能被纳入到数据治理的范围中来。

但殊不知广义上的数据治理是一个很大的概念,包括很多内容,想在一个项目里就做完通常是不可能的,而是需要分期分批地实施,所以厂商如果屈从于客户的这种想法,很容易导致最后哪个也做不好,用不起来。所以,我们需要引导客户,从最核心的系统,最重要的数据开始做数据治理。

解决办法:合理应用二八原则

怎么引导客户呢?这里要引入一个众所周知的概念:二八原则。实际上,二八原则在数据治理中同样适用:80%的数据业务,其实是靠20%的数据在支撑;同样的,80%的数据质量问题,其实是由那20%的系统和人产生的。在数据治理的过程中,如果能找出这20%的数据,和这20%的系统和人,毫无疑问,将会起到事半功倍的效果。

做数据治理,不要贪大求全,而要从核心系统,重要的数据开始做起。


误区四:工具是万能的

很多客户都认为,数据治理就是花一些钱,买一些工具,认为工具就是一个过滤器,过滤器做好了,数据从中间一过,就没问题了。结果是:一方面功能越做越多,另一方面实际上线后,功能复杂,用户不愿意用。

其实上面的想法是一种简单化的思维,数据治理本身包含很多的内容,组织架构、制度流程、成熟工具、现场实施和运维,这四项缺一不可,工具只是其中一部分内容。大家在做数据治理最容易忽视的就是组织架构和人员配置,但实际上所有的活动流程、制度规范都需要人来执行、落实和推动,没有对人员的安排,后续工作很难得到保障。

一方面治理推广工作没人做,流程能否坚持执行得不到保障。另一方面没有相关的数据治理培训,导致大家对数据治理的工作不重视,认为与我无关,从而导致整个数据治理项目注定会失败。建议大家在做数据治理的时候将组织架构放在第一位,有组织的存在,就会有人去思考这方面的工作,怎么去推动,持续把事情做好,以人为中心的数据治理工作,才更容易推广落地。

解决办法:人员配置充足

现场的实施和运维也非常重要,尽管数据治理有向自动化的方向发展的趋势,但是到目前为止,数据治理更多还是一种服务工作,而不仅仅是一套产品。因此,配置足够强的实施顾问和实施人员,帮助客户逐步打造自身的数据治理能力,是一项非常重要的工作。

记住,做数据治理不是去逛逛shopping mall,选几样称心应手的工具回来就万事大吉了。开展好数据治理不能迷信工具,组织架构、制度流程、现场的实施和运维也非常重要,缺一不可。
 

误区五:数据标准难落地

很多客户一说到数据治理,马上就说我们有很多数据标准,但是这些标准却统统没有落地,因此,我们要先做数据标准的落地。数据标准真正落地了,数据质量自然就好了。

但这种说法其实混淆了数据标准和数据标准化。首先要明白一个道理:数据标准是一定要做的,但是数据标准化,也就是数据标准的落地,则需要分情况实施。

要做数据标准,我们首先需要全面梳理数据标准。而数据标准的全面梳理,范围很大,包括国家标准,行业标准,组织内部的标准等等,需要花费很大的精力,甚至都可以单独立一个项目来做。所以,首先需要让客户看到梳理数据标准的广度和难度。

其次,就算是花很大精力梳理,也很难看到效果,结果往往是客户只看到了一堆Word和Excel文档,时间一长,谁也不会再去关心这些陈旧的文档。这是最普遍的问题。

解决办法:分别执行不同的落地策略

当然,数据标准是否能顺利落地,还与负责数据治理的部门所获得的权限直接相关,倘若没有领导的授权和强力支持,你是无论如何无法推动“书同文车同轨”的,要做到这一点,请先确认你背后站着说一不二的秦始皇,或者你本身就是秦始皇。别抱怨,这就是每个做数据治理的团队面临的现状。

数据标准落地难是数据治理中的普遍性问题,实施过程中需要区要分遗留系统和新建系统,分别来执行不同的落地策略。


误区六:发现问题容易,解决问题难

辛辛苦苦建立起来平台,业务和技术人员通力合作,配置好了数据质量的检核规则,也找出来了一大堆的数据质量问题,然后呢?半年之后,一年之后,同样的数据质量问题依旧存在。

发生这种问题的根源在于没有形成数据质量问责的闭环。要做到数据质量问题的问责,首先需要做到数据质量问题的定责。定责的基本原则是:谁生产,谁负责。数据是从谁那里出来的,谁负责处理数据质量问题。

这种闭环不一定非要走线上流程,但是一定要做到每一个问题都有人负责,每一个问题都必须反馈处理方案,处理的效果最好是能够形成绩效评估,如通过排名的方式,来督促各责任人和责任部门处理数据质量问题。 

解决办法:确定责任人的闭环机制和反馈机制

这其实还是要追溯到我们在误区二里谈到的:要建立组织架构和制度流程,否则数据治理工作中的种种事情,没有人负责,没有人去做。

数据质量问题的解决,要形成每一个环节都有确定责任人的闭环机制和反馈机制。


误区七:你们好像什么也没做?

很多数据治理的项目难验收,客户往往有疑问:你们做数据治理究竟干了些啥?看你们汇报说干了一大堆事情,我们怎么什么都看不到?发生这种情况,原因往往有前面误区一所说的客户需求不明确,误区三所说的做了大而全的数据治理而难以收尾等,但还有一个原因不容忽视,那就是没有让客户感知到数据治理的成果。用户缺乏对数据治理成果的感知,导致数据治理缺乏存在感,特别是用户方的领导决策层,自然不会痛快地对项目进行验收。

遇到这种情况,一句“宝宝心里苦,但宝宝不说”是无济于事的。一个项目从销售、售前、到组织团队实施,多少人付出了辛勤的汗水。重要的是让客户认识到项目的重要价值,最终为所有人的付出买单啊。

解决办法:数据治理的可视化呈现

在我看来,在数据治理的项目需求阶段,就应该坚持业务价值导向,把数据治理的目的定位在有效地对数据资产进行管理,确保其准确、可信、可感知、可理解、易获取,为大数据应用和领导决策提供数据支撑。并且在这个过程中,一定要重视并设计数据治理的可视化呈现效果,应用到的工具有统计表,视图表,相关报告,PPT等……

以上这些都是提升数据治理存在感的手段。除了这些之外,时常组织交流和培训,引导客户认识到数据治理的重要性,让客户真正认识到数据治理工作对他们业务的促进作用,逐步转移数据治理的能力给客户等,这些都是平时需要注意的工作。

传统的数据治理工作不重视效果的呈现,我们做数据治理工作,一定要从需求开始,就想办法让客户直观地看到成果。

在激烈的市场竞争下,大数据厂商提出来数据治理的各种理念,有的提出覆盖数据全生命周期的数据治理,有的提出以用户为中心的自服务化数据治理,有的提出减少人工干预、节省成本的基于人工智能的自动化数据治理,在面对这些概念的时候,我们一方面要对数据现状有清晰的认识,对数据治理的目标有明确的诉求,另一方面还要知道数据治理中各种常见的误区,跨越这些陷阱,才能把数据治理工作真正落到实处,项目取得成效,做到数据更准确,数据更好取,数据更好用,真正地用数据提升业务水平。

中培IT学院——一站式企业IT培训提供商!

搜索中培IT学院了解更多内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ERD Online 4.0.3_fix 元数据在线建模(免费、私有部署)

❝ 修复数据源导入的元数据,在没有中文注释修改的时候,导致表消失修复页面刷新导致404修改是否在关系图中显示的提示一键部署增加两种部署方式:IPPORT、DOMAIN增加手动部署方式、极大程度的实现部署定制化❞以 「root」 用户登录 Linux 主机执…

面试:dumpsys meminfo 内存信息含义

查看内存信息: adb shell dumpsys meminfo dumpsys meminfo显示的信息如图所示: 这里仅介绍我们需要重点关注的字段: Dalvik Heap:虚拟机占用的内存,可以理解为Java层占用的内存。Native Heap:Native层占…

python 循环引用的解决方法

目录 1、问题描述 2、原因 3、示例 4、解决办法 1、问题描述 编写python代码,运行中出现了:‘most likely due to a circular import ’ 这样的报错。 2、原因 循环引用问题,即A引用了B,B又引用了A,造成循环引用…

ctp交易接口股票怎么查询历史数据?

针对于ctp交易接口股票历史数据的查询,其基本原理就是利用api接口开发子系统最终就是开发完成并暴露一个标准的HTTPAPI接口,并将接口注册和接入到API网关。API设计和开发的核心思想仍然应该是基于领域对象建模驱动,通过领域对象建模很好的实现…

激光数据去畸变

机器人在使用激光雷达时必然会遇到的一个问题就是激光雷达数据去畸变。为什么会产生畸变呢,这是因为激光雷达产生激光数据时如果机器人在运动,那么就会产生运动畸变。 在ros下使用激光雷达时,激光数据是相对于激光本体坐标系的。画个图看下会…

【无人机】基于SDRE对NPS II无人机进行点对点(调节)控制(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜…

iwebsec靶场 SQL注入漏洞通关笔记1- 数字型注入

目录 文章目录 前言 第01关 数字型注入 1.源码分析 2. sqlmap渗透 总结 前言 iwebsec靶场的SQL注入关卡共13关SQL注入漏洞,覆盖了数字型注入、字符型注入、报错型盲注、布尔型盲注、时间型盲注以及各种过滤绕过的注入,外加上二次注入,…

Recommendation Fairness: From Static to Dynamic 阅读笔记

论文链接https://arxiv.org/abs/2109.03150v1 Section 1 引言 越来越多的推荐系统开始将推荐建模为一个马尔可夫决策过程,并使用强化学习来解决这个问题。从而推荐系统场景下的公平性研究便面临着一个从静态评价与一次性干预static evaluation and one-shot interv…

CSS3 动画

变形 transform 在CSS3中,动画效果包括3个部分:变形(transform)、过渡(transition)、动画(animation) translate()平移 transform: translateX(x);    /*沿x轴方向平移*/ tran…

(十)死信队列

死信队列1、概念2、死信产生的原因3、代码实现3.1. 流程图3.2. 消息TTL 过期3.3. 队列达到最大长度3.4. 消息被拒1、概念 某些时候由于特定的原因导致 queue 中的某些消息无法被消费,这样的消息如果没有 后续的处理,就变成了死信,有死信自然就…

(九)RabbitMQ交换机(Exchange)

交换机Exchange1、交换机1.1. Exchanges 概念1.2. Exchanges 的类型1.3. 无名exchange(默认交换机)2、临时队列3、绑定(bindings)4、Fanout(发布/订阅)5、Direct exchange、6、Topics在这里插入图片描述1、…

学生HTML个人网页作业作品 基于HTML+CSS+JavaScript明星个人主页(15页)

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

0105 蓝桥杯真题08

/* * 中国古代文献中,曾记载过“大衍数列”, 主要用于解释中国传统文化中的太极衍生原理。 * 它的前几项是:0、2、4、8、12、18、24、32、40、50 ... * 其规律是:对偶数项,是序号平方再除2,奇数项,是序号…

【RT-Thread Studio更新】英飞凌 PSOC62-IFX-PROTO-KIT 开发环境搭建指南

本文将介绍在 RT-Thread Studio 上如何基于 PSOC62-IFX-PROTO-KIT 开发板搭建开发环境进行开发、烧录、调试功能。开发环境搭建步骤1、PSOC62-IFX-PROTO-KIT 开发板资源包安装打开Studio,点击工具栏上的SDK管理器在Board_Support_Packages 找到 Infineon 下的 PSOC6…

TOWER 成就徽章 NFT 系列介绍——TOWER 生态系统的第一个灵魂通证(SBT)

2022 年 7 月,团队推出了成就徽章 NFT 系列,记录每个成员在 TOWER 生态系统中的努力。这是第一个不可转让的灵魂 NFT 系列(SBT),代表了每个玩家的独特身份。 关于灵魂通证(SBT) 以太坊联合创始人…

力扣(LeetCode)809. 情感丰富的文字(C++)

模拟 分析单词可扩张条件 : 对于某个字母&#xff0c;设目标字母长度 c1c1c1 &#xff0c;待扩张字母长度 c2c2c2 当 c1<c2c1<c2c1<c2&#xff0c;目标字母比待扩张字母少&#xff0c;false 当 c1≥c2c1\ge c2c1≥c2&#xff0c;目标字母比待扩张字母多或者相等&…

大数据开发——Hive实战案例

文章目录1. 创建表结构1.1 视频表结构1.2 用户表结构2. 准备工作2.1 创建临时表2.2 创建最终使用表2.3 对创建表进行解读3. 业务分析1. 创建表结构 1.1 视频表结构 1.2 用户表结构 2. 准备工作 2.1 创建临时表 由于使用的是orc方式进行存储&#xff0c;所以我们需要建立一个…

OpenFlow协议原理及基本配置-网络测试仪实操

一、OpenFlow协议原理 1.OpenFlow技术背景 ●转发和控制分离是SDN网络的本质特点之一。在SDN网络架构中&#xff0c;控制平面与转发平面分离&#xff0c;网络的管理和状态在逻辑上集中到一起&#xff0c;底层的网络基础从应用中独立出来&#xff0c;由此&#xff0c;网络获得…

不知道照片上怎么文字翻译成英文?来看看这篇文章

不知道你们在遇到看不懂的英文图片时&#xff0c;是不是和以前的我一样&#xff0c;一个一个的把图片内容输到翻译软件里&#xff0c;然后再进行翻译&#xff0c;其实这种办法不仅费时还费力&#xff0c;而且一旦遇到其它的外文就彻底没辙了&#xff0c;那怎么办呢&#xff1f;…

[附源码]java毕业设计音乐交流平台

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…