数据血缘落地实践！|确定节点的依据是什么_海岸地貌

零代码、低成本快速创建采集表

基于大数据引擎，通过可视化组件、托拉拽式实现数据汇聚与集成开发

指标定义、指标建模、指标固化、指标分析，一体化完成指标的落地与应用

组件化、零sql实现各类复杂报表和丰富多样的图表分析

面向业务人员，简单拖拽即可生成可视化图表

内置150+特效组件，快速打造酷炫灵动的可视化大屏，支持在线编码，拓展视觉体验至极致

搭载自然语言分析引擎，引入AI大模型技术，通过简单的对话问答实现快速数据分析

移动采集、审批、分析一站式解决移动办公诉求

一站式数据分析平台

了解ABI

全程“零”编码，高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理，为企业主数据管理落地提供有效支撑，实现各业务系统间的主数据共享，保障企业主数据的唯一性、准确性、一致性。

内置多类主数据模版，可视化实现多视角模型定义，满足复杂规则的编码自动控制

多种数据接入方式，支持不同场景的审批管控，数据版本可回溯，满足主数据的全生命周期管理

拖拽式任务设计，内置丰富组件，支持主动式、被动式分发模式

全过程质量管控，支持内置及自定义规则，提供图表式质检报告

主数据管理平台

在线模型设计，深度融合数据标准，规范数据定义

自动化元数据感知，全链路血缘提取，理清数据资源

智能化标准推荐，一键式数据落标，树立数据权威

“零”编码规则搭建，全流程质量整改，高速数据质检

规范资产目录，自助式数据共享，释放资产价值

基于大数据引擎，通过可视化组件、托拉拽式实现数据汇聚与集成开发

超30+主流数据库、国产库、大数据库、文件、消息队列等接口之间极速交换结构化、非结构化数据

构建分级分类体系，动态数据脱敏，保障数据安全

全盘监控数据，决策数据周期，释放数据资源

智能数据治理平台

了解睿治

覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体，一站式解决数据开发所有的问题。

结合标准体系的可视化建模工具，支持模型的正、逆向构建

拖拽式任务编排，内置丰富组件，支撑亿级数据的快速处理与迁移

具备高并发、高吞吐量、低延迟的一体化任务编排能力，可视化设计、分布式运行

提供图形化的任务监控和日志跟踪，面向运维、管理人员的完善监控体系

数据工厂系统

纯web设计器，零编码完成基本表、变长表、中国式复杂报表、套打表、问卷调查表等制作；支持年报、月报、日报，以及自定义报表期等多种数据采集报送频率

提供在线填报和离线填报两种应用模式，也支持跨数据源取数；填报数据自动缓存在WEB浏览器中，即使宕机也不会丢失

内置灵活轻便的工作流引擎，实现了用户业务过程的自动化；支持层层审批、上级审批、越级审批、自定义审批等多种审批方式

对于下级填报单位上报的数据，上级汇总单位可将其进行汇总；支持层层汇总、直接下级汇总、选择单位汇总、按条件汇总、按代码组汇总、按关键字汇总、自定义汇总等

提供数据锁定机制，防止报表数据被意外修改；支持数据留痕，辅助用户过程追溯；未及时上报的用户自动催报；所见即所得的打印输出等

提供多种类型的数据接口，可以导入EXCEL、DBF、二进制、文本等格式的数据，可以将报表数据批量输出为HTML、EXCEL、XML、TXT等格式

数据采集汇总平台

统一指标定义，实现“一变多变、一数多现”的数据管理效果，为企业提供强有力的数字化保障和驱动效应。

采用可视化、导向式方式构建指标业务域，形成指标地图，全局指标一览在目

流程化自助式的定义、开发、维护各类指标，零建模，业务人员即刻上手

助力企业更好地查询、使用指标，提供共享、交换、订阅、分析、API接口等应用服务

指标管理平台

企业级智能体平台，低门槛搭建智能体，灵活编排流程，融合 LLM 实现“问数”、“问知识”

面向业务的对话式问数，即问即答，更懂你的诉求

理解数据，洞察数据，更懂数据内容，把数据见解讲给你听

动态地分析数据特点，提供最合适的图表类型展示，让数据展现更简单

完全是颠覆做表的方式，一句话看板创建，启发式内容制作

智能化生成包含深入分析和建议的报告，复杂数据简单化，释放数据潜力

数据跃然屏上的AI大屏汇报，让数据讲述故事

海量知识，一触即达，提供更智能的知识检索服务，快速找到“对”的人

不止于工具，更是随时待命的得力助手。一声指令，为您提供即时的数据分析和决策支持

智能数据问答平台

面向企业级数据资产交易运营场景，助力企业实现数据资产的价值挖掘、升值和资产变现。

提供上百类数据交换、汇聚、处理能力；零代码数据模型开发。

全链路数据治理，把控资产质量，理清资产血缘。

定义、盘点、规划无序的数据类和应用类资源，构建数据资产管理体系。

提供数据资源门户，及数据API、数据服务等快速检索能力；动态脱敏、加密保障数据安全。

提供用户注册、审批、订购等一体化管理，持续提升企业数据资产价值。

数据资产运营平台

从采、存、管、用四大方面构建数据治理体系，实现数字化经营

主数据全生命周期管理，保障主数据一致性、权威性、共享性，提高企业运营效率

以元数据管理摸清家底，以资产编目盘点数据资产，提供数据服务

集数据采集补录、数据ETL建模、数据实时存储、数据分析展现等应用场景于一体

集数据集成、数据治理、资产规划开发、资产运营等场景应用于一体

集元数据采集和规整、数据标准建立与评估、数据质量管控等场景应用于一体

面向业务和技术提供指标管理指标分析等服务的指标统一管理平台

涵盖数据存储、数据集成、数据交换、数据共享等方面，为企业用户提供云原生仓湖一体解决方案

提供数据全生命周期过程的数据服务手段，实现数据应用到数据运营

基于大模型AI的智能化低代码数据开发平台,助力企业高效构建现代化数据仓库、数据湖

基于大模型（LLM）与BI引擎深度融合的新一代数据智能平台，致力于打造会说话的数据助手

构建标准化的高质量数据集体系，打通从采集到训练的全链路

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

亿信ABI

数据治理

产品解决方案

金融

租赁

医疗卫生

制造

能源

教育

央国企

其他

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

IDC蝉联数据治理解决方案市场第一

‍在复杂的社会分工协作体系中，我们需要明确个人定位，才能更好的发挥价值，数据也是一样，于是，数据血缘应运而生。

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。

提供一种探查数据关系的手段，用于跟踪数据流经路径。

1、数据节点

数据血缘中的节点，可以理解为数据流转中的一个个实体，用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点；从广义上来说，与数据业务相关的实体都可以作为节点纳入血缘图中，例如指标、报表、业务系统等。

2、节点属性

当前节点的属性信息，例如表名，字段名，注释，说明等。

3、流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息，标明了数据的流入流出信息：

4、流转规则-属性

流转规则体现了数据流转过程中发生的变化，属性则记录了当前路径对数据的操作内容，用户可通过流转路径查看该路径规则与属性，规则可以是直接映射关系，也可以是复杂的规则，例如：

1、日益庞大的数据开发导致表间关系混乱，管理成本与使用成本激增

数据血缘产生最本质的需求。大数据开发作为数据汇集与数据服务提供方，庞大的数据与混乱的数据依赖导致管理成本与使用成本飙升。

3、什么表该删，什么表不能删，下架无依据

业务库，数仓库，中间库，开发库，测试库等众多库表，是否存在数据冗余（一定存在）。以及存储资源如何释放？

4、动了一张表，错了一堆表

你改了一张表的字段，第二天醒来发现邮件里一堆任务异常告警。

5、ETL任务异常时的归因分析、影响分析、恢复

承接上个问题，如果存在任务异常或者ETL故障，我们如何定位异常原因，并且进行影响分析，以及下游受影响节点的快速恢复。

6、调度依赖混乱

数据依赖混乱必然会带来调度任务的依赖混乱，如何构建一个健壮的调度依赖。

7、数据安全审计难以开展

1、流程定位，追踪溯源

通过可视化方式，将目标表的上下游依赖进行展示，一目了然。

2、确定影响范围

通过当前节点的下游节点数量以及类型可以确定其影响范围，可避免出现上游表的修改导致下游表的报错。

3、评估数据价值、推动数据质量

4、提供数据下架依据

例如以下数据节点，无任何下游输出节点，且并无任何存档需求，则可以考虑将其下架删除。

5、归因分析，快速恢复

当某个任务出现问题时，通过查看血缘上游的节点，排查出造成问题的根因是什么。同时根据当前任务节点的下游节点进行任务的快速恢复。

6、梳理调度依赖

可以将血缘节点与调度节点绑定，通过血缘依赖进行ETL调度。

7、数据安全审计

数据本身具有权限与安全等级，下游数据的安全等级不应该低于上游的安全等级，否则会有权限泄露风险。

可以基于血缘，通过扫描高安全等级节点的下游，查看下游节点是否与上游节点权限保持一致，来排除权限泄露、数据泄露等安全合规风险。

目前业内常见的落地数据血缘系统以及应用，主要有以下三种方式：

1、采用开源系统：

Atlas、Metacat、Datahub等

采用开源系统最大的优点是投入成本较低，但是缺点主要包括

1、适配性较差，开源方案无法完全匹配公司现有痛点。

2、二开成本高，需要根据开源版本进行定制化开发。

2、厂商收费平台：

亿信华辰，网易数帆等

此类数据平台中会内置数据血缘管理系统，功能较为全面，使用方便。但是同样也有以下缺点：

1、贵

2、需要ALL IN厂商平台，为保障数据血缘的使用，数据业务需要全部迁移到厂商平台中。

3、自建

通过图数据库、后端、前端自建数据血缘管理系统，此方案开发投入较大，但是有以下优点

1、因地制宜，可根据核心痛点定制化开发元数据及数据血缘系统。

2、技术积累，对于开发人员来说，从0-1开发数据血缘系统，可以更深刻的理解数据业务。

3、平台解耦，独立于数据平台之外，数据血缘的开发不会对正常业务造成影响。

接下来我们讲讲如何自建数据血缘系统

六、如何自建数据血缘系统1、明确需求，确定边界

在进行血缘系统构建之前，需要进行需求调研，明确血缘系统的主要功能，从而确定血缘系统的最细节点粒度，实体边界范围。

例如节点粒度是否需要精确到字段级，或是表级。一般来说，表级粒度血缘可以解决75%左右的痛点需求，字段级血缘复杂度较表级血缘高出许多，如果部门人数较少，可以考虑只精确到表级粒度血缘。

常见的实体节点包括：任务节点、库节点、表节点、字段节点、指标节点、报表节点、部门节点等。血缘系统可以扩展数据相关的实体节点，可以从不同的场景查看数据走向，例如表与指标，指标与报表的血缘关系。但是实体节点的范围需要明确，不可无限制的扩展下去。

明确需求，确定节点粒度与范围之后，才可根据痛点问题给出准确的解决方案，不至于血缘系统越建越臃肿，提高ROI（投入产出比）。

元数据作为血缘的基础，一是用于构建节点间的关联关系，二是用于填充节点的属性，三是血缘系统的应用需要基于元数据才能发挥出最大的价值。所以构建血缘系统的前提一定是有一个较全面的元数据。

目前业内通常采用图数据库进行血缘关系的存储。

对于血缘关系这种层级较深，嵌套次数较多的应用场景，关系型数据库必须进行表连接的操作，表连接次数随着查询的深度增大而增多，会极大影响查询的响应速度。

而在图数据库中，应用程序不必使用外键约束实现表间的相互引用，而是利用关系作为连接跳板进行查询，在查询关系时性能极佳，而且利用图的方式来表达血缘关系更为直接。

下图为图数据库与关系型数据库在查询人脉时的逻辑对比：

4、血缘关系录入：自动解析and手动登记

自动解析：

获取到元数据之后，首先可以根据元数据表中的SQL抽取语句，通过SQL解析器可自动化获取到当前表的来源表【SQL解析器推荐jsqlparse】，并进行血缘关系录入。

手动登记：

血缘关系录入需要基于图数据库进行，图数据库的建模、语句与关系型数据库截然不同，如有疑问可以加入社区交流群进行解答。

血缘系统构建完成后，为了能够更好的体现血缘价值，量化产出，需要进行血缘可视化的开发，分为两步：

（1）链路-属性展示：

根据具体节点，通过点击操作，逐级展示血缘节点间的链路走向与涉及到的节点属性信息。

（2）节点操作：

基于可视化的血缘节点与当前节点附带的元数据属性，我们可以设想一些自动化操作例如：

节点调度：直接基于血缘开启当前表节点的调度任务

属性修改：通过前端修改当前节点的元数据属性并保存

还有更多可视化操作可以加入社区交流群进行讨论

数据血缘构建完成后，我们可以做一些统计分析的操作，从不同层面查看数据的分布与使用情况，从而支撑业务更好更快更清晰。

以我们团队举例，在工作过程中，我们需要以下血缘统计用于支撑数据业务，例如：

数据节点下游节点数量排序，用于评估数据价值及其影响范围

查询当前节点的所有上游节点，用于业务追踪溯源

数据节点输出报表信息详情统计，用于报表的上架与更新

查询孤岛节点，即无上下游节点的节点，用于数据删除的依据

数据血缘构建完成，统计分析结果也有了，业务痛点也明确了，接下来我们即可利用数据血缘驱动业务更好更快开展。

（1）影响范围告警：

将血缘关系与调度任务打通，监测当前血缘节点的调度任务，如果当前节点调度出现异常，则对当前节点的所有下游节点进行告警。

（2）异常原因探查：

还是将血缘关系与调度任务打通，监测当前血缘节点的调度任务，如果当前节点调度出现异常，则会给出当前节点的直接上游节点，用于探查异常原因。

（3）异常链路一键恢复：

基于上一应用，异常原因定位并且修复完成之后，可以通过血缘系统，一键恢复当前数据节点的所有下游节点调度任务，真正实现一键操作。

团队目前已经基于血缘系统构建出一整套的异常调度影响范围告警->异常原因探查->异常链路一键恢复的故障响应修复机制。

（4）支撑数据下架：

目前团队已经根据探查孤岛节点即无上下游节点的节点，累计归档数据表628张，节省了13%的存储空间。

（5）数据质量监控：

对当前血缘中所有节点输出的下有节点数量进行排序，可以精确的判断某张表的影响范围大小，从而可以根据此对高排序表进行数据质量的监控。

如果当前公司制定了基于库、表、字段的命名规范，我们可以通过探查血缘中的所有数据节点，并命名规范进行匹配，得到不符合规范的库、表、字段进行整改。

当然了，此业务仅基于元数据也可实现，放在此处属于博主强行升华了。

（7）数据安全审计：

团队基于用户职级、部门、操作行为等权重对目前的库表进行了数据权限等级划分，权限等级越高，当前表的安全级别越高。

团队基于血缘进行数据全链路的安全等级监测，如果发现下游节点安全等级低于上游节点，则会进行告警并提示整改。确保因为安全等级混乱导致数据泄露。

在推动数据血缘落地过程中，经常会有用户询问：血缘质量如何？覆盖场景是否全面？能否解决他们的痛点？做出来好用吗？

于是我也在思考，市面上血缘系统方案那么多，我们自建系统的核心优势在哪里，血缘系统的优劣从哪些层次进行评价，于是我们团队量化出了以下三个技术指标：

1、准确率

定义：假设一个任务实际的输入和产出与血缘中该任务的上游和下游相符，既不缺失也不多余，则认为这个任务的血缘是准确的，血缘准确的任务占全量任务的比例即为血缘准确率。

准确率是数据血缘中最核心的指标，例如影响范围告警，血缘的缺失有可能会造成重要任务没有被通知，造成线上事故。

我们在实践中通过两种途径，尽早发现有问题的血缘节点：

人工校验：通过构造测试用例来验证其他系统一样，血缘的准确性问题也可以通过构造用例来验证。实际操作时，我们会从线上运行的任务中采样出一部分，人工校验解析结果是否正确。

用户反馈：全量血缘集合的准确性验证是个漫长的过程，但是具体到某个用户的某个业务场景，问题就简化多了。实际操作中，我们会与一些业务方深入的合作，一起校验血缘准确性，并修复问题。

2、覆盖率

定义：当有数据资产录入血缘系统时，则代表数据血缘覆盖了当前数据资产。被血缘覆盖到的数据资产占所有数据资产的比例即为血缘覆盖率。

血缘覆盖率是比较粗粒度的指标。作为准确率的补充，用户通过覆盖率可以知道当前已经支持的数据资产类型和任务类型，以及每种覆盖的范围。

3、时效性

对于一些用户场景来说，血缘的时效性并没有特别重要，属于加分项，但是有一些场景是强依赖。不同任务类型的时效性会有差异。

例如：故障影响范围告警以及恢复，是对血缘实时性要求很高的场景之一。如果血缘系统只能定时更新T-1的状态，可能会导致严重业务事故。

THE END

数据血缘落地实践！

《水利业务“四预”基本技术要求（试行）》

定位元素的父（parent）兄弟（followingsiblingprecedingsibling）节点大海一个人听

年专利续费流程及时间节点是什么法律知识

数据血缘落地实践！

生产管理节点是什么全面解析其概念重要性类型及相关操作

如何判断房屋是违建拆违的法律依据是什么

房地产项目模拟清算详解

项目管理plr节点是什么意思•orktile社区

计算机算法设计与分析期末复习资料

基于接口数据变异的pp健壮性测试实践腾讯云开发者社区

仿制药研发流程——即在药品研发中项目管理制定的依据标准和项目管理任务完成后的关键节点评估与质量放行标准药品研发

上海和辉光电股份有限公司

杭州三批次土拍预判：热度稳中有升，国央企或挑大梁

修改dbadatafiles的db文件修改教程mobcafe的技术博客

专业监理年度工作总结范文（精选篇）