Skip to content

数据质量

此场景需要使用的应用: 数据调度、数据治理
通过以下 2 步构建数据质量监控

查看数据质量规则

  • 点击应用数据治理 - 数据质量
  • 点击规则管理, 预置了 10 种数据质量规则, 支持扩展
    • 空值检测
    • 自定义SQL
    • 多表准确性
    • 两表值比对
    • 字段长度校验
    • 唯一性校验
    • 正则表达式
    • 及时性校验
    • 枚举值校验
    • 表行数校验

创建任务数据源

  • 点击应用数据调度 - 任务数据源
  • 点击创建数据源
    • 数据源: 当前支持 MySQL / Doris 类型
    • image.png

创建数据质量监控工作流

通过数据调度应用创建调度工作流运行数据质量监控任务, 以监控 Table 行数为例

  • 点击应用数据调度 - 项目管理
  • 点击 创建项目
  • 首次使用需创建项目, 数据调度中的工作流是以项目为维度管理的
    • 创建项目 数据质量 Example
  • 点击项目 数据质量 Example - 创建工作流
    • 左侧列表选择 DATA_QUALITY 类型任务节点拖拽至画布中
    • 节点名称命名为 TableRowsCount
    • 运行标志: 默认正常
    • 任务优先级: 默认 MEDIUM
    • Worker 分组: 默认 default
    • 规则名称: 选择表行数校验
    • 源数据类型: MySQL / Doris
    • 源数据源: 选择 DQexample
    • 源数据表: 选择 example
    • 源表检测列: 表行数校验的列名
    • 校验方式: Expected - Actual
    • 校验操作符: >
    • 阈值: 5000
    • 期望值类型: DailyAvg
    • 部署方式: cluster
    • 其他参数默认即可
    • image.png
    • 保存工作流命名为 table_row_count_example
  • 回到可视化开发 Example 项目内, 找到工作流table_row_count_example
    • 测试运行: 点击上线, 点击运行即可立即运行测试
    • 定时调度: 点击上线, 点击右侧定时按钮使用 CORN 设置工作流执行周期, 并且点击定时管理再点击上线定时, 工作流则会定时执行

查看数据质量监控任务结果

  • 点击应用数据调度 - 数据质量
  • 点击任务结果
    • 提供提供查询功能,依据任务名称、规则类型、状态、时间快速筛查
    • 任务结果列表展示规则状态、实际值、期望值、阈值、失败策略、错误数据路径等, 便于问题数据溯源与监控报警