创建数据质量指标

0 浏览
0 试用
0 购买
Sep 25, 2025更新

为数据集类型定义三个数据质量指标。

示例1

以下为客户主数据集的3个数据质量指标定义,聚焦于可操作、可度量与可监控的标准。

1) 核心属性完整率
- 目的:衡量客户记录关键字段的缺失情况,保障下游业务(营销、合规、报表)的最小信息需求。
- 适用范围:
  - 计量对象:主数据中“活动状态”客户记录(排除测试、归档、已合并、作废记录)。
  - 条件必填:依据客户类型(企业/个人)和国家/地区适用性确定。
- 判定规则(示例):
  - 通用:客户唯一标识(主键)、客户类型、法定名称/姓名、国家/地区、主地址(至少国家+城市或完整地址)、至少一种联系方式(电话或邮箱)。
  - 企业客户:税号/统一社会信用代码(适用国家)、法定注册地址。
  - 个人客户:证件类型+证件号码(适用国家)、出生日期。
  - 缺失定义:空值、空白、占位符(如“N/A”“Unknown”“000000”)、仅包含不可识别字符。
- 计算公式:
  - 核心属性完整率 = 符合完整性规则的记录数 / 计量范围内的记录总数 × 100%
- 计量口径与例外:
  - 按客户类型应用差异化必填规则;对“联系方式”允许电话或邮箱至少一项存在且后续通过基本格式校验。
- 监控与阈值(建议):
  - 周期:增量日监控,周度全量核查。
  - 目标值:≥ 98%(按组织成熟度与数据来源调整)。

2) 客户唯一性率(重复治理成效)
- 目的:衡量数据集中代表同一现实世界客户的冗余记录比例,支撑主数据“唯一黄金记录”管理。
- 适用范围:主数据全量客户记录(排除已合并入黄金记录的从属记录)。
- 判定规则(匹配示例):
  - 企业:法定名称(规范化后)+ 税号完全一致为确定性重复;名称相似(标准化+模糊比对)+ 地址相同 + 联系方式一致为高可能重复。
  - 个人:证件类型+证件号完全一致为确定性重复;姓名相似 + 出生日期一致 + 联系方式一致为高可能重复。
  - 规范化要求:去除大小写差异、空格/标点标准化、繁简转换(适用时)、常见同义缩写展开。
  - 重复计数:按重复簇聚类,簇内冗余数 = 簇大小 − 1。
- 计算公式:
  - 客户唯一性率 = 1 −(重复冗余记录数 / 记录总数)× 100%
- 计量口径与例外:
  - 并购/更名情形需通过有效期与关系类型区分是否同一客户实体;不同法律主体不计为重复。
- 监控与阈值(建议):
  - 周期:周度全量,重大批量导入前后专项核查。
  - 目标值:≥ 99.5%;重复簇应及时合并并保留溯源。

3) 标准化与合法性合规率(字段值有效率)
- 目的:衡量关键字段是否符合标准格式、合法值域与外部参考规范,降低错误数据对运营与合规的风险。
- 适用范围:受约束字段(示例)
  - 国家/地区码:符合ISO 3166(建议使用Alpha-2)且在组织启用清单内。
  - 电话号码:符合E.164基本规则(“+”国家码+国家内号码,总位数不超过15),并与国家/地区匹配。
  - 电子邮箱:local@domain基本格式有效,域名可解析(MX或A记录)。
  - 税号/统一社会信用代码(企业,适用国家):格式与校验位通过。
  - 证件号码(个人,适用国家):格式与校验位通过。
  - 行政区划/邮编:在权威参照库(如国家/地区行政区划、邮编库)中存在。
- 判定规则:
  - 对每条记录,所有适用字段均通过其对应校验,记为“有效”;否则为“无效”。
  - 可并行计算分字段有效率用于定位薄弱项。
- 计算公式:
  - 合规率(记录级) = 通过所有适用校验的记录数 / 记录总数 × 100%
  - 可选:分字段有效率 = 该字段有效值记录数 / 记录总数 × 100%
- 计量口径与例外:
  - 按国家/客户类型应用差异化规则;对缺少外部参照的区域允许“待确认”状态但不计为有效。
- 监控与阈值(建议):
  - 周期:日增量校验与周度全量复核。
  - 目标值:记录级合规率 ≥ 97%;分字段目标按业务重要度设定(如税号、证件号 ≥ 99%)。

实施建议(简要)
- 为每项指标建立清晰的规则库与版本管理,确保口径一致性。
- 将计算公式落地为可复用的数据质量作业(SQL/DQ工具),并输出问题清单至修复队列。
- 指标与阈值应依据系统来源、地区覆盖和合规要求定期复盘与调整。

示例2

以下定义面向订单交易数据集的3个核心数据质量指标,用于数据清洗、验证、分析与持续监控。各指标均应在订单头与订单行(如存在)分别计算,并可按业务日期、来源系统、渠道等维度切分。

1) 关键字段完整率(Mandatory Field Completeness Rate)
- 目的:衡量必填字段是否存在缺失或占位值,控制基础数据缺口。
- 范围:依据数据字典标注的必填字段集合。典型示例:
  - 订单头:order_id、order_date、customer_id、currency_code、payment_status、total_amount
  - 订单行:order_id、line_number、product_id、quantity、unit_price
- 判定规则:
  - 字段值不可为 NULL、空字符串、仅空白、占位值(如“UNKNOWN”“N/A”)、非法默认值(如 id=0)。
  - 业务性缺失:quantity 必须 >0;unit_price ≥0;total_amount 必须存在(若为头表)。
- 计算公式:
  - 完整率 = 完整记录数 / 总记录数
  - 完整记录:该记录所有必填字段均满足判定规则。
- 监控建议:
  - 最低阈值示例:订单头 ≥99.5%,订单行 ≥99.0%(实际阈值需结合历史基线与来源差异确定)。
  - 每日计算并趋势化,低于阈值触发告警与缺失字段明细输出。

2) 业务规则有效率(Business Rule Validity Rate)
- 目的:衡量字段值域与跨字段逻辑的合规性,发现不合理或不一致的取值。
- 范围与规则示例(根据企业规则库配置为“活动规则”):
  - 值域/枚举:payment_status ∈ {CREATED, PAID, CANCELLED, REFUNDED};currency_code ∈ ISO 4217 合法代码集合。
  - 时间合理性:order_date 不得晚于处理日(或允许 ≤X 天的滞后/时区差异);refund_date ≥ payment_date。
  - 类型与格式:主键/外键为符合模式的字符串或数值;日期为有效日历日期。
  - 数值约束:quantity 为正整数;unit_price ≥0;discount_rate ∈ [0,1]。
  - 金额一致性:abs(total_amount − Σ(quantity × unit_price × (1 − discount_rate))) ≤ δ;δ 可按货币最小计价单位或四舍五入策略设定(例如 δ=0.01)。
- 计算公式:
  - 有效率(全规则)= 通过全部活动规则的记录数 / 总记录数
  - 也应输出逐条规则的通过率,便于定位具体违反的规则。
- 监控建议:
  - 按来源系统/渠道分组监控,设定每条规则的独立阈值;金额一致性建议单独告警并输出差异及计算明细。

3) 参照完整率(Referential Integrity Pass Rate)
- 目的:衡量外键与主数据/维表之间的关联有效性,防止“孤儿记录”与跨表不一致。
- 范围与关联示例:
  - 订单头:customer_id 在 Customer 维表存在;store_id 在 Store 维表存在;payment_method_code 在 PaymentMethod 维表存在。
  - 订单行:product_id 在 Product 维表存在;order_id 能在订单头表找到对应记录。
- 判定规则:
  - 以同一数据日期的维表快照为基准;允许“迟到维表”需设定宽限窗口(例如 T+1),超出窗口仍未匹配视为参照失败。
  - 维表键需唯一且生效(状态为有效、在有效期内)。
- 计算公式:
  - 参照完整率 = 通过全部外键匹配的记录数 / 总记录数
  - 可并行输出每个外键的匹配通过率(例如 product_id 匹配率)。
- 监控建议:
  - 当参照完整率下降时,区分来源问题(交易侧漏传/错误)与主数据问题(维表缺失/延迟);输出未匹配键清单用于回溯与补录。

补充实施要点(适用于所有指标):
- 指标口径固化:在数据字典与规则库中明确字段清单、判定规则、容差与快照基准时间。
- 分层计算与采样:对全量数据每日计算;高流量场景可先按分区/渠道滚动采样再全量验证。
- 结果可追溯:保留明细失败记录、规则 ID、字段名与原始值,支持复查与修复闭环。

示例3

Below are three data quality metrics tailored for a reporting metrics repository dataset (i.e., a catalog of KPIs with business and technical definitions). Each metric includes a precise definition, scope, and a computable formula.

1) Metadata Completeness Rate
- Purpose: Ensure each KPI entry contains the required business and technical metadata for unambiguous understanding and correct downstream use.
- Scope: KPI catalog records.
- Required fields (example, adjust to your schema): metric_code, metric_name, business_definition, owner, unit, grain, aggregation_method, calculation_expression, source_system, update_frequency, sla_minutes, valid_from, status.
- Rule: A record is “complete” if all required fields are non-null, non-blank after trim, and constrained fields are within allowed sets (e.g., status in {active, deprecated}).
- Formula:
  Metadata Completeness Rate = (count of KPI records passing all completeness rules) / (total KPI records)
- Notes:
  - Treat whitespace-only strings as null.
  - Optionally weight critical fields (e.g., calculation_expression, owner) if a weighted completeness score is preferred.
- Example SQL (generic):
  SELECT
    SUM(CASE WHEN
      metric_code IS NOT NULL AND TRIM(metric_code) <> '' AND
      metric_name IS NOT NULL AND TRIM(metric_name) <> '' AND
      business_definition IS NOT NULL AND TRIM(business_definition) <> '' AND
      owner IS NOT NULL AND TRIM(owner) <> '' AND
      unit IS NOT NULL AND TRIM(unit) <> '' AND
      grain IS NOT NULL AND TRIM(grain) <> '' AND
      aggregation_method IS NOT NULL AND TRIM(aggregation_method) <> '' AND
      calculation_expression IS NOT NULL AND TRIM(calculation_expression) <> '' AND
      source_system IS NOT NULL AND TRIM(source_system) <> '' AND
      update_frequency IS NOT NULL AND
      sla_minutes IS NOT NULL AND
      valid_from IS NOT NULL AND
      status IN ('active', 'deprecated')
    THEN 1 ELSE 0 END) / CAST(COUNT(*) AS DECIMAL(18,6)) AS metadata_completeness_rate
  FROM kpi_catalog;

2) Metric Identity Integrity Pass Rate
- Purpose: Guarantee that KPI identity and versioning are well-formed: no duplicate records per version and exactly one active version per metric.
- Scope: KPI catalog records with fields supporting identity and lifecycle: metric_code, version, status.
- Rules (evaluated per metric_code):
  a) Version uniqueness: For each metric_code, each version appears at most once.
  b) Single-active rule: For each metric_code, exactly one record is status = 'active'.
- Formula:
  Metric Identity Integrity Pass Rate = (number of metric_code values passing both rules) / (total number of metric_code values)
- Example SQL (two-step, generic):
  WITH by_metric AS (
    SELECT
      metric_code,
      SUM(CASE WHEN dup_cnt > 1 THEN 1 ELSE 0 END) AS has_version_dup,
      SUM(CASE WHEN status = 'active' THEN 1 ELSE 0 END) AS active_cnt
    FROM (
      SELECT
        metric_code, version, status, COUNT(*) OVER (PARTITION BY metric_code, version) AS dup_cnt
      FROM kpi_catalog
    ) x
    GROUP BY metric_code
  )
  SELECT
    SUM(CASE WHEN has_version_dup = 0 AND active_cnt = 1 THEN 1 ELSE 0 END) / CAST(COUNT(*) AS DECIMAL(18,6)) AS metric_identity_integrity_pass_rate
  FROM by_metric;

3) Calculation Expression Validity Pass Rate
- Purpose: Ensure stored calculation expressions are syntactically valid, reference only registered sources/columns, and compile in the target execution environment(s).
- Scope: KPI calculation metadata: calculation_expression, expression_dialect, referenced_objects, and registry of allowed sources/columns.
- Rules (evaluated per metric record):
  a) Parse success: The expression parses successfully for its declared dialect.
  b) Reference resolution: All referenced tables/views/columns exist in the approved registry and meet access policies.
  c) Optional static checks: Disallow banned functions (e.g., nondeterministic), ensure aggregation matches declared grain, and enforce unit consistency if modeled.
- Formula:
  Calculation Expression Validity Pass Rate = (count of KPIs passing all expression validity checks) / (count of KPIs with a calculation_expression)
- Implementation notes:
  - Use a dialect-aware parser or dry-run compilation (e.g., EXPLAIN or VALIDATE QUERY) to capture parse/compile errors without executing the query.
  - Maintain a reference catalog of allowed objects and compare referenced identifiers from the parsed AST.
  - Store per-check results for diagnostics (parse_ok, refs_ok, banned_fn_ok, grain_ok).
- Pseudocode outline:
  For each KPI:
    parse_ok = parse(expression, dialect)
    refs_ok  = all(referenced_objects ⊆ allowed_objects)
    banned_fn_ok = not uses_banned_functions(expression)
    validity_pass = parse_ok AND refs_ok AND banned_fn_ok
  Pass rate = count(validity_pass) / count(calculation_expression not null)

Operational guidance
- Frequency: Compute daily; re-check on catalog changes.
- Segmentation: Report rates by domain/owner to localize issues.
- Targets (illustrative): Metadata Completeness ≥ 98%; Identity Integrity ≥ 99.9%; Expression Validity ≥ 99%.
- Alerting: Trigger incidents on breaches; attach failing record samples and rule-level diagnostics.

适用用户

数据产品经理

快速建立新数据源的质量验收标准,明确准确性/完整性/可靠性的判定口径,推动跨部门评审与上线。

数据工程师

在数据流程改造前生成清洗与校验要点,形成可执行检查清单,减少缺漏与重复,提升交付稳定性。

BI分析师

为报表与指标库制定质量规则,识别源数据风险,提升报表可信度,降低解释和沟通成本。

机器学习工程师

在训练集或特征数据引入前设定质量检查指标,避免标签缺失与数据分布异常导致模型效果下滑。

风控与合规负责人

为敏感数据设定清晰质量阈值与监控项,支撑审计留痕、合规评估与风险预警,降低合规事件。

运营与客服主管

针对用户与订单数据快速生成质量规则,定位缺漏与重复,减少投诉、返工与错单率。

供应商与采购经理

与数据供应商对齐交付质量标准,形成统一口径与验收清单,缩短对接周期,提升外包质量。

解决的问题

帮助数据与业务团队在几分钟内为任意数据集快速制定3个关键的数据质量指标,覆盖准确性、完整性与可靠性等维度;输出结构清晰、可直接用于质检与监控,支持多语言回复;降低沟通与试错成本,加速数据治理落地,推动跨部门对齐与决策效率提升。

特征总结

一键为任意数据集生成三项质量指标,结构清晰、可直接用于评审与落地。
根据业务场景自动聚焦准确性、完整性、可靠性,避免跑偏,提供可执行建议。
支持输出语言可选,跨团队共享规范无障碍,方便国际化项目协作与落地。
自动给出清洗、校验与监控要点,快速形成检查清单与质量阈值,提升上线效率。
针对电商、金融、医疗等典型数据集,生成可复用指标模板,减少口径分歧和沟通成本。
结构化呈现定义、计算方法与阈值说明,便于审计追踪与持续改进与团队对齐。
支持输入自定义数据集类型与场景,一次配置,反复调用,适配不同项目需求。
强调事实准确与信息核验,减少误判与返工,帮助团队更快推进数据治理。
输出风格清晰客观、条理分明,可直接粘贴进规范文档与评审材料与项目知识库。
快速对齐供应商与外包数据交付要求,形成统一口径,降低沟通和验收成本。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

¥15.00元
平台提供免费试用机制,
确保效果符合预期,再付费购买!

您购买后可以获得什么

获得完整提示词模板
- 共 244 tokens
- 2 个可调节参数
{ 数据集类型 } { 输出语言 }
自动加入"我的提示词库"
- 获得提示词优化器支持
- 版本化管理支持
获得社区共享的应用案例
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59