创建数据质量指标

幂简官方

179 浏览

17 试用

3 购买

Nov 5, 2025更新

数据转换文生文

为数据集类型定义三个数据质量指标。

以下为客户主数据集的3个数据质量指标定义，聚焦于可操作、可度量与可监控的标准。

核心属性完整率

目的：衡量客户记录关键字段的缺失情况，保障下游业务（营销、合规、报表）的最小信息需求。
适用范围：
- 计量对象：主数据中“活动状态”客户记录（排除测试、归档、已合并、作废记录）。
- 条件必填：依据客户类型（企业/个人）和国家/地区适用性确定。
判定规则（示例）：
- 通用：客户唯一标识（主键）、客户类型、法定名称/姓名、国家/地区、主地址（至少国家+城市或完整地址）、至少一种联系方式（电话或邮箱）。
- 企业客户：税号/统一社会信用代码（适用国家）、法定注册地址。
- 个人客户：证件类型+证件号码（适用国家）、出生日期。
- 缺失定义：空值、空白、占位符（如“N/A”“Unknown”“000000”）、仅包含不可识别字符。
计算公式：
- 核心属性完整率 = 符合完整性规则的记录数 / 计量范围内的记录总数 × 100%
计量口径与例外：
- 按客户类型应用差异化必填规则；对“联系方式”允许电话或邮箱至少一项存在且后续通过基本格式校验。
监控与阈值（建议）：
- 周期：增量日监控，周度全量核查。
- 目标值：≥ 98%（按组织成熟度与数据来源调整）。

客户唯一性率（重复治理成效）

目的：衡量数据集中代表同一现实世界客户的冗余记录比例，支撑主数据“唯一黄金记录”管理。
适用范围：主数据全量客户记录（排除已合并入黄金记录的从属记录）。
判定规则（匹配示例）：
- 企业：法定名称（规范化后）+ 税号完全一致为确定性重复；名称相似（标准化+模糊比对）+ 地址相同 + 联系方式一致为高可能重复。
- 个人：证件类型+证件号完全一致为确定性重复；姓名相似 + 出生日期一致 + 联系方式一致为高可能重复。
- 规范化要求：去除大小写差异、空格/标点标准化、繁简转换（适用时）、常见同义缩写展开。
- 重复计数：按重复簇聚类，簇内冗余数 = 簇大小 − 1。
计算公式：
- 客户唯一性率 = 1 −（重复冗余记录数 / 记录总数）× 100%
计量口径与例外：
- 并购/更名情形需通过有效期与关系类型区分是否同一客户实体；不同法律主体不计为重复。
监控与阈值（建议）：
- 周期：周度全量，重大批量导入前后专项核查。
- 目标值：≥ 99.5%；重复簇应及时合并并保留溯源。

标准化与合法性合规率（字段值有效率）

目的：衡量关键字段是否符合标准格式、合法值域与外部参考规范，降低错误数据对运营与合规的风险。
适用范围：受约束字段（示例）
- 国家/地区码：符合ISO 3166（建议使用Alpha-2）且在组织启用清单内。
- 电话号码：符合E.164基本规则（“+”国家码+国家内号码，总位数不超过15），并与国家/地区匹配。
- 电子邮箱：local@domain基本格式有效，域名可解析（MX或A记录）。
- 税号/统一社会信用代码（企业，适用国家）：格式与校验位通过。
- 证件号码（个人，适用国家）：格式与校验位通过。
- 行政区划/邮编：在权威参照库（如国家/地区行政区划、邮编库）中存在。
判定规则：
- 对每条记录，所有适用字段均通过其对应校验，记为“有效”；否则为“无效”。
- 可并行计算分字段有效率用于定位薄弱项。
计算公式：
- 合规率（记录级） = 通过所有适用校验的记录数 / 记录总数 × 100%
- 可选：分字段有效率 = 该字段有效值记录数 / 记录总数 × 100%
计量口径与例外：
- 按国家/客户类型应用差异化规则；对缺少外部参照的区域允许“待确认”状态但不计为有效。
监控与阈值（建议）：
- 周期：日增量校验与周度全量复核。
- 目标值：记录级合规率 ≥ 97%；分字段目标按业务重要度设定（如税号、证件号 ≥ 99%）。

实施建议（简要）

为每项指标建立清晰的规则库与版本管理，确保口径一致性。
将计算公式落地为可复用的数据质量作业（SQL/DQ工具），并输出问题清单至修复队列。
指标与阈值应依据系统来源、地区覆盖和合规要求定期复盘与调整。

以下定义面向订单交易数据集的3个核心数据质量指标，用于数据清洗、验证、分析与持续监控。各指标均应在订单头与订单行（如存在）分别计算，并可按业务日期、来源系统、渠道等维度切分。

关键字段完整率（Mandatory Field Completeness Rate）

目的：衡量必填字段是否存在缺失或占位值，控制基础数据缺口。
范围：依据数据字典标注的必填字段集合。典型示例：
- 订单头：order_id、order_date、customer_id、currency_code、payment_status、total_amount
- 订单行：order_id、line_number、product_id、quantity、unit_price
判定规则：
- 字段值不可为 NULL、空字符串、仅空白、占位值（如“UNKNOWN”“N/A”）、非法默认值（如 id=0）。
- 业务性缺失：quantity 必须 >0；unit_price ≥0；total_amount 必须存在（若为头表）。
计算公式：
- 完整率 = 完整记录数 / 总记录数
- 完整记录：该记录所有必填字段均满足判定规则。
监控建议：
- 最低阈值示例：订单头 ≥99.5%，订单行 ≥99.0%（实际阈值需结合历史基线与来源差异确定）。
- 每日计算并趋势化，低于阈值触发告警与缺失字段明细输出。

业务规则有效率（Business Rule Validity Rate）

目的：衡量字段值域与跨字段逻辑的合规性，发现不合理或不一致的取值。
范围与规则示例（根据企业规则库配置为“活动规则”）：
- 值域/枚举：payment_status ∈ {CREATED, PAID, CANCELLED, REFUNDED}；currency_code ∈ ISO 4217 合法代码集合。
- 时间合理性：order_date 不得晚于处理日（或允许 ≤X 天的滞后/时区差异）；refund_date ≥ payment_date。
- 类型与格式：主键/外键为符合模式的字符串或数值；日期为有效日历日期。
- 数值约束：quantity 为正整数；unit_price ≥0；discount_rate ∈ [0,1]。
- 金额一致性：abs(total_amount − Σ(quantity × unit_price × (1 − discount_rate))) ≤ δ；δ 可按货币最小计价单位或四舍五入策略设定（例如 δ=0.01）。
计算公式：
- 有效率（全规则）= 通过全部活动规则的记录数 / 总记录数
- 也应输出逐条规则的通过率，便于定位具体违反的规则。
监控建议：
- 按来源系统/渠道分组监控，设定每条规则的独立阈值；金额一致性建议单独告警并输出差异及计算明细。

参照完整率（Referential Integrity Pass Rate）

目的：衡量外键与主数据/维表之间的关联有效性，防止“孤儿记录”与跨表不一致。
范围与关联示例：
- 订单头：customer_id 在 Customer 维表存在；store_id 在 Store 维表存在；payment_method_code 在 PaymentMethod 维表存在。
- 订单行：product_id 在 Product 维表存在；order_id 能在订单头表找到对应记录。
判定规则：
- 以同一数据日期的维表快照为基准；允许“迟到维表”需设定宽限窗口（例如 T+1），超出窗口仍未匹配视为参照失败。
- 维表键需唯一且生效（状态为有效、在有效期内）。
计算公式：
- 参照完整率 = 通过全部外键匹配的记录数 / 总记录数
- 可并行输出每个外键的匹配通过率（例如 product_id 匹配率）。
监控建议：
- 当参照完整率下降时，区分来源问题（交易侧漏传/错误）与主数据问题（维表缺失/延迟）；输出未匹配键清单用于回溯与补录。

补充实施要点（适用于所有指标）：

指标口径固化：在数据字典与规则库中明确字段清单、判定规则、容差与快照基准时间。
分层计算与采样：对全量数据每日计算；高流量场景可先按分区/渠道滚动采样再全量验证。
结果可追溯：保留明细失败记录、规则 ID、字段名与原始值，支持复查与修复闭环。

Below are three data quality metrics tailored for a reporting metrics repository dataset (i.e., a catalog of KPIs with business and technical definitions). Each metric includes a precise definition, scope, and a computable formula.

Metadata Completeness Rate

Purpose: Ensure each KPI entry contains the required business and technical metadata for unambiguous understanding and correct downstream use.
Scope: KPI catalog records.
Required fields (example, adjust to your schema): metric_code, metric_name, business_definition, owner, unit, grain, aggregation_method, calculation_expression, source_system, update_frequency, sla_minutes, valid_from, status.
Rule: A record is “complete” if all required fields are non-null, non-blank after trim, and constrained fields are within allowed sets (e.g., status in {active, deprecated}).
Formula: Metadata Completeness Rate = (count of KPI records passing all completeness rules) / (total KPI records)
Notes:
- Treat whitespace-only strings as null.
- Optionally weight critical fields (e.g., calculation_expression, owner) if a weighted completeness score is preferred.
Example SQL (generic): SELECT SUM(CASE WHEN metric_code IS NOT NULL AND TRIM(metric_code) <> '' AND metric_name IS NOT NULL AND TRIM(metric_name) <> '' AND business_definition IS NOT NULL AND TRIM(business_definition) <> '' AND owner IS NOT NULL AND TRIM(owner) <> '' AND unit IS NOT NULL AND TRIM(unit) <> '' AND grain IS NOT NULL AND TRIM(grain) <> '' AND aggregation_method IS NOT NULL AND TRIM(aggregation_method) <> '' AND calculation_expression IS NOT NULL AND TRIM(calculation_expression) <> '' AND source_system IS NOT NULL AND TRIM(source_system) <> '' AND update_frequency IS NOT NULL AND sla_minutes IS NOT NULL AND valid_from IS NOT NULL AND status IN ('active', 'deprecated') THEN 1 ELSE 0 END) / CAST(COUNT(*) AS DECIMAL(18,6)) AS metadata_completeness_rate FROM kpi_catalog;

Metric Identity Integrity Pass Rate

Purpose: Guarantee that KPI identity and versioning are well-formed: no duplicate records per version and exactly one active version per metric.
Scope: KPI catalog records with fields supporting identity and lifecycle: metric_code, version, status.
Rules (evaluated per metric_code): a) Version uniqueness: For each metric_code, each version appears at most once. b) Single-active rule: For each metric_code, exactly one record is status = 'active'.
Formula: Metric Identity Integrity Pass Rate = (number of metric_code values passing both rules) / (total number of metric_code values)
Example SQL (two-step, generic): WITH by_metric AS ( SELECT metric_code, SUM(CASE WHEN dup_cnt > 1 THEN 1 ELSE 0 END) AS has_version_dup, SUM(CASE WHEN status = 'active' THEN 1 ELSE 0 END) AS active_cnt FROM ( SELECT metric_code, version, status, COUNT() OVER (PARTITION BY metric_code, version) AS dup_cnt FROM kpi_catalog ) x GROUP BY metric_code ) SELECT SUM(CASE WHEN has_version_dup = 0 AND active_cnt = 1 THEN 1 ELSE 0 END) / CAST(COUNT() AS DECIMAL(18,6)) AS metric_identity_integrity_pass_rate FROM by_metric;

Calculation Expression Validity Pass Rate

Purpose: Ensure stored calculation expressions are syntactically valid, reference only registered sources/columns, and compile in the target execution environment(s).
Scope: KPI calculation metadata: calculation_expression, expression_dialect, referenced_objects, and registry of allowed sources/columns.
Rules (evaluated per metric record): a) Parse success: The expression parses successfully for its declared dialect. b) Reference resolution: All referenced tables/views/columns exist in the approved registry and meet access policies. c) Optional static checks: Disallow banned functions (e.g., nondeterministic), ensure aggregation matches declared grain, and enforce unit consistency if modeled.
Formula: Calculation Expression Validity Pass Rate = (count of KPIs passing all expression validity checks) / (count of KPIs with a calculation_expression)
Implementation notes:
- Use a dialect-aware parser or dry-run compilation (e.g., EXPLAIN or VALIDATE QUERY) to capture parse/compile errors without executing the query.
- Maintain a reference catalog of allowed objects and compare referenced identifiers from the parsed AST.
- Store per-check results for diagnostics (parse_ok, refs_ok, banned_fn_ok, grain_ok).
Pseudocode outline: For each KPI: parse_ok = parse(expression, dialect) refs_ok = all(referenced_objects ⊆ allowed_objects) banned_fn_ok = not uses_banned_functions(expression) validity_pass = parse_ok AND refs_ok AND banned_fn_ok Pass rate = count(validity_pass) / count(calculation_expression not null)

Operational guidance

Frequency: Compute daily; re-check on catalog changes.
Segmentation: Report rates by domain/owner to localize issues.
Targets (illustrative): Metadata Completeness ≥ 98%; Identity Integrity ≥ 99.9%; Expression Validity ≥ 99%.
Alerting: Trigger incidents on breaches; attach failing record samples and rule-level diagnostics.

解决的问题

帮助数据与业务团队在几分钟内为任意数据集快速制定3个关键的数据质量指标，覆盖准确性、完整性与可靠性等维度；输出结构清晰、可直接用于质检与监控，支持多语言回复；降低沟通与试错成本，加速数据治理落地，推动跨部门对齐与决策效率提升。

适用用户

数据产品经理

快速建立新数据源的质量验收标准，明确准确性/完整性/可靠性的判定口径，推动跨部门评审与上线。

数据工程师

在数据流程改造前生成清洗与校验要点，形成可执行检查清单，减少缺漏与重复，提升交付稳定性。

BI分析师

为报表与指标库制定质量规则，识别源数据风险，提升报表可信度，降低解释和沟通成本。

特征总结

• 一键为任意数据集生成三项质量指标，结构清晰、可直接用于评审与落地。

• 根据业务场景自动聚焦准确性、完整性、可靠性，避免跑偏，提供可执行建议。

• 支持输出语言可选，跨团队共享规范无障碍，方便国际化项目协作与落地。

• 自动给出清洗、校验与监控要点，快速形成检查清单与质量阈值，提升上线效率。

• 针对电商、金融、医疗等典型数据集，生成可复用指标模板，减少口径分歧和沟通成本。

• 结构化呈现定义、计算方法与阈值说明，便于审计追踪与持续改进与团队对齐。

• 支持输入自定义数据集类型与场景，一次配置，反复调用，适配不同项目需求。

• 强调事实准确与信息核验，减少误判与返工，帮助团队更快推进数据治理。

• 输出风格清晰客观、条理分明，可直接粘贴进规范文档与评审材料与项目知识库。

• 快速对齐供应商与外包数据交付要求，形成统一口径，降低沟通和验收成本。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用（如 ChatGPT、Claude 等），即可直接对话使用，无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API，您的程序可任意修改模板参数，通过接口直接调用，轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址，让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作，让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格

￥15.00元

先用后买，用好了再付款，超安全！

在线免费用提示词

您购买后可以获得什么

✓

获得完整提示词模板

- 共 244 tokens

- 2 个可调节参数

{ 数据集类型 } { 输出语言 }

✓

获得社区贡献内容的使用权

- 精选社区优质案例，助您快速上手提示词

购买

创建数据质量指标

解决的问题