定义数据质量指标

幂简官方

184 浏览

13 试用

3 购买

Oct 20, 2025更新

数据转换文生文

根据指定数据类型定义五个数据质量指标。

以下为面向客户数据（Customer Data）的五个核心数据质量指标定义。每个指标均包含业务目的、定义范围、计算方法与关键校验规则，便于落地监控与治理。

完整性（Completeness）

业务目的：确保用于识别、联系与合规所需的关键字段被充分采集，支持下游业务与监管需求。
定义与范围：对“关键字段集合”Fcritical进行评估（示例：customer_id、姓名/组织名称、主联系方式[邮箱或手机]、国家与地理地址、合规同意标识/隐私偏好、证件类型与号码[如适用]）。缺失、空值、仅空白、占位值（如“NA”“000000”）均视为不完整。
计算方法： Completeness% = Count(记录r满足∀f∈Fcritical: present(r.f)) / Count(记录总数) × 100%
关键规则示例：
- 地址完整性可采用子维度：街道+城市+省/州+邮编均存在视为完整。
- 手机或邮箱至少其一存在；若业务要求双通道，需分别计算手机完整性、邮箱完整性。
- 合规同意标识必须为明确值（True/False），不得为空。
建议阈值与处置：≥ 98%；低于阈值按域/渠道回溯采集、触发前台必填或批量补齐流程。

合规性/格式有效性（Validity/Conformity）

业务目的：确保数据值符合已定义的格式、编码标准与业务规则，降低下游失败与合规风险。
定义与范围：对字段的格式、代码表、取值范围、跨字段约束进行校验（示例：邮箱格式、电话E.164、国家ISO 3166-1、货币ISO 4217、邮编与国家匹配、出生日期逻辑合理性等）。
计算方法： Validity% = Count(记录r满足∀g∈G: rule_g(r) = True) / Count(记录总数) × 100% 其中G为所定义的校验规则集合。
关键规则示例：
- Email：RFC5322兼容格式且未在全局禁止域名名单。
- 电话：E.164格式，国家码与国家字段一致。
- 地址：国家-省/州-城市-邮编组合能通过权威地址库验证。
- 证件：类型-号码校验（长度、校验位、国家适用性）。
建议阈值与处置：逐字段≥ 99%；对关键高敏字段（证件、地址）≥ 99.5%。不合规数据进入数据修复队列，必要时阻断下游分发。

唯一性（Uniqueness/Duplicate Rate）

业务目的：控制客户重复建档导致的合规、运营和分析偏差，支撑单一客户视图（Golden Record）。
定义与范围：基于标准化后的匹配键或实体解析（ER/MDM）结果识别重复记录。
计算方法（两种等价口径，二选一或并行监控）：
- 重复率（Duplicate Rate） = 1 − Count(DISTINCT match_key) / Count(记录总数) × 100%
- 实体唯一率（Unique Entity Ratio） = Count(唯一实体ID) / Count(原始记录数) × 100%
匹配键与规则示例：
- 决定性匹配：标准化邮箱或标准化手机号，或二者与姓名/组织联合作为复合键。
- 概率性匹配：姓名相似度+地址标准化相似度+联系信息权重打分，阈值≥T归为同一实体。
建议阈值与处置：重复率≤ 0.5%（视行业与渠道而定）。超阈值触发去重、合并与溯源；下游只分发黄金主键（customer_master_id）。

准确性（Accuracy）

业务目的：确保客户数据反映真实世界状态，减少投递失败、合规举报与模型偏差。
定义与范围：通过权威或可信来源进行值校验（客户自证、第三方验证服务、业务系统回执），以“被验证为正确”的属性为准确。
计算方法（属性级与记录级两种视角）：
- 属性级准确率 = Σ 被验证为正确的属性数 / Σ 被验证的属性总数 × 100%
- 记录级准确率 = Count(记录关键属性集合验证通过) / Count(被抽检或全量验证的记录) × 100%
验证来源示例：
- 邮箱：发送可达性/退信率、双重确认（double opt-in）。
- 手机：HLR/号码有效性查询、短信可达状态。
- 地址：权威地址库标准化与投递确认。
- 证件：与监管或权威接口合法合规比对（需获得适当授权与合法依据）。
建议阈值与处置：关键联系属性准确率≥ 97%；对不准确记录进行标记、回收验证、限制营销触达；全过程记录验证来源与时间戳（审计要求）。

时效性/新鲜度（Timeliness/Recency）

业务目的：保证客户数据在SLA内被更新与分发，降低过期信息带来的业务与合规风险。
定义与范围：依据客户分群定义刷新SLA（示例：活跃客户≤30天、潜在客户≤90天、KYC字段≤24小时内同步），以最后更新/验证时间判断是否新鲜。
计算方法： Freshness% = Count(记录r满足 now − last_update_time(r) ≤ SLA(segment(r))) / Count(记录总数) × 100%
关键规则示例：
- 区分“更新”与“验证”：更新为值变更，验证为与权威源对齐的确认；KYC/制裁名单需以验证时间为准。
- 监控源到目的地的可用性时延：Pipeline Latency（可作为辅指标），即consumer_available_at − source_event_time。
建议阈值与处置：Freshness% ≥ 95%；低于阈值时，优先刷新高风险字段（KYC、同意状态），并排查同步链路瓶颈。

治理与实施要点（适用于上述五项）

明确数据责任：为每项指标指定数据域Owner与Data Steward，配置阈值与例外审批流程。
指标分层：同时维护全局指标与字段级/渠道级细分指标；关键属性使用更高阈值。
标准与字典：在企业数据标准和业务术语表中固化字段定义、代码表、正则与规则来源。
审计与合规：对准确性与唯一性校验涉及的对外比对，需具备合法处理依据（同意、合同、法定义务），记录访问与比对日志，满足GDPR/CCPA等监管要求。
监控与处置闭环：建设DQM规则引擎与仪表盘，支持告警、自动修复（标准化、去重、回填）、问题单追踪与根因分析（RCA）。

以上五项指标可直接纳入企业数据质量KPI，并与业务目标（转化率、营销可达性、监管合规通过率）对齐，形成可度量、可治理的客户数据质量框架。

Below are five data quality metrics tailored for transactional data. Each metric includes a precise definition and calculation approach suitable for governance dashboards and data quality SLAs.

Mandatory Field Completeness Rate
- Purpose: Ensure each transaction record contains all required attributes as defined by the data model and policy.
- Definition: Percentage of transaction records for which all mandatory fields are non-null and non-empty.
- Calculation: (Number of transactions with all mandatory fields populated ÷ Total number of transactions assessed) × 100.
- Notes: Mandatory fields are defined in the data dictionary (e.g., transaction_id, event_timestamp, source_system_id, account/customer identifier(s), amount, currency, status). Measure also at field level (per-field null rate) to isolate problematic attributes. Exclude fields not applicable per business rules (e.g., counterparty_id for internal transfers).
Value Validity Conformance Rate
- Purpose: Verify adherence to format, type, range, code lists, and business rules.
- Definition: Percentage of field-level validation checks passed across the transactional dataset.
- Calculation: (Number of validation checks passed ÷ Total number of validation checks executed) × 100.
- Notes: Include checks such as: ISO 4217 currency code list; amount numeric type and within allowed range; timestamp within allowed window and timezone standard; status in controlled vocabulary; instrument/channel codes valid; flags conform to schema. Implement rule severity (critical vs warning) and report separately if needed.
Referential Integrity Error Rate
- Purpose: Ensure all foreign keys in transactions correctly resolve to authoritative master/reference data.
- Definition: Percentage of transaction records with at least one broken or missing foreign key reference.
- Calculation: (Number of transactions with ≥1 invalid/missing FK reference ÷ Total number of transactions assessed) × 100.
- Notes: Typical references include account, customer, product/instrument, merchant, and country/region tables. Measure per reference domain and in aggregate. Include “stale reference” checks where the referenced record exists but is not in an allowed status (e.g., closed account).
Duplicate Transaction Rate
- Purpose: Detect duplicate records that can lead to double counting, erroneous downstream processing, or compliance issues.
- Definition: Percentage of transactions identified as duplicates within a defined matching window and business key.
- Calculation: (Number of transactions flagged as duplicates ÷ Total number of transactions assessed) × 100.
- Notes: Define a business key and time window—for example: exact match on transaction_id; or composite match on account_id + counterparty_id + amount + currency + near-time (e.g., ±60 seconds) + channel. Distinguish legitimate reversals/chargebacks/adjustments via status codes to avoid false positives. Report exact duplicates and near-duplicates separately.
Timeliness (Ingestion Latency SLA Adherence)
- Purpose: Ensure transactions are available to downstream consumers within required timeframes for operational and regulatory processes.
- Definition: Percentage of transactions loaded, processed, and published to target systems within the SLA threshold.
- Calculation: (Number of transactions with end-to-end latency ≤ SLA threshold ÷ Total number of transactions assessed) × 100.
- Notes: Measure latency from event_timestamp (or source capture time) to availability in the consumption layer (e.g., data warehouse, API, reporting mart). Segment by source system and processing stage (ingest, transform, publish). Track distribution (p50/p95/p99) to identify tail latencies.

Implementation guidance:

Establish rule ownership and stewardship per domain (e.g., Operations for timeliness, Reference Data for FK integrity).
Document rule definitions and thresholds in the data policy and data quality standards, with risk-based targets (e.g., Completeness ≥ 99.5%, Validity ≥ 99.0%, FK Error ≤ 0.1%, Duplicate Rate ≤ 0.05%, Timeliness p95 ≤ SLA).
Measure continuously (streaming) or in scheduled batches; maintain lineage and audit logs for all checks.
Integrate exceptions into remediation workflows with root-cause categorization (source capture, transformation, reference data, schema changes).
Provide drill-down reporting by field, system, product, and region to support targeted corrective actions.

以下指标面向“产品主数据（SKU/GTIN 级）”的持续性度量，适用于 MDM/PIM/ERP/渠道等系统的统一监控与治理。

关键属性完整率（Completeness）

目的：衡量产品在其所属品类的必填属性是否齐全，支撑上架、交易、合规与履约。
范围：按品类配置必填集（示例）
- 通用：SKU、GTIN、品名、品牌、类别、单位、税分类、生命周期状态、主图、长描述
- 食品：净含量、保质期、过敏原、配料表、原产国
- 电器：额定电压/功率、安全认证（如 CCC/CE）、能效等级
计算口径（属性级加权求和，建议作为默认）：完整率% = Σ[对每个产品i、必填属性a的非空标记] / Σ[产品i的必填属性数量] × 100 即: Σ_i Σ_a 1{value(i,a) 非空} ÷ Σ_i |ReqAttr_i|
判定要点：仅判“是否有值”，格式/值域由“有效率”指标度量。
目标阈值（参考）：≥ 98%（上新/上架前关键属性可要求 100%）。

标识符唯一率（Uniqueness）

目的：消除重复条目与冲突主键，防止库存、定价与结算差错。
范围：SKU（内部码）、GTIN（EAN/UPC）、供应商料号（VendorID+VendorPartNo 复合键）。
计算口径（按键分别度量）：
- 唯一率_SKU = count(distinct SKU) / count(SKU)
- 唯一率_GTIN = count(distinct GTIN where GTIN 非空) / count(GTIN 非空)
- 唯一率_VPN = count(distinct (VendorID, VendorPartNo)) / count(VendorID, VendorPartNo)
判定要点：剔除作废/合并停用的历史重定向记录；对同一产品多包装、多条码需建立主从或变体关系，避免被误判为重复。
目标阈值（参考）：≥ 99.95%。

值域与规则有效率（Validity）

目的：验证属性值符合标准值域、格式与业务校验规则，降低下游失败率与合规风险。
范围与规则示例：
- 代码/参照：类别编码在主数据分类树内；UoM 属于允许值集（如 ISO/组织内部标准）；税分类、危化品分类在受控字典内
- 格式/校验：GTIN 通过 GS1 校验位与长度规则；SKU 符合内部命名规范；图片分辨率/比例达标
- 业务规则：可售=真 ⇒ 建议零售价>0；危化品=真 ⇒ 必填 UN 编码与运输限值；主包装尺寸/重量>0 且与单位匹配
计算口径：有效率% = 通过全部已发布规则的属性值数量 / 被验证的属性值总数 × 100
目标阈值（参考）：≥ 99%（高风险合规字段≥ 99.9%）。

跨系统一致率（Consistency）

目的：确保“单一事实来源”在 MDM/PIM/ERP/电商渠道之间对关键字段一致，避免价格、规格、状态等冲突。
范围：对齐到“权威源系统”的字段清单与容差（示例）
- 文本类：品名、品牌、状态（大小写/空白规范化后严格相等）
- 数值类：价格、尺寸、重量（设定容差，如尺寸±1 mm、价格=严格相等或币种换算后一致）
- 枚举/参照：类别、税码（码值一致或经映射表一致）
计算口径：一致率% = 符合对齐规则的字段比对数 / 参与比对的字段总数 × 100 或按产品维度统计：一致产品数 / 参与比对产品数 × 100
目标阈值（参考）：≥ 99%（价格/状态等交易关键字段要求 100%）。

更新时效达标率（Timeliness）

目的：衡量新建/变更的产品信息在规定 SLA 内同步到下游与渠道的及时性，降低商机与合规滞后。
范围与场景示例：新商品从“审核通过”到“渠道可售”；价格变更生效；数字资产（主图/富媒体）上线。
计算口径（按事件类型分别度量）：时效达标率% = 在 SLA 内完成的事件数 / 该事件总数 × 100 其中延迟 = 发布时间（或可售生效时间）− 触发时间（审核通过/主数据变更落库）
目标阈值（参考）：上新 T+1 工作日内≥ 98%；价格变更 ≤ 4 小时≥ 99%。

实施与治理建议（通用）

分层监控：按品类、渠道、供应商、生命周期（开发/在售/停产）切片，识别结构性差异。
责任归属：为每个指标定义数据责任人（Data Owner/Steward）与处置流程（校验失败→工单→修复→复检）。
规则管理：在数据质量规则库中版本化管理必填集、值域、映射与容差；变更需经数据治理委员会审批。
度量频率：每日批量+关键事件实时校验；保留历史以观测趋势和回归。
门槛与豁免：对合规与交易关键字段设硬性阈值并阻断上线；对特例建立时间受限豁免并记录审计轨迹。

解决的问题

面向数据治理与业务团队，帮助在不同数据类型（如客户、交易、日志、内容、物联网等）上，快速产出5个权威、可落地的数据质量指标，用于：1）统一指标口径与治理标准；2）支撑合规审计与风控要求；3）搭建质量监控与改进闭环；4）跨语言、跨团队同步标准；5）加速质量方案评审与实施落地。

适用用户

数据治理负责人

利用该提示词为客户、商品、交易等数据域制定质量指标框架，组织月度评审与整改跟踪，形成标准化台账。

合规与风险经理

将指标与监管要求对齐，生成检查清单与佐证文本，用于审计准备、合规报送与内控优化，降低罚款与审计问题。

数据工程师与数仓团队

根据定义的指标在建模、清洗与入仓环节设置校验规则与监控阈值，指导告警与工单流程，减少数据缺陷流入下游。

特征总结

• 一键生成针对指定数据类型的质量指标，快速形成可执行的治理清单。

• 自动对齐政策合规与监管需求，指标表述规范，降低审计与风控风险成本。

• 支持多语言输出与专业写作风格，跨团队无障碍沟通，外部材料可直接采用。

• 可按业务场景灵活定制指标维度，适配营销、客服、财务等关键数据类型。

• 提供结构化呈现与清晰逻辑组织，帮助落地质量评估、整改计划与责任分工。

• 结合示例化口径与阈值说明，缩短评审周期，提升指标在生产环境的可用性。

• 轻松复用为团队模板，批量应用多数据域，保障企业治理标准持续一致。

• 聚焦可衡量结果与业务影响，避免空泛概念，让治理决策更聚焦更可执行。

• 引导识别准确性、完整性、及时性等关键维度，打造面向目标的质量观测体系。

• 兼顾策略与实操建议，从政策到日常流程闭环，推动质量提升与成本优化并行。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用（如 ChatGPT、Claude 等），即可直接对话使用，无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API，您的程序可任意修改模板参数，通过接口直接调用，轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址，让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作，让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格

￥15.00元

先用后买，用好了再付款，超安全！

在线免费用提示词

您购买后可以获得什么

✓

获得完整提示词模板

- 共 241 tokens

- 2 个可调节参数

{ 数据类型 } { 输出语言 }

✓

获得社区贡献内容的使用权

- 精选社区优质案例，助您快速上手提示词

购买

定义数据质量指标

解决的问题