根据指定数据类型定义五个数据质量指标。
以下为面向客户数据(Customer Data)的五个核心数据质量指标定义。每个指标均包含业务目的、定义范围、计算方法与关键校验规则,便于落地监控与治理。 1) 完整性(Completeness) - 业务目的:确保用于识别、联系与合规所需的关键字段被充分采集,支持下游业务与监管需求。 - 定义与范围:对“关键字段集合”Fcritical进行评估(示例:customer_id、姓名/组织名称、主联系方式[邮箱或手机]、国家与地理地址、合规同意标识/隐私偏好、证件类型与号码[如适用])。缺失、空值、仅空白、占位值(如“NA”“000000”)均视为不完整。 - 计算方法: Completeness% = Count(记录r满足∀f∈Fcritical: present(r.f)) / Count(记录总数) × 100% - 关键规则示例: - 地址完整性可采用子维度:街道+城市+省/州+邮编均存在视为完整。 - 手机或邮箱至少其一存在;若业务要求双通道,需分别计算手机完整性、邮箱完整性。 - 合规同意标识必须为明确值(True/False),不得为空。 - 建议阈值与处置:≥ 98%;低于阈值按域/渠道回溯采集、触发前台必填或批量补齐流程。 2) 合规性/格式有效性(Validity/Conformity) - 业务目的:确保数据值符合已定义的格式、编码标准与业务规则,降低下游失败与合规风险。 - 定义与范围:对字段的格式、代码表、取值范围、跨字段约束进行校验(示例:邮箱格式、电话E.164、国家ISO 3166-1、货币ISO 4217、邮编与国家匹配、出生日期逻辑合理性等)。 - 计算方法: Validity% = Count(记录r满足∀g∈G: rule_g(r) = True) / Count(记录总数) × 100% 其中G为所定义的校验规则集合。 - 关键规则示例: - Email:RFC5322兼容格式且未在全局禁止域名名单。 - 电话:E.164格式,国家码与国家字段一致。 - 地址:国家-省/州-城市-邮编组合能通过权威地址库验证。 - 证件:类型-号码校验(长度、校验位、国家适用性)。 - 建议阈值与处置:逐字段≥ 99%;对关键高敏字段(证件、地址)≥ 99.5%。不合规数据进入数据修复队列,必要时阻断下游分发。 3) 唯一性(Uniqueness/Duplicate Rate) - 业务目的:控制客户重复建档导致的合规、运营和分析偏差,支撑单一客户视图(Golden Record)。 - 定义与范围:基于标准化后的匹配键或实体解析(ER/MDM)结果识别重复记录。 - 计算方法(两种等价口径,二选一或并行监控): - 重复率(Duplicate Rate) = 1 − Count(DISTINCT match_key) / Count(记录总数) × 100% - 实体唯一率(Unique Entity Ratio) = Count(唯一实体ID) / Count(原始记录数) × 100% - 匹配键与规则示例: - 决定性匹配:标准化邮箱 或 标准化手机号,或二者与姓名/组织联合作为复合键。 - 概率性匹配:姓名相似度+地址标准化相似度+联系信息权重打分,阈值≥T归为同一实体。 - 建议阈值与处置:重复率≤ 0.5%(视行业与渠道而定)。超阈值触发去重、合并与溯源;下游只分发黄金主键(customer_master_id)。 4) 准确性(Accuracy) - 业务目的:确保客户数据反映真实世界状态,减少投递失败、合规举报与模型偏差。 - 定义与范围:通过权威或可信来源进行值校验(客户自证、第三方验证服务、业务系统回执),以“被验证为正确”的属性为准确。 - 计算方法(属性级与记录级两种视角): - 属性级准确率 = Σ 被验证为正确的属性数 / Σ 被验证的属性总数 × 100% - 记录级准确率 = Count(记录关键属性集合验证通过) / Count(被抽检或全量验证的记录) × 100% - 验证来源示例: - 邮箱:发送可达性/退信率、双重确认(double opt-in)。 - 手机:HLR/号码有效性查询、短信可达状态。 - 地址:权威地址库标准化与投递确认。 - 证件:与监管或权威接口合法合规比对(需获得适当授权与合法依据)。 - 建议阈值与处置:关键联系属性准确率≥ 97%;对不准确记录进行标记、回收验证、限制营销触达;全过程记录验证来源与时间戳(审计要求)。 5) 时效性/新鲜度(Timeliness/Recency) - 业务目的:保证客户数据在SLA内被更新与分发,降低过期信息带来的业务与合规风险。 - 定义与范围:依据客户分群定义刷新SLA(示例:活跃客户≤30天、潜在客户≤90天、KYC字段≤24小时内同步),以最后更新/验证时间判断是否新鲜。 - 计算方法: Freshness% = Count(记录r满足 now − last_update_time(r) ≤ SLA(segment(r))) / Count(记录总数) × 100% - 关键规则示例: - 区分“更新”与“验证”:更新为值变更,验证为与权威源对齐的确认;KYC/制裁名单需以验证时间为准。 - 监控源到目的地的可用性时延:Pipeline Latency(可作为辅指标),即consumer_available_at − source_event_time。 - 建议阈值与处置:Freshness% ≥ 95%;低于阈值时,优先刷新高风险字段(KYC、同意状态),并排查同步链路瓶颈。 治理与实施要点(适用于上述五项) - 明确数据责任:为每项指标指定数据域Owner与Data Steward,配置阈值与例外审批流程。 - 指标分层:同时维护全局指标与字段级/渠道级细分指标;关键属性使用更高阈值。 - 标准与字典:在企业数据标准和业务术语表中固化字段定义、代码表、正则与规则来源。 - 审计与合规:对准确性与唯一性校验涉及的对外比对,需具备合法处理依据(同意、合同、法定义务),记录访问与比对日志,满足GDPR/CCPA等监管要求。 - 监控与处置闭环:建设DQM规则引擎与仪表盘,支持告警、自动修复(标准化、去重、回填)、问题单追踪与根因分析(RCA)。 以上五项指标可直接纳入企业数据质量KPI,并与业务目标(转化率、营销可达性、监管合规通过率)对齐,形成可度量、可治理的客户数据质量框架。
Below are five data quality metrics tailored for transactional data. Each metric includes a precise definition and calculation approach suitable for governance dashboards and data quality SLAs. - Mandatory Field Completeness Rate - Purpose: Ensure each transaction record contains all required attributes as defined by the data model and policy. - Definition: Percentage of transaction records for which all mandatory fields are non-null and non-empty. - Calculation: (Number of transactions with all mandatory fields populated ÷ Total number of transactions assessed) × 100. - Notes: Mandatory fields are defined in the data dictionary (e.g., transaction_id, event_timestamp, source_system_id, account/customer identifier(s), amount, currency, status). Measure also at field level (per-field null rate) to isolate problematic attributes. Exclude fields not applicable per business rules (e.g., counterparty_id for internal transfers). - Value Validity Conformance Rate - Purpose: Verify adherence to format, type, range, code lists, and business rules. - Definition: Percentage of field-level validation checks passed across the transactional dataset. - Calculation: (Number of validation checks passed ÷ Total number of validation checks executed) × 100. - Notes: Include checks such as: ISO 4217 currency code list; amount numeric type and within allowed range; timestamp within allowed window and timezone standard; status in controlled vocabulary; instrument/channel codes valid; flags conform to schema. Implement rule severity (critical vs warning) and report separately if needed. - Referential Integrity Error Rate - Purpose: Ensure all foreign keys in transactions correctly resolve to authoritative master/reference data. - Definition: Percentage of transaction records with at least one broken or missing foreign key reference. - Calculation: (Number of transactions with ≥1 invalid/missing FK reference ÷ Total number of transactions assessed) × 100. - Notes: Typical references include account, customer, product/instrument, merchant, and country/region tables. Measure per reference domain and in aggregate. Include “stale reference” checks where the referenced record exists but is not in an allowed status (e.g., closed account). - Duplicate Transaction Rate - Purpose: Detect duplicate records that can lead to double counting, erroneous downstream processing, or compliance issues. - Definition: Percentage of transactions identified as duplicates within a defined matching window and business key. - Calculation: (Number of transactions flagged as duplicates ÷ Total number of transactions assessed) × 100. - Notes: Define a business key and time window—for example: exact match on transaction_id; or composite match on account_id + counterparty_id + amount + currency + near-time (e.g., ±60 seconds) + channel. Distinguish legitimate reversals/chargebacks/adjustments via status codes to avoid false positives. Report exact duplicates and near-duplicates separately. - Timeliness (Ingestion Latency SLA Adherence) - Purpose: Ensure transactions are available to downstream consumers within required timeframes for operational and regulatory processes. - Definition: Percentage of transactions loaded, processed, and published to target systems within the SLA threshold. - Calculation: (Number of transactions with end-to-end latency ≤ SLA threshold ÷ Total number of transactions assessed) × 100. - Notes: Measure latency from event_timestamp (or source capture time) to availability in the consumption layer (e.g., data warehouse, API, reporting mart). Segment by source system and processing stage (ingest, transform, publish). Track distribution (p50/p95/p99) to identify tail latencies. Implementation guidance: - Establish rule ownership and stewardship per domain (e.g., Operations for timeliness, Reference Data for FK integrity). - Document rule definitions and thresholds in the data policy and data quality standards, with risk-based targets (e.g., Completeness ≥ 99.5%, Validity ≥ 99.0%, FK Error ≤ 0.1%, Duplicate Rate ≤ 0.05%, Timeliness p95 ≤ SLA). - Measure continuously (streaming) or in scheduled batches; maintain lineage and audit logs for all checks. - Integrate exceptions into remediation workflows with root-cause categorization (source capture, transformation, reference data, schema changes). - Provide drill-down reporting by field, system, product, and region to support targeted corrective actions.
以下指标面向“产品主数据(SKU/GTIN 级)”的持续性度量,适用于 MDM/PIM/ERP/渠道等系统的统一监控与治理。 1) 关键属性完整率(Completeness) - 目的:衡量产品在其所属品类的必填属性是否齐全,支撑上架、交易、合规与履约。 - 范围:按品类配置必填集(示例) - 通用:SKU、GTIN、品名、品牌、类别、单位、税分类、生命周期状态、主图、长描述 - 食品:净含量、保质期、过敏原、配料表、原产国 - 电器:额定电压/功率、安全认证(如 CCC/CE)、能效等级 - 计算口径(属性级加权求和,建议作为默认): 完整率% = Σ[对每个产品i、必填属性a的非空标记] / Σ[产品i的必填属性数量] × 100 即: Σ_i Σ_a 1{value(i,a) 非空} ÷ Σ_i |ReqAttr_i| - 判定要点:仅判“是否有值”,格式/值域由“有效率”指标度量。 - 目标阈值(参考):≥ 98%(上新/上架前关键属性可要求 100%)。 2) 标识符唯一率(Uniqueness) - 目的:消除重复条目与冲突主键,防止库存、定价与结算差错。 - 范围:SKU(内部码)、GTIN(EAN/UPC)、供应商料号(VendorID+VendorPartNo 复合键)。 - 计算口径(按键分别度量): - 唯一率_SKU = count(distinct SKU) / count(SKU) - 唯一率_GTIN = count(distinct GTIN where GTIN 非空) / count(GTIN 非空) - 唯一率_VPN = count(distinct (VendorID, VendorPartNo)) / count(VendorID, VendorPartNo) - 判定要点:剔除作废/合并停用的历史重定向记录;对同一产品多包装、多条码需建立主从或变体关系,避免被误判为重复。 - 目标阈值(参考):≥ 99.95%。 3) 值域与规则有效率(Validity) - 目的:验证属性值符合标准值域、格式与业务校验规则,降低下游失败率与合规风险。 - 范围与规则示例: - 代码/参照:类别编码在主数据分类树内;UoM 属于允许值集(如 ISO/组织内部标准);税分类、危化品分类在受控字典内 - 格式/校验:GTIN 通过 GS1 校验位与长度规则;SKU 符合内部命名规范;图片分辨率/比例达标 - 业务规则:可售=真 ⇒ 建议零售价>0;危化品=真 ⇒ 必填 UN 编码与运输限值;主包装尺寸/重量>0 且与单位匹配 - 计算口径: 有效率% = 通过全部已发布规则的属性值数量 / 被验证的属性值总数 × 100 - 目标阈值(参考):≥ 99%(高风险合规字段≥ 99.9%)。 4) 跨系统一致率(Consistency) - 目的:确保“单一事实来源”在 MDM/PIM/ERP/电商渠道之间对关键字段一致,避免价格、规格、状态等冲突。 - 范围:对齐到“权威源系统”的字段清单与容差(示例) - 文本类:品名、品牌、状态(大小写/空白规范化后严格相等) - 数值类:价格、尺寸、重量(设定容差,如尺寸±1 mm、价格=严格相等或币种换算后一致) - 枚举/参照:类别、税码(码值一致或经映射表一致) - 计算口径: 一致率% = 符合对齐规则的字段比对数 / 参与比对的字段总数 × 100 或按产品维度统计:一致产品数 / 参与比对产品数 × 100 - 目标阈值(参考):≥ 99%(价格/状态等交易关键字段要求 100%)。 5) 更新时效达标率(Timeliness) - 目的:衡量新建/变更的产品信息在规定 SLA 内同步到下游与渠道的及时性,降低商机与合规滞后。 - 范围与场景示例:新商品从“审核通过”到“渠道可售”;价格变更生效;数字资产(主图/富媒体)上线。 - 计算口径(按事件类型分别度量): 时效达标率% = 在 SLA 内完成的事件数 / 该事件总数 × 100 其中 延迟 = 发布时间(或可售生效时间)− 触发时间(审核通过/主数据变更落库) - 目标阈值(参考):上新 T+1 工作日内≥ 98%;价格变更 ≤ 4 小时≥ 99%。 实施与治理建议(通用) - 分层监控:按品类、渠道、供应商、生命周期(开发/在售/停产)切片,识别结构性差异。 - 责任归属:为每个指标定义数据责任人(Data Owner/Steward)与处置流程(校验失败→工单→修复→复检)。 - 规则管理:在数据质量规则库中版本化管理必填集、值域、映射与容差;变更需经数据治理委员会审批。 - 度量频率:每日批量+关键事件实时校验;保留历史以观测趋势和回归。 - 门槛与豁免:对合规与交易关键字段设硬性阈值并阻断上线;对特例建立时间受限豁免并记录审计轨迹。
利用该提示词为客户、商品、交易等数据域制定质量指标框架,组织月度评审与整改跟踪,形成标准化台账。
将指标与监管要求对齐,生成检查清单与佐证文本,用于审计准备、合规报送与内控优化,降低罚款与审计问题。
根据定义的指标在建模、清洗与入仓环节设置校验规则与监控阈值,指导告警与工单流程,减少数据缺陷流入下游。
以统一口径保障报表一致性,明确可用性与滞后阈值,提升分析结论可信度,支撑增长、定价与投放决策。
为客户资料与线索数据设立完整性、唯一性标准,提升触达效率与转化率,降低重复与错误成本。
快速交付规范化指标文档与治理方案,提升客户认可度与项目复用性,缩短立项至上线周期。
面向数据治理与业务团队,帮助在不同数据类型(如客户、交易、日志、内容、物联网等)上,快速产出5个权威、可落地的数据质量指标,用于:1)统一指标口径与治理标准;2)支撑合规审计与风控要求;3)搭建质量监控与改进闭环;4)跨语言、跨团队同步标准;5)加速质量方案评审与实施落地。
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
免费获取高级提示词-优惠即将到期