生成数据验证检查清单

幂简官方

192 浏览

15 试用

3 购买

Oct 17, 2025更新

数据转换文生文

提供5个针对指定数据集的数据验证检查。

以下为“新客户表_外部导入”的5项关键数据验证检查，均可在落地ETL/ELT流程中作为可执行规则配置。每项包含目标、核心规则与不通过处理建议，便于直接实施。

架构与数据类型一致性检查

目标：确保外部数据与数据合同一致，避免因结构漂移导致下游报表错误。
规则要点：
- 列名、列数、顺序、数据类型、长度、是否可空与约定一致。
- 日期时间统一为约定格式（如ISO 8601），数值小数位与范围一致；布尔枚举值按约定映射。
- 字符集/编码按合同（如UTF-8），去除前后空格与不可见字符。
失败处理：零容忍。整批阻断并通知供数方；输出差异报告（新增/缺失/类型不匹配列清单）。

主键/业务键唯一性与非空检查

目标：防止主键冲突与脏数据进入主数据层。
规则要点：
- 主键（如customer_id或external_customer_id）非空且在当批与全量中唯一。
- 若采用业务键：B2B建议国家代码+税号（country_code + tax_id）唯一；B2C可用证件号或手机号+姓名组合（按业务定义）。
失败处理：零容忍。冲突记录入隔离区（quarantine），生成重复明细（冲突键、来源、时间）供回溯或合并。

必填字段完整性与值域/参考数据一致性检查

目标：保证核心业务属性齐全且与主数据标准一致。
规则要点：
- 必填字段：客户名称/姓名、customer_type、country_code、status、创建时间等；B2B需公司名与税号，B2C需姓名与至少一种联系方式。
- 值域：customer_type ∈ {B2B,B2C}；status ∈ {Active, Inactive, Prospect,…}；country_code ∈ ISO 3166-1 alpha-2；currency_code ∈ ISO 4217（如适用）。
- 长度与模式：名称长度上限；编码值严格大小写与长度（如国家码2位）。
失败处理：必填缺失与值域不符阻断入仓；可提供“可修复缺陷”通道（例如自动纠正大小写），其余记录入隔离区并回传问题清单。

联系方式、地址与身份标识格式有效性检查

目标：提升联络可达性与合规识别准确性。
规则要点：
- Email：语法校验；可选进行域名/MX解析验证。
- 电话：标准化为E.164；区号与country_code一致性校验；去除非数字字符。
- 地址：邮编按国家正则校验；地址标准化（街道、城市、州/省、邮编分栏）。
- 税号/增值税号：按国家规则进行格式/校验位验证；欧盟可对接VIES服务进行实体验证（若业务需要）。
失败处理：联系方式或税号格式错误标记为“不可用”，按策略拒收或降级（不用于营销/开票）；输出校验失败字段与原因。

重复检测与主数据对齐检查（去重/合并准备）

目标：减少重复客户，保障360视图与指标口径一致。
规则要点：
- 精确匹配：对主键、业务键、Email、税号进行全库查重。
- 模糊匹配：名称+地址/电话的相似度匹配（如Jaro-Winkler ≥0.90，具体阈值按业务调优），对常见同义/缩写做标准化后再比对。
- 冲突处理策略：定义生存者规则（source优先级、数据新鲜度、字段级可信度）与合并清单输出。
失败处理：潜在重复标记review标志并进入人工复核或MDM自动合并流程；严重要冲突数据阻断进入黄金主数据表。

执行建议

在落地层配置上述规则为可观测指标（每批通过率、失败记录数、失败原因Top N）。
为不同严重度设定阈值与SLA：结构/主键/税号合规零容忍；联系方式/地址可设低比例容忍并建立修复闭环。
输出标准化的DQ报告与回传接口，形成与外部供数方的持续质量改进机制。

Below are five high‑value data validation checks for a Sales Metrics Summary table. Each includes the objective, rule, and practical implementation guidance.

Source-to-Summary Reconciliation

Objective: Ensure the summary table faithfully represents the transactional facts.
Rule: For each reporting grain (e.g., date-product-channel-region), summary totals must match the source fact table aggregated to the same grain within defined tolerances (0 for counts; small absolute/relative tolerance for currency due to rounding).
How: Aggregate the fact table by the summary grain and compare row counts and sums of Units, Net Sales, Discounts, Returns, COGS, Gross Margin. Log mismatches by key and metric; fail the load if mismatches exceed thresholds.

Dimensional Referential Integrity and Valid-Time Alignment

Objective: Prevent orphan keys and misaligned slowly changing dimensions (SCDs).
Rule: Every dimension key in the summary exists in its dimension table and is valid for the summary date (effective_from <= date <= effective_to). Exactly one active dimension record per key/date.
How: Left join summary to each dimension to detect missing keys; validate effective dating windows and “single active row” per key/date. Quarantine records with null dims or multiple active matches.

Metric Definition and Arithmetic Coherence

Objective: Enforce consistency with the metric dictionary and catch arithmetic errors.
Rule: Recompute key measures and compare:
- Net Sales = Gross Sales − Discounts − Returns (typically exclude taxes; align with your metric definitions).
- Gross Margin = Net Sales − COGS.
- Unit Price = Net Sales / Units (for Units > 0).
- Margin % = Gross Margin / Net Sales (handle division by zero).
Sanity: Units ≥ 0 (except controlled negative quantities for returns), Unit Price ≥ 0, Margin % within a reasonable band (e.g., −100% to +100%) unless on an approved exception list.
How: Derive secondary calculations in QA queries; flag rows outside tolerances and maintain an exception registry for known edge cases (e.g., promotions causing atypical margins).

Time-Series Completeness and Cutoff Control

Objective: Ensure period coverage is complete and adheres to accounting cutoffs.
Rule: All expected calendar dates in the reporting window are present; no future-dated rows; no gaps or duplicates; summary reflects the intended as-of timestamp (e.g., T−1 23:59 cutoff). Late-arriving data is tracked and backfilled as per policy.
How: Compare the set of dates in the summary to a calendar table; validate max(date) ≤ processing_date; monitor day-over-day variances for Units and Net Sales versus expected ranges; maintain a late-arrival log and re-aggregation routine.

Grain Uniqueness, Duplicates, and Idempotency

Objective: Prevent double counting and ensure stable, repeatable loads.
Rule: The summary grain is unique (e.g., one row per date-product-channel-region). No duplicate keys; reruns do not change results unless source data changed.
How: Enforce primary key/unique constraints; compare total rows to count distinct of the grain; identify duplicates before publish. Use deterministic upsert logic and row-level checksums for metric fields to verify idempotency across runs.

Tip: Operationalize these checks with automated nightly jobs, threshold-based alerts, and a validation dashboard that tracks failures, tolerances, and remediation SLAs.

以下为订单类事件埋点的5项核心数据验证检查，适用于采集端、流处理与入仓阶段的统一质量控制：

事件契约与字段校验（Schema/Contract）

必填字段存在且非空：event_name、event_version、order_id、user_id、client_ts、server_ts、currency、items（含unit_price、quantity）、order_amount、channel/app_version。
类型与格式正确：金额为数值型且精度合规（按币种小数位），时间戳为UTC ISO 8601或毫秒/秒级整型统一。
枚举值合法：currency（ISO 4217）、payment_method、status、channel等受控词表。
空值与异常阈值：关键字段空值率≤0.1%；未知枚举≤0.05%。
版本兼容：event_version有且仅有有效版本，新增字段须具备默认值与向后兼容策略。

标识符唯一性与可关联性

唯一性：order_id全局唯一，重复率≤0.01%（按自然日）。
一致性：同一order_id跨事件（order_create/order_submit/payment_success）user_id一致率≥99.99%，跨端存在映射策略（user_id/device_id/session_id）。
可关联性：与交易主库（OMS）或支付网关按order_id可连接命中率≥99.9%；无法关联样本需抽样核查（设备离线、补偿上报等原因分类）。
冲突检测：同一order_id的currency、region、merchant_id跨事件冲突率≤0.01%。

时间戳合理性与事件序列

时间戳规范：server_ts与client_ts均为UTC；client-server偏差|Δ|≤5分钟，超过则标记为时钟漂移。
事件顺序：order_create < order_submit ≤ payment_initiated ≤ payment_success ≤ order_paid；若逆序，标记并计入异常率（≤0.05%）。
窗口合理：下单到支付成功的中位耗时处于业务预期区间（如P50 1–3分钟，P95≤30分钟，按品类/渠道分层）。
延迟监控：采集至入仓端到端延迟P95≤5分钟（流）或≤1小时（批）。

金额与数量的业务规则校验

明细到汇总一致：item_amount=unit_price*quantity；order_amount=sum(item_amount)-discount+shipping+tax；误差≤0.01（或≤0.1%）。
合法区间：单价、数量、优惠、税费、运费均非负；数量为正整数；极值设上限（按品类设定）。
币种与地区：currency与region/商户结算币一致；跨币种订单需有fx_rate与结算金额字段；四舍五入策略一致（银行家/四舍五入），精度按币种。
对账一致性：与支付网关/财务对账日级GMV差异≤0.1%，笔数差异≤0.05%；失败支付不得计入已支付GMV。

完整性、去重与投递质量

漏斗完整率：从add_to_cart → checkout_start → order_submit → payment_success的链路完整率≥98%（按渠道/端分层监控）。
去重策略：按(order_id, event_name, user_id, ts_window)去重；重复上报率≤0.5%；支持幂等键（如event_id）。
丢失与重试：采集成功率≥99.5%，端到端丢失率≤0.5%；失败重试与死信队列可追溯。
异常告警：上述关键指标设阈值与实时告警；提供样本回溯（原始日志、请求ID）以便根因定位。

执行建议

在SDK/边缘网关进行Schema预校验，流处理层做序列与金额规则校验，数仓层做对账与全量一致性校验。
为每项检查建立可视化监控与分层阈值（按国家/平台/版本），异常自动分派到对应责任团队并闭环。

解决的问题

用最少时间，为任意数据集一键生成5条高价值的数据验证检查清单，帮助团队在数据上线、变更发布、第三方接入、报表异常排查等关键节点，快速建立第一道质量防线；输出内容强调可执行、业务可读与跨团队易沟通，显著缩短准备时间并降低遗漏风险；支持按指定语言输出，便于全球或跨部门协作；在持续使用中沉淀标准化校验规范，推动数据质量治理从“经验驱动”走向“机制化”。

适用用户

数据分析师

为新表或外部数据快速生成验证清单，定位缺失与异常，整理成可执行修复任务，并提升报告可信度。

BI经理/数据治理负责人

建立统一验证标准，规范各部门上线流程；在评审会上用清单清晰呈现风险与优先级，推动一致结论。

产品经理

在埋点或后台数据变更前后，用验证清单核对关键指标与字段，避免版本发布后数据失真影响判断。

特征总结

• 面向指定数据集，轻松生成五项验证清单，聚焦缺失值、异常分布与字段一致性。

• 一键切换输出语言，支持多团队协作，让验证标准在全球范围清晰易懂。

• 以商业智能顾问视角给出可执行建议，帮助把验证结果转化为具体改进动作。

• 自动识别高风险数据环节，优先提示关键字段与业务指标，降低决策隐患。

• 按照业务场景优化表达与结构，输出清晰步骤与注意点，便于快速落地执行。

• 按数据集名称参数化调用，复用模板流程，缩短新数据上线前的质检周期。

• 坚持准确与事实核查，减少误判与返工，让数据治理更可信、沟通更顺畅。

• 把验证结果与营销、产品、财务目标对齐，直接提升指标与报表的可用性。

• 为跨部门评审提供标准化清单，统一口径，降低讨论成本并加速达成结论。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用（如 ChatGPT、Claude 等），即可直接对话使用，无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API，您的程序可任意修改模板参数，通过接口直接调用，轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址，让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作，让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格

￥15.00元

先用后买，用好了再付款，超安全！

在线免费用提示词

您购买后可以获得什么

✓

获得完整提示词模板

- 共 217 tokens

- 2 个可调节参数

{ 数据集名称 } { 输出语言 }

✓

获得社区贡献内容的使用权

- 精选社区优质案例，助您快速上手提示词

购买

生成数据验证检查清单

解决的问题