×
¥
查看详情
🔥 会员专享 文生文 数据转换

数据质量规则草拟

👁️ 382 次查看
📅 Sep 25, 2025
💡 核心价值: 生成5条数据质量规则,提供专业分析与建议。

🎯 可自定义参数(2个)

数据属性
需要制定数据质量规则的具体数据字段。例如:用户年龄字段。
输出语言
指定生成规则的语言。例如:中文。

🎨 效果示例

以下为客户邮箱的5条数据质量规则。每条规则包含适用范围、验证要点与处置原则,用于在采集、清洗、存储与使用环节保障邮箱数据的准确性、完整性与可递送性。

  1. 语法与字符集合规
  • 适用范围:所有客户邮箱输入与批量导入。
  • 验证要点:
    • 必须符合 local-part@domain 基本结构;不允许空格、控制字符或不可见字符(如零宽空格)。
    • 不允许本地部分以点开头/结尾或出现连续点。
    • 长度限制:本地部分≤64,域名各标签≤63;为保证兼容性,邮箱总长度≤254。
    • 国际化策略:
      • 域名可为IDN,入库统一转换为Punycode;显示层可保留原始Unicode。
      • 若系统未启用EAI(RFC 6531),本地部分仅允许ASCII;如启用EAI,存储与传输使用UTF-8,并进行Unicode规范化(NFC)。
  • 处置原则:不合规直接拒收并返回明确错误码与示例说明;对IDN进行Punycode转换后再入库。
  1. 规范化与存储一致性
  • 适用范围:入库前的清洗与存储。
  • 验证要点:
    • 去除首尾空白;域名统一小写;本地部分保留原样(避免破坏大小写语义)。
    • 统一进行Unicode规范化(NFC),并移除不可见字符。
    • 同时保存原始值与规范化值:用于风险审计与复现。
  • 处置原则:规范化后写入标准字段(normalized_email),原始值写入原始字段(raw_email);若规范化导致值变化,记录清洗日志与变更原因。
  1. 可递送性验证(DNS/SMTP)
  • 适用范围:注册、更新与周期性健康检查。
  • 验证要点:
    • DNS层:域名必须可解析;优先存在MX记录;如无MX但存在A/AAAA记录,视为可尝试投递。
    • SMTP层(可选增强):通过安全的RCPT TO探测(不发送邮件)验证收件人是否存在;控制重试策略与超时,避免被目标服务器拒绝或列入黑名单。
    • 记录验证状态:pending/verified/invalid,并打上时间戳与来源(DNS/SMTP)。
  • 处置原则:无解析或明确不存在的地址标记为invalid并禁止作为主通信渠道;定期重验证,遇到临时性DNS失败设置为soft-invalid并进入重试队列。
  1. 唯一性与生命周期管理
  • 适用范围:客户主邮箱字段及其变更。
  • 验证要点:
    • 在客户维度,主邮箱唯一;跨客户维度,不允许同一规范化邮箱绑定多个活跃客户账户(防止账户挪用)。
    • 去重以规范化邮箱为准;域名大小写不区分,本地部分按字面匹配(避免误合并)。
    • 邮箱状态必须在通过可递送性验证后方可标记为active;变更需审计(旧值、新值、操作人、时间、原因)。
  • 处置原则:发现重复时触发合并/冲突流程;未验证邮箱限制用于高风险动作(密码重置、合同发送等)。
  1. 风险控制与质量分级
  • 适用范围:注册、导入与营销发送名单。
  • 验证要点:
    • 禁止一次性/临时邮箱域名(基于维护的域名黑名单);对高风险域名(新注册、低信誉)降级评分与限流。
    • 限制角色型地址(如 admin@、support@、info@、sales@、contact@、help@、no-reply@)作为客户主邮箱,除非业务场景明确需要。
    • 对历史退信、投诉、取消订阅等行为进行质量打分,低分地址须人工复核或剔除。
  • 处置原则:命中黑名单直接拒收;命中角色型地址转人工或提示更换为个人邮箱;质量分低于阈值的地址从发送名单中移除或进入再验证流程。

以上规则应以可配置策略实现(例如是否支持EAI、角色地址名单、黑名单源、验证频率),并配套错误码、审计日志与监控指标(通过率、退信率、验证成功率)以持续优化数据质量。

以下为用户手机号的5条数据质量规则,聚焦格式、有效性、唯一性、验证和异常控制,确保数据的准确性、完整性与可用性。

  1. 格式标准化(E.164)
  • 目的:统一存储格式,避免歧义与重复。
  • 规则定义:手机号必须存储为 E.164 标准格式,匹配正则 ^+[1-9]\d{1,14}$(以“+”开头,后接1–15位数字,首位不得为0)。
  • 校验要点:
    • 输入时可接受本地格式(含空格、破折号等),入库前必须规范化为 E.164。
    • 移除所有非数字字符(“+”除外),禁止扩展字符或前导0(国家码后)。
  • 处置策略:不符合格式的记录拒绝写入或进入修复队列;统一在写入层或ETL中进行规范化。
  1. 国家码与号码计划有效性
  • 目的:确保号码属于已分配的国家/地区并符合本地号码规则。
  • 规则定义:
    • 国家码必须属于有效的 E.164 国家/地区代码列表(如 +1、+44、+86 等)。
    • 若系统已知用户的国家/地区(或通过号码解析得到),则按该国号码计划校验本地长度与号段合法性(例如在已配置的规则中验证长度范围、前缀可用性)。
  • 校验要点:拒绝未分配或保留的国家码;对不匹配本地计划的号码标记为无效。
  • 处置策略:标记无效并进入人工复核或提示用户更正;定期更新国家码与号段元数据。
  1. 唯一性与归一化去重
  • 目的:避免一个号码对应多个用户,确保关联关系清晰。
  • 规则定义:
    • 在同一租户/业务域内,规范化后的手机号必须唯一(对活动用户)。
    • 去重基于 E.164 规范化结果,而非原始输入文本。
  • 校验要点:新增/更新时进行唯一性检查;对重复号码触发冲突处理。
  • 处置策略:阻止写入或转入合并流程;保留冲突审计记录并通知数据运营。
  1. 验证与可达性(Deliverability)
  • 目的:提升联系方式的可靠性与通信成功率。
  • 规则定义:
    • 号码必须拥有验证状态字段(如 is_verified、verified_at、verification_method),通过短信或语音OTP完成验证。
    • 若发生不可达(如持续发送失败、运营商返回无效),更新可达性状态(如 is_deliverable=false)。
  • 校验要点:新增或变更手机号需在规定时间内完成验证;对持续不可达的号码降低可信度或限制使用。
  • 处置策略:未验证号码仅限低风险用途(如资料展示),禁止用于强依赖通信的流程;对不可达号码触发清洗/更新流程。
  1. 异常与黑名单控制
  • 目的:剔除不合规、测试或受限制的号码,降低数据污染。
  • 规则定义:
    • 拒绝内部测试号码、已知垃圾/欺诈号码、用户退订(opt-out)名单中的号码。
    • 若配置了本地号码计划的保留/未分配号段,入库时应拦截。
  • 校验要点:在写入与发送前均进行黑名单与保留段校验;对疑似异常(高风险模式、频繁更换)的号码进行额外审查。
  • 处置策略:标记并隔离;禁止用于发送;保留审计轨迹与触发告警。

补充建议(实施层面简述):

  • 建立数据字典:明确手机号字段的数据类型、约束、验证流程与状态字段定义。
  • 引入号码解析组件:在规范化时解析国家码与本地规则,定期同步元数据。
  • 审计与监控:记录新增/变更的时间戳、来源、操作者;设监控指标(验证率、不可达率、重复率)并设阈值告警。

以下为“订单创建时间”(字段示例:order_create_time,类型建议:TIMESTAMP,UTC)5条数据质量规则。每条规则包含目的、校验逻辑与示例校验查询(伪SQL),并以参数化形式提供可调阈值,便于在不同系统中复用。

  1. 完整性与唯一性(每单仅一个创建时间)
  • 目的:确保每个订单存在且仅存在一个有效的创建时间,避免同一订单多值或缺失。
  • 校验逻辑:
    • 非空:order_create_time IS NOT NULL。
    • 同一订单唯一:对同一 order_id,创建时间取值必须唯一。
  • 示例校验(伪SQL):
    • 缺失检测: SELECT order_id FROM orders WHERE order_create_time IS NULL;
    • 同单多值检测: SELECT order_id FROM orders GROUP BY order_id HAVING COUNT(DISTINCT order_create_time) > 1;
  1. 类型、格式与时区标准化
  • 目的:确保字段可解析为时间戳,统一至 UTC,精度一致,消除因字符串存储或时区混用导致的错误。
  • 校验逻辑:
    • 可解析:SAFE_CAST(order_create_time AS TIMESTAMP) 不为 NULL(若存为字符串)。
    • 时区统一:存储为 UTC(无本地时区偏移);若来源含时区偏移,需归一至 UTC 后再入库。
    • 精度一致:统一到秒或毫秒(例如 TIMESTAMP(3));禁止混用不同精度。
  • 示例校验(伪SQL):
    • 可解析性: SELECT order_id, order_create_time FROM orders WHERE SAFE_CAST(order_create_time AS TIMESTAMP) IS NULL;
    • 精度(毫秒)一致性(示意): SELECT order_id, order_create_time FROM orders WHERE EXTRACT(MICROSECOND FROM order_create_time) % 1000 <> 0;
  1. 合理取值范围与未来时间限制
  • 目的:剔除异常早/晚的时间,控制与当前时间的偏离,抵御时钟漂移或系统回填错误。
  • 校验逻辑(参数化):
    • 下界:order_create_time >= ${data_start_date}(如系统上线日或可用数据起始日)。
    • 上界:order_create_time <= CURRENT_TIMESTAMP() + INTERVAL ${clock_skew_minutes} MINUTE(允许少量时钟漂移,如5分钟)。
  • 示例校验(伪SQL): SELECT order_id, order_create_time FROM orders WHERE order_create_time < TIMESTAMP '${data_start_date}' OR order_create_time > CURRENT_TIMESTAMP() + INTERVAL ${clock_skew_minutes} MINUTE;
  1. 业务时序一致性(与其他关键节点的相对顺序)
  • 目的:保证创建时间在业务流程中居于起点,不晚于支付、审核、发货、取消等后续节点。
  • 校验逻辑(存在即校验,空值不判错):
    • 若 pay_time 不为 NULL,则 order_create_time <= pay_time;
    • 若 approve_time 不为 NULL,则 order_create_time <= approve_time;
    • 若 ship_time 不为 NULL,则 order_create_time <= ship_time;
    • 若 cancel_time 不为 NULL,则 order_create_time <= cancel_time。
  • 示例校验(伪SQL): SELECT order_id FROM orders WHERE (pay_time IS NOT NULL AND order_create_time > pay_time) OR (approve_time IS NOT NULL AND order_create_time > approve_time) OR (ship_time IS NOT NULL AND order_create_time > ship_time) OR (cancel_time IS NOT NULL AND order_create_time > cancel_time);
  1. 不可变性与历史快照一致性
  • 目的:创建时间一经写入即不可变,避免回填或重复抽取导致的“时间漂移”。
  • 校验逻辑:
    • 在增量/日终对比中,同一 order_id 的 order_create_time 不应变化。
    • 允许的例外须带有审计标记(如修复批次号 fix_batch_id)并纳入变更白名单。
  • 示例校验(伪SQL,基于昨日快照 orders_d_1 与今日快照 orders_d): SELECT cur.order_id, prev.order_create_time AS old_ct, cur.order_create_time AS new_ct FROM orders_d cur JOIN orders_d_1 prev USING (order_id) WHERE cur.order_create_time <> prev.order_create_time AND COALESCE(cur.fix_batch_id, '') = '';

实施与监控建议

  • 指标与阈值:为每条规则定义异常率阈值(如 error_rate <= 0.1%),超过即告警。
  • 失败样本存储:将违规样本写入隔离表(含规则ID、检测时间、样本行键、原因)。
  • 自动化调度:在数据入湖/入仓链路上游执行校验,失败时阻断或降级下游任务。
  • 溯源与修复:记录违规分布与来源系统,制定修复SLA与回填流程(含时区归一与重算策略)。

示例详情

📖 如何使用

30秒出活:复制 → 粘贴 → 搞定
与其花几十分钟和AI聊天、试错,不如直接复制这些经过千人验证的模板,修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间,足够你轻松享受两杯咖啡!
加载中...
💬 不会填参数?让 AI 反过来问你
不确定变量该填什么?一键转为对话模式,AI 会像资深顾问一样逐步引导你,问几个问题就能自动生成完美匹配你需求的定制结果。零门槛,开口就行。
转为对话模式
🚀 告别复制粘贴,Chat 里直接调用
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别"手动搬运"。
即将推出
🔌 接口一调,提示词自己会进化
手动跑一次还行,跑一百次呢?通过 API 接口动态注入变量,接入批量评价引擎,让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化,你只管收结果。
发布 API
🤖 一键变成你的专属 Agent 应用
不想每次都配参数?把这条提示词直接发布成独立 Agent,内嵌图片生成、参数优化等工具,分享链接就能用。给团队或客户一个"开箱即用"的完整方案。
创建 Agent

✅ 特性总结

一键为任意数据字段草拟五条质量规则,快速生成检查清单,用于上线前把关与回归验证。
自动结合业务场景给出清洗、校验与监控建议,帮助团队减少漏检与误判,提升数据可信度。
按需切换中文或英文输出,用于跨部门协作与对外沟通,确保规则描述统一、易懂且可落地。
提供结构化规则模版与示例字段,快速套用到客户信息、订单数据等关键场景,缩短交付周期。
基于上下文理解自动补充边界与异常说明,减少遗漏细节,让规则在真实数据中更可执行。
内置常见质量考量如唯一性、完整性、格式规范,一键套用,快速覆盖绝大多数数据源。
从规则到说明书的完整输出,可直接纳入项目文档与培训材料,降低交接成本与沟通摩擦。
支持按字段、表或主题批量生成功能集,助力建立企业级数据准则库,持续提升数据治理水平。

🎯 解决的问题

将“写数据质量规则”变成一键完成的高效任务:为任意数据字段快速产出5条可执行、可评估、可落地的质量规则,并附带专业分析与改进建议。通过标准化输出和清晰逻辑,帮助团队提升数据可信度、减少返工、加速上线,支持中文/英文等多语言协作,最终让数据驱动的决策更稳健、更省时、更可复用。

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。
加载中...