¥
立即购买

数据质量报告

412 浏览
35 试用
10 购买
Nov 24, 2025更新

根据用户提供的数据集摘要,生成结构化、清晰且专业的数据质量报告总结,涵盖数据准确性、完整性、可靠性等核心指标,帮助用户快速了解数据质量状况并指导数据清洗和优化工作,适用于各类数据分析场景。

数据质量报告摘要:2024Q1交易流水与用户画像快照

数据集概览

  • 范围与规模:
    • 时间范围:2024-01-01 ~ 2024-03-31(按 dt 分区)
    • 交易表:约 500 万行;用户表:约 100 万行
  • 主要字段:
    • 交易:order_id(主键)、user_id、sku_id、price、quantity、discount、pay_amount、payment_method、order_status、order_timestamp(声明为 UTC+8)、ship_timestamp、province、city、category_lvl1/2、device_type、channel
    • 用户:user_id、age、gender、register_date、vip_level
  • 数据来源与管道:
    • App/Web 两路采集,消息队列实时入湖 + 每日批量校准
    • 存储为 Parquet;交易以 order_id 为主键,用户表通过 user_id 关联
  • 业务特征:
    • 强时序;存在退款与拆单;营销活动期间价格与优惠波动大

主要数据质量问题与影响评估(按维度)

  1. 完整性(缺失/空值)
  • 问题:
    • ship_timestamp 在取消订单中为空(合理);其他状态可能存在异常缺失
    • province/city 部分缺失或仅省份;用户侧 age、vip_level 在老用户中缺失率 >20%
  • 影响:影响履约时效分析、区域分布分析、用户分层与画像建模
  • 建议:
    • 基于 order_status 校验 ship_timestamp 的必填性(取消单可为空,其他状态约束)
    • 地理字段分层填补:优先标准化 province;city 缺失时可落省级或设为 “UNKNOWN”
    • 用户画像缺失标记与可解释填补(如 “vip_level_missing” 标志位),避免静默填补且影响模型
  1. 一致性(标准化/枚举)
  • 问题:
    • payment_method 大小写与别名混用(如 wechat/weixin/wechatpay)
    • province 存在简繁/别称并存
    • category 映射随版本更新漂移(同 sku 在不同版本归类不同)
  • 影响:分渠道与区域报表失真,类目分析不可比
  • 建议:
    • 建立枚举规范与字典:payment_method 统一映射到 canonical 值(alipay、wechat、card、other)
    • 省市采用标准行政区划字典(含别称、简繁映射),并存储标准代码与标准名两列
    • 类目映射版本化(含有效期):按 order_timestamp 选择对应版本的映射,避免跨版本漂移
  1. 准确性(数值/业务规则)
  • 问题:
    • 退款冲销出现 pay_amount < 0
    • 少数记录 discount > price(或 > price*quantity)
    • price 与 pay_amount 小数精度不一致
  • 影响:GMV/收入计算失真,促销效果评估偏差
  • 建议:
    • 金额约束:price ≥ 0、discount ≥ 0 且 discount ≤ price*quantity
    • 对 paid 状态:pay_amount ≈ price*quantity - discount(允许小额舍入差)
    • 对 refund 状态:pay_amount < 0 应与退款事件一致;区分“原始成交金额”和“退款金额”口径
    • 统一货币精度(业务定义,通常两位小数),统一 Decimal 精度与舍入规则
  1. 唯一性与重复
  • 问题:
    • order_id 因重试小概率重复
    • 同一 order_id 多条状态变更未去重(事件型 vs 快照型混用)
  • 影响:订单数、成交额重复统计,状态口径不清
  • 建议:
    • 以 order_id 去重;构建“订单最新状态快照”表:按 order_timestamp 选最新一条
    • 事件表与快照表分离:事件表保留全量变更,快照表供报表使用
    • 引入幂等写入策略(merge/upsert),保证重试不产生重复
  1. 时序与时区
  • 问题:
    • order_timestamp 混用 UTC 与 UTC+8
    • 活动日数据突增且存在跨日写入延迟
  • 影响:按日/小时指标错位,峰值分析失真;延迟导致分区数据不完整
  • 建议:
    • 明确统一存储时区(建议统一为 UTC 并保留原始时区标记;或统一标准化为 UTC+8 并记录时区来源)
    • 基于 dt 与 order_timestamp 的一致性校验(dt 应等于 order_timestamp 的本地日期)
    • 设置分区水位线与延迟监控(如 T+1 10:00 完整性阈值),活动日动态阈值与回补策略
  1. 参考完整性(关联)
  • 问题:
    • user_id 关联存在孤儿订单(订单找不到用户)
    • 用户画像快照滞后,交易-画像时间错位
  • 影响:用户转化与分层分析不准确
  • 建议:
    • 定期反查孤儿订单比例;超阈值触发对账或回补(补齐用户维度或标记 unknown_user)
    • 采用 SCD/as-of join:画像以交易时间选择最近且不晚于交易的画像快照(register_date ≤ order_timestamp)
  1. 格式化
  • 问题:
    • 文本字段尾随空格、全角半角混杂
  • 影响:维度聚合与去重异常
  • 建议:
    • 统一清洗:trim、规范宽度(全角转半角)、统一大小写与字符集;清洗后存 canonical 字段

数据质量校验规则(示例与建议阈值)

  • 分区与范围:
    • 校验 dt 覆盖 2024-01-01 ~ 2024-03-31,分区不缺失
    • 每日行数与金额波动监控:相对上周同日或 7 日移动均值的偏差,活动期采用宽松阈值
  • 完整性:
    • ship_timestamp 非空规则:
      • 对 order_status ∈ {paid, ship, refund}:ship_timestamp 非空比例 ≥ 99%(取消单可为空)
  • 一致性:
    • payment_method ∈ {alipay, wechat, card, other};别名映射后非法值比例 < 0.1%
    • province/city 映射命中率 ≥ 99%;无法映射设为 UNKNOWN 并追踪
    • category 映射版本命中率 ≥ 99%,违规漂移率 < 0.5%
  • 准确性:
    • discount ≤ price*quantity;违规率 < 0.1%
    • 对 paid:abs(pay_amount - (price*quantity - discount)) ≤ 0.01(或业务定义的容差)
    • 对 refund:pay_amount < 0 与 order_status='refund' 对齐率 ≥ 99.9%
    • 金额字段统一精度校验(scale 一致)
  • 唯一性与重复:
    • order_id 去重后重复率 < 0.01%;同一 order_id 的最新状态快照覆盖率 = 100%
  • 时序与时区:
    • dt 与 order_timestamp(统一时区后)的日期一致率 ≥ 99.5%
    • ship_timestamp ≥ order_timestamp;违反率 < 0.1%
  • 参考完整性:
    • 交易-用户关联命中率 ≥ 99%(孤儿订单比例 < 1%)
    • 画像 as-of join 命中率 ≥ 98%
  • 格式化:
    • 去空格、宽度规范后与原值不一致的比例记录;异常比率持续降低趋势(目标 < 1%)

关键校验 SQL 示例(通用 SQL 伪代码)

  • 非法枚举与别名映射:
    • SELECT payment_method FROM orders WHERE LOWER(TRIM(payment_method)) NOT IN ('alipay','wechat','card','other');
  • 金额合理性:
    • SELECT * FROM orders WHERE discount > price * quantity OR price < 0 OR discount < 0;
    • SELECT * FROM orders WHERE order_status='paid' AND ABS(pay_amount - (price*quantity - discount)) > 0.01;
    • SELECT * FROM orders WHERE order_status='refund' AND pay_amount >= 0;
  • 重复与快照:
    • WITH ranked AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY order_id ORDER BY order_timestamp DESC) AS rn FROM orders ) SELECT * FROM ranked WHERE rn > 1; -- 重复检查
    • 最新状态快照: CREATE VIEW orders_latest AS SELECT * EXCEPT(rn) FROM ranked WHERE rn=1;
  • 时区与分区一致性:
    • SELECT * FROM orders WHERE DATE(CONVERT_TZ(order_timestamp, src_tz, '+08:00')) <> dt;
  • 履约时间规则:
    • SELECT * FROM orders WHERE ship_timestamp IS NOT NULL AND ship_timestamp < order_timestamp;
  • 孤儿订单:
    • SELECT o.* FROM orders o LEFT JOIN users u ON o.user_id = u.user_id WHERE u.user_id IS NULL;
  • 类目版本有效期:
    • SELECT * FROM orders o LEFT JOIN category_map m ON o.category_lvl2 = m.category_code AND o.order_timestamp BETWEEN m.effective_start AND COALESCE(m.effective_end, '9999-12-31') WHERE m.category_code IS NULL;
  • 文本规范:
    • SELECT * FROM orders WHERE payment_method <> NORMALIZE(payment_method); -- NORMALIZE: trim + lower + width-fix

清洗与标准化方案

  • 枚举与字典:
    • 建立标准字典表(payment_method_map、province_map、alias_map),字段清洗后写入规范列(如 payment_method_std、province_code、province_std)
  • 地理标准化:
    • 以标准行政区划代码为主键,维护别称/简繁对照;缺失 city 时按省聚合或设 UNKNOWN
  • 类目版本化:
    • category_map 表包含 version、effective_start、effective_end;按订单时间进行有效期选择;保留原始类目字段与标准类目字段
  • 金额与精度:
    • 统一 Decimal 精度与舍入规则;对不合规精度记录进行标准化并保留原值与修正值
  • 去重与快照化:
    • 事件层:保留多状态记录;快照层:按 order_id 取最新状态,供分析与报表使用
    • 幂等合并:以 order_id upsert,避免因重试产生重复(在 Parquet 环境下可通过批量重写分区 + 去重实现)
  • 时区统一:
    • 加入时区来源标记,统一转换到单一时区(建议 UTC)。dt 基于统一时区重算,确保分区与事件时间一致
  • 退款与拆单:
    • 明确退款口径:负数 pay_amount 仅在 refund 事件中出现;对拆单场景,明确 row 级别(订单行 vs 订单汇总),必要时引入 fact_order_items(order_id, sku_id)以消除聚合偏差
  • 用户画像对齐:
    • 画像表采用 SCD(valid_from、valid_to)或每日快照;交易-画像以 as-of join 对齐,避免时间错配

监控与告警

  • 分区健康:
    • 每日 dt 完整性、行数、金额总计、关键字段非空率;活动期动态阈值
  • 延迟与水位:
    • 实时入湖与日批校准的到达延迟分布;跨日延迟超阈触发回补
  • 一致性与枚举:
    • 非法枚举比率监控;字典命中率低于阈值告警
  • 准确性:
    • 金额一致性误差、退款状态对齐率、精度一致性指标
  • 关联性:
    • 孤儿订单比率、画像 as-of 命中率
  • 格式化:
    • 清洗影响比率与趋势;异常字段 TOP 列表
  • 异常检测:
    • 基于时间序列的交易量、客单价、折扣率异常检测(使用季节性/活动标记进行基线校正)

数据契约与文档

  • 明确字段类型、允许值域、精度与舍入规则、时区策略、分区定义
  • 枚举与字典版本管理(payment、province、category)
  • 事件模型与快照模型的用途与口径说明(GMV、净收入、退款处理规则)
  • 画像 SCD 策略与 as-of join 规范

优先级与行动计划

  • P0(立即):统一时区与分区一致性;订单去重/快照化;支付方式与金额规则标准化;退款口径明确
  • P1:省市标准化与字典映射;类目版本化与漂移治理;格式化清洗上线
  • P2:用户画像缺失治理与 as-of 对齐;监控与告警完善;活动期动态阈值与回补流程

验收标准(示例)

  • 重复率 < 0.01%;非法枚举 < 0.1%;金额规则违规 < 0.1%
  • 孤儿订单 < 1%;dt 与时间一致率 ≥ 99.5%;退款状态对齐 ≥ 99.9%
  • 地理与类目映射命中率 ≥ 99%;画像 as-of 命中率 ≥ 98%

注意事项

  • 不对缺失值进行静默填补(需打标签并评估对分析的影响)
  • 区分事件时间与到达时间,避免延迟导致的统计偏差
  • 保留原始字段与标准化字段,确保可追溯与审计可用

数据质量报告——2024年Q2客服工单与会话文本

一、摘要与适用范围

  • 数据类型与用途:文本数据/非结构化数据,用于多标签分类(投诉/退款/功能建议/故障)与情感/满意度预测基线。
  • 规模与来源:约30万条工单、80万段对话片段;渠道包含App内咨询、网页表单、邮件转录;存储为JSON Lines。
  • 关键结论:
    • 编码、标签一致性、去重/线程完整性、语言标注、隐私脱敏、时间与SLA一致性为主要质量风险。
    • 必须先完成编码标准化、隐私再脱敏、时间统一与去重,再进行标签质量审计和样本重加权,否则将显著影响训练数据可用性与评估可靠性。

二、数据结构与字段

  • 主键与元数据:ticket_id(应唯一)、created_at(时间戳)、channel(渠道)、language(zh/en/混合)、user_id。
  • 文本:title、body_text、agent_reply;文本可含emoji、URL、HTML片段、少量代码、转义字符。
  • 标签:labels(枚举:投诉/退款/功能建议/故障,允许多标签)、sentiment(弱监督)。
  • 绩效:resolution_time_min、sla_breached(Boolean)。
  • 结构特性:会话以线程归档,存在跨线程转接与渠道迁移导致重复。

三、质量问题与影响评估

  1. 编码与字符
  • 问题:UTF-8/GBK混用导致少量乱码;emoji/特殊符号经常出现;HTML标签与实体转义残留。
  • 影响:解析失败、特征提取噪声、模型词表外率上升;HTML/实体会引入伪标记。
  1. 标签质量
  • 问题:人工标注标准不一,多标签冲突;类别严重不均衡(功能建议<5%);sentiment为弱监督。
  • 影响:训练偏差、评估不稳定;少数类低召回;冲突标签损害监督信号。
  1. 结构与去重
  • 问题:跨渠道迁移重复;多轮会话被拆分为独立片段导致语境丢失。
  • 影响:数据泄漏、指标虚高;对话语义不完整致模型误判。
  1. 语言检测
  • 问题:中英混写未准确标注;小语种误检;分词对混写不鲁棒。
  • 影响:预处理(分词、停用词)和模型选择失配;特征错配。
  1. 隐私与安全
  • 问题:URL、订单号、个别未完全脱敏样本仍存在;少量系统日志片段混入。
  • 影响:合规风险;日志模式污染语料分布。
  1. 文本长度极端
  • 问题:极短文本如“在吗”“ok”;极长文本>5,000字符并包含堆叠历史。
  • 影响:极短样本信息不足;极长样本截断或稀疏噪声影响模型稳定性。
  1. 时间与SLA
  • 问题:created_at格式不一、时区未统一;SLA计算存在误差。
  • 影响:时序分析失真、SLA指标不可信;训练时序特征失效。

四、清洗与修复方案(按优先级) P0 优先(上线前必须完成)

  • 编码标准化与Unicode规范化:
    • 全量转UTF-8;对输入流采用检测与回退:先按UTF-8解析,失败时以GBK解码后再统一转UTF-8。
    • 统一Unicode NFKC规范化,移除不可见控制字符;保留emoji为统一短码表示或直接保留UTF-8,视下游模型而定。
  • HTML与实体清理:
    • 先HTML实体反转义(& -> &),再基于白名单剥离标签(允许少数格式标签或全部剥离),代码片段以占位符保留如 [CODE]。
  • 隐私再脱敏与安全过滤:
    • URL统一脱敏(保留域名或全部替换为[URL]);手机号、邮箱、订单号、地址、身份证等以正则/模式匹配再掩码;命中系统日志特征(栈轨迹、异常关键字、时间戳模式)的样本标记并默认剔除训练集。
    • 建议使用可扩展识别器(如Presidio+自定义中文规则)并对中英混写适配。
  • 时间与时区统一:
    • created_at解析为ISO 8601 UTC;缺失/不可解析标记为null并进入修复队列。
    • 依据消息时间线重算resolution_time_min;sla_breached按业务SLA矩阵重新计算并比对原值,差异超阈值时回退人工核验。
  • 去重与线程重建:
    • 精确去重:对归一化文本(去HTML/空白/实体、大小写规范)做哈希;键:ticket_id优先,其次(channel, user_id, 标题近似, 时间接近)组合。
    • 近似去重:MinHash/SimHash + LSH,阈值建议Jaccard相似度≥0.9;跨渠道工单聚类归并为同一canonical_ticket_id。
    • 线程重建:按ticket_id和时间排序合并片段;对跨线程转接,以用户ID+时间窗口(如30–60分钟)+标题/主题相似度链接。

P1 次优(训练前强烈建议)

  • 标签质量提升:
    • 强制枚举校验;构建冲突矩阵与合并规则(例:投诉+退款可共存,故障与功能建议冲突时以故障优先)。
    • 建立黄金样本集(各类≥300条)评估并校准标注规范;计算Kappa或F1的一致性(目标≥0.75)。
    • 对sentiment弱监督标签引入置信度阈值,低置信样本降权或剔除。
  • 语言标注与混写识别:
    • 文档级与句子级检测结合(如fastText/langid),输出语言概率分布;中文字符占比>60%且英文>10%标为“zh-en混写”。
    • 记录检测置信度,低置信样本进入人工抽检。
  • 文本长度策略:
    • 过滤无信息极短文本(字符<3或token<2,保留含否定/情绪词的短语);对>5,000字符样本分段(按对话轮次或句子边界)并维护上下文窗口。

P2 优化(迭代改进)

  • 类别不平衡处理:重采样(少数类上采样)、损失重加权(类频逆比/有效样本数),并对功能建议开展主动学习补标。
  • 表达标准化:常见同义表达归一(退款/退费等),减少稀疏性。

五、校验规则与自动化验证

  • 模式与字段级校验(建议以JSON Schema/Great Expectations实现):
    • ticket_id:非空、全局唯一;正则 ^[A-Za-z0-9_-]{6,}$。
    • created_at:可解析ISO-8601或规范日期;强制转换UTC;时间不应晚于数据截取日期。
    • channel:集合成员校验{app, web, email}。
    • language:集合成员校验{zh, en, mixed}并允许null;附带prob分布字段可选。
    • labels:子集约束于{投诉, 退款, 功能建议, 故障};冲突检测与规则修复。
    • sentiment:枚举或区间[-1,1];弱监督标注需携带confidence∈[0,1](建议新增)。
    • resolution_time_min:非负数;若sla_breached=true,应与SLA阈值逻辑一致。
    • 文本字段:禁止含未闭合HTML标签;控制字符比例<0.1%;残留实体比例<0.5%。
  • 去重检查:
    • 精确重复率与近似重复率分别统计,并确保降至目标阈值以下。
  • 隐私合规检查:
    • PII残留率<0.01%;URL脱敏覆盖率=100%;系统日志样本=0或全部标记并排除训练。

六、指标与验收阈值(首轮目标,可迭代收紧)

  • 编码/可解析率≥99.9%;乱码样本≤0.1%。
  • HTML/实体残留≤0.5%;控制字符残留≤0.1%。
  • 标签冲突率≤1.0%;未知标签率=0%;多标签一致性检验通过率≥99%。
  • 近似重复率≤0.5%;跨渠道误合并率≤0.5%(人工抽检估计)。
  • 语言检测错误率≤2%(基于抽样人工核验);混写识别召回≥95%。
  • PII残留≤0.01%;系统日志入训样本=0。
  • 时间解析错误≤0.1%;SLA重算与原值一致率≥98%。

七、抽样与标注质量控制

  • 抽样分层:按渠道、语言、类别与长度分层抽样,覆盖长尾类别与极值文本。
  • 一致性评估:双人复核+冲裁,计算Kappa/F1;低一致性的标签定义需修订并回滚历史标注。
  • 黄金集与盲测:固定黄金集用于持续回归测试与监控。

八、去重与会话完整性实现建议

  • 精确去重:标准化文本哈希(如SHA-256),键=canonical_ticket_id+哈希;保持最早版本。
  • 近似去重:使用MinHash(n-gram=3或4)+LSH;相似度≥0.9作为重复候选,由规则或少量人工确认。
  • 会话重建:按ticket_id聚合;对跨线程,采用(user_id, 时间窗口, 标题/首句相似度)聚类生成conversation_id;保留消息顺序与角色(user/agent)元数据。

九、语言检测与分词策略

  • 文档级检测确定主语言,句子级检测标注混写段落;保存语言占比特征供模型使用。
  • 中文分词在混写文本中对英文token不过度切分;英文文本启用基本清洗避免丢失缩写与URL占位。

十、时间与SLA一致性

  • created_at、每轮消息时间按UTC存储,保留原时区字段以便追溯。
  • resolution_time_min重算:以首次用户问题到解决确认的时间差;跨线程合并后计算。
  • sla_breached复核:接入业务SLA配置(按渠道/优先级/问题类型),差异清单输出供业务确认。

十一、持续监控与告警

  • 批处理入口设置质量门槛(row count、唯一性、PII、时间解析、标签集合)。
  • 漂移监控:字符n-gram分布、语言占比、类别分布、文本长度分布与历史基线的JS/KL散度;异常触发告警。
  • 版本化与可追溯:数据切片版本号、清洗规则版本、SLA配置版本,所有变更有审计记录。

十二、交付物与文档

  • 数据字典与JSON Schema。
  • 质量仪表盘:上述关键指标的日/周趋势。
  • 清洗与去重可复现流水线(含参数与阈值配置)。
  • 黄金样本集与标注指南。
  • 风险清单与残留问题追踪。

附:规则与实现要点(示例)

  • PII正则示例(需结合本地化调优):手机号/邮箱/订单号/身份证等;URL统一替换[URL]。
  • 系统日志识别:出现异常关键词(Exception/Traceback/at line)、栈轨迹模式、过高的标点与时间戳密度。
  • 近似去重阈值:Jaccard≥0.9优先判定重复,0.8–0.9区间进入人工复核。
  • 混写判定:中文字符占比≥60%且英文≥10%记为mixed;或依据语言分类器概率分布。

通过上述清洗、验证与监控策略,可显著提升数据的准确性、一致性与可用性,降低标签噪声与合规风险,确保用于分类与满意度预测基线的数据集具有可靠性与可复现性。

数据质量报告摘要——冷链运输车载传感器时序数据(2024-05-01~2024-05-31)

一、数据与业务概述

  • 数据类型与规模:时序数据,1 分钟粒度;期间 31 天;设备约 1,200 台;理论记录量约 1,200 × 31 × 1,440 ≈ 53,568,000 行。
  • 核心字段:device_id、timestamp(UTC)、temp_c、rh、accel_rms、battery_pct、gps_lat、gps_lon、speed_kmh、temp_ma_15、rh_ma_15。
  • 上报与入仓:MQTT 上报→边缘缓存→每日批量 CSV 入仓;按 event_date 与 device_id 分区;单设备内 timestamp 应单调递增;唯一键 (device_id, timestamp)。
  • 业务特征:低温恒稳为主;跨气候区运输;存在断点重连与补传。

二、数据质量维度与总体风险

  • 完整性:网络中断导致 5–30 分钟缺口,个别设备整日离线。
  • 唯一性与去重:补传造成 (device_id,timestamp) 重复;跨日迟到写入错误分区。
  • 有效性与一致性:温度单位混用(少量为 °F);battery_pct 越界;速度为负或过大;GPS (0,0) 或越界;CSV 列对齐异常。
  • 准确性与时序一致:设备时钟漂移(±2–5 分钟)、分区内乱序;温度瞬时跳变 >15℃,轨迹重叠与设备标识变更未登记。
  • 可用性与可追溯:缺少统一的上报接收时间、规则版本化与纠错审计字段。

三、治理与架构建议

  • 统一时间与幂等入仓
    • 扩展元数据:新增 receive_ts_gateway(网关接收时间)、ingestion_ts(入仓时间)、event_ts_raw(设备原始时间),保留 event_ts_std(标准化后的事件时间)。
    • 幂等写入:落地至原始层(raw)后执行标准化与去重,最终层(clean)以 merge/upsert 方式覆盖;主键为 (device_id, event_ts_std)。
    • 分区:按 event_date=DATE(event_ts_std) 与 device_id;对迟到数据启用动态分区写入和滚动 T+7 天重算。
  • 规则与审计
    • 字段级验证规则版本化(dq_rules_version),记录每条更正的 issue_code、rule、old_value、new_value、processed_at。
    • 建立 data_quality_issues 表与每日汇总指标表,用于监控与回归分析。
  • 计算派生特征
    • temp_ma_15、rh_ma_15 在 clean 层统一重算;窗口 15 分钟,至少 12 个有效点,否则输出 null;不跨缺口拼接。

四、问题明细:检测、修复与指标

  1. 缺失与间断
  • 检测
    • 对每个 device_id,按 event_ts_std 排序,delta = lead(ts)-ts;若 delta>60s,缺口分钟数 = delta/60 - 1。
    • 整日离线:某设备在某日无任何记录。
  • 修复
    • 原始层不插值;在分析层可选择性前向填充但需打标签(imputed_by=ffill),并仅用于可视化,不用于统计口径。
    • 质量标注:gap_flag、gap_minutes。
  • 指标与阈值
    • 日覆盖率 = 实际分钟数/1440;SLA:≥95% 绿色,90–95% 黄色,<90% 红色。
  • 参考 SQL 片段
    • 按设备日计算缺口与覆盖率(窗口函数 lag/lead + sum)。
  1. 时钟与排序
  • 检测
    • 乱序:event_ts_std 非严格递增时计数。
    • 漂移估计:如果存在 receive_ts_gateway,则 drift_sec = median(event_ts_raw - receive_ts_gateway);若无,则估计 event_ts_raw 的“秒值众数”偏离 0 的程度作为近似偏移。
  • 修复
    • 基于每设备每日的漂移中位值校正:event_ts_std = event_ts_raw - drift_sec_round_to_minute,并四舍五入到最近分钟。
    • 强制单调:按 event_ts_std 重排;若仍冲突,使用 ingestion_ts 选择最新记录。
  • 指标与阈值
    • 漂移绝对值分布(p50/p95/p99);乱序率 = 乱序记录数/总记录数;SLA:乱序率<0.5%。
  1. 重复与迟到
  • 检测
    • 重复:count(*) over(partition by device_id,event_ts_std) > 1。
    • 迟到:ingestion_date - event_date_std > 0;记录最大迟到天数与迟到分布。
  • 修复(优先级策略)
    • 冲突去重:同键多版本取 ingestion_ts 最新;如字段值冲突且差异超过阈值(如温度差>1℃),标记 conflict_flag 并保留最新,旧值入审计表。
    • 动态回填:滚动 T+7 天重算分区与派生特征。
  • 指标与阈值
    • 重复率<0.2%;最大迟到≤7 天,p95 迟到≤1 天。
  • 参考 SQL 片段
    • 使用 row_number() over(partition by device_id,event_ts_std order by ingestion_ts desc) 选择 rn=1 作为保留。
  1. 单位与量纲
  • 检测(温度 °F 误报)
    • 设备-日粒度:若 temp_c 的中位数在 30–100 且全部值在 0–120,且转换为 ℃((x-32)*5/9)后多数落入 [-30,50],则判定为°F;或历史上该 device_id 曾被标记为°F。
  • 修复
    • 将判定为°F的设备段进行批量转换为℃,设置 temp_unit='F_to_C' 与 unit_fix_flag=1。
    • battery_pct:范围应在 [0,100];越界置为 null 并标记 battery_out_of_range=1,或剪裁到边界(不推荐用于原始层)。
  • 指标
    • 单位修正设备数与记录数;电量越界率;温度单位一致率≥99.5%。
  1. 异常值
  • 规则
    • 温度突变:|temp_c(t) - temp_c(t-1)| > 15℃ 标记 temp_spike=1。
    • GPS 有效性:lat∈[-90,90];lon∈[-180,180];(0,0) 直接无效;越界与空值标记 gps_invalid=1。
    • 速度有效性:speed_kmh<0 或 >200 标记 speed_invalid=1;同时用 Haversine 距离/时间计算的地理速度对比传感器速度,差异>50% 标记 speed_incongruent=1。
    • accel_rms:应≥0;上界采用历史分布自适应阈值(如 p99.9)而非硬编码。
  • 处置
    • 原始值保留,clean 层将异常标注并在派生特征计算时排除;对 GPS 无效点可线性插值位置仅用于可视化,分析层保留空值。
  1. 设备标识与轨迹重叠
  • 设备复用与换号
    • 建立 device_registry(device_id, asset_id, valid_from, valid_to, status),维护有效期;缺失的维护事件通过轨迹连续性与硬件特征指纹进行推断并人工确认。
  • 同车多设备并发
    • 对同一 asset_id,在相同时间窗口若存在多设备位置重叠(空间距离<100 m,时间差<2 分钟),标注 overlap_flag,并在分析层进行多源融合(优先信号质量高、缺失少、漂移小的设备)。
  • 指标
    • 未登记换号事件数;重叠率;需要主数据治理的设备数。
  1. CSV 格式与解析
  • 检测
    • 列数校验:每行列数应等于期望字段数;尾随分隔符或缺失列进入隔离区(quarantine)。
    • 类型校验:数值列解析失败计数;时间戳解析失败计数。
  • 处置
    • 将解析失败行连同行号、文件名、错误原因入 parse_errors 表;每日回补或退回源头修复。
  • 指标与阈值
    • 解析错误率<0.1%;单文件错误行数阈值触发告警与自动中止当前文件加载。

五、字段级验证规则(摘要)

  • device_id:非空、可解析为注册表中的已知设备;外键约束到 device_registry。
  • timestamp(UTC):可解析时间;与 receive_ts_gateway 的绝对差值分布受控;单设备内单调非降;标准化到 event_ts_std(分钟粒度)。
  • temp_c:最终统一为℃;范围检查 [-40,60](可按设备类型调整);突变检测;单位修正标记。
  • rh:范围 [0,100];缺失或>100 标记。
  • accel_rms:≥0;高分位异常标注。
  • battery_pct:0–100;越界标注。
  • gps_lat/gps_lon:数值有效、非 (0,0)、在合法范围;跳点与速度一致性检测。
  • speed_kmh:0–200;与地理速度校验。
  • temp_ma_15、rh_ma_15:由 clean 层统一重算;窗口内有效点数≥12,否则为 null;与原值对账差异率统计。

六、数据处理流程(分层与作业)

  • 原始接收(raw)
    • 落地原样数据与到达元数据;执行轻量级格式校验与隔离。
  • 标准化(staging/standardized)
    • 时间标准化与漂移校正;去重与迟到回补;单位修正;字段有效性校验与标注。
  • 清洗与增强(clean/curated)
    • 计算派生特征;一致性、跨字段校验(速度-位移、温湿关系可选);生成质量标签与分数。
  • 输出与消费
    • 提供事实表 sensors_clean、质量问题表 data_quality_issues、日汇总表 dq_daily_metrics。

七、监控指标与仪表板(每日与月度)

  • 覆盖与缺口:日覆盖率分布、缺口时段热力图、整日离线设备数。
  • 唯一性与迟到:重复率、迟到分布与最大迟到、回补重算量。
  • 有效性:温度单位修正次数、电量越界率、速度/GPS 无效率。
  • 时序一致:漂移分布、乱序率。
  • 异常值:温度突变率、加速度高分位异常率、GPS 跳点率、速度不一致率。
  • 解析质量:CSV 解析错误率、隔离行数、失败文件数。
  • 设备治理:未登记换号事件、轨迹重叠事件。
  • 质量评分:按设备-日计算综合质量分(建议权重:完整性35%、唯一性15%、及时性15%、有效性20%、一致性15%),分层呈现。

八、SLA 与告警

  • 完整性:设备-日覆盖率≥95% 绿色,90–95% 黄色,<90% 红色;连续两日红色告警。
  • 迟到:p95 迟到≤1 天;最大迟到≤7 天;超限触发回补作业与通知。
  • 重复率:<0.2%;超限触发去重与源端排查。
  • 单位异常:温度单位异常设备比例<0.5%;出现新增设备立即升级告警。
  • 解析:单文件错误率≥0.1% 自动停载并告警。

九、实现要点与示例片段

  • 去重与主键合并
    • 使用 row_number() over(partition by device_id,event_ts_std order by ingestion_ts desc) 选取 rn=1 作为最终记录;保留 dup_cnt 用于指标。
  • 缺口检测
    • 使用 lag(event_ts_std) 计算时间差;缺口分钟 = (delta_sec/60)-1 累加。
  • 迟到检测
    • lateness_days = DATE(ingestion_ts) - DATE(event_ts_std);按设备与天聚合分布。
  • 单位识别与修正
    • 设备-日层面统计 temp 中位数与范围,匹配°F 模式则批量转换,并记录修正规则与审计。

十、数据使用与一致性约定

  • 原始事实值永不覆盖,仅在 clean 层提供标准化值与标注;消费者默认使用 clean 值。
  • 所有派生指标与滑动窗口特征仅基于 clean 数据计算,且在回补期内可重算。
  • 提供质量标签字段集合(示例):is_valid、issue_codes、gap_flag、unit_fix_flag、temp_spike、gps_invalid、speed_invalid、speed_incongruent、battery_out_of_range、overlap_flag、conflict_flag、dq_rules_version。

十一、后续计划与交付

  • 第 1 周:搭建原始与标准化层、解析隔离机制;落地基础规则与指标。
  • 第 2 周:完善漂移校正、迟到回补、单位识别;上线仪表板与告警。
  • 第 3 周:设备标识治理(registry)、轨迹重叠检测;引入加速度自适应阈值。
  • 第 4 周:规则优化与SLA调优,形成月度质量报告与问题清单。

本报告聚焦于时序数据的完整性、有效性、唯一性与一致性控制,结合冷链业务特性与入仓批处理模式提出可执行的检测、修复与监控方案。建议优先补强时间元数据(receive_ts_gateway)、建立幂等去重与迟到回补机制,并统一单位后重算派生特征,以提升 5 月份数据的可用性与可比性。

示例详情

解决的问题

为用户提供专业而全面的数据质量报告概述生成解决方案,聚焦数据准确性与完整性问题,帮助用户高效完成相关分析与总结任务。

适用用户

数据分析师

快速生成规范化数据质量报告,帮助高效识别数据问题并制定解决方案。

企业决策者

借助精准的数据报告,快速掌握整体数据质量情况,支持数据驱动的决策。

数据工程师

作为数据处理流程中的辅助工具,加速数据清洗和验证工作,提升整体质量。

特征总结

快速生成专业数据质量报告,让您轻松掌握数据准确性与完整性概览。
针对具体任务提供精准的分析建议,直击数据问题核心,节省宝贵时间。
自动化分析数据质量,包括数据清洗、验证、分析和监控,优化流程效率。
以结构化写作风格呈现报告,帮助轻松传递复杂概念,让沟通更加高效。
支持定制多语言输出,满足本地化需求,适配全球化业务场景。
内置专业数据质量评估策略,提供可靠的改进建议,助力业务决策。
专注专业输出,无多余信息干扰,让内容简洁集中,便于快速理解。
通过智能核实确保信息真实性,减少错误传播,提升报告权威性。
灵活适应多种行业场景,包括营销、运营、研发等,为业务增长提供数据支持。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥25.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 244 tokens
- 3 个可调节参数
{ 数据集摘要 } { 数据类型 } { 主要数据问题 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
使用提示词兑换券,低至 ¥ 9.9
了解兑换券 →
限时半价

不要错过!

半价获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59