¥
立即购买

数据集分布诊断与优化建议

379 浏览
36 试用
8 购买
Dec 2, 2025更新

本提示词旨在对用户提供的数据集进行专业的分布特征诊断,识别潜在的数据质量问题(如偏态、异常值、缺失模式),并提供针对性的预处理与统计分析建议。适用于数据科学家、分析师在数据探索阶段快速评估数据质量,为后续建模或决策提供依据。

以下为针对“电商用户复购行为样本(180天用户粒度)”的标准化数据质量诊断与可落地预处理建议。重点围绕分布形态、异常值、缺失、分类型频次、多变量关系及与复购相关的关键特征,并给出可复现流程,便于后续30/60天复购模型与运营分层使用。

一、范围核验与时间对齐(防止泄漏)

  • 时间窗口与标签定义
    • 数据时间范围:2025-01-01至2025-06-30,用户级汇总。
    • 明确as-of截面t0:建议以样本中每个用户的特征截面统一为2025-06-30(或明确的快照日),repurchase_30d/60d为t0之后行为。若当前标签是在同一180天内回看生成,需重构:特征≤t0,标签在(t0,t0+30/60]。避免使用跨越标签窗口的信息。
  • 衍生时间变量
    • recency_days = t0 - last_login_date(天)
    • tenure_days = t0 - register_date(天)
    • 若total_orders/amount等是“累计至t0”的话合规;若包含t0后数据需回溯修正。
  • 潜在泄漏字段
    • churn_risk_score若由近因行为/未来购买构建,需确认计算时点 ≤ t0;无法确认则从基线模型中剔除或只用于观察性分析。
    • customer_tier、marketing_group若在t0后有变更,需固定为t0状态。

二、分布形态分析(偏度、峰度)与可视化建议

  • 数值变量与预期形态(用Spearman/Kendall优先,受偏态影响小)
    • 金额类:total_amount、avg_order_value(AOV) 预期强右偏,高峰度,长尾且AOV偶发>10000极值。
    • 计数类:total_orders、pv_7d 预期右偏、零膨胀。
    • 比例类:coupon_used_rate、cart_abandon_rate、churn_risk_score 在[0,1],可能U形或偏向0;建议Beta分布拟合检视。
    • 时间类:recency_days、tenure_days 常呈右偏(新客集中或活跃集中取决于业务)。
    • age:可能多峰(代际差异),存在异常值与缺失。
  • 建议产出图表
    • 直方+核密度:对金额/计数使用对数坐标或log1p变换后再画。
    • 箱线图:按repurchase_30d/60d分组比较差异(并显示极端点密度)。
    • QQ图:金额类log1p后检查正态性改善程度。
    • 分类型频次条形图:gender、device_type、marketing_group、province、cate_top1(Top20 + 其它)。
    • 条形图+误差线:各分类组的阳性率及95%CI,识别差异性。
  • 报告指标
    • 每个数值变量:均值、中位数、MAD、IQR、偏度、峰度、P1/P5/P25/Median/P75/P95/P99/P99.5/P99.9。
    • 目标相关:点双列相关(repurchase vs 数值)、单变量AUC/IV(见第四部分)。

三、异常值检测与处理建议

  • 逻辑一致性校验
    • AOV一致性:检查 avg_order_value ≈ total_amount / total_orders。若相差>5%或total_orders=0且AOV>0,标记为不一致,优先以比值回算AOV(或以汇总重算)。
    • 金额合法性:total_amount>=0为主;存在负金额可能是退款/冲正。建议:
      • 引入refund_amount(若可从原始订单取)与refund_flag;
      • total_amount使用净额(含退款),并保留refund率特征;若无法拆分,检测total_amount<0的用户占比、金额体量后决定:极个别异常可置缺并以Winsor化后填补或剔除。
    • 0金额订单:核查订单级去重是否包含测试/取消单;若比率异常高(>1-2%用户层面),需要从订单层面回流清洗。
  • 统计式异常值
    • 金额/计数:采用双通道检测
      1. IQR法:上界 = Q3 + 3IQR;下界 = max(0, Q1 - 3IQR)。标记极端点。
      2. MAD稳健Z分数:|x - median| / (1.4826*MAD) > 5 作为极端点。
    • AOV极端值:已知偶见>10000,建议直接上Winsor阈值(见下),并在报告中单列占比、贡献度(这些极端用户对GMV贡献占比)。
    • age异常:<15或>85按异常标记并视业务规则置缺。
  • 建议截尾/Winsor化
    • total_amount、avg_order_value、total_orders、pv_7d:
      • 建议Winsor上阈:P99.5(样本25万,尾部量可控);敏感场景用P99.9再比较稳健性。
      • 下阈:P0.5或0(根据变量定义)。记录阈值并在模型和运营中保持一致。
    • 比例类一般不Winsor,如发现极端堆积0或1,可考虑加平滑:x’ = (x*(n-1)+0.5)/n(Laplace平滑)。
  • 变换建议
    • 金额/计数:log1p(x) 或 Yeo-Johnson(能处理0),用于线性/广义线性模型;树模型可用原值+截尾。
    • 比例类:logit变换仅用于线性模型;树模型保留原值即可。

四、缺失值模式分析与填补策略

  • 缺失现状
    • age缺失约35%(较高,可能非随机,与设备/注册渠道相关)。
    • province缺失约7%(较低,可视为较易处理)。
  • 分析方法
    • 缺失指示建模:为每个字段构造missing_flag,对missing_flag ~ {device_type, marketing_group, gender, customer_tier, total_orders, recency_days}做逻辑回归/卡方检验,判断MCAR/MAR/MNAR。
    • Little’s MCAR检验(若需统计判别)。
    • 缺失与目标:对比missing_flag分组的repurchase_30d/60d阳性率,若有显著差异,则“缺失本身”应作为特征保留。
  • 填补建议
    • age:
      • 建基准分桶:{<25, 25-34, 35-44, 45-54, 55+},缺失单独成“未知”桶,或用模型(梯度提升/MICE)在训练集内做有限信息填补并保留missing_flag。
      • 若做数值填补:分组中位数(按device_type/province/customer_tier分组)优于全局;对线性模型再加missing_flag降低偏误。
    • province:
      • 直接把缺失归为“未知”类别;保持单独频次。
    • cate_top1(若存在未知/稀有类):低频合并为“Other”(阈值如频率<1%),避免高基数稀疏。
    • 日期缺失:last_login_date缺失时,recency_days可设为一个上限值(如P99 recency)并加missing_flag。
  • 稳健性评估
    • 分桶后检查桶内repurchase率的单调性/方差;若age填补方案导致AUC降低或单调性破坏,使用“未知”独立桶优于数值插补。

五、分类型变量频次与分桶建议

  • 分类型频次
    • gender:保留F/M/未知;检查“未知”的比例与渠道是否相关。
    • device_type:app/web/mini;生成占比、阳性率并做显著性检验(比例差Z检验或卡方)。
    • province:31+未知,保留省份级别即可;可另衍生大区映射用于稳定性检验。
    • marketing_group:A/B/C,需验证是否为随机分流(若非随机,视为混杂因子)。
    • customer_tier:新/活跃/流失预警/VIP 可能与目标高度相关,谨慎与时间对齐。
    • cate_top1:如类别>30,进行Top20+Other,或用频率编码/目标编码(交叉验证内)。
  • 数值分桶(便于运营与可解释)
    • 金额类(log1p后或截尾后):五分位/十分位等距分位数分桶;用于PSI/稳定性监控。
    • AOV建议业务分桶:如 [0,50), [50,100), [100,200), [200,500), [500,1000), [1000,2000), [2000,5000), [5000,+)(先Winsor再分桶)。
    • total_orders:{0,1,2-3,4-6,7-10,>10},兼顾零膨胀与运营可读性。
    • pv_7d:按{0,1-2,3-5,6-10,>10}或分位数。
    • 比例类:等频(如5桶),并保留0/1端点专属桶(如=0,(0,0.2]…,=1)。

六、多变量关系与关键特征识别(与复购相关)

  • 目标相关性度量
    • 数值对二分类:点双列相关、单变量AUC、WOE/IV(基于分桶)。
    • 分类型:卡方、Cramér’s V、分组差异的AUROC(目标编码的单变量AUC)。
    • 期望强相关的候选:recency_days(负相关)、total_orders(正相关但非线性)、total_amount/AOV(正相关但需去极端)、pv_7d(正相关)、coupon_used_rate(正相关,但受marketing_group影响)、cart_abandon_rate(负相关)、customer_tier(序位强相关)。
  • 交叉与交互
    • device_type × marketing_group:检查是否存在分层差异(阳性率、平均特征差异的SMD>0.1即提示混杂)。
    • coupon_used_rate × marketing_group:营销策略对优惠使用与复购的中介效应。
    • province × device_type:渠道覆盖差异可能带来地域偏倚。
  • 多重共线性
    • total_amount、AOV、total_orders之间存在函数性关系;建模时避免同时输入强共线组合(对广义线性回归尤需注意)。树模型影响较小但仍建议剔除冗余。

七、营销分组与设备渠道的差异与混杂控制

  • 诊断
    • 检查marketing_group、device_type在关键特征(total_amount、pv_7d、coupon_used_rate、recency_days)上的标准化均值差(SMD);|SMD|>0.1提示不平衡。
    • 比较各组的repurchase率差异(卡方/比例Z检验)并计算调整前后差异(包含协变量后进行逻辑回归的边际效应)。
  • 控制建议
    • 预测模型:将marketing_group、device_type作为固定效应特征;必要时加入交互项。
    • 评估/AB:采用分层随机化或以group/device为层进行分层采样;离线回放时使用倾向得分(X=基线特征)进行IPW或匹配,减少混杂对效果估计的偏差。
    • 运营分层:各层级在device/marketing_group内做占比与效果监控,避免策略只在某设备有效。

八、可落地的预处理与采样流程(复现导向)

  • 数据校验(SQL示意)
    1. 主键与重复
      • SELECT COUNT() FROM users GROUP BY user_id HAVING COUNT()>1;
    2. 范围与一致性
      • 检查金额<0、AOV与amount/orders一致性、比例变量是否在[0,1]、日期在[2025-01-01, 2025-06-30]。
    3. 标签时间对齐
      • 确保repurchase_30d/60d发生在t0之后。若需重构,依据订单表按用户t0之后窗口重算。
  • 特征衍生与清洗(Python伪代码)
    • 对极值阈值先在训练集计算并固化
      • q = train[‘total_amount’].quantile([0.005,0.995]); 同理对AOV、orders、pv_7d
    • 处理
      • 纠正AOV:aov_calc = total_amount/clip(total_orders, lower=1)
      • 金额/计数Winsor:clip到训练集P0.5-P99.5
      • 变换:对金额/计数构造log1p版本(保留原值与log版二选一按模型类型)
      • 年龄:异常(<15,>85)置缺;构造age_bucket与age_missing_flag;优先用bucket
      • 省份:缺失->“未知”;cate_top1低频合并->“Other”
      • 时间:recency_days、tenure_days异常(负值/极大)置上限并加flag
      • 缺失指示:对重要字段添加missing_flag
    • 编码
      • 低基数:one-hot(gender, device_type, marketing_group, customer_tier)
      • 中高基数:target encoding(cate_top1,province)在交叉验证内完成,避免泄漏
    • 保留用于审计的中间列:winsor阈值、缺失标记、原始取值摘要
  • 训练/验证划分与采样
    • 时间分割:基于注册月或t0月,建议Jan–Apr训练,May验证,Jun测试,或滚动时间窗;确保用户不跨集合泄漏。
    • 分层抽样:按repurchase_30d标签与device_type、marketing_group分层,保持分布一致。
    • 类别不均衡(18%阳性)
      • 首选:类权重(如logistic/树模型的class_weight=‘balanced’)+校准(Platt/Isotonic)
      • 备选:欠采样负类至正:负≈1:3;或SMOTE(仅在特征空间稳定时,且注意泄漏、只在训练集应用)
    • 评估指标:PR-AUC、ROC-AUC、KS、F1@business-threshold、校准曲线;分组公平性(按device/marketing_group出分组AUC/KS)
  • 推理与AB衔接
    • 固化所有阈值(winsor、分桶、编码映射),以训练集为基准;离线/在线一致。
    • 输出评分与分层:例如基于预测概率的分位分层(Top10%,10-30%等),并保证分层内device/marketing_group构成稳定。
    • 监控:上线后按月计算PSI(特征与得分),>0.25提示漂移需复训。

九、与复购相关的重点特征与初步假设(用于重点检验)

  • 行为强相关候选:recency_days↓、pv_7d↑、total_orders↑、total_amount↑、coupon_used_rate↑、cart_abandon_rate↓、customer_tier(VIP>活跃>新/预警)
  • 可能的混杂链条:marketing_group影响coupon_used_rate与价格感知,进而影响复购;device_type影响活跃度(pv_7d)与登录频率,进而影响复购。
  • 建议用单变量AUC与IV排序前20个特征,剔除共线或重复信息后作为建模基座;对比例/计数采用分桶+WOE做一版可解释逻辑回归基线,与GBDT/XGBoost进行对比。

十、必要的质量检查清单(上线前必须通过)

  • 主键唯一、取值域合法(比例∈[0,1],日期范围正确)。
  • AOV与金额/订单一致性通过(不一致率<0.5%,并有修正逻辑)。
  • 极端值比例与阈值记录:各核心变量P99.5/P99.9数值与占比说明。
  • 缺失模式报告:age缺失的组间差异与对目标的影响;填补/分桶方案的AUC对比。
  • 分组稳定性:按device_type、marketing_group的目标率差异及关键特征分布SMD<0.1(或在模型中有控制项)。
  • 时间切分与标签对齐的审计SQL通过。
  • 训练-验证-测试集分布一致性(PSI<0.1)。

十一、可视化与报告最小集合(便于沟通与复现)

  • 概览表:每个变量的分位数、偏度、峰度、缺失率。
  • 核心图:
    • total_amount、AOV、total_orders、pv_7d的log直方图+箱线图(按标签分组)
    • age bucket、province、device_type、marketing_group频次与组内阳性率条形图
    • 目标相关性热力图(数值:Spearman;分类:Cramér’s V)
    • 单变量AUC/IV条形图Top20
    • 分组公平性:不同device/marketing_group下的模型KS/AUC对比
    • 校准曲线与PR曲线

十二、具体参数建议小结

  • 截尾/Winsor:金额/计数类使用P0.5–P99.5(敏感对比P99.9);比例类不截尾。
  • 变换:金额/计数log1p或Yeo-Johnson(线性类模型使用),树模型可用原值。
  • 分桶:金额/计数十等频或业务分桶;比例5桶并保留0/1端桶;年龄使用年龄段+未知。
  • 缺失:age缺失单独桶+missing_flag;province缺失=未知;其余关键字段加missing_flag。
  • 编码:低基数one-hot;高基数target/frequency encoding(CV内)。
  • 采样:时间切分+分层抽样;类权重优先,必要时轻度欠采样;指标以PR-AUC为主。
  • 混杂控制:device_type与marketing_group作为必备控制变量;必要时加交互或用PS/IPW做评估校正。

以上流程既可支持建模前的质量评估,也能直接落地为预处理/抽样管道,并与A/B实验和人群运营分层顺畅衔接。后续若提供抽样输出或字段样例,我可给出精确的阈值、图表示例与代码片段。

以下为面向“新一版风控评分卡与放款策略试点”的数据分析与方案说明。基于您提供的事实信息(例如:default_90d阳性率约6%、employment_length缺失约22%、income/loan_amount右偏重尾、存在负收入与dti>1、渠道间评分分布差异明显等),本文不虚构未提供的数值结果,而给出可复用的计算口径、分析步骤、检验方法、分箱与策略建议,确保在实际跑数后可落地执行与复核。

一、基于业务阈值的违规/边界样本占比与稽核建议

  1. 口径定义
  • 违规样本:
    • dti > 1 或 dti < 0(数据质量异常,优先校验);业务阈值违规:dti > 0.36。
    • credit_score < 650。
    • loan_amount > 100000(大额)。
    • monthly_income ≤ 0 或 极端大值(右尾异常,需winsorize或人工稽核)。
    • fraud_flag = 1(高风险),fraud_flag = 不确定(需二次核验)。
  • 边界样本(便于策略分层与人工审核优先级):
    • dti ∈ (0.33, 0.36](靠近阈值的灰区)。
    • credit_score ∈ [630, 660)。
    • loan_amount ∈ (90000, 110000]。
    • age ∈ [18, 21] 或 > 60(依业务规则设为边界)。
    • employment_length_month 缺失且 channel=线上(信息不充分的风险点)。
  1. 统计产出模板(按近12个月、按月、按channel/region分层均需出)
  • 总体与分层:样本数、正负样本数、阳性率(default_90d=1比例)。
  • 违规与边界占比:各口径的样本占比、对应阳性率。
  • 交叉:阈值维度 × channel/region 的违约率与占比,卡方检验差异显著性。
  • 漏斗:在应用硬规则(如dti>1、负收入、fraud=1)后,剩余样本覆盖率与阳性率提升。
  1. 稽核与策略建议
  • 数据质量稽核(上线即刻执行):
    • dti>1、dti<0、monthly_income≤0、age<18 或 >100、loan_amount≤0、credit_score<300或>900(按系统标准)全部标记为DQ异常;DQ异常比例>0.5%应追溯数据源映射与计算口径。
  • 策略边界管理:
    • 对dti>0.36的审批:优先与loan_amount、income共同评估(大额+高DTI需更高分数或人工核查)。
    • credit_score<650但loan_amount较小且无不良历史,可设试点小额限额与更高定价;<600建议硬拒或严控。
    • fraud_flag=1硬拒;不确定进入二审,叠加设备指纹/行为校验。
  • 合规与可解释:
    • 对所有“低分但放行”的案例保留override reason与佐证文件;按月稽核违约率偏高的override路径。

简要SQL示例(样例口径,落地需替换表名与字段)

  • 计算违规/边界占比与违约率(可按月/渠道分组): SELECT apply_month, channel, COUNT(*) AS n, AVG(default_90d) AS bad_rate, AVG(CASE WHEN dti>0.36 THEN 1 ELSE 0 END) AS p_dti_violate, AVG(CASE WHEN dti>0.33 AND dti<=0.36 THEN 1 ELSE 0 END) AS p_dti_edge, AVG(CASE WHEN credit_score<650 THEN 1 ELSE 0 END) AS p_low_score, AVG(CASE WHEN loan_amount>100000 THEN 1 ELSE 0 END) AS p_large_loan, AVG(CASE WHEN monthly_income<=0 THEN 1 ELSE 0 END) AS p_neg_income, AVG(CASE WHEN fraud_flag='1' THEN 1 ELSE 0 END) AS p_fraud FROM app_table GROUP BY apply_month, channel;

二、标签不均衡(~6%阳性)处理:采样/代价敏感对比

  1. 方案对比框架
  • 基准:时间切分验证(按申请月),评估指标以PR-AUC、AUC、KS、F1、召回率、校准(Brier、ECE)、分段坏账率稳定性为主。
  • 训练集处理方式:
    • 下采样(多数类):控制事件比例到约20–40%,简化优化且训练快;缺点是可能丢失信息,概率校准需后处理(如Platt/Isotonic)。
    • SMOTE/ADASYN:提升少数类覆盖;注意仅在训练集、且与时间窗/折内做;对离群点敏感,需先做异常处理与分箱。
    • 代价敏感(class_weight/成本矩阵):保留全量信息,优化与业务损失更一致;对LR/树模型均易用;推荐为首选基线。
  • 推荐路径:
    • 首选代价敏感(class_weight={0:1, 1:k},k按坏样稀缺与业务成本校准),对比下采样与SMOTE+LR/GBT两条分支。
    • 概率输出需校准(Isotonic on validation),并用分段坏账率回归线检验校准。
  1. 交付的对比表(建议离线跑数后填充)
  • 三方案 × 模型(逻辑回归/GBDT)× 验证窗口:PR-AUC、KS、召回@固定通过率、过拟合差(train–valid KS)、校准斜率、分群PSI。
  • 选择策略:在相近PR-AUC下优先校准好、分层稳定性高的方案。

三、连续变量的WOE/分箱建议与稳定性评估

  1. 分箱原则
  • 不泄露未来信息:所有变量“以申请时点截面”为准。
  • 分箱目标:单调WOE、每箱事件数≥5%总体、每箱正样本≥50(视样本量可调)。
  • 缺失单独成箱(特别是employment_length_month约22%缺失)。
  • 起点优先使用业务阈值+分位数混合分箱,再用最优分箱(optbinning/MDLP)微调以保证WOE单调。
  1. 变量级建议(方向为预期单调关系,实际需以数据验证)
  • dti:强右偏,先裁剪到[0,1.2],>1标记DQ异常。建议分箱:≤0.18, (0.18,0.24], (0.24,0.30], (0.30,0.36], (0.36,0.45], >0.45。WOE应随dti升高而下降(风险上升)。
  • credit_score:建议按业务阈值与分位结合:<600, [600,630), [630,650), [650,700), [700,750), ≥750。WOE随分数升高而上升(风险下降)。
  • loan_amount:右偏重尾,先log变换log1p,再按分位+大额阈值切:≤20k, (20k,50k], (50k,100k], >100k。原值可增加“是否大额”指示变量。
  • monthly_income:负值单独箱(DQ),0–P20, P20–P40, …, P80–P95, >P95;并提供log1p(income_clip)与winsorize(P1,P99)版本。
  • employment_length_month:缺失单独箱;其余如[0,6), [6,12), [12,36), [36,60), [60,120), ≥120,WOE随工龄增长改善。
  • existing_loans:0, 1, 2–3, 4–5, >5,预期贷款数越多风险上升(注意与dti交互)。
  • delinquency_12m:0, 1, 2, ≥3,WOE单调下降(违约次数越多风险越高)。
  • current_balance、days_past_due:需确认为“申请时点对历史账户”的外部/内部征信变量;若可能包含本次贷款后信息,必须排除避免泄露。若确认是历史征信:days_past_due分箱为0, 1–29, 30–59, 60–89, ≥90;current_balance按分位切,结合逾期历史。
  • age:<22, [22,25), [25,30), [30,40), [40,55), ≥55;极端年龄单独箱。
  1. 稳定性评估
  • 计算每变量每月PSI,PSI≤0.1稳定,0.1–0.25轻微漂移,>0.25预警;同时按channel/region分层PSI。
  • 分箱后IV评估:IV<0.02弱,0.02–0.1中,0.1–0.3强,>0.3需警惕变量可能含重复信息/泄露;以分层IV对比判断变量在不同渠道的区分度差异。
  • 趋势检验:对连续分箱的违约率使用Cochran-Armitage trend test检验单调趋势显著性。

Python示例(optbinning) from optbinning import OptimalBinning X = df["dti"].clip(lower=0, upper=1.2) y = df["default_90d"] optb = OptimalBinning(name="dti", dtype="numerical", monotonic_trend="descending", min_bin_size=0.05) optb.fit(X, y) bin_table = optb.binning_table.build()

四、渠道、地区的分层稳定性与潜在偏见提示

  1. 必做分层稳定性
  • 指标:各channel/region的样本占比、坏账率、模型AUC/KS、PR-AUC、校准(分段期望-实际坏账率差)、拒绝推断(Reject Inference,如有)。
  • 漂移:按月×channel计算PSI与坏账率差,显著性用卡方/比例z检验(α=0.05,Bonferroni校正)。
  • 评分分布差异:K-Sample Anderson-Darling或Kolmogorov-Smirnov检验渠道间分数分布。
  1. 潜在偏见与策略
  • 若某channel在相同score band下违约率显著偏高,考虑:
    • 分渠道阈值(同分数不同放款阈值)或分渠道模型(若数据量足)。
    • 加入channel×(dti/credit_score/income)交互项,以提高全局模型适配。
  • 地区差异:
    • 对region进行目标编码或分组(东部/中部/西部/东北,或按人均收入分层),防止高基数稀疏噪声。
    • 若发现个别地区样本少且波动大,限制其策略由全局模型+规则兜底。
  • 合规提示:
    • 避免以地区或渠道本身作为直接拒绝依据;应以风险可解释特征驱动,且保证同分同策(equalized odds检查可作为参考:TPR/FPR差异<5%为目标)。

五、异常值检测与分布形态分析(含数值分位、离散程度)

  1. 分位与离散指标清单
  • 每变量计算:P1/P5/P10/median/P90/P95/P99、均值、标准差、极差、IQR、偏度、峰度;按月输出趋势线。
  • 右偏变量(income、loan_amount、dti):
    • 使用Yeo-Johnson或log1p变换,winsorize(P1,P99或P0.5,P99.5),并保留原始异常指示位(如income_negative、dti_over1)。
  • 异常值检测:
    • 连续:Robust Z-score(基于Median与MAD,阈值|z|>3),IsolationForest用于模型辅助,但最终业务上采用截尾/钳制+人工核查结合。
    • 分类:低频类别合并为“other_xxx”,阈值如占比<1%。
  1. 统计检验
  • 分布差异(跨channel/region):KS检验(数值)、卡方检验(分类),必要时用Cramér’s V衡量相关性强弱。
  • 多变量关系:数值间用Spearman相关(对非正态鲁棒),分类-数值用ANOVA或Kruskal-Wallis(非参数)。

六、可复用的数据清洗、异常处理与特征变换步骤(可直接落地) 步骤顺序建议:

  1. 时间与主键对齐
  • 以apply_date为准做时间窗切分(train: T-12T-4、valid: T-3T-2、test: T-1~T),避免数据泄露。
  • app_id去重:同一客户同日多申请时取最早/主单;保留重复申请标记作为特征(如近30天申请次数)。
  1. 规则化校验与异常标记
  • 范围:dti∈[0,1.2](>1标DQ),income>0,age∈[18,100],loan_amount>0,credit_score∈[300,900](按供应商范围)。
  • 缺失:employment_length_month缺失单独标记miss_emp=1;其他变量同理miss_xxx。
  1. 变量裁剪与变换
  • 连续:winsorize(P1,P99),log1p(income, loan_amount, current_balance),Yeo-Johnson对可能为0/负的字段(若保留)。
  • 比率:dti_cap = min(dti, 1);新增 ratio_loan_income = loan_amount / max(income, eps)(仅用于特征,策略仍以dti为准)。
  • 分箱:按第四部分方案落地WOE分箱,输出WOE编码与分箱边界文件(供离线/在线一致化)。
  1. 编码
  • 分类:channel、region、product_type、fraud_flag用目标编码或频数编码+正则化;线上部署倾向于WOE编码。
  1. 采样/权重
  • 训练集内应用class_weight或下采样/SMOTE(仅训练折内);验证与测试保持原始分布。
  1. 模型与校准
  • 基线:Monotonic LR(L2正则)+WOE;备选:GBDT/XGBoost(限制深度以可解释)。
  • 概率校准:Isotonic在验证集;导出分段坏账率对照表。
  1. 漂移与稳定监控
  • 每月生成变量与分数PSI、坏账率、通过率、分段坏账率校准图;阈值预警与回滚机制。

七、多变量关系与交互探索(支持特征工程与分策略)

  • 相关性矩阵(Spearman)与VIF筛查多重共线(VIF>10考虑剔除/合并)。
  • 交互建议:
    • channel × credit_score(不同渠道评分卡差异)。
    • dti × income(同DTI下收入高者风险可能更低)。
    • loan_amount × credit_score(大额更依赖高分)。
    • employment_length_missing × channel(线上缺失信息风险偏高)。
  • 统计验证:分层违约率曲线+Logit交互项显著性(Wald检验,p<0.05)。

八、离线训练与灰度A/B建议

  • 灰度策略:Champion(现行) vs Challenger(新卡+策略门槛)。按channel分层随机,保持6–8周试点。
  • 指标:通过率、90天坏账率、单位风险收益(利润或风险调整后收益)、分段校准、客户结构变化(PSI)。
  • 样本量预估:以当前坏账约6%,若目标相对下降10–15%(例如从6.0%到5.1–5.4%),用双侧比例检验估算组样本需达数万级才能具备足够功效;建议以历史自然流量分配30–50%为Challenger,或按渠道滚动灰度。
  • 风控阈值:按验证集PR曲线选择在业务给定成本矩阵下的最优cut;大额、边界DTI、低分三类引入更严格cut或人工核批。

九、需要特别核实与避免泄露的字段

  • days_past_due、current_balance、delinquency_12m:确保是申请时点的历史征信/外部账户数据,不含本次放款后的表现。
  • 重复申请:仅将“历史次数/近30天次数”作为特征,不使用未来窗口统计。
  • fraud_flag:如为事后调查结果,训练时应仅使用申请时可得的欺诈信号版本;否则存在泄露风险。

十、交付物清单(建议)

  • 数据质量与阈值违规月报(含channel/region分层、卡方检验)。
  • 不均衡策略对比报告(下采样/SMOTE/代价敏感×模型×窗口的指标矩阵与显著性对比)。
  • 分箱边界与WOE映射表(含IV、PSI、单调性检验)、线上一致性校验脚本。
  • 分渠道/地区稳定性与偏差评估(AUC/KS/校准/TPR-FPR差异,含预警清单)。
  • 统一数据处理与特征流水线代码(含切分、清洗、异常、编码、采样、校准与监控)。

如需,我可以根据真实跑数结果,将上述模板中的“比例、PSI、IV、KS、PR-AUC、阈值点”等填入具体数值,产出最终策略建议与上线包。

以下为基于所给数据结构与业务背景的“周报级监控模板”与方法建议,聚焦核心指标、事件定义、检测算法、可恢复性判断与面向运营的可视化/阈值配置。内容按可直接实现与扩展的顺序组织。

一、数据与事件建模(5分钟粒度)

  1. 采样与完整度
  • 期望每设备每日样本数:288
  • 日完整度 completeness = obs_count / 288
  • 缺失段定义:相邻时间戳时间差 > 5 分钟的连续区间
    • gap_start = current_ts
    • gap_end = next_ts
    • gap_minutes = (gap_end - gap_start) - 5
  • 按设备生成缺失事件表 events_gap(device_id, site_id, start_ts, end_ts, gap_minutes)
  1. 越界事件(温度合规)
  • 业务阈值:2–8°C
  • 抖动抑制与迟滞(减少误报):
    • 进入越界:温度 < 1.8 或 > 8.2,且连续2个点满足
    • 退出越界:回到 [2.0, 8.0] 且连续2个点满足
  • 越界事件表 events_excursion(device_id, site_id, start_ts, end_ts, duration_min, bound=low/high)
  • 严重度(度·分钟):
    • 对每个越界事件,S = Σ_t max(2 - temp, 0) 或 max(temp - 8, 0) × 5
    • 设备/站点级汇总:周累计 S_week,P95 事件时长,最大连续时长
  1. 尖峰与阶跃异常
  • 尖峰(Spike):
    • Hampel 滤波(窗口7点=35分钟):|x_t - median| / MAD > 3
    • 或一阶差分:|Δtemp| > 1.5°C/5分钟 且异常点长度 ≤2
  • 阶跃(Step/Level shift):
    • 变点检测:PELT(L2损失,最小段长≥6点=30分钟,BIC惩罚)
    • 判定:相邻段均值差 ≥ 0.8°C 且维持 ≥ 30 分钟
  • 合并规则:
    • 相邻尖峰间隔 ≤ 10 分钟合并为一事件
    • 阶跃事件内的尖峰归并到阶跃事件
    • 阶跃若持续 ≥ 12 小时且新水平稳定,标记为“基线漂移”而非瞬态异常
  1. 门磁与告警联动
  • 门开标识对短时升温有影响:
    • 在 door_open_flag=1 到其后 10 分钟内(仓/门店)或 5 分钟内(车载)的临时越界,设置 suppressed=1,不计入合规但保留为“操作性事件”
  • 与 alert_flag 的对齐用于校准规则(计算召回/精确率)
  1. 通讯健康
  • RSSI 与缺失/噪声关联:为每日记录 rssi_dbm 的p10、median
  • 电池健康:
    • 每日电压均值与日降速 d(battery_v)/day
    • 预警阈值建议初始:battery_v < 2.7V 或 7日均降速 > 0.05V/日;紧急:battery_v < 2.6V(基于常见3V节点经验,后续用分位数再标定)

二、核心指标(设备/站点/站点类型/固件版本)

  1. 合规与越界
  • 时间内合规率:within_rate = time_in_[2,8] / total_observed_time
  • 越界次数、总时长、P95时长、最大连续时长
  • 严重度 S(度·分钟)与每24小时标准化 S/24h
  1. 缺失模式
  • 每日完整度、周完整度
  • 缺失段长度分布(P50、P90、>30min、>60min 占比)
  • 缺失与 RSSI、battery 的相关(Spearman)与基于阈值的风险分层
  1. 离散程度与分布
  • 日均、日方差、日极差、日CV
  • 周层面的偏度/峰度(识别重尾与异常波动)
  • 站点类型间的离散比较:median(var_day) 与 IQR;差异效应量(Cliff’s delta / Cohen’s d)
  1. 周期性
  • 日内模式(小时平均曲线)与STL分解(weekly seasonality + daily)
  • 门开驱动的短周期对温度曲线的贡献(门开时段的温度均值与方差对比)
  1. 固件版本与读数偏移
  • 模型:稳健线性混合效应 temp ~ firmware_version + site_type + hour + (1|device_id) + (1|site_id)
  • 输出:v2-v1 的估计偏移与95%CI;若偏移>0.2–0.3°C 且显著,需在告警阈值或设备校准中折算

三、缺失值可恢复性评估

  1. 分段策略
  • 可直接插值:单段 gap_minutes ≤ 15 分钟,线性插值
  • 条件修复(Kalman/局部水平模型):15 < gap ≤ 60 分钟 且前后各≥60分钟稳定数据、日内温度方差≤阈值(例如日P50方差×1.5)
  • 放弃填补:gap > 60 分钟,或车载在行驶时段(高方差),或缺乏前后锚点
  • 站点协同插值(仅仓/门店):同site_id 多设备强一致时,使用站点中位数作为先验,Kalman观测噪声减小50%
  1. 结果标注
  • imputed_flag,impute_method=linear/kalman/none;填补覆盖时长占比;对合规与异常统计的影响需双版本输出(原始/填补后)

四、尖峰与阶跃异常检测与合并的操作规则

  • 尖峰:Hampel>3MAD 或 |Δ|>1.5°C;孤立长度≤2点
  • 阶跃:PELT变点,幅度≥0.8°C,持续≥30分钟
  • 门开抑制:门开期间及后滚动窗口内临时越界 suppressed
  • 事件合并:同类型事件起止间隙≤10分钟合并,尖峰并入阶跃
  • 升级判定:
    • 事件在越界区间内且 S≥阈值(如下)→ 告警
    • 事件伴随通信缺失或RSSI<-95dBm → 同时触发通讯预警
  • 阈值建议初始(后续按ROC调参):
    • “预警”:预计未来30分钟内距阈值<0.5°C 且温度斜率>|0.2|°C/5min
    • “告警”:连续越界≥30分钟或 S≥150 度·分钟(相当于高出1°C持续150分钟或高出3°C 50分钟)
    • “重度”:连续越界≥120分钟或 S≥600 度·分钟

五、固件与站点类型的差异对比与维护定位

  1. 固件偏移
  • 输出 v1 与 v2 的偏移估计和置信区间;若偏移>0.3°C:
    • 在规则引擎中对v1/v2应用校正项或独立阈值带(例如上/下界±偏移/2)
    • 标记偏移超限的设备清单用于现场校准
  1. 站点类型离散度
  • 预期车载:方差与越界频率较高
  • 维护定位:
    • 方差排名Top N设备/站点
    • 越界总时长与严重度S的Pareto(80/20)
    • 缺失>10%日均或RSSI中位<-95 dBm的设备清单(通讯治理)

六、可视化与周报模板(快速概览)

  1. 车队/全局
  • 合规率总览:按站点类型堆叠柱(时间占比在2–8°C)
  • 越界Pareto:按站点/设备的周累计S(度·分钟)Top 20
  • 缺失矩阵:设备×日的日完整度(日历热图)
  1. 站点页
  • 温度热图:设备×时间(日内),标注越界与门开
  • 越界事件甘特图:事件持续条,颜色按严重度S
  1. 设备页
  • 时序分解:原始、STL趋势、季节、残差;标注尖峰/阶跃
  • 控制图:日均与日方差的周控图(P95带;异常高亮)
  • 电池与RSSI趋势:叠加缺失率
  1. 固件/站点类型对比
  • 箱线图:日均温度、日方差按 firmware_version、site_type 分组
  • 偏移估计:v2-v1 的点估计与95%CI(误差棒图)
  1. 交叉验证
  • 检测事件与 alert_flag 的PR曲线与混淆矩阵(周度)

七、计算实现要点(78M行规模)

  • 存储与计算:Spark/Polars 或 DuckDB(分区:date, site_id, device_id;排序:timestamp)
  • 缺失事件检测:
    • 使用窗口函数 lead(timestamp) 计算 dt;dt>5min 建立 gap 事件
  • 越界事件分段:
    • 构造状态标记 in_oob(迟滞后),对状态变更做分段ID(累积和)
    • 聚合 start_ts, end_ts, duration, S
  • 异常检测:
    • 滚动窗口(7点)计算median/MAD;一阶差分Δtemp
    • 变点:PELT 实现可用 ruptures 库(批处理),分日或分设备分周以控内存
  • 日聚合表:
    • daily_metrics(device_id, date, within_rate, var, range, mean, completeness, S_total, oob_count, max_oob_duration, battery_mean, rssi_p10/p50, missing_minutes)
  • 事件表:
    • events_excursion, events_gap, events_spike, events_step(含 suppressed 与 merged 标记)
  • 性能:
    • 先按设备分桶处理,再合并汇总;对事件化操作优先,避免在明细层反复扫描

八、阈值与抑制窗口建议(首版,后续以数据校准)

  • 温度迟滞:1.8/8.2 进入,2/8 退出
  • 门开抑制:仓/门店10分钟,车载5分钟
  • 缺失预警:车载≥15分钟、仓/门店≥30分钟;严重≥60分钟
  • RSSI风险:median <-95 dBm 进入风险区;<-100 dBm 高风险
  • 电池:<2.7V 预警,<2.6V 严重;7日降速>0.05V/日预警
  • 阶跃幅度阈值:≥0.8°C,最小持续30分钟
  • 尖峰判定:Hampel>3MAD 或 |Δ|>1.5°C/5分钟;事件合并间隙≤10分钟
  • 告警严重度S:预警≥150,严重≥600 度·分钟

九、产出与运营动作

  • 周报输出
    • 站点类型合规率表与趋势
    • 站点/设备越界Top N与责任人列表
    • 缺失率Top N与通讯健康(RSSI、电池)联动表
    • 固件偏移评估与需校准设备清单
    • 阈值表现评估:与 alert_flag 的召回/精确率、F1,建议调参值
  • 运维动作
    • 通讯优化:RSSI<-95 dBm 的站点改善网关布设或SIM套餐诊断
    • 电池更换:低电+高缺失优先级更换
    • 传感校准:固件偏移超阈值的批次安排标定
    • 流程优化:门开导致的可接受温升与抑制窗口共同校准(分站点类型)

十、校准与验证

  • 采用逐步阈值扫描(grid search)最大化告警的F1或以重度事件召回为主
  • 使用稳健统计(中位数/IQR)控制极端值对阈值的影响
  • 对比填补前后合规率变化,若差异>2个百分点,保留双口径并在报表中解释

上述方案覆盖“缺失模式、异常点与漂移”的检测与量化,并给出面向告警与质控的可操作规则与可视化模板。建议先在1–2周历史数据上离线跑通事件化与阈值校准,再上线周报与实时预警。

示例详情

该提示词已被收录:
“数据分析师必备:高效洞察与建模提示词合集”
覆盖从数据理解到建模全流程,助你提升分析效率
√ 立即可用 · 零学习成本
√ 参数化批量生成
√ 专业提示词工程师打磨

解决的问题

将通用AI一键化为“数据集分布分析专家”,帮助业务与数据团队在最短时间内获得可落地的分布洞察与行动建议。典型目标包括:1)快速识别数据是否可用与可信(异常值、缺失、偏态、极端点、类别不均衡等);2)为建模、A/B实验、画像分层、指标复盘提供标准化的分布报告与可视化建议;3)给出可执行的预处理与采样策略,减少试错成本;4)用一致、专业、清晰的表达输出多语言报告,提升跨团队沟通效率与决策信心;5)把分析从“人依赖”变成“流程化”,在分钟级完成原本需要数小时的工作,促进从试用到团队级规模化使用。

适用用户

数据科学家与算法工程师

快速完成数据探索与分布诊断,选择合适的特征变换与抽样策略,提前暴露风险与偏差,加速建模迭代与上线

BI分析师与数据可视化从业者

根据智能建议挑选图表与维度,生成易读的管理报告与监控看板,更快发现趋势与异常,支持业务复盘

产品经理与增长团队

洞察用户分布与长尾行为,制定分群策略、触达节奏与实验方案,用数据驱动转化率、留存与活跃提升

特征总结

一键生成数据分布画像,快速呈现集中趋势、离散程度与异常值,秒懂数据全貌
自动识别偏态与长尾,提供分箱、数值变换、抽样等可执行方案,提升建模稳定性
智能推荐可视化方式,直出图表类型与维度组合,让报告更直观、更易被业务看懂与采用
场景化分析模板覆盖营销、客服、风控等,一键套用,直接生成结论与行动清单
支持多语言输出与语气切换,同一分析可面向不同受众发布,促进跨团队协作
自动生成数据清洗清单,定位缺失、重复、异常值,逐项给出处理建议,缩短准备时间
专业且结构化的写作输出,逻辑清晰、证据充足,显著降低沟通成本,加速会议决策
灵活设置分析深度与细节颗粒度,按目标切换概览或深入诊断,避免冗余信息
建模前可用性与风险评估,识别数据偏差与样本问题,避免上线后效果波动与浪费
结论溯源与边界提示,确保严谨可信,不夸大,可直接用于内部外部汇报与呈现

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥25.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 275 tokens
- 4 个可调节参数
{ 数据集摘要 } { 核心分析维度 } { 期望的分析深度 } { 业务背景与目标 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
使用提示词兑换券,低至 ¥ 9.9
了解兑换券 →
限时半价

不要错过!

半价获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59