×
¥
查看详情
🔥 会员专享 文生文 数据分析

数据集特征智能提炼

👁️ 357 次查看
📅 Dec 2, 2025
💡 核心价值: 本提示词旨在高效、精准地提炼与分析数据集的核心属性与关键特征。作为数据挖掘专家,它将基于用户提供的具体数据集信息,运用专业的数据挖掘视角,系统性地总结数据规模、结构、质量、分布模式及潜在价值,输出结构化、客观的技术报告,帮助用户快速理解数据本质,为后续分析或建模奠定基础。

🎯 可自定义参数(4个)

数据集描述
待分析数据集的详细信息,包括数据来源、规模、主要字段及其含义、业务背景等。
分析维度
需要进行分析的具体维度方向。
总结深度
总结报告的详细程度。
已知业务问题或目标
希望通过数据分析解决的业务问题或达成的目标。

🎨 效果示例

电商行为与订单数据集分析报告(面向转化、复购与价格/优惠弹性)

摘要

  • 数据规模与覆盖:时间范围 2023-01-01 至 2025-06-30(共 912 天;2023:365 天≈40.0%,2024:366 天≈40.1%,2025H1:181 天≈19.9%)。当前全量约 2,800 万行,82 列。按 dt, province 分区,T+1 入湖(Parquet)。
  • 平均数据量:≈30.7k 行/日(28,000,000 / 912),≈93.3 万行/月(共 30 个月)。
  • 主键与关联:fact_order 为主事实表,结合 fact_refund、dim_user、dim_sku,主键/关联键:order_id, user_id, sku_id。
  • 已知质量风险:支付失败重试导致订单重复、线下自提单缺 click_path、部分历史 sku 缺 cate_lvl3、省市表述不一。
  • 业务目标映射:提供转化与复购关键因子评估、价格/优惠弹性验证方法论与所需清洗策略;给出 RFM、转化预测、智能券投放的特征工程与建模落地建议。
  1. 数据规模与结构
  • 表结构与关系
    • fact_order(核心):订单级;字段包含价格、数量、优惠、实付、渠道、设备、类目、地理、投放信息、行为摘要(click_path_len、dwell_time_s)、履约与评价、退款标记等。
    • fact_refund:退款金额、退款时间/原因;与 order_id 关联。
    • dim_user:用户画像、member_level、首单标识、渠道/来源等。
    • dim_sku:商品/类目(cate_lvl1/2/3)、品类属性。
  • 分区与访问
    • 分区键 dt, province;建议查询按 dt 下推并带 province 过滤以降低扫描。
    • 注意倾斜:热点省份或大促日期可能产生数据倾斜,建议开启动态分区裁剪与倾斜处理(如 map-side 聚合、盐值打散)。
  1. 字段类型建议与分布刻画(用于建模与画像)
  • 类型建议(节选)
    • 标识类:order_id(STRING, 主键)、user_id(STRING)、sku_id(STRING)
    • 类目:cate_lvl1/2/3(STRING,标准化为层级编码),缺失以上层类目/sku 历史众数填充
    • 金额数量:price, coupon_amount, paid_amount(DECIMAL(12,2));qty(INT)
    • 时间类:pay_time, delivery_time(TIMESTAMP);派生 SLA:delivery_hrs = (delivery_time - pay_time)/3600
    • 枚举/类别:pay_method, device_type, channel, traffic_source, shipping_method, member_level, province/city(STRING,需标准化)
    • 行为摘要:click_path_len(INT),dwell_time_s(INT/DOUBLE),review_score(INT 1-5),review_text_len(INT)
    • 投放:campaign_id(STRING/INT),first_order_flag(BOOLEAN),refund_flag(BOOLEAN),refund_amount(DECIMAL)
  • 关键派生特征(用于统计与建模)
    • gmv = price*qty(下单维度毛额)
    • discount_rate = coupon_amount / nullif(price*qty,0),裁剪到[0,1]
    • net_paid = paid_amount(必要时对价税运分摊对齐)
    • aov = net_paid 按订单聚合的客单价
    • is_full_refund = (refund_amount >= net_paid - epsilon)
    • time_to_deliver_hrs,time_to_refund_hrs
    • new_user = first_order_flag 或 min(pay_time)分界
    • engagement = f(click_path_len, dwell_time_s)(可标准化 z-score 或分位数缩放)
    • cate_lvlX_onehot/target encoding;province/city 标准化后编码
  1. 数据质量评估(缺失/异常)与清洗策略
  • 重复与去重
    • 支付失败重试:同 order_id 多行;采用窗口去重:
      • 仅保留 order_status ∈ {paid, completed} 中状态优先级最高且 pay_time 最新的一条;如无成功状态,保留最新一条并标注 failed。
      • 重复率度量:dup_rate = (count() - count(distinct order_id))/count()
  • 金额一致性校验
    • 期望关系:abs(paid_amount - (price*qty - coupon_amount)) ≤ 0.01(允许四舍五入误差);记录偏差率 err_rate
    • 合理边界:price>0,qty≥1,coupon_amount∈[0, price*qty];越界计入异常
  • 缺失值与修复
    • click_path_len 缺失(线下自提单):以 0 填充并打 is_offline_self_pick 标记,避免与线上行为混淆
    • cate_lvl3 缺失:优先用 dim_sku 最新映射补齐;仍缺失则以 cate_lvl2 代理并打缺失标记
    • province/city 标准化:字典映射+模糊匹配(edit distance)到 GB/T 行政区规范;无法匹配记为 Unknown 并回填省级
  • 枚举标准化
    • channel:自然/付费/社交 统一枚举;traffic_source 与 campaign_id 规范化(大小写、空格)
    • device_type:PC/Mobile/App/H5;pay_method 标准化(WeChat/Alipay/UnionPay/…)
  • 异常与极值处理
    • dwell_time_s、click_path_len 长尾:对建模做 99pct winsorize 或对数变换
    • delivery_hrs 负值或过大(> 30 天)计入异常率并剔除/截断
    • review_score 非 1–5 或空值,空值单独一档
  • 质量度量建议(需执行得到具体数值)
    • 缺失率:missing_rate(col) = sum(col is null)/N
    • 业务一致性:金额匹配 err_rate、负金额/数量占比、退款与订单匹配率、地理标准化成功率
  1. 关键统计特征(当前可确定与建议输出)
  • 已确定统计值
    • 时间覆盖:912 天;分布 2023: 40.0%,2024: 40.1%,2025H1: 19.9%
    • 全量行数:约 28,000,000;列数:82
    • 平均日量:≈30.7k 行/日;平均月量:≈93.3 万行/月
  • 建议输出(执行后填充)核心指标
    • 订单粒度:总 GMV、净 GMV(扣退款)、订单数、SKU 数、用户数、AOV 中位/均值、qty 分位数、折扣率分布(P50/P90)、退款率、全额退款占比
    • 渠道/设备:不同 channel/device 的订单占比、AOV、转化率差异(需与行为曝光数据结合)
    • 类目:cate_lvl1/2/3 的 GMV/订单贡献矩阵与长尾度(赫芬达尔指数)
    • 地域:省份 GMV/订单渗透与客单价差异;省份标准化后覆盖率
    • 时序:按周/节假日/大促的 GMV/订单/折扣率/退款率波动与季节性
  1. 潜在模式或关联(假设与验证路径)
  • 转化相关(需联结行为日志形成会话/曝光层)
    • 折扣率、coupon_amount 与转化概率正相关,但存在边际递减;需控制曝光偏差与用户倾向
    • 自然/付费/社交流量的转化差异显著;付费中不同 campaign_id 的 CPA/CVR 异质性大
    • 首单标识、新老客、member_level 与转化/客单价显著相关(高等级客单价高、折扣敏感度低)
    • 交付预期(历史 delivery_hrs)较短的 SKU/品类转化更高
  • 复购相关
    • review_score 与复购正相关,差评后短期复购显著下降;履约时效过长显著损害复购
    • 高 engagement(dwell_time_s、click_path_len 合理范围)与复购正相关,但极端长停留可能是犹豫/比价
  • 价格/优惠弹性
    • 同 SKU 的周度面板中,价格上调与销量变化呈负相关;弹性在快消类绝对值更大,耐用品更小
    • 优惠的“替代效应”:直降 vs. 券对转化与 AOV 的影响不同;券更易拉新,直降更易放大基盘
  1. 面向目标的可用字段与建模建议 6.1 RFM 分群(复购/高价值人群识别)
  • 清洗策略
    • 去重订单,剔除全额退款;部分退款按 net_paid 调整
    • 时间切片:以分析日期 T(例如 2025-06-30)计算 Recency(天)、Frequency(订单数)、Monetary(净支付额)
  • 字段
    • user_id,pay_time,net_paid(扣退款),refund_flag/amount,first_order_flag,member_level,channel,province
  • 模型与切分
    • 分位数打分(R/F/M 各五分位)或 KMeans/GMM 在 [log(Recency+1), log(Frequency), log(Monetary)] 上聚类
    • 输出:高价值人群(高 F/M、低 R)、沉睡人群(高 R、低 F/M)及其占比、贡献

6.2 转化预测(CVR)

  • 样本构造
    • 行为曝光/会话级样本;label=是否下单;负样本为有曝光无下单
    • 时间外推验证:训练窗 T-120 至 T-30 天,验证窗 T-30 至 T
  • 特征
    • 用户:member_level、历史 R/F/M、是否新客、历史退款率
    • 行为:click_path_len、dwell_time_s、近7天访问次数、近7天加购/收藏(如可得)
    • 商品:cate_lvl1/2/3、价格分位、历史转化率、库存/配送时效代理(delivery_hrs 历史中位)
    • 渠道/投放:channel、traffic_source、campaign_id、付费标记
    • 价格/优惠:price、discount_rate、coupon_amount、有无券(one-hot)、券类型(若有)
  • 模型
    • 基线:L2-正则逻辑回归(便于可解释),提升:XGBoost/LightGBM
    • 解释:SHAP/Permutation Importance;做单调约束对 price 与 CVR
    • 注意泄露:禁止使用下单后才出现的 review_*、delivery_time 等

6.3 智能券投放(Uplift/CATE)

  • 处理效应定义
    • Treatment:coupon_amount>0 或 exposure_to_coupon=1
    • Outcome:是否转化或净收益(净支付额-券成本)
  • 方法
    • 双模型(T-learner)、因果树/因果森林、DR-learner;或配合倾向评分加权(IPW)
    • 目标:最大化 uplift 或净利润 uplift;加入成本约束与频控
  • 关键特征
    • 用户价格敏感度代理(历史折扣响应/弹性)、member_level、RFM、渠道、品类偏好
  • 评估
    • Qini/Gini uplift、利润提升,离线与在线 A/B 一致性检验

6.4 价格/优惠弹性测算(Demand/Elasticity)

  • 面板回归(建议 SKU-周 粒度)
    • 规格:ln(qty) = βp ln(price) + βd discount_rate + γX + α_sku + τ_week + ε
    • 控制:SKU 固定效应(α_sku)、周固定效应(τ_week)、渠道/活动/季节性(X)
    • βp 为价格弹性(期望为负),βd 为优惠半弹性
  • 稳健性
    • 使用工具变量/回滚实验(如调价规则、上游成本)缓解内生性
    • 断点回归或差分法验证大促节点
  • 输出
    • 分品类/省份/用户群的弹性分布,中位数与 IQR;用以指导差异化定价与券策略
  1. 可执行数据质量与画像脚本示例(SQL 轮廓)
  • 去重订单视图
    • 思路:按 order_id 排序,优先成功状态,取 pay_time 最新
  • 金额一致性与异常率
    • 计算金额偏差率、负值、越界占比
  • 缺失率扫描与分位数
    • 对金额与行为字段输出 P50/P90/P99、缺失率
  • 退款合并与净额
    • 合并 fact_refund 计算 net_paid_after_refund、is_full_refund
  • 价格/销量按周面板
    • 聚合到 sku, week,准备回归数据
  1. 数据落地与工程约束
  • 分区与性能:按 dt、province 下推,避免全表扫描;大促日与热点省份注意倾斜
  • 特征存储:构建按日快照的用户与 SKU 特征(防泄露),保留生成时间戳
  • 实验与评估:时间切分验证;线上灰度与回滚策略;指标含 CVR/AOV/净利润/退款率
  1. 风险与合规
  • 已去标识用户字段仅内部分析使用;严格权限控制对 user_id 的联结与导出
  • 文本信息(review_text_len)仅长度级别使用,避免内容泄露
  • 遵守隐私与合规,不做跨域再识别

当前可量化统计已在摘要与第4节给出(时间窗、行列规模、均衡分布与日/月均量)。其余分布与缺失/异常等需要在数据环境执行上述脚本获得精确数值。若您提供一个抽样集(例如近3个月 1% 抽样),我可据此补齐各字段的缺失率、异常率、分位数以及初步的弹性与特征重要性结果。

深度洞察报告:园区环境与能耗物联网数据挖掘(2024-01-01 至 2025-09-30)

一、数据规模与结构

  • 规模与分区
    • 共计约 23 亿条 1 分钟级时序记录,120 栋楼、约 3,500 台设备,时区 UTC+8。
    • 存储与导出分区:site_id, dt(按自然日),适合大规模并行计算与增量处理。
  • 宽度与主键
    • 关键字段:device_id(设备主键)、site_id/building/floor(空间维度)、sensor_type(传感器类型)、ts(分钟时间戳,推荐以网关服务器时间为准)、value、unit、status(OK/FAULT)、battery、firmware_version、calibration_tag、room_type、occupancy_est。
    • 事实表粒度:device_id × ts × sensor_type。建议引入唯一键 device_id|sensor_type|ts 以去重。
  • 典型传感/设备类别
    • 环境:温度、湿度、CO2、PM2.5、VOC、噪声、照度。
    • 能耗:用电表(功率/电量)、设备运行状态(HVAC、风机、照明等开关或运行时长)。

二、字段类型与分布(面向建模的特征理解)

  • 连续型
    • value:环境量与功率/能耗,分布具备强日/周季节性与建筑异质性。
    • battery:随时间单调下降且存在阶跃充电/更换事件。
    • occupancy_est:估算占用(可能为比例或人数估计)。对 CO2/噪声/照度强相关。
  • 分类型/枚举
    • status:OK/FAULT,适合作为弱监督标签来源。
    • sensor_type、room_type、firmware_version、calibration_tag:用于分层分析与漂移/分段建模。
  • 时间维度
    • 强日周期(办公区 8:00-20:00 活跃)与周周期(周末低负载);每周二 2:00-3:00 维护窗口停测。
  • 单位与量程
    • CO2/VOC 存在 ppm/ppb 混用;个别传感器固件升级后量程变化(calibration_tag 标记),需分段校准与统一量纲。

三、数据质量评估(缺失/异常)

  • 缺失模式
    • 全局缺测约 0.5%;系统性停测:每周二 2:00-3:00。建议在质量报表中单列“计划停测”与“非计划缺测”。
    • 设备级不均衡缺测:网络抖动、低电量、FA ULT 前后段缺测更常见。建议统计 per device_id:缺测率、最长连续缺口、缺测时间分布。
  • 一致性与去重
    • 可能存在重复行(网络重传),以 device_id|sensor_type|ts 去重,冲突时以最新导出为准或以 status 优先级择优。
  • 单位/量程不一致
    • VOC/CO2 单位混用导致分布偏移 10^3 倍量级;calibration_tag 与 firmware_version 对量程和零点产生结构性断点(结构性变化≠异常)。
  • 异常类型(检测规则建议)
    • 物理边界与速率异常:value 超出物理可行范围,或单位时间内变化率过大(如 PM2.5 1 分钟内增量超过设备数据表推荐上限)。
    • 短期尖峰:PM2.5 在极端天气/施工期出现尖峰(与室外参考对齐可判定“环境事件”而非传感器故障)。
    • 卡死与漂移:长时间恒定(方差≈0)或缓慢单向漂移。漂移与电池电量下降、温湿度漂移相关。
    • 时间漂移:设备本地时间与网关时间偏移(若存在),表征为相位错位的季节性;建议以网关时间 ts 为准。
  • 质量评分与标注
    • 构建 per device per day 质量得分:基于缺测率、重复率、异常比率、单位一致性、calibration 事件,输出 Data Quality Index 0-1。
    • 对异常区分三类标签:测量异常、环境事件、计划停测,便于后续模型学习。

四、潜在模式或关联(面向节能与异常的可验证洞察)

  • 空气质量与占用/通风
    • CO2 与 occupancy_est、噪声、风机运行存在显著正相关;CO2-风机存在“先升后降”的时滞关系(通风响应滞后 5-20 分钟常见)。
  • 能耗与环境负荷
    • 用电功率与室内温湿度、占用、照度(自然光)以及 HVAC 状态存在强周期性与多变量关系;周末/夜间基载揭示可优化的待机负载。
  • 交叉传感器关系
    • 照度与功率在工作时间段正相关,且与外界日照角度/天气相关;VOC 在清洁/施工时段出现短时脉冲,通常与 CO2 同步性弱。
  • 跨楼宇差异
    • 同类型建筑可按“负载轮廓+IAQ水平+占用模式”聚类,识别异常楼宇(同面积但单位能耗显著偏高或 IAQ 一贯偏差)。
  • 事件型规律
    • 每周二 2:00-3:00 停测为稳定模式;PM2.5 极端天气时全园区协同上升,可用于分离“外部扰动”与“设备异常”。

五、数据预处理建议(面向算法的标准化数据资产)

  • 时间对齐与重采样
    • 统一 1 分钟锚点,基于 ts 左闭右开窗口;延迟到达数据设置 10 分钟水位,逾期进入补录通道。
    • 对高噪声传感器可派生 5/15 分钟中位值与移动分位数特征,兼顾实时与稳健性。
  • 单位与量纲统一
    • 规则表驱动(sensor_type × unit):CO2/VOC 统一至 ppm(ppb→ppm/1000);PM2.5 统一至 μg/m³;功率统一至 W(若为电量 kWh,转化为窗口平均功率)。
    • 校验转换后分布是否跨楼宇一致(稳健性检验:跨设备 IQR 比较)。
  • 校准事件与分段标准化
    • calibration_tag/firmware_version 作为结构性断点;对每段独立计算基线与阈值;必要时进行线性重标定(保留原值与校正值两列)。
  • 去噪与异常处理
    • 温和去噪:Hampel 滤波或中位数±k·MAD 的点修正;对物理不可达值置 NA 并标注。
    • 不删除“环境事件”尖峰(如 PM2.5 极端天气),而是打标签 environment_event,以免掩盖真实负荷关联。
  • 缺测填补(分场景)
    • ≤5 分钟短缺口:限制性前向填充(max_gap=5)与邻域中位数插值结合。
    • 6-60 分钟:本地水平+日周期的状态空间卡尔曼滤波(Local Level + Daily Seasonality);能耗加入外生变量(occupancy_est、温湿度、设备状态)。
    • 60 分钟或计划停测:训练时可用分层季节均值+昼夜相位矫正的插补,仅用于模型输入;KPI 与告警不做填补。

    • 全流程输出 imputation_flag、gap_length、method 字段,保证可追溯。
  • 多源对齐
    • as-of join(向后对齐)在 1 分钟窗口内对齐能耗、IAQ、occupancy_est、设备状态;跨设备取房间/楼层的加权汇总(按面积/额定风量)。
    • 引入参考外部气象与室外 PM2.5(同站点)以区分外部与内部源。
  • 特征工程(为异常检测与预测统一)
    • 时间特征:小时、周内日、节假日、相位编码。
    • 季节-趋势:STL 残差、滚动中位偏差、变化率、矩形窗能量。
    • 交互特征:CO2×occupancy_est、功率×室内外温差、照度×工作时段。
    • 空间聚合:房间/楼层/楼宇多层级特征,便于层级一致化预测与横向对比。

六、适用模型建议(满足异常工况、IAQ–能耗关联与短期预测)

  • 异常检测(分层组合策略)
    • 基线建模:STL 分解 + 残差稳健 Z 分数;ESD/Peirce 法对单点/簇异常。
    • 多变量上下文:Temporal Convolutional Network 或 LSTM 自编码器,输入同房间/楼层的环境+能耗+状态;输出重构误差与马氏距离双评分。
    • 结构变点:Bayesian Online Change Point Detection 或 Ruptures(PELT)监测量程/偏移漂移(与 calibration_tag 互证)。
    • 密度/邻域:Isolation Forest/LOF 在残差特征空间补充异常边界。
    • 标签与评估:以 status=FAULT、维护工单、严重越界为弱监督;评估用事件检测指标(precision@k、延迟、告警负担),并区分测量异常 vs. 环境事件。
  • IAQ–能耗关联建模(关联为主、因果谨慎)
    • 统计关联:分建筑的偏相关、互信息、带滞后的相关谱;Granger 因果检验用于时序先后性假设。
    • 面板模型:固定效应回归(楼宇×时段),自变量含 occupancy_est、CO2、室内外温差、风机/新风状态;因变量为功率或单位面积功率。
    • 注意:不直接宣称因果,策略设计需 A/B 或前后对照验证。
  • 短期负荷预测(15–240 分钟)
    • 快速基线:SARIMAX(外生变量:occupancy_est、室内外温差、工作日旗标)。
    • 强基线:梯度提升树(LightGBM/CatBoost)与特征工程;量化不确定性用分位回归。
    • 深度时序:Temporal Fusion Transformer / N-BEATS(多建筑联合训练,支持层级约束)。
    • 层级一致化:楼宇→站点的BU/TD/OLS reconciliation,确保各层汇总一致。
    • 评估:滚动起点回测(blocking CV),指标用 sMAPE、RMSE、P50/P90 Pinball loss;按工作日/周末、季节分层报表。
  • 预测性维护与设备健康
    • 电池寿命:随机效应生存模型或贝叶斯更新的剩余寿命预测(输入电池斜率、温度、发报频率)。
    • 传感健康指数:基于卡死率、噪声水平、漂移速率、越界频次的综合评分;异常阈值触发巡检。
    • 固件/校准漂移:变点后自动重标定并回填校正系数,避免误报。

七、节能与舒适度控制策略(基于数据驱动的可执行建议)

  • CO2 自适应通风
    • 动态阈值:以历史分位(如 80–90 分位)和室外 PM2.5/温湿度加权设定上限;通风控制采用分段滞后消振,避免频繁开关。
  • 负载优化
    • 最小基载识别:夜间与周末稳定段的功率基线对比同类楼宇,设立关断/待机策略与执行监控。
    • 预冷/预热与最优启停:短期负荷预测驱动提前 30–60 分钟启停,兼顾舒适边界(温度/CO2 上限)。
  • 事件响应
    • 外部污染事件(高 PM2.5):降低新风比例、增强内循环与过滤,策略通过外部数据触发。
    • 清洁/施工 VOC 峰值时段:短时高换气,避开高峰用电时段。

八、缺测填补与多源对齐实施方案(可直接落地)

  • 处理顺序
    1. 去重与合法性校验(物理边界、单位合法)→ 2) 单位统一 → 3) 时间对齐至 1 分钟网格 → 4) 计划停测标注 → 5) 异常打标(环境/测量/结构变点) → 6) 缺测插补(带标记) → 7) 多源 as-of Join → 8) 层级聚合与特征生成。
  • 算法细节
    • 卡尔曼插补:本地水平 + 季节项(日内 Fourier),对能耗增加外生变量;参数以每设备滚动窗口 EM 估计。
    • 季节均值法:以相同时段(同楼同房型)近4–8周的分位数构造先验,适用于长缺口训练填补。
    • 相邻传感协同:房间内多传感相互佐证(如相邻 CO2),KNN 回归用于中缺口多变量插补。
  • 标准化输出
    • value_raw、value_norm(单位统一后)、value_denoised、value_imputed;flags:unit_converted、calibration_segment、environment_event、measurement_anomaly、imputed、method、gap_len。
  • 对齐与聚合
    • 房间级:环境取加权中位(抗异常),功率取和;楼层/楼宇递推聚合,保留样本数与覆盖率。

九、计算与工程建议

  • 大数据管道
    • 基于 Spark/Iceberg/Delta 的分区读取(site_id, dt),使用向量化 UDF;近实时任务用流式增量(微批 5 分钟)。
    • 预计算物化视图:5/15 分钟滚动统计、分位数、层级聚合、异常分数;按日刷新。
  • 数据治 理
    • 设备元数据表:device_id 映射 building/floor/room_type/额定参数;固件与校准事件表。
    • 数据字典与质量 SLA:缺测率<1%、去重率、单位一致性覆盖率、延迟分布,以站点周报形式发布。
    • 合规:保持匿名化,仅限设施管理用途;导出时做最小化字段与时间范围控制。

十、评估与验证

  • 异常检测:采用人审样本与弱监督标签混合评估;关注告警率、首报延迟、重复告警折叠率。
  • 预测:滚动起点回测;以工作日/周末、季节、楼宇类型分层报告误差。
  • 关联策略验证:通过前后对照或 A/B 试验验证节能与舒适提升,记录节能率、超标时长、投诉率等业务指标。

结论与下一步

  • 通过单位统一、分段校准、分层插补与多源对齐,可构建高质量时序特征层,为异常检测、IAQ–能耗关联分析与短期负荷预测提供稳健基础。
  • 建议优先落地三项能力:
    1. 多层级异常检测服务(房间/楼层/楼宇)与可解释根因分析(漂移/尖峰/卡死/外部事件)。
    2. 短期负荷预测与最优启停/通风策略联动,先在3–5栋试点做闭环验证。
    3. 设备健康与电池寿命监控,缩短故障发现与维护响应时间。
  • 预期收益:降低无效通风与待机能耗、缩短异常发现时间、在极端天气下平衡舒适与能耗。上述方法均以可回溯标注与工程化管道实现,适配 23 亿级数据规模的持续更新。

以下为基于所提供数据说明形成的技术分析与总结报告。因未直接接触原始数据,报告中仅对可由描述推导的统计值给出具体数值;其余指标提供严格的统计口径、计算方法与校验脚本建议,便于您落地复现与持续监控。

一、数据与业务概览

  • 时间范围与规模
    • 时间跨度:2024-04-01 至 2025-09-30,共约 548 天 ≈ 78.3 周(按周更新)。
    • 会话量:约 300 万段会话。
    • 消息量:约 700 万条消息。
    • 平均每周规模(基于均匀到达近似):会话 ≈ 3,000,000 / 78 ≈ 38,462 段/周;消息 ≈ 7,000,000 / 78 ≈ 89,744 条/周。
    • 平均每段会话消息数(总体):≈ 7,000,000 / 3,000,000 ≈ 2.33 条/会话。
  • 业务目标
    • 提升一次性解决率(FCR)与用户满意度(CSAT)。
    • 识别高频问题/意图簇,完善知识库覆盖。
    • 为意图分类、情绪识别与流失预警提供可用特征与清洗规范,并指导排班优化。

二、字段类型与分布(设计口径)

  • 主键与关系
    • conv_id(字符串/UUID,主键)、user_id(哈希)、agent_id(哈希)、queue_id(队列)。
    • knowledge_article_id(知识文档引用)。
  • 会话元数据
    • channel(枚举:chat/email/voice)
    • start_time、end_time(UTC 时间戳);duration_s(数值,≥0)
    • lang(ISO 语言码)、region(业务自定义区域码)
  • 标签与弱标注
    • issue_type(高质量人工标注,稀疏)
    • intent_v1(弱标注,多轮一致性可能偏低)
  • 对话内容
    • utterances(数组:{speaker[user/agent/sys], text, ts});ASR 已粗校正
  • 质量与情绪
    • sentiment_score(连续值,建议定义区间,如[-1,1]或[0,1])
    • toxic_flag(布尔)
  • 效率与结果
    • first_response_time_s、resolution_time_s(连续,单位秒)
    • is_escalated(布尔,是否升级/转派)
    • csat_score(离散或有序,需确认刻度,如1–5/1–10)
    • refund_amount(数值,≥0,货币单位需统一)

说明:字段分布需按渠道、语言、区域、时段分层给出频次、占比、分位数。建议对数值字段统一输出 P1/P5/P25/Median/P75/P95/P99、缺失率、异常率。

三、数据质量评估(缺失/异常) 建议分层评估(按 channel、lang、region、月份)。核心检查与指标:

  • 唯一性与一致性
    • conv_id 唯一率= 唯一 conv_id 数 / 总行数(应=1),重复需合并。
    • user_id 跨渠道匹配误差:同一 user_id 在同日不同 region 或在不可能的地理范围内频繁出现,标记为潜在错配。
  • 完整性
    • 关键字段缺失率:channel/lang/region/start_time/end_time/duration_s。
    • csat_score、issue_type、intent_v1、knowledge_article_id 的覆盖率(覆盖对后续建模影响显著)。
  • 时间与时长异常
    • start_time > end_time 或 duration_s < 0(应为 0);duration_s 极端值(P99+)。
    • 长通话分段误差:utterances 内部时间戳非单调、重叠;ASR 语句错序。
  • 文本质量
    • 空文本、仅包含占位符(如[REDACTED])的比例;乱码/高重复行比例。
    • 非目标语言文本与 lang 字段不一致率(基于语言检测器)。
  • 标签质量
    • intent_v1 与 issue_type 不一致率(低质量弱标注提示需清洗/重标)。
    • sentiment_score 是否存在缩窄分布(过度集中)或未校准。
  • 异常检测
    • first_response_time_s 和 resolution_time_s 的离群点(基于 IQR 或 MAD);多峰分布提示不同流程/队列策略。 输出示例(需落库计算):按渠道给出缺失率、异常率、分位数表;并输出规则告警计数(如“start_time>end_time 的记录数”)。

四、关键统计特征(当前可确定与建议计算)

  • 可确定的全局统计
    • 时间跨度:548 天 ≈ 78.3 周。
    • 会话/消息规模:3,000,000 会话;7,000,000 消息。
    • 平均每周会话数:≈ 38,462。
    • 平均每周消息数:≈ 89,744。
    • 平均消息/会话:≈ 2.33。
  • 建议计算的业务核心指标(需执行下述口径)
    • 渠道构成:chat/email/voice 占比。
    • FCR(一次性解决率)口径建议:
      • 定义:会话在不升级(is_escalated=false)且在该会话结束后 7 天内同 user_id 无相同主题的再次联系(可近似为“该 user_id 在 7 天内无新的 issue_type 或相似意图的会话”)的占比。若无法主题归并,先用 is_escalated=false 且 resolution_time_s 有效作为弱 FCR。
    • 响应效率:first_response_time_s 的 P50/P90/P95(按渠道与队列)。
    • 解决效率:resolution_time_s 的 P50/P90/P95(按渠道、是否引用知识库、是否升级)。
    • CSAT:均值、分布(偏度),以及与渠道/响应/解决效率的关联。
    • 知识库覆盖率:有 knowledge_article_id 的会话占比;被引用次数 TopN;引用与解决效率/CSAT 的提升效果(ATE/因果倾向评分)。
    • 升级率:is_escalated 的占比与渠道/队列/时段差异。
    • 退款相关:refund_amount 的零膨胀比例、均值/分位数;与情绪/升级/CSAT 的关联。

五、潜在模式或关联(分析框架)

  • 渠道差异
    • 假设:voice 的 first_response_time_s 较低(即时接通),但 ASR 误差可能导致 resolution_time_s 偏高;email 首响慢、解决分位数尾部更长;chat 中位表现较优。
    • 验证:分层分位数+Mann-Whitney U 检验;效应量 r。
  • 知识库引用的效应
    • 估计:knowledge_article_id 是否引用对 resolution_time_s、is_escalated、csat_score 的平均处理效应(ATE/ATT)。
    • 方法:倾向得分匹配(特征含问题难度 proxy:channel、消息数、情绪、region、intent_v1 等)。
  • 情绪/毒性与结果
    • 相关性:sentiment_score 与 csat/refund 的 Spearman 相关;toxic_flag 与升级/退款的提升比(risk ratio)。
    • 稳健性:按 channel/region/语言分层以防止混杂。
  • 代理工作负载与队列
    • queue_id、agent_id 级别:处理量、平均时长、升级率、CSAT 的控制图;Shifts/时段峰值对响应时间的影响(时序分解/异常检测)。
  • 标签一致性
    • intent_v1 与 issue_type 的一致性度量:一致性比率、互信息;使用 Cleanlab 估测噪声标签概率。

六、业务价值洞察(落地建议)

  • 提升一次性解决率(FCR)
    • 优先扩展贡献最大的知识条目(引用→解决时间下降且升级率下降的条目),以 TopN 效果表驱动更新。
    • 在 P90+ 解决时间的队列中,定位未引用知识库且主题集中的意图簇,补齐攻略/流程卡点。
  • 提升 CSAT
    • 对高 first_response_time_s 时段进行排班再配置(以小时/队列粒度的负载-等待曲线)。
    • 基于负向情绪早预警(低 sentiment_score 或 toxic_flag),触发资深坐席/回呼策略。
  • 知识库优化
    • 构建“意图簇→知识条目→效果”的闭环:统计每个意图簇的覆盖率、命中率(召回)与效果(CSAT、解决时长、升级率)。
  • 排班策略
    • 基于队列/小时级到达率 λ、服务率 μ 的稳态利用率 ρ=λ/(cμ) 与目标 ASA/SL(Service Level)反推班次与并发席位数;以历史峰值的 P95 到达率做安全冗余。

七、数据预处理建议(清洗规范)

  • 记录级处理
    • 去重:conv_id 全量去重;合并重复事件。
    • 时间规范:统一 UTC;修正 end_time < start_time 的记录(若修不动,打脏标签并排除出训练)。
    • 数值截尾:duration/response/resolution_time_s 在渠道分层下做 P99 winsorize 或以 log1p 稳定。
  • 文本处理(多渠道)
    • 统一分句、标点、停用词;中英多语分词器按 lang 分支;拼写/ASR 标准化(常见口音混淆词典)。
    • 清除占位符与 PII 残留;移除空文本与高度重复模板语句。
    • 构建会话级聚合文本(用户侧/坐席侧分开聚合)与轮次特征(用户轮次数、总字数、平均字长)。
  • 标签修正
    • intent_v1 弱标注:用 Cleanlab/噪声学习估计噪声率,筛出高置信样本用于监督学习;其余用半监督自训练。
    • sentiment_score 标定:用小样本人工标注集做温度缩放/等距回归进行校准。
  • 跨渠道对齐
    • user_id 匹配误差:基于时间接近、region、设备指纹(若可用)与文本相似度的软规则匹配,定义匹配置信度阈值,仅在高置信下做用户级汇总。
  • 缺失值处理
    • csat/refund 的缺失单独编码(缺失即信息);时长类用分层中位数填充并加 missing flag。
  • 数据切片
    • 分区键:event_date(周分区);二级键:channel/lang/region 用于统计与训练集分布稳定性。

八、适用模型建议(含特征与评估)

  1. 意图簇提炼(无/半监督)
  • 向量化:多语句向量模型(e.g., mE5/multilingual MPNet);会话级特征可拼接用户首轮与问题指代句。
  • 降维+聚类:UMAP + HDBSCAN/Hierarchical KMeans;动态阈值保证簇纯度。
  • 标注辅助:BERTopic/Top2Vec 生成代表词;对高频簇做人工审阅并映射到业务 taxonomy。
  • 质量评估:簇内一致性(平均余弦相似度)、簇间分离度、覆盖率(簇内会话占比 TopK 累积分布)。
  • 产出:高频意图 TopN、各簇渠道分布、对效率/CSAT 影响。
  1. 意图分类(监督)
  • 目标与标签:使用清洗后的 intent_v1 或由簇映射后的高置信标签(≥n 条/类)。
  • 模型:
    • 轻量级:SVM/LogReg on embeddings(冷启动/上线快)。
    • 精调:多语 Transformer(XLM-R、mBERT、mE5-CLS)+ class-balanced loss。
  • 特征:文本向量、channel/lang、轮次/字数、情绪特征(见下)、是否引用知识库、历史用户主题分布(若用户级可用且合规)。
  • 评估:分层 train/val/test(按时间切分防信息泄漏);宏/微 F1、AUC(多标签时 mAP)、延迟与吞吐;漂移监控(PSI/embedding centroid shift)。
  1. 情绪识别(多维)
  • 任务:二分类(正/负)+ 强化负向识别(toxic/怒气/沮丧多标签)。
  • 模型:文本分类 Transformer,或在现有 sentiment_score 基础上做校准回归+阈值化;toxicity 用多标签头。
  • 特征:用户侧最后三轮文本、停顿/重说(语音 ASR 片段数)、大写/感叹号/脏话词典命中数。
  • 评估:宏 F1(特别关注负类召回)、校准曲线(ECE)、阈值-成本曲线(误报 vs 人工审核负担)。
  1. 流失预警(客服视角的复联系/退款/差评风险)
  • 目标定义(示例三选一或多任务):
    • 7/14 天内是否复联系(同主题或同渠道)。
    • 是否发生退款(refund_amount>0)。
    • 是否低 CSAT(≤阈值)。
  • 模型:梯度提升树(XGBoost/LightGBM)或 Logit;时间敏感可用生存分析(CoxPH/GBM-Survival)建 TTE。
  • 特征(会话结束时可用):
    • 效率:first_response_time_s、resolution_time_s、消息数、用户等待轮次。
    • 文本情绪:sentiment_score、toxic_flag、负向词密度。
    • 处理方式:is_escalated、知识库引用、队列、坐席经验(历史绩效聚合)。
    • 用户维度(谨慎):过去 N 天会话数、历史负向情绪比例(仅高置信匹配)。
  • 解释:SHAP 值排序;对一线运营输出可行动特征(例如“首响>120s + 未引用知识库”为高风险组合)。
  • 评估:AUC/PR-AUC(正例稀疏时以 PR-AUC 为主)、分层召回(Top-k% 截断召回)、时间外测试集。

九、指标与显著性检验建议

  • 统计检验
    • 连续指标:Mann-Whitney U 或 t 检验(正态性/方差同质性检查)。
    • 类别指标:卡方检验/Fisher 精确检验。
    • 相关性:Spearman ρ;稳健回归控制混杂。
  • 因果评估
    • 知识库引用→结果:倾向得分匹配/加权(PSM/IPSW),并做灵敏度分析。
  • 漂移监控
    • 文本嵌入中心/方差、特征 PSI、标签分布周比变化。

十、实现与复现(计算模板)

  • 分布统计(示例 SQL)
    • 渠道分布:SELECT channel, COUNT()/SUM(COUNT()) OVER() AS pct FROM conv GROUP BY channel;
    • 响应/解决分位数:使用 APPROX_PERCENTILE(first_response_time_s, array[0.5,0.9,0.95]) BY channel/week。
  • FCR 近似(弱口径)
    • FCR_weak = AVG(CASE WHEN is_escalated=false AND resolution_time_s IS NOT NULL THEN 1 ELSE 0 END) BY channel/region/week。
  • 知识库效果评估(PS 估计)
    • 训练倾向模型:treat=1{knowledge_article_id IS NOT NULL},特征含 channel/lang/消息数/情绪/意图弱标注/队列/时段。
    • 计算 ATE/ATT 于 resolution_time_s、csat_score 与 is_escalated。

十一、输出仪表建议(每周例行)

  • 数据质量:关键字段缺失率、异常率、重复率;ASR 错序率。
  • 运营指标:FCR、CSAT、first_response_time_s/ resolution_time_s 分位数(按渠道/队列/时段)。
  • 知识库:覆盖率、TopN 文档引用次数与效果差值(带置信区间)。
  • 意图:TopN 簇占比,簇内效率与满意度排名;新兴簇告警(环比>50%)。
  • 风险:负向情绪率、toxic_rate、退款率、升级率;排班 SLA 达成率。

十二、风险与合规

  • ASR 偏差对情绪与意图的影响需单独评估;语音通道建议加入置信度阈值与人工复核抽检。
  • 跨渠道 user_id 匹配误差仅在高置信下用于用户级特征,避免错误归因。
  • 全流程仅内部使用,遵循最小化访问原则;训练数据再次脱敏,避免还原性特征泄露。

结语

  • 已给出可由描述推导的具体统计值(时间跨度、周度规模、消息/会话比)。其余关键指标提供了明确统计口径、检验与实现路径。建议先跑通“每周质量与运营例行报表”,随后落地意图簇→知识库闭环与三类模型(意图、情绪、预警)的渐进式迭代。通过因果评估定位知识库高价值条目与排班薄弱时段,将直接服务于 FCR 与 CSAT 的提升。

示例详情

该提示词已被收录:
“数据分析师必备:高效洞察与建模提示词合集”
覆盖从数据理解到建模全流程,助你提升分析效率
√ 立即可用 · 零学习成本
√ 参数化批量生成
√ 专业提示词工程师打磨

📖 如何使用

30秒出活:复制 → 粘贴 → 搞定
与其花几十分钟和AI聊天、试错,不如直接复制这些经过千人验证的模板,修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间,足够你轻松享受两杯咖啡!
加载中...
💬 不会填参数?让 AI 反过来问你
不确定变量该填什么?一键转为对话模式,AI 会像资深顾问一样逐步引导你,问几个问题就能自动生成完美匹配你需求的定制结果。零门槛,开口就行。
转为对话模式
🚀 告别复制粘贴,Chat 里直接调用
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别"手动搬运"。
即将推出
🔌 接口一调,提示词自己会进化
手动跑一次还行,跑一百次呢?通过 API 接口动态注入变量,接入批量评价引擎,让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化,你只管收结果。
发布 API
🤖 一键变成你的专属 Agent 应用
不想每次都配参数?把这条提示词直接发布成独立 Agent,内嵌图片生成、参数优化等工具,分享链接就能用。给团队或客户一个"开箱即用"的完整方案。
创建 Agent

✅ 特性总结

一键生成数据集画像,快速提炼字段结构、分布与缺失概况,开箱即获关键洞察。
自动识别数据类型与异常值,提示潜在质量风险,为后续分析与建模扫清障碍。
智能给出清洗、编码、采样等预处理建议,减少试错成本,加快项目启动。
按业务目标推荐分析路径与模型方向,帮助团队聚焦可验证的指标与结论。
自动生成结构化技术说明与报告,便于评审、归档与共享,提升跨团队协作效率。
多语言输出与统一写作风格,一键面向全球团队发布,消除沟通差异。
通过参数化输入快速适配不同数据集与场景,复用模板,显著提升交付速度。
自动提示样本偏差与不平衡问题,提供可行修正策略,提升结果可信度。
快速对比数据集版本迭代差异,评估变更对指标影响,保障上线前决策可靠。

🎯 解决的问题

把分散、模糊的“数据集简介”快速转化为清晰、结构化的关键属性总结,帮助你:快速判断数据是否值得用与怎么用;明确覆盖范围、粒度与时间跨度、更新规律、来源与权限、质量信号、适用场景与限制;统一团队口径、减少沟通与返工;以指定语言输出,可直接用于报告、评审与对外沟通,提升从接触数据到形成结论的速度与质量。

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。
加载中...