数据集关键属性总结

174 浏览
15 试用
4 购买
Sep 27, 2025更新

提取并总结特定数据集的关键属性及核心特点。

以下为该电商用户行为与订单日志数据集的技术性总结与处理建议,覆盖数据结构、画像所需特征、缺失与异常识别、以及清洗方案。

一、数据集概述与结构

  • 数据来源
    • 行为日志:用户点击、加购、下单、退款等事件级数据。
    • 订单与商品:订单主表(订单级)、订单明细(商品级)、商品维表(类目、价格、品牌等),可选用户维表(账号、注册、渠道等)。
  • 关键字段(建议统一命名与类型)
    • user_id(字符串/整数,唯一用户标识)
    • event_type(枚举:click/add_to_cart/order/refund)
    • event_ts(UTC时间戳,毫秒或秒)
    • session_id(可选,用于会话化)
    • product_id(商品标识)
    • category_id/category_name(商品类目)
    • price(商品标价,含币种与税费定义)
    • order_id(订单标识,order/refund绑定)
    • qty(数量)
    • discount_amount/discount_rate(可选)
    • order_amount(订单总额,含/不含运费、税费的定义需明确)
    • refund_amount(退款金额,支持全额/部分)
    • device/os/channel/geo(可选行为属性)
  • 主关联关系
    • 行为日志 ↔ 商品维表:product_id
    • 订单主表 ↔ 订单明细:order_id
    • 订单明细 ↔ 商品维表:product_id
    • 退款 ↔ 订单/订单明细:order_id(必要)+ product_id(建议)

二、画像所需核心派生指标(快速可用的“最小画像集”)

  • RFM(基于订单行为)
    • Recency:距最近下单的天数
    • Frequency:过去N天订单次数或明细行数
    • Monetary:过去N天净交易额(订单金额-退款金额)
  • 转化与漏斗
    • CTR:点击→商品页的转化率(如需)
    • Add-to-cart rate:加购/点击
    • Purchase rate:下单/加购或下单/点击
    • Refund ratio:退款订单数/订单数、退款金额/订单金额
  • 金额与价格敏感度
    • AOV:客单价(净额)
    • Basket size:每单商品数
    • 折扣使用率与折扣深度:有折扣订单比例、平均折扣率
  • 行为强度与时序
    • 浏览深度:会话内点击次数、品类覆盖数
    • 首次点击到下单时延(转化时长)
  • 类目偏好
    • 顶级类目的占比、集中度(如Top-N类目占比,Herfindahl指数)

三、缺失识别与分类(字段级与关联级)

  • 字段级缺失
    • product_id缺失:无法关联商品与类目,行为记录价值受限;标记为不可用或“unknown product”并尽量回补。
    • category_id/name缺失:通过商品维表或映射表回填;无法回填时标记“unknown category”。
    • price缺失:重点核查来源(商品维或订单明细);订单侧缺失价格需用订单明细计算,不建议以商品标价直接替代交易价。
    • event_ts缺失或异常:无法进行时序分析,原则上剔除或用服务器日志恢复。
    • order_id/refund_amount缺失:影响净额与退款关联;无order_id的退款记录视为异常。
  • 关联级缺失
    • 行为↔商品维无匹配:比例超阈值需调查商品上架/下架、缓存延迟。
    • 订单↔明细不一致:订单金额与明细行金额汇总不匹配。
  • 缺失机制评估
    • MCAR/MAR/MNAR分类:例如移动端某版本不采集类目(MAR),对模型可能偏置;采取分层或权重修正。

四、异常识别(规则与统计结合)

  • 值域与逻辑约束
    • price/amount/qty必须≥0;qty=0或负值异常;price=0仅在赠品场景且需明确定义。
    • refund_amount≤订单对应行金额;退款日期≥订单日期。
    • 币种与税费:金额字段需统一币种与含税口径(Gross/Net),否则造成统计偏差。
  • 时序与行为一致性
    • 事件顺序:加购必须在下单前;退款仅在下单后。
    • 非人类节奏:同用户短时间内高频重复点击(如<100ms间隔)或全天候活动,疑似机器人。
  • 关联一致性
    • 订单明细合计≠订单总额(视运费/税费差异);退款未能关联到订单/商品。
  • 分布异常与离群
    • 价格在类目内的离群值:使用IQR或MAD检测;极端高价/低价需核查商品信息。
    • 行为率异常:异常高的加购率/下单率,或异常高的退款率,可能是促销、异常采集或欺诈。

五、数据清洗方案(可执行步骤)

  1. 结构与类型校验
    • 统一时间戳、币种、金额口径;校验枚举值(event_type)。
    • 强制主键/外键可用性:user_id、product_id、order_id非空约束。
  2. 去重与事件压缩
    • 基于[user_id, product_id, event_type, event_ts]窗口去重(例如±1秒内完全重复视为重复)。
    • 会话化:30分钟无活动切分session_id,生成会话级特征。
  3. 关联修复与标准化
    • 行为日志补充商品维信息(类目、品牌);“unknown”占比控制并监控。
    • 订单与明细对账:明细合计+运费+税费=订单总额;生成净额(订单-退款)与净客单。
    • 退款映射:使用[order_id, product_id]优先匹配,缺失时仅保留订单级退款并标注为“未定位到明细”。
  4. 缺失处理
    • 类目缺失:映射表回填;仍缺失标注“unknown”,用于画像但谨慎用于建模(可加入缺失指示变量)。
    • 价格缺失:订单侧以明细行交易价回填;商品侧不以订单价回填,避免数据泄漏。
    • 时间戳缺失:无法回补则剔除;边界异常(未来时间/过旧)剔除或截断。
  5. 异常与离群处理
    • 逻辑违规记录剔除:负价格、负数量、退款无订单关联。
    • 类目内价格离群:如偏离中位数>5*MAD,标记并与商品库核对;必要时Winsorize或分段建模。
    • 机器人/异常用户过滤:基于人机规则(超高事件频率、重复模式、异常会话时长)。
  6. 一致性与口径统一
    • 定义净收入:sum(订单金额) - sum(退款金额);明确税费与运费处理。
    • 折扣口径统一:基于订单明细计算真实成交价与折扣率。
  7. 质量度量与监控
    • 缺失率、关联成功率、重复率、异常率等指标;清洗前后对比与审计样本抽检。

六、快速画像实施流程

  • 数据时间窗:最近90天为主,叠加历史用于稳定性评估。
  • 特征工程
    • RFM、漏斗率、AOV、Basket size、折扣使用率、退款比、转化时延、类目偏好分布。
    • 标准化/缩放:对金额类与频次类做RobustScaler或对数变换。
  • 分群方法
    • 无监督:K-means/GMM(需标准化与特征选择)、层次聚类(可解释)、HDBSCAN(处理噪声与不规则簇)。
    • 评估:轮廓系数、Davies-Bouldin、簇稳定性(不同时间窗/抽样)。
  • 输出与解释
    • 为每个簇提供核心特征概况:RFM分位、转化/退款率、类目偏好与价格带。
    • 避免主观命名;使用数据驱动的标签(如“高频高额低退款”、“低频高折扣高退款”等)。

七、建模与结果使用注意事项

  • 泄漏控制:针对预测任务(如退款风险、转化概率),严格划分训练/验证的时间窗,禁止使用未来信息。
  • 季节与促销影响:在促销窗口做分层或加入事件特征。
  • 净额优先:画像与收入相关分析使用净额与净客单,避免毛额误判。
  • 报表一致性:与业务口径(含税/含运费、订单状态)保持一致,并在元数据中记录。

该方案可在一周内完成数据接入、质量评估与基础画像上线:第1–2天结构与清洗规则落地,第3–4天特征工程与分群试跑,第5–7天修正与稳定性评估及仪表盘发布。

数据集概述与任务定义

  • 任务类型:二分类(点击/未点击),典型的CTR预估场景。
  • 粒度:应为曝光级(impression-level)日志。需确认主键字段(如 user_id、ad_id、campaign_id、timestamp)与事件时序。
  • 目标变量:点击标记(click_label)。初步观察正负样本不均衡,需量化点击率与不平衡程度。

核心特征及预期统计特性

  • 曝光次数(exposure_count)
    • 含义需明确:是单次请求中的广告位数量、用户对某广告的累计频次、还是某时间窗聚合频次。
    • 分布:重尾、偏态,可能存在极端值;与点击关系非线性(频次过高可能疲劳)。
    • 处理建议:log1p变换、截尾/分箱;确保仅使用点击前、窗口内的累计频次,防止未来信息泄漏。
  • 停留时长(dwell_time)
    • 含义需明确:是曝光时在广告位的停留时长,还是点击后在落地页的停留时长。
    • 数据可用性:若仅点击后可观测,则对未点击样本为缺失(MNAR);用作点击预测会造成严重泄漏。
    • 处理建议:用于点击后质量预测(post-click engagement)而非CTR;如需用于CTR,必须确保度量发生在点击前的可观测时段,并加入“是否可观测”指示变量。
  • 设备类型(device_type)
    • 低基数分类变量(如 iOS/Android/其他),可能与点击行为和展示位置强相关。
    • 处理建议:独热编码或频数/目标编码;注意类别稀疏与罕见值合并;评估与地域、时段的交互。
  • 地域(region)
    • 中高基数、层级结构(省/市/区)。不同地域流量结构与人群分布差异大。
    • 处理建议:映射到稳定层级(如省/大区),或用目标编码(带交叉验证和平滑);考虑引入人口/经济外部特征以降低混杂。

不平衡性与评估

  • 典型点击率可能在0.1%~5%之间,需确认具体正例占比、不同设备/地域的分层点击率。
  • 评估指标:AUC-PR优先于AUC-ROC;同时监控LogLoss、校准(Brier score、可靠度曲线)、分组AUC(按设备/地域)。
  • 采样与权重:可对负样本下采样并在训练中使用样本权重恢复先验;或直接使用带类权重/焦点损失的模型。评估需在未下采样的保留集上执行。

数据质量与一致性检查要点

  • 时间与因果一致性
    • 特征时间窗定义必须严格先于点击事件;确认不存在“统计周期跨越点击”的情况。
    • 校验timestamp单调性;点击时间不得早于曝光时间;停留时长不得为负。
  • 缺失与异常
    • 量化各特征缺失率;区分MCAR/MAR/MNAR。对于dwell_time的MNAR(仅点击可观测)需单独处理或剔除出CTR模型。
    • 曝光次数极端值、离群点检测;必要时winsorize或分箱。
  • 重复与对齐
    • 检查重复曝光记录、重复点击标记;确认每条曝光的唯一性。
    • 对齐设备与地域:基于同一时点来源(SDK/IP/定位),避免跨源不一致。
  • 标签质量
    • 去除无效/作弊点击(如极短停留、快速重复点击);确认去重策略(同一曝光多次点击)。
    • 识别可疑流量来源(点击农场、异常设备指纹)。

偏差与潜在混杂

  • 选择偏差:数据仅覆盖已投放和成功竞得的曝光,不能代表整体人群;位置偏差(靠前位点击更高)与竞价偏差可能显著。
  • 分配/投放策略偏差:频控、出价、定向策略改变会引入非平稳性;同一用户在不同设备/地域的跨域偏差。
  • 泄漏风险:
    • 停留时长若含点击后信息,严禁用于CTR。
    • 曝光次数若包含点击后或未来窗口累积,同样泄漏。
    • 目标编码必须在严格交叉验证框架内拟合,防止信息泄漏。
  • 群体差异:按设备类型、地域、操作系统版本做公平性/稳定性评估(校准、AUC、PR-AUC对比),识别系统性低估或高估。

建模与预处理建议(简要)

  • 数值特征:log1p、标准化/分箱;树模型可直接处理偏态但仍建议截尾。
  • 类别特征:低基数one-hot;高基数 region 用目标编码/频数编码(带CV与平滑)。
  • 交互:device_type×region、log(exposure_count)×region 等非线性交互对提升效果常有帮助。
  • 切分策略:基于时间的训练/验证划分,避免时序泄漏;在验证集上保持原始类分布。
  • 线上稳定性:监控分布漂移(PSI)、校准漂移;定期重训或自适应更新。

小结

  • 该数据集适用于CTR二分类建模,存在显著类不平衡与多重偏差来源。
  • 关键风险点在于时间因果一致性与特征泄漏,尤其是停留时长与曝光次数的时间窗定义。
  • 建议以时间切分、严格编码与稳健评估(AUC-PR、校准、分组指标)作为基线流程,并对设备与地域维度进行系统性偏差审计。

以下为“SaaS注册转化数据”数据集的主要特征总结及可验证指标建议。

一、数据集关键属性

  • 数据粒度

    • 建议每行代表一个注册用户的最新状态(用户级快照)。
    • 需有唯一主键(如 user_id);若仅为注册事件,需标注是否首访注册,以便去重。
  • 字段与类型

    1. 渠道来源(channel_source)
      • 类型:分类变量(字符串/枚举)
      • 取值:如 Paid Ads、SEO、Referral、Direct 等
      • 作用:用于分渠道对比转化与激活表现
    2. 注册时间(registration_time)
      • 类型:时间戳(UTC,精确到秒或毫秒)
      • 作用:构建日/周/月注册 Cohort,做时序与延迟分析
    3. 激活步骤完成率(activation_step_completion_rate)
      • 类型:数值型(建议标准化到 0–1 区间;若为 0–100%,需除以 100)
      • 作用:衡量初期产品使用深度,与试用/付费转化相关性分析的核心特征
      • 质量约束:不得为负,不得大于 1;允许缺失但需记录缺失率
    4. 试用状态(trial_status)
      • 类型:布尔或枚举(未试用/试用中/试用结束)
      • 作用:中间漏斗节点,计算注册→试用、试用→付费转化
      • 质量约束:取值集合固定;定义为“当前或曾经试用过”的一致口径
    5. 付费状态(paid_status)
      • 类型:布尔(已付费/未付费)
      • 作用:最终转化节点(北极星近似指标)
      • 质量约束:定义为“截至数据抽取时是否曾付费”;口径需固定
  • 推荐衍生字段(基于现有字段可直接生成)

    • register_date、register_week、register_month(从注册时间拆分)
    • activation_completed_flag(如 activation_step_completion_rate ≥ 阈值;阈值需与业务对齐,如 0.7 或 1.0 表示全流程完成)
    • channel_normalized(归一化渠道枚举,清理别名/拼写差异)
    • snapshot_date(数据快照时间,确保状态口径一致性)
  • 基本数据质量检查

    • 缺失率:各字段缺失比例(尤其 channel_source、activation_rate)
    • 值域:activation_rate ∈ [0,1];注册时间不应晚于快照时间
    • 去重:主键唯一;如缺主键,用邮箱/手机号+注册时间近似去重
    • 渠道噪声:识别并排除测试渠道、内部来源

二、可验证指标建议(口径清晰、可直接计算) 说明:以下指标均以用户级快照为基础,分母为“满足去重后的注册用户数”。状态均以“截至快照日是否曾发生”为口径。

  • 漏斗类核心转化指标

    1. 注册→试用转化率(CR_reg_to_trial)
      • 公式:count(trial_status = 真) / count(所有注册用户)
    2. 试用→付费转化率(CR_trial_to_paid)
      • 公式:count(paid_status = 真 AND trial_status = 真) / count(trial_status = 真)
      • 备注:若产品允许直付跳过试用,可并行计算“全体试用用户的付费率”与“直付用户比例”
    3. 注册→付费转化率(CR_reg_to_paid)
      • 公式:count(paid_status = 真) / count(所有注册用户)
  • 激活相关指标 4) 平均/中位数激活完成率(Mean/Median_activation_rate)

    • 公式:avg(activation_rate)、median(activation_rate),可分渠道与分 Cohort 输出
    1. 激活分层付费率(Activation-tier Paid CR)
      • 分层:将 activation_rate 按阈值或分位(如四分位 Q1–Q4)分桶
      • 公式:count(paid_status = 真 且 activation_bucket = X) / count(activation_bucket = X)
      • 输出:各桶付费率与总体付费率的相对提升(Lift)
  • 渠道与时间维度指标 6) 渠道注册占比(Channel Share)

    • 公式:count(channel = C) / count(所有注册用户)
    1. 渠道转化率(Channel CRs)
      • 公式(示例):CR_reg_to_paid_by_channel = count(paid = 真 且 channel = C) / count(channel = C)
    2. Cohort 转化(按注册周/月)
      • 公式(示例):CR_reg_to_paid_by_cohort = count(paid = 真 且 register_month = M) / count(register_month = M)
      • 备注:对比不同 Cohort 的表现,识别产品迭代或市场变化的影响
  • 质量与一致性指标(观测/告警用) 9) 字段缺失率

    • 公式:missing_rate(field) = count(field IS NULL) / count(所有注册用户)
    1. 异常值占比(activation_rate 越界)
    • 公式:count(activation_rate < 0 OR activation_rate > 1) / count(所有注册用户)
    1. 可疑未来时间占比
    • 公式:count(registration_time > snapshot_date) / count(所有注册用户)

三、计算与验证口径说明

  • 分母一致性:所有转化率分母需使用同一注册去重口径;若存在重复注册事件,统一按首个注册时间代表用户的注册。
  • 状态定义:trial_status、paid_status建议使用“曾发生”口径,且以快照时间为参照;避免不同时间窗口导致指标不可比。
  • 激活率标准化:明确激活率量纲为 0–1;若数据为百分比,统一转换后再计算。
  • 分渠道清洗:合并渠道别名、剔除测试/内部渠道,使渠道对比可解释。
  • 时间维度:采用 UTC 存储、按业务时区出报表;Cohort 粒度建议为周或月,避免日波动干扰。
  • 可重复验证:每个指标提供SQL或数仓脚本时,固定过滤条件与字段口径,确保不同周期/人计算一致。

四、进一步分析建议(在现字段基础上可实施)

  • 相关性分析:计算 activation_rate 与付费状态的点双列相关或按分位比较付费率,检验激活深度与转化的关系。
  • 渠道结构化比较:对比各渠道的 activation_rate 分布与漏斗转化,识别高质量渠道与优化空间。
  • 阈值寻找:通过不同 activation_completed_flag 阈值(如 0.6、0.8、1.0)测试对付费率的区分度,形成可执行的产品激活目标。

以上结构与指标口径可直接用于仪表盘与数仓度量定义,便于跨团队复核与持续监控。

示例详情

解决的问题

把分散、模糊的“数据集简介”快速转化为清晰、结构化的关键属性总结,帮助你:快速判断数据是否值得用与怎么用;明确覆盖范围、粒度与时间跨度、更新规律、来源与权限、质量信号、适用场景与限制;统一团队口径、减少沟通与返工;以指定语言输出,可直接用于报告、评审与对外沟通,提升从接触数据到形成结论的速度与质量。

适用用户

数据分析师

快速建立数据集画像、发现缺失与异常、制定清洗方案、生成评审报告,缩短探索时间并提升结论可靠性。

算法工程师

在拿到新数据时,快速确认特征质量与偏差,获得可行的预处理与模型方向建议,减少迭代试错周期。

产品经理

将复杂数据情况转化为易懂报告,连接业务目标与可验证指标,推动数据项目评审与落地进度。

特征总结

一键生成数据集画像,快速提炼字段结构、分布与缺失概况,开箱即获关键洞察。
自动识别数据类型与异常值,提示潜在质量风险,为后续分析与建模扫清障碍。
智能给出清洗、编码、采样等预处理建议,减少试错成本,加快项目启动。
按业务目标推荐分析路径与模型方向,帮助团队聚焦可验证的指标与结论。
自动生成结构化技术说明与报告,便于评审、归档与共享,提升跨团队协作效率。
多语言输出与统一写作风格,一键面向全球团队发布,消除沟通差异。
通过参数化输入快速适配不同数据集与场景,复用模板,显著提升交付速度。
自动提示样本偏差与不平衡问题,提供可行修正策略,提升结果可信度。
快速对比数据集版本迭代差异,评估变更对指标影响,保障上线前决策可靠。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥15.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 246 tokens
- 2 个可调节参数
{ 数据集简述 } { 输出语言 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59