提取并总结特定数据集的关键属性及核心特点。
以下为该电商用户行为与订单日志数据集的技术性总结与处理建议,覆盖数据结构、画像所需特征、缺失与异常识别、以及清洗方案。 一、数据集概述与结构 - 数据来源 - 行为日志:用户点击、加购、下单、退款等事件级数据。 - 订单与商品:订单主表(订单级)、订单明细(商品级)、商品维表(类目、价格、品牌等),可选用户维表(账号、注册、渠道等)。 - 关键字段(建议统一命名与类型) - user_id(字符串/整数,唯一用户标识) - event_type(枚举:click/add_to_cart/order/refund) - event_ts(UTC时间戳,毫秒或秒) - session_id(可选,用于会话化) - product_id(商品标识) - category_id/category_name(商品类目) - price(商品标价,含币种与税费定义) - order_id(订单标识,order/refund绑定) - qty(数量) - discount_amount/discount_rate(可选) - order_amount(订单总额,含/不含运费、税费的定义需明确) - refund_amount(退款金额,支持全额/部分) - device/os/channel/geo(可选行为属性) - 主关联关系 - 行为日志 ↔ 商品维表:product_id - 订单主表 ↔ 订单明细:order_id - 订单明细 ↔ 商品维表:product_id - 退款 ↔ 订单/订单明细:order_id(必要)+ product_id(建议) 二、画像所需核心派生指标(快速可用的“最小画像集”) - RFM(基于订单行为) - Recency:距最近下单的天数 - Frequency:过去N天订单次数或明细行数 - Monetary:过去N天净交易额(订单金额-退款金额) - 转化与漏斗 - CTR:点击→商品页的转化率(如需) - Add-to-cart rate:加购/点击 - Purchase rate:下单/加购或下单/点击 - Refund ratio:退款订单数/订单数、退款金额/订单金额 - 金额与价格敏感度 - AOV:客单价(净额) - Basket size:每单商品数 - 折扣使用率与折扣深度:有折扣订单比例、平均折扣率 - 行为强度与时序 - 浏览深度:会话内点击次数、品类覆盖数 - 首次点击到下单时延(转化时长) - 类目偏好 - 顶级类目的占比、集中度(如Top-N类目占比,Herfindahl指数) 三、缺失识别与分类(字段级与关联级) - 字段级缺失 - product_id缺失:无法关联商品与类目,行为记录价值受限;标记为不可用或“unknown product”并尽量回补。 - category_id/name缺失:通过商品维表或映射表回填;无法回填时标记“unknown category”。 - price缺失:重点核查来源(商品维或订单明细);订单侧缺失价格需用订单明细计算,不建议以商品标价直接替代交易价。 - event_ts缺失或异常:无法进行时序分析,原则上剔除或用服务器日志恢复。 - order_id/refund_amount缺失:影响净额与退款关联;无order_id的退款记录视为异常。 - 关联级缺失 - 行为↔商品维无匹配:比例超阈值需调查商品上架/下架、缓存延迟。 - 订单↔明细不一致:订单金额与明细行金额汇总不匹配。 - 缺失机制评估 - MCAR/MAR/MNAR分类:例如移动端某版本不采集类目(MAR),对模型可能偏置;采取分层或权重修正。 四、异常识别(规则与统计结合) - 值域与逻辑约束 - price/amount/qty必须≥0;qty=0或负值异常;price=0仅在赠品场景且需明确定义。 - refund_amount≤订单对应行金额;退款日期≥订单日期。 - 币种与税费:金额字段需统一币种与含税口径(Gross/Net),否则造成统计偏差。 - 时序与行为一致性 - 事件顺序:加购必须在下单前;退款仅在下单后。 - 非人类节奏:同用户短时间内高频重复点击(如<100ms间隔)或全天候活动,疑似机器人。 - 关联一致性 - 订单明细合计≠订单总额(视运费/税费差异);退款未能关联到订单/商品。 - 分布异常与离群 - 价格在类目内的离群值:使用IQR或MAD检测;极端高价/低价需核查商品信息。 - 行为率异常:异常高的加购率/下单率,或异常高的退款率,可能是促销、异常采集或欺诈。 五、数据清洗方案(可执行步骤) 1) 结构与类型校验 - 统一时间戳、币种、金额口径;校验枚举值(event_type)。 - 强制主键/外键可用性:user_id、product_id、order_id非空约束。 2) 去重与事件压缩 - 基于[user_id, product_id, event_type, event_ts]窗口去重(例如±1秒内完全重复视为重复)。 - 会话化:30分钟无活动切分session_id,生成会话级特征。 3) 关联修复与标准化 - 行为日志补充商品维信息(类目、品牌);“unknown”占比控制并监控。 - 订单与明细对账:明细合计+运费+税费=订单总额;生成净额(订单-退款)与净客单。 - 退款映射:使用[order_id, product_id]优先匹配,缺失时仅保留订单级退款并标注为“未定位到明细”。 4) 缺失处理 - 类目缺失:映射表回填;仍缺失标注“unknown”,用于画像但谨慎用于建模(可加入缺失指示变量)。 - 价格缺失:订单侧以明细行交易价回填;商品侧不以订单价回填,避免数据泄漏。 - 时间戳缺失:无法回补则剔除;边界异常(未来时间/过旧)剔除或截断。 5) 异常与离群处理 - 逻辑违规记录剔除:负价格、负数量、退款无订单关联。 - 类目内价格离群:如偏离中位数>5*MAD,标记并与商品库核对;必要时Winsorize或分段建模。 - 机器人/异常用户过滤:基于人机规则(超高事件频率、重复模式、异常会话时长)。 6) 一致性与口径统一 - 定义净收入:sum(订单金额) - sum(退款金额);明确税费与运费处理。 - 折扣口径统一:基于订单明细计算真实成交价与折扣率。 7) 质量度量与监控 - 缺失率、关联成功率、重复率、异常率等指标;清洗前后对比与审计样本抽检。 六、快速画像实施流程 - 数据时间窗:最近90天为主,叠加历史用于稳定性评估。 - 特征工程 - RFM、漏斗率、AOV、Basket size、折扣使用率、退款比、转化时延、类目偏好分布。 - 标准化/缩放:对金额类与频次类做RobustScaler或对数变换。 - 分群方法 - 无监督:K-means/GMM(需标准化与特征选择)、层次聚类(可解释)、HDBSCAN(处理噪声与不规则簇)。 - 评估:轮廓系数、Davies-Bouldin、簇稳定性(不同时间窗/抽样)。 - 输出与解释 - 为每个簇提供核心特征概况:RFM分位、转化/退款率、类目偏好与价格带。 - 避免主观命名;使用数据驱动的标签(如“高频高额低退款”、“低频高折扣高退款”等)。 七、建模与结果使用注意事项 - 泄漏控制:针对预测任务(如退款风险、转化概率),严格划分训练/验证的时间窗,禁止使用未来信息。 - 季节与促销影响:在促销窗口做分层或加入事件特征。 - 净额优先:画像与收入相关分析使用净额与净客单,避免毛额误判。 - 报表一致性:与业务口径(含税/含运费、订单状态)保持一致,并在元数据中记录。 该方案可在一周内完成数据接入、质量评估与基础画像上线:第1–2天结构与清洗规则落地,第3–4天特征工程与分群试跑,第5–7天修正与稳定性评估及仪表盘发布。
数据集概述与任务定义 - 任务类型:二分类(点击/未点击),典型的CTR预估场景。 - 粒度:应为曝光级(impression-level)日志。需确认主键字段(如 user_id、ad_id、campaign_id、timestamp)与事件时序。 - 目标变量:点击标记(click_label)。初步观察正负样本不均衡,需量化点击率与不平衡程度。 核心特征及预期统计特性 - 曝光次数(exposure_count) - 含义需明确:是单次请求中的广告位数量、用户对某广告的累计频次、还是某时间窗聚合频次。 - 分布:重尾、偏态,可能存在极端值;与点击关系非线性(频次过高可能疲劳)。 - 处理建议:log1p变换、截尾/分箱;确保仅使用点击前、窗口内的累计频次,防止未来信息泄漏。 - 停留时长(dwell_time) - 含义需明确:是曝光时在广告位的停留时长,还是点击后在落地页的停留时长。 - 数据可用性:若仅点击后可观测,则对未点击样本为缺失(MNAR);用作点击预测会造成严重泄漏。 - 处理建议:用于点击后质量预测(post-click engagement)而非CTR;如需用于CTR,必须确保度量发生在点击前的可观测时段,并加入“是否可观测”指示变量。 - 设备类型(device_type) - 低基数分类变量(如 iOS/Android/其他),可能与点击行为和展示位置强相关。 - 处理建议:独热编码或频数/目标编码;注意类别稀疏与罕见值合并;评估与地域、时段的交互。 - 地域(region) - 中高基数、层级结构(省/市/区)。不同地域流量结构与人群分布差异大。 - 处理建议:映射到稳定层级(如省/大区),或用目标编码(带交叉验证和平滑);考虑引入人口/经济外部特征以降低混杂。 不平衡性与评估 - 典型点击率可能在0.1%~5%之间,需确认具体正例占比、不同设备/地域的分层点击率。 - 评估指标:AUC-PR优先于AUC-ROC;同时监控LogLoss、校准(Brier score、可靠度曲线)、分组AUC(按设备/地域)。 - 采样与权重:可对负样本下采样并在训练中使用样本权重恢复先验;或直接使用带类权重/焦点损失的模型。评估需在未下采样的保留集上执行。 数据质量与一致性检查要点 - 时间与因果一致性 - 特征时间窗定义必须严格先于点击事件;确认不存在“统计周期跨越点击”的情况。 - 校验timestamp单调性;点击时间不得早于曝光时间;停留时长不得为负。 - 缺失与异常 - 量化各特征缺失率;区分MCAR/MAR/MNAR。对于dwell_time的MNAR(仅点击可观测)需单独处理或剔除出CTR模型。 - 曝光次数极端值、离群点检测;必要时winsorize或分箱。 - 重复与对齐 - 检查重复曝光记录、重复点击标记;确认每条曝光的唯一性。 - 对齐设备与地域:基于同一时点来源(SDK/IP/定位),避免跨源不一致。 - 标签质量 - 去除无效/作弊点击(如极短停留、快速重复点击);确认去重策略(同一曝光多次点击)。 - 识别可疑流量来源(点击农场、异常设备指纹)。 偏差与潜在混杂 - 选择偏差:数据仅覆盖已投放和成功竞得的曝光,不能代表整体人群;位置偏差(靠前位点击更高)与竞价偏差可能显著。 - 分配/投放策略偏差:频控、出价、定向策略改变会引入非平稳性;同一用户在不同设备/地域的跨域偏差。 - 泄漏风险: - 停留时长若含点击后信息,严禁用于CTR。 - 曝光次数若包含点击后或未来窗口累积,同样泄漏。 - 目标编码必须在严格交叉验证框架内拟合,防止信息泄漏。 - 群体差异:按设备类型、地域、操作系统版本做公平性/稳定性评估(校准、AUC、PR-AUC对比),识别系统性低估或高估。 建模与预处理建议(简要) - 数值特征:log1p、标准化/分箱;树模型可直接处理偏态但仍建议截尾。 - 类别特征:低基数one-hot;高基数 region 用目标编码/频数编码(带CV与平滑)。 - 交互:device_type×region、log(exposure_count)×region 等非线性交互对提升效果常有帮助。 - 切分策略:基于时间的训练/验证划分,避免时序泄漏;在验证集上保持原始类分布。 - 线上稳定性:监控分布漂移(PSI)、校准漂移;定期重训或自适应更新。 小结 - 该数据集适用于CTR二分类建模,存在显著类不平衡与多重偏差来源。 - 关键风险点在于时间因果一致性与特征泄漏,尤其是停留时长与曝光次数的时间窗定义。 - 建议以时间切分、严格编码与稳健评估(AUC-PR、校准、分组指标)作为基线流程,并对设备与地域维度进行系统性偏差审计。
以下为“SaaS注册转化数据”数据集的主要特征总结及可验证指标建议。 一、数据集关键属性 - 数据粒度 - 建议每行代表一个注册用户的最新状态(用户级快照)。 - 需有唯一主键(如 user_id);若仅为注册事件,需标注是否首访注册,以便去重。 - 字段与类型 1) 渠道来源(channel_source) - 类型:分类变量(字符串/枚举) - 取值:如 Paid Ads、SEO、Referral、Direct 等 - 作用:用于分渠道对比转化与激活表现 2) 注册时间(registration_time) - 类型:时间戳(UTC,精确到秒或毫秒) - 作用:构建日/周/月注册 Cohort,做时序与延迟分析 3) 激活步骤完成率(activation_step_completion_rate) - 类型:数值型(建议标准化到 0–1 区间;若为 0–100%,需除以 100) - 作用:衡量初期产品使用深度,与试用/付费转化相关性分析的核心特征 - 质量约束:不得为负,不得大于 1;允许缺失但需记录缺失率 4) 试用状态(trial_status) - 类型:布尔或枚举(未试用/试用中/试用结束) - 作用:中间漏斗节点,计算注册→试用、试用→付费转化 - 质量约束:取值集合固定;定义为“当前或曾经试用过”的一致口径 5) 付费状态(paid_status) - 类型:布尔(已付费/未付费) - 作用:最终转化节点(北极星近似指标) - 质量约束:定义为“截至数据抽取时是否曾付费”;口径需固定 - 推荐衍生字段(基于现有字段可直接生成) - register_date、register_week、register_month(从注册时间拆分) - activation_completed_flag(如 activation_step_completion_rate ≥ 阈值;阈值需与业务对齐,如 0.7 或 1.0 表示全流程完成) - channel_normalized(归一化渠道枚举,清理别名/拼写差异) - snapshot_date(数据快照时间,确保状态口径一致性) - 基本数据质量检查 - 缺失率:各字段缺失比例(尤其 channel_source、activation_rate) - 值域:activation_rate ∈ [0,1];注册时间不应晚于快照时间 - 去重:主键唯一;如缺主键,用邮箱/手机号+注册时间近似去重 - 渠道噪声:识别并排除测试渠道、内部来源 二、可验证指标建议(口径清晰、可直接计算) 说明:以下指标均以用户级快照为基础,分母为“满足去重后的注册用户数”。状态均以“截至快照日是否曾发生”为口径。 - 漏斗类核心转化指标 1) 注册→试用转化率(CR_reg_to_trial) - 公式:count(trial_status = 真) / count(所有注册用户) 2) 试用→付费转化率(CR_trial_to_paid) - 公式:count(paid_status = 真 AND trial_status = 真) / count(trial_status = 真) - 备注:若产品允许直付跳过试用,可并行计算“全体试用用户的付费率”与“直付用户比例” 3) 注册→付费转化率(CR_reg_to_paid) - 公式:count(paid_status = 真) / count(所有注册用户) - 激活相关指标 4) 平均/中位数激活完成率(Mean/Median_activation_rate) - 公式:avg(activation_rate)、median(activation_rate),可分渠道与分 Cohort 输出 5) 激活分层付费率(Activation-tier Paid CR) - 分层:将 activation_rate 按阈值或分位(如四分位 Q1–Q4)分桶 - 公式:count(paid_status = 真 且 activation_bucket = X) / count(activation_bucket = X) - 输出:各桶付费率与总体付费率的相对提升(Lift) - 渠道与时间维度指标 6) 渠道注册占比(Channel Share) - 公式:count(channel = C) / count(所有注册用户) 7) 渠道转化率(Channel CRs) - 公式(示例):CR_reg_to_paid_by_channel = count(paid = 真 且 channel = C) / count(channel = C) 8) Cohort 转化(按注册周/月) - 公式(示例):CR_reg_to_paid_by_cohort = count(paid = 真 且 register_month = M) / count(register_month = M) - 备注:对比不同 Cohort 的表现,识别产品迭代或市场变化的影响 - 质量与一致性指标(观测/告警用) 9) 字段缺失率 - 公式:missing_rate(field) = count(field IS NULL) / count(所有注册用户) 10) 异常值占比(activation_rate 越界) - 公式:count(activation_rate < 0 OR activation_rate > 1) / count(所有注册用户) 11) 可疑未来时间占比 - 公式:count(registration_time > snapshot_date) / count(所有注册用户) 三、计算与验证口径说明 - 分母一致性:所有转化率分母需使用同一注册去重口径;若存在重复注册事件,统一按首个注册时间代表用户的注册。 - 状态定义:trial_status、paid_status建议使用“曾发生”口径,且以快照时间为参照;避免不同时间窗口导致指标不可比。 - 激活率标准化:明确激活率量纲为 0–1;若数据为百分比,统一转换后再计算。 - 分渠道清洗:合并渠道别名、剔除测试/内部渠道,使渠道对比可解释。 - 时间维度:采用 UTC 存储、按业务时区出报表;Cohort 粒度建议为周或月,避免日波动干扰。 - 可重复验证:每个指标提供SQL或数仓脚本时,固定过滤条件与字段口径,确保不同周期/人计算一致。 四、进一步分析建议(在现字段基础上可实施) - 相关性分析:计算 activation_rate 与付费状态的点双列相关或按分位比较付费率,检验激活深度与转化的关系。 - 渠道结构化比较:对比各渠道的 activation_rate 分布与漏斗转化,识别高质量渠道与优化空间。 - 阈值寻找:通过不同 activation_completed_flag 阈值(如 0.6、0.8、1.0)测试对付费率的区分度,形成可执行的产品激活目标。 以上结构与指标口径可直接用于仪表盘与数仓度量定义,便于跨团队复核与持续监控。
快速建立数据集画像、发现缺失与异常、制定清洗方案、生成评审报告,缩短探索时间并提升结论可靠性。
在拿到新数据时,快速确认特征质量与偏差,获得可行的预处理与模型方向建议,减少迭代试错周期。
将复杂数据情况转化为易懂报告,连接业务目标与可验证指标,推动数据项目评审与落地进度。
评估数据质量与合规风险,统一文档标准与输出语言,提升跨部门协作与审计效率。
为研究数据集生成结构化说明与方法建议,便于重复实验与成果共享,显著降低整理与写作成本。
快速识别能驱动指标的关键变量,提出可落地的分析选题与报表结构,加速从洞察到行动的闭环。
把分散、模糊的“数据集简介”快速转化为清晰、结构化的关键属性总结,帮助你:快速判断数据是否值得用与怎么用;明确覆盖范围、粒度与时间跨度、更新规律、来源与权限、质量信号、适用场景与限制;统一团队口径、减少沟通与返工;以指定语言输出,可直接用于报告、评审与对外沟通,提升从接触数据到形成结论的速度与质量。
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
免费获取高级提示词-优惠即将到期