数据集关键属性总结

幂简官方

0 浏览

0 试用

0 购买

Sep 27, 2025更新

数据分析文生文

提取并总结特定数据集的关键属性及核心特点。

示例1

以下为该电商用户行为与订单日志数据集的技术性总结与处理建议，覆盖数据结构、画像所需特征、缺失与异常识别、以及清洗方案。

一、数据集概述与结构
- 数据来源
  - 行为日志：用户点击、加购、下单、退款等事件级数据。
  - 订单与商品：订单主表（订单级）、订单明细（商品级）、商品维表（类目、价格、品牌等），可选用户维表（账号、注册、渠道等）。
- 关键字段（建议统一命名与类型）
  - user_id（字符串/整数，唯一用户标识）
  - event_type（枚举：click/add_to_cart/order/refund）
  - event_ts（UTC时间戳，毫秒或秒）
  - session_id（可选，用于会话化）
  - product_id（商品标识）
  - category_id/category_name（商品类目）
  - price（商品标价，含币种与税费定义）
  - order_id（订单标识，order/refund绑定）
  - qty（数量）
  - discount_amount/discount_rate（可选）
  - order_amount（订单总额，含/不含运费、税费的定义需明确）
  - refund_amount（退款金额，支持全额/部分）
  - device/os/channel/geo（可选行为属性）
- 主关联关系
  - 行为日志 ↔ 商品维表：product_id
  - 订单主表 ↔ 订单明细：order_id
  - 订单明细 ↔ 商品维表：product_id
  - 退款 ↔ 订单/订单明细：order_id（必要）+ product_id（建议）

二、画像所需核心派生指标（快速可用的“最小画像集”）
- RFM（基于订单行为）
  - Recency：距最近下单的天数
  - Frequency：过去N天订单次数或明细行数
  - Monetary：过去N天净交易额（订单金额-退款金额）
- 转化与漏斗
  - CTR：点击→商品页的转化率（如需）
  - Add-to-cart rate：加购/点击
  - Purchase rate：下单/加购或下单/点击
  - Refund ratio：退款订单数/订单数、退款金额/订单金额
- 金额与价格敏感度
  - AOV：客单价（净额）
  - Basket size：每单商品数
  - 折扣使用率与折扣深度：有折扣订单比例、平均折扣率
- 行为强度与时序
  - 浏览深度：会话内点击次数、品类覆盖数
  - 首次点击到下单时延（转化时长）
- 类目偏好
  - 顶级类目的占比、集中度（如Top-N类目占比，Herfindahl指数）

三、缺失识别与分类（字段级与关联级）
- 字段级缺失
  - product_id缺失：无法关联商品与类目，行为记录价值受限；标记为不可用或“unknown product”并尽量回补。
  - category_id/name缺失：通过商品维表或映射表回填；无法回填时标记“unknown category”。
  - price缺失：重点核查来源（商品维或订单明细）；订单侧缺失价格需用订单明细计算，不建议以商品标价直接替代交易价。
  - event_ts缺失或异常：无法进行时序分析，原则上剔除或用服务器日志恢复。
  - order_id/refund_amount缺失：影响净额与退款关联；无order_id的退款记录视为异常。
- 关联级缺失
  - 行为↔商品维无匹配：比例超阈值需调查商品上架/下架、缓存延迟。
  - 订单↔明细不一致：订单金额与明细行金额汇总不匹配。
- 缺失机制评估
  - MCAR/MAR/MNAR分类：例如移动端某版本不采集类目（MAR），对模型可能偏置；采取分层或权重修正。

四、异常识别（规则与统计结合）
- 值域与逻辑约束
  - price/amount/qty必须≥0；qty=0或负值异常；price=0仅在赠品场景且需明确定义。
  - refund_amount≤订单对应行金额；退款日期≥订单日期。
  - 币种与税费：金额字段需统一币种与含税口径（Gross/Net），否则造成统计偏差。
- 时序与行为一致性
  - 事件顺序：加购必须在下单前；退款仅在下单后。
  - 非人类节奏：同用户短时间内高频重复点击（如<100ms间隔）或全天候活动，疑似机器人。
- 关联一致性
  - 订单明细合计≠订单总额（视运费/税费差异）；退款未能关联到订单/商品。
- 分布异常与离群
  - 价格在类目内的离群值：使用IQR或MAD检测；极端高价/低价需核查商品信息。
  - 行为率异常：异常高的加购率/下单率，或异常高的退款率，可能是促销、异常采集或欺诈。

五、数据清洗方案（可执行步骤）
1) 结构与类型校验
   - 统一时间戳、币种、金额口径；校验枚举值（event_type）。
   - 强制主键/外键可用性：user_id、product_id、order_id非空约束。
2) 去重与事件压缩
   - 基于[user_id, product_id, event_type, event_ts]窗口去重（例如±1秒内完全重复视为重复）。
   - 会话化：30分钟无活动切分session_id，生成会话级特征。
3) 关联修复与标准化
   - 行为日志补充商品维信息（类目、品牌）；“unknown”占比控制并监控。
   - 订单与明细对账：明细合计+运费+税费=订单总额；生成净额（订单-退款）与净客单。
   - 退款映射：使用[order_id, product_id]优先匹配，缺失时仅保留订单级退款并标注为“未定位到明细”。
4) 缺失处理
   - 类目缺失：映射表回填；仍缺失标注“unknown”，用于画像但谨慎用于建模（可加入缺失指示变量）。
   - 价格缺失：订单侧以明细行交易价回填；商品侧不以订单价回填，避免数据泄漏。
   - 时间戳缺失：无法回补则剔除；边界异常（未来时间/过旧）剔除或截断。
5) 异常与离群处理
   - 逻辑违规记录剔除：负价格、负数量、退款无订单关联。
   - 类目内价格离群：如偏离中位数>5*MAD，标记并与商品库核对；必要时Winsorize或分段建模。
   - 机器人/异常用户过滤：基于人机规则（超高事件频率、重复模式、异常会话时长）。
6) 一致性与口径统一
   - 定义净收入：sum(订单金额) - sum(退款金额)；明确税费与运费处理。
   - 折扣口径统一：基于订单明细计算真实成交价与折扣率。
7) 质量度量与监控
   - 缺失率、关联成功率、重复率、异常率等指标；清洗前后对比与审计样本抽检。

六、快速画像实施流程
- 数据时间窗：最近90天为主，叠加历史用于稳定性评估。
- 特征工程
  - RFM、漏斗率、AOV、Basket size、折扣使用率、退款比、转化时延、类目偏好分布。
  - 标准化/缩放：对金额类与频次类做RobustScaler或对数变换。
- 分群方法
  - 无监督：K-means/GMM（需标准化与特征选择）、层次聚类（可解释）、HDBSCAN（处理噪声与不规则簇）。
  - 评估：轮廓系数、Davies-Bouldin、簇稳定性（不同时间窗/抽样）。
- 输出与解释
  - 为每个簇提供核心特征概况：RFM分位、转化/退款率、类目偏好与价格带。
  - 避免主观命名；使用数据驱动的标签（如“高频高额低退款”、“低频高折扣高退款”等）。

七、建模与结果使用注意事项
- 泄漏控制：针对预测任务（如退款风险、转化概率），严格划分训练/验证的时间窗，禁止使用未来信息。
- 季节与促销影响：在促销窗口做分层或加入事件特征。
- 净额优先：画像与收入相关分析使用净额与净客单，避免毛额误判。
- 报表一致性：与业务口径（含税/含运费、订单状态）保持一致，并在元数据中记录。

该方案可在一周内完成数据接入、质量评估与基础画像上线：第1–2天结构与清洗规则落地，第3–4天特征工程与分群试跑，第5–7天修正与稳定性评估及仪表盘发布。

示例2

数据集概述与任务定义
- 任务类型：二分类（点击/未点击），典型的CTR预估场景。
- 粒度：应为曝光级（impression-level）日志。需确认主键字段（如 user_id、ad_id、campaign_id、timestamp）与事件时序。
- 目标变量：点击标记（click_label）。初步观察正负样本不均衡，需量化点击率与不平衡程度。

核心特征及预期统计特性
- 曝光次数（exposure_count）
  - 含义需明确：是单次请求中的广告位数量、用户对某广告的累计频次、还是某时间窗聚合频次。
  - 分布：重尾、偏态，可能存在极端值；与点击关系非线性（频次过高可能疲劳）。
  - 处理建议：log1p变换、截尾/分箱；确保仅使用点击前、窗口内的累计频次，防止未来信息泄漏。
- 停留时长（dwell_time）
  - 含义需明确：是曝光时在广告位的停留时长，还是点击后在落地页的停留时长。
  - 数据可用性：若仅点击后可观测，则对未点击样本为缺失（MNAR）；用作点击预测会造成严重泄漏。
  - 处理建议：用于点击后质量预测（post-click engagement）而非CTR；如需用于CTR，必须确保度量发生在点击前的可观测时段，并加入“是否可观测”指示变量。
- 设备类型（device_type）
  - 低基数分类变量（如 iOS/Android/其他），可能与点击行为和展示位置强相关。
  - 处理建议：独热编码或频数/目标编码；注意类别稀疏与罕见值合并；评估与地域、时段的交互。
- 地域（region）
  - 中高基数、层级结构（省/市/区）。不同地域流量结构与人群分布差异大。
  - 处理建议：映射到稳定层级（如省/大区），或用目标编码（带交叉验证和平滑）；考虑引入人口/经济外部特征以降低混杂。

不平衡性与评估
- 典型点击率可能在0.1%~5%之间，需确认具体正例占比、不同设备/地域的分层点击率。
- 评估指标：AUC-PR优先于AUC-ROC；同时监控LogLoss、校准（Brier score、可靠度曲线）、分组AUC（按设备/地域）。
- 采样与权重：可对负样本下采样并在训练中使用样本权重恢复先验；或直接使用带类权重/焦点损失的模型。评估需在未下采样的保留集上执行。

数据质量与一致性检查要点
- 时间与因果一致性
  - 特征时间窗定义必须严格先于点击事件；确认不存在“统计周期跨越点击”的情况。
  - 校验timestamp单调性；点击时间不得早于曝光时间；停留时长不得为负。
- 缺失与异常
  - 量化各特征缺失率；区分MCAR/MAR/MNAR。对于dwell_time的MNAR（仅点击可观测）需单独处理或剔除出CTR模型。
  - 曝光次数极端值、离群点检测；必要时winsorize或分箱。
- 重复与对齐
  - 检查重复曝光记录、重复点击标记；确认每条曝光的唯一性。
  - 对齐设备与地域：基于同一时点来源（SDK/IP/定位），避免跨源不一致。
- 标签质量
  - 去除无效/作弊点击（如极短停留、快速重复点击）；确认去重策略（同一曝光多次点击）。
  - 识别可疑流量来源（点击农场、异常设备指纹）。

偏差与潜在混杂
- 选择偏差：数据仅覆盖已投放和成功竞得的曝光，不能代表整体人群；位置偏差（靠前位点击更高）与竞价偏差可能显著。
- 分配/投放策略偏差：频控、出价、定向策略改变会引入非平稳性；同一用户在不同设备/地域的跨域偏差。
- 泄漏风险：
  - 停留时长若含点击后信息，严禁用于CTR。
  - 曝光次数若包含点击后或未来窗口累积，同样泄漏。
  - 目标编码必须在严格交叉验证框架内拟合，防止信息泄漏。
- 群体差异：按设备类型、地域、操作系统版本做公平性/稳定性评估（校准、AUC、PR-AUC对比），识别系统性低估或高估。

建模与预处理建议（简要）
- 数值特征：log1p、标准化/分箱；树模型可直接处理偏态但仍建议截尾。
- 类别特征：低基数one-hot；高基数 region 用目标编码/频数编码（带CV与平滑）。
- 交互：device_type×region、log(exposure_count)×region 等非线性交互对提升效果常有帮助。
- 切分策略：基于时间的训练/验证划分，避免时序泄漏；在验证集上保持原始类分布。
- 线上稳定性：监控分布漂移（PSI）、校准漂移；定期重训或自适应更新。

小结
- 该数据集适用于CTR二分类建模，存在显著类不平衡与多重偏差来源。
- 关键风险点在于时间因果一致性与特征泄漏，尤其是停留时长与曝光次数的时间窗定义。
- 建议以时间切分、严格编码与稳健评估（AUC-PR、校准、分组指标）作为基线流程，并对设备与地域维度进行系统性偏差审计。

示例3

以下为“SaaS注册转化数据”数据集的主要特征总结及可验证指标建议。

一、数据集关键属性
- 数据粒度
  - 建议每行代表一个注册用户的最新状态（用户级快照）。
  - 需有唯一主键（如 user_id）；若仅为注册事件，需标注是否首访注册，以便去重。

- 字段与类型
  1) 渠道来源（channel_source）
     - 类型：分类变量（字符串/枚举）
     - 取值：如 Paid Ads、SEO、Referral、Direct 等
     - 作用：用于分渠道对比转化与激活表现
  2) 注册时间（registration_time）
     - 类型：时间戳（UTC，精确到秒或毫秒）
     - 作用：构建日/周/月注册 Cohort，做时序与延迟分析
  3) 激活步骤完成率（activation_step_completion_rate）
     - 类型：数值型（建议标准化到 0–1 区间；若为 0–100%，需除以 100）
     - 作用：衡量初期产品使用深度，与试用/付费转化相关性分析的核心特征
     - 质量约束：不得为负，不得大于 1；允许缺失但需记录缺失率
  4) 试用状态（trial_status）
     - 类型：布尔或枚举（未试用/试用中/试用结束）
     - 作用：中间漏斗节点，计算注册→试用、试用→付费转化
     - 质量约束：取值集合固定；定义为“当前或曾经试用过”的一致口径
  5) 付费状态（paid_status）
     - 类型：布尔（已付费/未付费）
     - 作用：最终转化节点（北极星近似指标）
     - 质量约束：定义为“截至数据抽取时是否曾付费”；口径需固定

- 推荐衍生字段（基于现有字段可直接生成）
  - register_date、register_week、register_month（从注册时间拆分）
  - activation_completed_flag（如 activation_step_completion_rate ≥ 阈值；阈值需与业务对齐，如 0.7 或 1.0 表示全流程完成）
  - channel_normalized（归一化渠道枚举，清理别名/拼写差异）
  - snapshot_date（数据快照时间，确保状态口径一致性）

- 基本数据质量检查
  - 缺失率：各字段缺失比例（尤其 channel_source、activation_rate）
  - 值域：activation_rate ∈ [0,1]；注册时间不应晚于快照时间
  - 去重：主键唯一；如缺主键，用邮箱/手机号+注册时间近似去重
  - 渠道噪声：识别并排除测试渠道、内部来源

二、可验证指标建议（口径清晰、可直接计算）
说明：以下指标均以用户级快照为基础，分母为“满足去重后的注册用户数”。状态均以“截至快照日是否曾发生”为口径。

- 漏斗类核心转化指标
  1) 注册→试用转化率（CR_reg_to_trial）
     - 公式：count(trial_status = 真) / count(所有注册用户)
  2) 试用→付费转化率（CR_trial_to_paid）
     - 公式：count(paid_status = 真 AND trial_status = 真) / count(trial_status = 真)
     - 备注：若产品允许直付跳过试用，可并行计算“全体试用用户的付费率”与“直付用户比例”
  3) 注册→付费转化率（CR_reg_to_paid）
     - 公式：count(paid_status = 真) / count(所有注册用户)

- 激活相关指标
  4) 平均/中位数激活完成率（Mean/Median_activation_rate）
     - 公式：avg(activation_rate)、median(activation_rate)，可分渠道与分 Cohort 输出
  5) 激活分层付费率（Activation-tier Paid CR）
     - 分层：将 activation_rate 按阈值或分位（如四分位 Q1–Q4）分桶
     - 公式：count(paid_status = 真 且 activation_bucket = X) / count(activation_bucket = X)
     - 输出：各桶付费率与总体付费率的相对提升（Lift）

- 渠道与时间维度指标
  6) 渠道注册占比（Channel Share）
     - 公式：count(channel = C) / count(所有注册用户)
  7) 渠道转化率（Channel CRs）
     - 公式（示例）：CR_reg_to_paid_by_channel = count(paid = 真 且 channel = C) / count(channel = C)
  8) Cohort 转化（按注册周/月）
     - 公式（示例）：CR_reg_to_paid_by_cohort = count(paid = 真 且 register_month = M) / count(register_month = M)
     - 备注：对比不同 Cohort 的表现，识别产品迭代或市场变化的影响

- 质量与一致性指标（观测/告警用）
  9) 字段缺失率
     - 公式：missing_rate(field) = count(field IS NULL) / count(所有注册用户)
  10) 异常值占比（activation_rate 越界）
     - 公式：count(activation_rate < 0 OR activation_rate > 1) / count(所有注册用户)
  11) 可疑未来时间占比
     - 公式：count(registration_time > snapshot_date) / count(所有注册用户)

三、计算与验证口径说明
- 分母一致性：所有转化率分母需使用同一注册去重口径；若存在重复注册事件，统一按首个注册时间代表用户的注册。
- 状态定义：trial_status、paid_status建议使用“曾发生”口径，且以快照时间为参照；避免不同时间窗口导致指标不可比。
- 激活率标准化：明确激活率量纲为 0–1；若数据为百分比，统一转换后再计算。
- 分渠道清洗：合并渠道别名、剔除测试/内部渠道，使渠道对比可解释。
- 时间维度：采用 UTC 存储、按业务时区出报表；Cohort 粒度建议为周或月，避免日波动干扰。
- 可重复验证：每个指标提供SQL或数仓脚本时，固定过滤条件与字段口径，确保不同周期/人计算一致。

四、进一步分析建议（在现字段基础上可实施）
- 相关性分析：计算 activation_rate 与付费状态的点双列相关或按分位比较付费率，检验激活深度与转化的关系。
- 渠道结构化比较：对比各渠道的 activation_rate 分布与漏斗转化，识别高质量渠道与优化空间。
- 阈值寻找：通过不同 activation_completed_flag 阈值（如 0.6、0.8、1.0）测试对付费率的区分度，形成可执行的产品激活目标。

以上结构与指标口径可直接用于仪表盘与数仓度量定义，便于跨团队复核与持续监控。

适用用户

数据分析师

快速建立数据集画像、发现缺失与异常、制定清洗方案、生成评审报告，缩短探索时间并提升结论可靠性。

算法工程师

在拿到新数据时，快速确认特征质量与偏差，获得可行的预处理与模型方向建议，减少迭代试错周期。

产品经理

将复杂数据情况转化为易懂报告，连接业务目标与可验证指标，推动数据项目评审与落地进度。

数据治理负责人

评估数据质量与合规风险，统一文档标准与输出语言，提升跨部门协作与审计效率。

科研人员

为研究数据集生成结构化说明与方法建议，便于重复实验与成果共享，显著降低整理与写作成本。

BI/运营分析师

快速识别能驱动指标的关键变量，提出可落地的分析选题与报表结构，加速从洞察到行动的闭环。

解决的问题

把分散、模糊的“数据集简介”快速转化为清晰、结构化的关键属性总结，帮助你：快速判断数据是否值得用与怎么用；明确覆盖范围、粒度与时间跨度、更新规律、来源与权限、质量信号、适用场景与限制；统一团队口径、减少沟通与返工；以指定语言输出，可直接用于报告、评审与对外沟通，提升从接触数据到形成结论的速度与质量。

特征总结

• 一键生成数据集画像，快速提炼字段结构、分布与缺失概况，开箱即获关键洞察。

• 自动识别数据类型与异常值，提示潜在质量风险，为后续分析与建模扫清障碍。

• 智能给出清洗、编码、采样等预处理建议，减少试错成本，加快项目启动。

• 按业务目标推荐分析路径与模型方向，帮助团队聚焦可验证的指标与结论。

• 自动生成结构化技术说明与报告，便于评审、归档与共享，提升跨团队协作效率。

• 多语言输出与统一写作风格，一键面向全球团队发布，消除沟通差异。

• 通过参数化输入快速适配不同数据集与场景，复用模板，显著提升交付速度。

• 自动提示样本偏差与不平衡问题，提供可行修正策略，提升结果可信度。

• 快速对比数据集版本迭代差异，评估变更对指标影响，保障上线前决策可靠。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用（如 ChatGPT、Claude 等），即可直接对话使用，无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API，您的程序可任意修改模板参数，通过接口直接调用，轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址，让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作，让提示词在不同 AI 工具间无缝衔接。

￥15.00元

平台提供免费试用机制，
确保效果符合预期，再付费购买!

先用后买

您购买后可以获得什么

✓

获得完整提示词模板

- 共 246 tokens

- 2 个可调节参数

{ 数据集简述 } { 输出语言 }

✓

自动加入"我的提示词库"

- 获得提示词优化器支持

- 版本化管理支持

✓

获得社区共享的应用案例

数据集关键属性总结

示例1

示例2

示例3

适用用户

数据分析师

算法工程师

产品经理

数据治理负责人

科研人员

BI/运营分析师

解决的问题

特征总结

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

2. 发布为 API 接口调用

3. 在 MCP Client 中配置使用

您购买后可以获得什么

不要错过！

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

数据集关键属性总结

示例1

示例2

示例3

适用用户

数据分析师

算法工程师

产品经理

数据治理负责人

科研人员

BI/运营分析师

解决的问题

特征总结

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

2. 发布为 API 接口调用

3. 在 MCP Client 中配置使用

您购买后可以获得什么

不要错过！

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

反馈问题