数据集描述分析

157 浏览
12 试用
3 购买
Sep 25, 2025更新

提供数据集的专业描述与分析总结,注重清晰和准确。

以下为零售交易与客流数据的描述性总结框架与关键结论模板,适用于门店层面与时间序列数据的常规分析。内容聚焦数据质量、核心指标、分布特征、时序规律、门店/渠道对比及客流—交易联动关系,便于快速形成高质量业务报告。请在获得具体数据后填充数值并生成图表。

一、数据概览与质量评估

  • 覆盖范围与粒度
    • 时间范围:起止日期、营业时段。
    • 粒度:按小时/日/周;门店/区域/渠道(如线上、线下)。
  • 字段与口径统一
    • 客流:建议明确为“进店客流”(进入门店的计数);如同时存在“商圈客流”,需区分并计算进店率。
    • 交易:交易笔数、销售额(税前/税后口径须一致)、售出件数、退货笔数/金额。
    • 促销/营销、天气/节假日、门店属性(面积、人手、位置)。
  • 数据质量
    • 缺失率:各字段缺失占比,关键字段(时间戳、门店ID、客流、交易)缺失需单独标注。
    • 重复记录:按门店×时间粒度去重后重复率。
    • 时间一致性:时区、营业时段对齐;客流与交易是否同一时间窗。
    • 异常值:用箱线法(Tukey)识别:小于Q1−1.5×IQR或大于Q3+1.5×IQR的记录;或z分数|z|≥3。

二、核心指标与标准公式(按门店×时间粒度)

  • 客流与到店效率
    • 进店客流(Footfall_in):进入门店的客流计数。
    • 商圈客流(Footfall_out):门店外或商圈范围客流(如有)。
    • 进店率 = 进店客流 / 商圈客流。
  • 交易与销售
    • 交易笔数(Transactions)。
    • 销售额(Revenue)= ∑交易金额(明确税前/税后)。
    • 件数(Units)= ∑售出件数。
    • 退货率 = 退货笔数 / 交易笔数;退货金额占比 = 退货金额 / 销售额。
  • 转化与效率
    • 转化率(CR)= 交易笔数 / 进店客流。
    • 客单价(AOV)= 销售额 / 交易笔数。
    • 人均件数(UPT)= 售出件数 / 交易笔数。
    • 人均销售额(Revenue per Visitor, RPV)= 销售额 / 进店客流。
    • 每小时交易密度 = 交易笔数 / 营业小时。
    • 每平米销售额(如有面积)= 销售额 / 门店面积。
  • 促销与券使用(如有)
    • 券使用率 = 使用券交易笔数 / 交易笔数。
    • 促销期提升(Uplift)= 促销期指标 / 基线指标 − 1(基线建议按同店同日类型、同小时段的历史均值或中位数)。

三、分布特征(描述性统计)

  • 对上述核心指标在“门店×时间”维度计算:计数、均值、中位数、标准差、最小/最大、分位数(P25/P75)、IQR、偏度、峰度。
  • 关注点
    • 若均值显著高于中位数,提示右偏(尾部大),需用中位数更稳健地代表中心水平。
    • IQR较大表示门店或时段间差异显著,建议分层管理。
    • 极端值应结合营业异常、设备故障、促销活动解释或剔除。

四、时间序列与季节性

  • 日/周/月趋势:识别长期趋势与季节性波动。
  • 星期模式:工作日 vs 周末;按小时热力图识别峰谷时段(如午间、晚高峰)。
  • 节假日/活动窗口:与基线对比,量化客流与转化率变化。
  • 稳定性评估:滚动均值/中位数、滚动标准差衡量波动;突变点(Change point)用于识别结构性变化。

五、维度对比与分层

  • 门店分层:按转化率、AOV、RPV分为高/中/低三层,评估各层差异。
  • 区域/渠道对比:不同城市、商圈类型或线上/线下渠道的指标差异。
  • 品类贡献(如有):销售额占比Top品类的帕累托分布(80/20),识别长尾机会。

六、客流—交易联动(描述性关联)

  • 相关性
    • Pearson相关(线性关系):进店客流 vs 交易笔数、进店客流 vs 销售额。
    • Spearman相关(单调关系,抗异常值)。
  • 转化漏斗
    • 商圈客流 → 进店客流 → 交易笔数 → 销售额;各环节转化率的分布与时段/门店差异。
  • 弹性与敏感度
    • 销售额对客流的单位增量贡献(可用分组回归的斜率或分段均值差近似)。
  • 滞后效应(如有会员或预约业务)
    • 交叉相关检查客流与交易的滞后关系(同日/次日是否存在显著影响)。

七、建议的图表与输出清单

  • 时序折线:客流、交易、销售额、转化率(分门店/整体)。
  • 箱线图:AOV、RPV、转化率的门店分布与异常值。
  • 热力图:小时×星期的客流与交易强度。
  • 散点图(含拟合线):客流 vs 交易、客流 vs 销售额。
  • 分层对比表:高/中/低转化率门店的核心指标概览。
  • 促销分析表:活动期与基线期的指标对比与提升率。

八、示例结论模板(填充数据后直接输出)

  • 数据质量:关键字段缺失率为[ ]%,重复率为[ ]%,时间对齐完成;异常值主要出现在[ ]时段/门店,已按规则处理。
  • 核心水平:整体转化率中位数[ ]%,AOV中位数[ ],RPV中位数[ ];门店间差异(IQR)为[ ],提示[ ]。
  • 时间规律:周末较工作日客流提升约[ ]%,转化率在[ ]时段显著提高/降低;节假日促销带来销售额提升[ ]%。
  • 维度差异:区域A的RPV显著高于区域B(差异[ ]%,p值[ ]);低转化门店集中在[ ]类型商圈。
  • 联动关系:进店客流与交易笔数相关系数为[ ](p值[ ]);单位客流的增量销售额为[ ]。
  • 行动建议:在峰时段[ ]优化人手配置;对低转化门店开展动线与陈列诊断;促销优先选择[ ]时段与[ ]门店执行;建立日级转化率监控与异常告警。

九、执行与治理建议

  • 口径治理:统一税前/税后、退货计入逻辑、会员与非会员交易标识。
  • 数据对齐:以小时为基本对齐粒度,确保客流与交易时间窗一致;剔除闭店时段。
  • 稳健统计:报告中心趋势以中位数为主,均值作为参考;异常值采用箱线法或winsorize处理。
  • 基线构建:活动期对比同店同星期类型同小时段的历史中位数,避免季节性与星期效应干扰。

如需,我可以在您提供数据样例或字段字典后,按上述框架输出一份具体的统计摘要与图表清单,并给出关键业务结论与可执行建议。

Descriptive summary for an urban mobility trajectories dataset with anomalous samples

Scope and unit of analysis

  • Objective: Quantify the characteristics of urban mobility trajectories, assess data quality, and summarize the prevalence and nature of anomalous samples.
  • Units: GPS points and derived trip segments/trajectories. If anomaly labels are present, summarize both point-level and trip-level anomalies.
  • Coverage to report: observation period (start–end), cities/regions covered, coordinate system (expected WGS84), and time zone.

Core schema (expected fields)

  • Identifiers: device_id, trip_id (or session_id), point_id (optional).
  • Spatiotemporal: timestamp (UTC or local), latitude, longitude, optional altitude, horizontal_accuracy (m), heading, speed (m/s or km/h).
  • Attributes (if available): mode_label, road segment or matched link_id, POI/zone IDs.
  • Anomalies: anomaly_flag (0/1), anomaly_type (categorical), anomaly_score (numeric), annotator/source (rule, model, human).

Data volume and coverage Report:

  • Total points; total trips; unique devices.
  • Average points per trip; median sampling interval (s) and its variability.
  • Spatial footprint: number of covered grid cells (e.g., 500 m), share of city area covered.
  • Temporal footprint: days covered; distribution by weekday/weekend; hour-of-day counts.

Data quality profile

  • Completeness: missing values per field (%), particularly timestamp, lat/lon, accuracy, speed.
  • Validity:
    • Coordinates within bounding box; remove (lat, lon) outside plausible ranges.
    • Timestamp monotonicity within device/trip; non-increasing or duplicated timestamps (%).
    • Duplicated points (exact duplicates and near-duplicates within 1–5 m).
  • Positional quality: distribution of horizontal_accuracy (median, IQR, 90th percentile); share > 30 m and > 100 m.
  • Sampling regularity: distribution of inter-point intervals; share > 60 s between consecutive fixes; prolonged gaps per trip.
  • Device stability: per-device data volume and gap patterns; identify devices contributing disproportionately high errors.

Trajectory-level descriptors Compute per trip (map-match if available; otherwise use great-circle distances):

  • Duration: end_time − start_time; report median, IQR, 90th percentile.
  • Distance: sum of segment distances (Haversine); report median, IQR, 90th percentile.
  • Speeds: segment speed = distance/Δt; trip median speed; 95th percentile speed.
  • Acceleration: change in speed/Δt; summarize typical ranges; cap extreme values to limit GPS noise.
  • Dwell behavior: number of stops (speed < threshold for ≥ t_stop), median dwell time.
  • Shape metrics: detour index (path length / straight-line distance), radius of gyration.

Recommended summary outputs:

  • ECDFs and histograms for trip distance, duration, median speed.
  • Cross-tabs by hour-of-day and weekday/weekend for trip counts and speeds.
  • Segment-level speed distribution by road class or area type (if available).

Spatial distribution and OD structure

  • Density maps of points and trip starts/ends; identify hotspots.
  • OD analysis: top OD pairs and their share; flows by zone (e.g., TAZ or hex bins).
  • Spatial imbalance: compare inflow vs outflow by zone and time (peak hours vs off-peak).

Temporal patterns

  • Diurnal patterns: trip counts and median speed by hour; peak periods (AM/PM).
  • Weekly patterns: weekday vs weekend volumes and speed differences.
  • Seasonality across the observation window (if multi-week/month).

Anomalous samples summary Clearly define anomaly taxonomy; typical categories:

  • Implausible speed: segment speed above urban feasibility (e.g., > 160 km/h) or above lane-level limits after map-matching.
  • Teleportation/jumps: large displacement in short time (e.g., > 1 km in < 5 s) or extreme acceleration.
  • GPS drift/noise: high horizontal_accuracy with oscillations around a point; zig-zag in low-speed contexts.
  • Timestamp issues: non-monotonic time, duplicated timestamps, large gaps within a trip.
  • Route deviation: significant divergence from expected route (if route plan exists).
  • Mode inconsistency: speed/trajectory features inconsistent with mode_label.
  • Duplicates: overlapping trajectories from the same device_id/trip_id.
  • Stationarity anomalies: long dwell without expected context (may be false positives near indoor/urban canyon).

Report:

  • Prevalence:
    • Point-level: % of points flagged anomalous; breakdown by type.
    • Trip-level: % of trips with ≥1 anomaly; median count of anomalies per affected trip.
  • Severity:
    • Share of anomalies exceeding hard physical limits vs soft statistical thresholds.
    • Distribution of anomaly_score (if provided) and suggested operating points (precision/recall trade-offs).
  • Concentration:
    • By device: top decile of devices by anomaly rate; Gini or Lorenz curve of anomaly contribution.
    • By time: anomaly rate by hour/day; spikes during rush hours or nighttime.
    • By location: hotspots where anomalies cluster (e.g., tunnels, high-rise canyons, near water).
  • Root-cause indicators:
    • Correlation with horizontal_accuracy and sampling gaps.
    • Associations with specific phone models, OS versions, or app builds (if metadata available).
    • Map-matching residuals vs speed anomalies.

Robust thresholds and methods

  • Use robust statistics for outlier thresholds: median ± kMAD or IQR-based fences; avoid mean ± zSD in heavy-tailed distributions.
  • Speed ceiling examples (tunable to context):
    • Pedestrian: > 15 km/h sustained indicates mislabel or bicycle.
    • Bicycle: > 50 km/h indicates motorized transport or GPS error.
    • Urban motor vehicle: > 160 km/h indicates error.
  • Teleportation: flag if displacement/Δt implies acceleration beyond 4–6 m/s² sustained or if segment distance > 300–500 m with Δt < 2–3 s.
  • Positional noise: flag oscillations with low net displacement and high variance in bearing at low speeds.

Bias and representativeness

  • Device and platform bias: compare trip rates by device type if available.
  • Spatial bias: under-representation in suburban or low-density areas.
  • Temporal bias: uneven sampling across hours/days; adjust analyses with weights if needed.
  • Mode bias: if labels are crowd-sourced, estimate label noise rates using cross-validation or spot audits.

Quality controls and cleaning recommendations

  • Standardize time zone and sort by device_id, timestamp.
  • Remove or correct impossible coordinates; interpolate small gaps only when justifiable.
  • Cap or smooth speeds using Kalman or Savitzky–Golay filters where appropriate; document impacts.
  • Use map-matching to road or path networks before computing route-based metrics; report match rate and average residual.
  • Maintain an audit trail: pre-cleaning vs post-cleaning metrics and counts of removed/altered points.

KPIs to include in the final report

  • Coverage: total points, trips, devices; observation period; median sampling interval.
  • Trip metrics: median distance, duration, median and 95th percentile speeds; detour index distribution.
  • Quality: % points with accuracy > 30 m; % duplicate points; % trips with internal time gaps > 5 minutes.
  • Anomalies: overall anomaly rate (points and trips), top 3 anomaly types with shares, top 5 spatial hotspots, top decile devices by anomaly contribution.
  • Reliability uplift after cleaning: change in speed distribution tails, reduction in anomaly rate.

Assumptions and dependencies to confirm

  • Coordinate system: WGS84; altitude usage if available.
  • Time zone and clock synchronization; daylight saving handling.
  • Definition of trip segmentation (gap threshold, stop duration).
  • Source and meaning of anomaly labels (rule-based, model-based, or human annotation).

Next steps

  • Share a data dictionary and a 1% sample to finalize thresholds and compute exact metrics.
  • Produce baseline descriptive tables and visual summaries, then iterate on anomaly taxonomy with domain stakeholders.
  • Establish monitoring dashboards to track KPIs over time and detect drift in anomaly rates or data quality.

If you provide the schema and a small sample (or aggregate counts), I can populate the specific metrics and generate the final concise report.

以下为针对“IoT设备能耗与健康数据”数据集的描述性总结框架与要点,旨在为业务与数据团队提供一致、可复用的统计摘要模板。由于未提供具体数据,以下内容聚焦于应报告的指标、计算口径与解释原则,避免虚构数值。

一、数据概览与范围

  • 分析单位与频率:明确记录粒度(如每分钟/每5分钟/每小时),时区与夏令时处理方式。
  • 覆盖情况:设备数、用户数、观测天数、设备类型分布(可穿戴/家居设备/医疗级传感器等)。
  • 关键主键:user_id、device_id、timestamp;确认能耗与健康数据的关联键与时间对齐策略(如按同一小时或同一天聚合)。
  • 变量字典(示例类目)
    • 能耗:功率(W)、能量(kWh/Wh)、电池电量(%)、充电事件、运行/待机状态。
    • 健康:心率(HR)、心率变异性(HRV,RMSSD/SDNN)、步数、活动/静息分钟数、睡眠时长/效率、血氧(SpO2)、体温、压力指数。
    • 人群特征:年龄、性别、身高体重(BMI)、地区(如用于分层)。
    • 环境上下文(如有):室温、湿度、噪声、光照。

二、数据质量与完整性

  • 缺失与稀疏性:按变量与按天报告缺失率(%);区分结构性缺失(设备离线/电量耗尽)与随机缺失。
  • 异常与重复:时间戳异常、跳变值、重复记录;按设备报告异常率。
  • 同步一致性:不同数据源时间对齐偏差(中位偏差与IQR);采样频率不一致的处理(重采样/聚合规则)。
  • 稳定性:设备固件/版本变更节点与数据漂移检查。

三、能耗数据的描述性统计 建议按“总体、设备类型、工作日/周末、分时段(小时)”进行分层汇总。

  • 规模与分布
    • 总能耗与日均能耗(kWh/设备/日)。
    • 每小时功率分布:均值、中位数、标准差、IQR、P5/P50/P95;CV用于波动性评估。
  • 负荷与时序模式
    • 峰值时段与谷值时段(本地时间);工作日/周末差异。
    • 待机能耗占比 = 待机状态能耗 / 总能耗。
    • 活跃时段占比:活跃阈值可定义为功率>设备额定功率的x%或显著高于基线。
  • 电池类设备
    • 放电速率(%/小时) = Δ电量% / Δ时间(排除充电区间)。
    • 充电频率(次/日)、充电持续时长(中位数、IQR)。
    • 每次充电恢复电量的分布;过快/过慢充电识别。
  • 派生指标与口径
    • 能耗强度 = 总能耗 / 活跃小时数。
    • 每事件能耗(如每次测量/上传的平均kWh)。
    • 能耗基线:夜间最低5分位功率的滚动中位数。

四、健康数据的描述性统计 同样建议按“总体、性别/年龄分层、工作日/周末、季节”报告。

  • 心率与变异性
    • 静息心率:每日静息时段(睡眠或低活动)5分钟中位HR的日均与分布;HRV(RMSSD/SDNN)的中位数与IQR。
  • 活动与能量消耗(如可得)
    • 日均步数、活跃分钟(中等/高强度)、久坐时间;分布偏度与零膨胀评估(夜间零步为结构性零)。
  • 睡眠
    • 总时长、效率(睡眠时长/床上时长)、入睡/起床时间的集中趋势与离散度;工作日/周末差异。
  • 生理指标
    • SpO2、皮温/体温、压力指数的中位数、IQR与异常阈值触发率(如SpO2<90%的比例)。
  • 稳健统计
    • 对重尾/异常值,优先报告中位数、IQR、MAD,并与均值/标准差并列给出。

五、跨域关联(能耗与健康) 为避免误导,以下为描述性关系,非因果推断;建议先聚合到统一时间窗(如日级)。

  • 相关性(优先Spearman,稳健于非正态与异常值)
    • 能耗强度 vs 日均步数/活跃分钟数。
    • 夜间能耗(尤其噪声/光照相关设备) vs 睡眠效率/总时长。
    • 充电/低电量事件 vs 健康数据缺失率(评估测量受电量影响)。
  • 条件分层与混杂控制(描述性层面)
    • 按设备类型、年龄、季节、地区分层后再计算相关。
    • 工作日/周末分别计算,避免行为习惯混杂。
  • 简要效应量报告
    • 相关系数ρ与95%置信区间(可用自助法bootstrap)。
    • 非线性检查:分位数散点与LOESS/样条平滑曲线用于探索性展示。

六、关键可视化建议

  • 能耗
    • 日/周负荷曲线与热力图(小时×星期),峰谷直观对比。
    • 待机与活跃功率的两峰分布图(识别模式)。
  • 健康
    • 日均步数、睡眠指标的分布直方图/小提琴图,分层对比。
    • 心率/HRV的昼夜周期图。
  • 关联
    • 能耗强度 vs 活动/睡眠的散点图(附Spearman ρ与稳健回归线)。
    • 不同设备类型的分面图,展示异质性。

七、数据质量与偏差风险

  • 选择偏差:仅包含愿意上传数据或电量充足用户,代表性需评估。
  • 信息偏差:传感器漂移、固件升级、设备佩戴依从性差导致的系统性偏差。
  • 同步误差:跨时区/夏令时影响日界与夜间定义。
  • 结构性零:夜间步数=0非缺失,应与“未佩戴/离线”区分。
  • 反应性:低电量节能模式可能降低采样率,影响健康数据完整性。

八、指标计算口径(示例公式)

  • 日能耗(kWh/设备) = ∑功率(W)×间隔(h)/1000;或直接累积表计差值。
  • 待机占比 = 待机能耗/总能耗;待机阈值以夜间基线或设备规格的x%定义。
  • 放电速率(%/h) = [电量t2 − 电量t1]/(t2 − t1),仅在未充电区间计算。
  • 静息心率(每日) = 睡眠/低活动窗口内,滚动5分钟HR中位数的日最小或日中位。
  • 睡眠效率 = 睡眠时长/床上时长。
  • 相关性:Spearman ρ,附bootstrap 95%CI(建议≥1000次重采样)。

九、建议交付物(无具体数值的模板)

  • 表:数据覆盖与缺失概览(按变量、按天、按设备类型)。
  • 表:能耗指标(总量、日均、峰谷、待机占比、放电/充电统计)分层汇总。
  • 表:健康指标(HR/HRV、步数、活动、睡眠、SpO2等)分层汇总。
  • 表:能耗与健康的Spearman相关矩阵(总体与关键分层)。
  • 图:能耗热力图、负荷曲线;健康分布图;能耗-健康散点图(附稳健拟合)。

十、初步业务解读要点(示例性结论框架)

  • 负荷特征:明确主要能耗集中时段与待机比重,为节能策略识别提供方向。
  • 用户行为:活动与睡眠模式的工作日/周末差异,支持健康干预或产品节奏优化。
  • 关联线索:某些设备使用强度与睡眠效率/活动量存在显著相关,提示后续因果与机制研究的优先方向。
  • 数据风险:低电量导致的健康数据缺失与潜在偏差需在建模时纳入权重或插补策略。

十一、后续行动建议

  • 明确统一的时间对齐与聚合口径(建议日级为主、小时级用于峰谷与昼夜分析)。
  • 建立异常值与故障规则库(基于IQR/MAD/阈值与设备规格)。
  • 采用分层与稳健统计作为默认汇报口径;关键均值提供置信区间。
  • 对关键关联进行敏感性分析(分层、去极端值、不同聚合窗),检验稳健性。
  • 在隐私合规前提下,完善人群基线特征以支持更可靠的分组对比。

如需,我可以基于您提供的字段清单与样本数据(哪怕是前几天的抽样)生成一版具体的描述性摘要与图表清单,并输出适配业务汇报的简版和技术附录版。

示例详情

解决的问题

用一条可复用的高效提示词,把“杂乱数据”在几分钟内转化为“业务可决策”的权威解读。面向产品、运营、市场与数据团队,标准化输出数据集概览、字段口径说明、数据质量体检(缺失/异常/时间跨度等)、核心指标分布与对比、分层洞察、关键结论与下一步行动建议。强调严谨与可复核,避免夸大与遗漏,明确假设边界与注意事项;支持中英等多语输出,能按对象(高管/一线/跨部门)自动调整表达风格;显著减少手工整理与反复沟通,沉淀“数据摘要标准件”,加速从数据到决策与落地执行的全链路效率。

适用用户

数据产品经理

快速产出数据集说明书、上线公告与场景指南,明确价值与边界;用于评审、合作谈判和售前资料,一次成稿,多场景复用。

数据分析师

迅速形成数据勘探摘要,明确字段释义、分布特征与异常处理建议;为建模、报表和可视化搭建稳定的前置认知。

市场与售前团队

将复杂数据转化为客户易懂的价值点与应用案例,生成演示脚本和常见问答,提升方案表达与现场转化率。

特征总结

一键生成数据集的商业化简介与要点,帮助快速对齐认知并支撑决策。
自动梳理字段含义与口径说明,配合示例,让团队理解一致、沟通更顺畅。
智能总结样本规模、分布特征与覆盖范围,清晰呈现数据边界与可用性。
识别缺失、异常与采样偏差并给出建议,减少误用风险,提升分析可靠度。
生成适用与禁用场景、常见误区提醒,让新人也能快速正确上手数据。
按受众重写内容:管理层、技术、客户版本,确保信息到位、表达得体。
一键切换输出语言与语气,方便跨区域交付与对外沟通,无需重复改写。
输出可直接用于方案、产品文档与公告,减少编辑时间,加速对外发布。
提供版本变更与差异摘要,记录更新轨迹,帮助迭代与跨团队对齐。
坚持准确与克制的表述,避免夸大与遗漏,为合规审查与签约保驾护航。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥10.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 227 tokens
- 2 个可调节参数
{ 数据集主题 } { 输出语言 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59