×
¥
查看详情
🔥 会员专享 文生文 数据分析

数据集对比分析专家

👁️ 413 次查看
📅 Sep 24, 2025
💡 核心价值: 专注于数据集对比分析的精准技术表达,提供专业建议。

🎯 可自定义参数(1个)

输出语言
输出内容的语言,例如:中文、英文等。示例:中文

🎨 效果示例

已就位。为保证分析高质量与可复现性,请按以下要点提供信息或数据,我将基于您的具体任务进行精准分析与可视化,并给出可执行结论。

请提供

  • 业务目标与问题范围:要回答的核心问题/决策场景;关键指标(定义、口径、单位、期望方向)。
  • 数据概览:数据源与时间范围;数据粒度(如用户-日、订单-明细);主键;行数级别;字段清单(字段名、类型、单位、含义、可能取值)。
  • 数据样例:建议提供前50行或抽样(可脱敏);或提供可下载链接/结构化描述(CSV/Parquet/SQL)。
  • 约束与期望输出:时限、隐私/合规要求、可用算力;希望的交付(图表类型、模型、报告/Notebook/SQL)。
  • 评估标准:成功判据(如相对提升%、统计显著性、误差阈值、业务KPI)。

分析方法与流程(我将按需裁剪执行)

  1. 数据准备
  • 完整性与一致性:主键唯一性检查;重复与异常记录清理;单位与时区统一;时间对齐与去重。
  • 缺失值与异常值:缺失机制诊断(MCAR/MAR/MNAR);IQR/稳健z-score/时间序列异常检测;合理填补或删失策略。
  • 编码与类型:类别高基数处理(合并长尾/目标编码);数值缩放;日期派生特征(周内/节假日/滞后特征)。
  1. 探索性分析与可视化
  • 分布与集中趋势:均值/中位数/分位数/变异系数;置信区间。
  • 分组对比与异质性:箱线图/小提琴图/条形图+误差线;Aggr与分层可视化。
  • 相关性与共线性:Pearson/Spearman/Kendall;VIF;偏相关;热力图。
  • 时间序列特性:分解(趋势、季节性、残差);ADF平稳性检验;滞后/自相关ACF/PACF。
  1. 统计检验与因果/实验
  • 对比分析:正态/方差齐性检验(Shapiro/Levene);t检验或Mann-Whitney;多重比较控制(Benjamini-Hochberg);效应量(Cohen’s d/Cliff’s delta)。
  • A/B测试:样本量/功效分析;分层与CUPED;顺序检测与错误率控制;干扰/样本污染排查。
  • 观测因果:回归调整、倾向评分匹配/加权;差分中的差分(含平行趋势检验);断点回归;合成控制(如政策/渠道上线评估)。
  1. 预测/分类/时间序列建模
  • 回归/分类:基线到梯度提升/正则化线性;避免数据泄漏;K折或留出验证;不平衡处理(权重/重采样);指标:RMSE/MAE/R2、ROC-AUC/PR-AUC、校准度。
  • 时间序列:SARIMAX/ETS/TBATS或基于滞后特征的树模型;节假日/促销外生变量;滚动回测(expanding/rolling origin);指标:sMAPE、MASE、RMSE。
  • 生存/流失:Kaplan-Meier、Cox模型(检验PH假设);指标:中位生存期、HR、Brier score。
  1. 结果验证与解释
  • 稳健性:敏感性分析、替代口径、子样本分析、留一法/交叉验证。
  • 可解释性:特征重要性(Permutation/SHAP),偏依赖与局部解释;残差诊断。
  • 业务落地:可执行建议、风险与假设边界、预估影响区间。

可交付

  • 可视化图表:分布/对比/时间趋势/相关性与诊断图(使用颜色盲安全方案,附注释与区间)。
  • 可复现工件:分析报告(含方法、假设、限制);Python/R Notebook;必要SQL;指标字典。
  • 决策摘要:关键发现、效应量与不确定性、行动清单与预期影响。

数据模板示例(可直接粘贴)

  • 目标:提升转化率(CVR=order_users/visit_users),期望+5%。
  • 粒度:用户-日;主键:user_id+date;时间:2024-01-01~2024-06-30。
  • 字段: user_id(str), date(YYYY-MM-DD), channel(cat), device(cat), visits(int), clicks(int), orders(int), revenue(float, CNY), is_new_user(bin), campaign(cat)
  • 备注:节假日口径含法定+调休;iOS收入单位为分需换算为元。
  • 输出:分渠道CVR差异分析+显著性;拟合包含渠道/设备/新老用户的Logistic回归;可视化与结论。

请提供上述信息或上传样例数据,我将据此启动分析并给出结构化结论与可视化建议。

Acknowledged. I will respond as a data analysis specialist with precise, context-aware methods across preprocessing, statistical analysis, visualization, and interpretation. To proceed efficiently and maintain accuracy, please share your task or dataset and the following details:

Required inputs

  • Objective and key questions: What decisions will this analysis inform? Any hypotheses to test?
  • Unit of analysis and granularity: Row meaning (e.g., transaction, user-day), time coverage, sampling frame.
  • Target variable(s) and key features: Definitions, data dictionary, expected relationships.
  • Data sources and joins: Primary keys, foreign keys, expected constraints, known quality issues.
  • Experiment/causal design (if applicable): Randomization, assignment, exposure, inclusion/exclusion criteria.
  • Metrics/KPIs: Business metrics to optimize or monitor; success thresholds.
  • Context constraints: Regulatory, operational, domain-specific rules.
  • Preferred environment: Python/R/SQL; ability to share sample data (schema + 10–50 rows).

Standard analysis workflow

  1. Problem framing

    • Define hypotheses, metrics, unit of analysis, cohorts/segments, and time windows.
    • Identify confounders and potential sources of bias.
  2. Data audit and preprocessing

    • Validate schema, types, uniqueness, referential integrity, and time coverage.
    • Handle missingness (MCAR/MAR/MNAR) using appropriate strategies: listwise deletion (if MCAR and small), simple imputation (median/mode), multiple imputation (MICE), or model-based imputations; document rationale.
    • Detect and treat outliers using robust statistics (IQR/median absolute deviation) or domain rules; consider winsorization and robust models.
    • Address duplicates, inconsistent labels, and timezone issues; standardize units and encodings.
    • Prevent target leakage by ensuring features are available at prediction time.
  3. Exploratory data analysis (EDA)

    • Univariate: distributions, tails, missingness maps.
    • Bivariate/multivariate: correlations (Pearson/Spearman), mutual information, pivoted group summaries, pairwise plots.
    • Temporal: trend/seasonality, stationarity diagnostics (ADF/KPSS), lag features, cohort retention curves.
  4. Statistical inference

    • Variable-type and design-appropriate tests:
      • Two-group numeric: t-test (if normal, equal variances) or Welch’s t-test; Mann–Whitney U if non-normal.
      • Multi-group numeric: ANOVA or Kruskal–Wallis; post-hoc Tukey/Holm.
      • Categorical associations: chi-square or Fisher’s exact (small counts).
      • Correlation: Pearson (linear, normal), Spearman (monotonic), partial correlations controlling for confounders.
      • Regression: linear/logistic/Poisson/negative binomial; regularization (L1/L2); robust SEs; check assumptions (linearity, homoscedasticity, multicollinearity, residual diagnostics).
    • Multiple testing control via FDR (Benjamini–Hochberg) or Bonferroni where appropriate.
    • Report effect sizes and confidence intervals, not just p-values.
  5. Modeling (if predictive or forecasting)

    • Baselines: simple mean/propensity/logistic baseline; naive or seasonal naive for time series.
    • Feature engineering: domain-driven features, interactions, lags/rolling stats; avoid leakage.
    • Models:
      • Classification: logistic regression, tree-based (RF/GBM), calibrated probabilities (Platt/Isotonic).
      • Regression: linear/regularized, tree-based (GBM/XGBoost/LightGBM).
      • Time series: ARIMA/SARIMA, ETS; for complex seasonality consider TBATS; cross-validated ML with time-aware splits.
      • Panel/causal: fixed/random effects, difference-in-differences, synthetic controls; check parallel trends.
    • Evaluation:
      • Classification: ROC-AUC, PR-AUC (for imbalance), log-loss, precision/recall/F1, calibration (reliability curves), decision curves.
      • Regression: MAE, RMSE, MAPE/sMAPE (mind zero-valued targets).
      • Forecasting: sMAPE, MASE, rolling-origin validation.
    • Interpretability: SHAP/feature importance, partial dependence; stability across folds.
  6. Visualization

    • Choose charts aligned with data type and message: distributions (histograms/ECDF/box/violin), relationships (scatter with CI/binned heatmaps), time series (decomposition, anomaly overlays), categorical comparisons (bar/point-range with CIs).
    • Always include axis units, uncertainty bands where relevant, and clear labeling of cohorts/time windows.
  7. Results interpretation and recommendations

    • Summarize key findings with quantified effects and uncertainty.
    • Identify limitations, assumptions, sensitivity analyses, and robustness checks.
    • Translate findings into actionable steps and expected impact on KPIs.

Quality and bias considerations

  • Confounding: Include known covariates, stratify or adjust via regression/propensity methods.
  • Selection bias: Verify sampling frame; compare sample vs population.
  • Measurement error: Assess reliability of key variables; conduct sensitivity analyses.
  • Data drift: For ongoing models, monitor feature distributions and performance over time.
  • Reproducibility: Version data, code, parameters; provide seeds and environment details.

Deliverables (tailored to your task)

  • Cleaned dataset summary and data quality report.
  • EDA visuals and statistical test results with effect sizes and CIs.
  • Model artifacts (if applicable): training pipeline, metrics, interpretability outputs.
  • Executive summary: findings, limitations, and recommended actions.
  • Reproducible notebook/script with instructions.

To begin, please provide:

  • The exact question(s) you want answered and the decision context.
  • Schema or sample rows, and a brief data dictionary.
  • Time range, granularity, and any inclusion/exclusion rules.
  • Target variable definition (if modeling) and key KPIs.
  • Any known constraints, experimental setup, or suspected issues.
  • Preferred tools (Python/R/SQL) and any formatting requirements for outputs.

Once I have these, I will propose a concise analysis plan and proceed with rigorous, verifiable results.

已就緒。為確保分析高效、準確並可重現,請提供以下最小必要資訊與樣本資料。收到後我將基於您的目標設計嚴謹的預處理、統計分析、可視化與結果解讀流程。

請提供

  • 分析目標與決策問題:明確定義要回答的問題、成功指標(KPI/指標)、期望輸出形式(圖表、指標表、模型、建議)。
  • 資料來源與結構:資料表清單、欄位名稱、資料型別(數值/類別/時間)、主鍵與關聯(外鍵)、單位與時區。
  • 時間範圍與抽樣:分析期間、是否滾動視窗、抽樣策略(若資料量大)。
  • 定義與口徑:指標口徑(如「活躍用戶」定義)、去重規則、缺失值處理原則、異常值處理原則。
  • 統計或模型需求:需要描述統計、推論(假設檢定/置信區間)、因果推斷、預測/分類或分群。
  • 約束與環境:可用工具(Python/R/SQL)、效能限制、資料存取規範與隱私要求。
  • 代表性樣本:每張表提供10–50行樣本(可匿名),或一份可重現的匯出檔(CSV/Parquet),以便快速驗證欄位與分佈。

預期分析流程(可依任務調整)

  1. 資料品質與預處理
  • 結構檢查:主鍵唯一性、關聯完整性、重複列與重複事件。
  • 缺失與異常:缺失模式(MCAR/MAR/MNAR)分析;極端值與錯誤單位/時區;類別稀疏度。
  • 一致性:時間戳對齊、事件去重、口徑統一(如時區、週期、轉換漏斗邏輯)。
  • 特徵工程:衍生指標(轉化率、留存、客單價、週期聚合)、編碼(類別/日期)、尺度轉換。
  1. 探索性分析(EDA)
  • 分佈與集中趨勢:直方圖、箱型圖、分位數、偏態與峰度。
  • 關聯性:皮爾森/史匹爾曼相關、交叉表、群組對比(分群、分渠道、分時段)。
  • 漏斗與路徑:步驟轉化率、瓶頸定位、用戶行為序列。
  1. 推論與建模(視需求)
  • 組間對比:均值/比例檢定、效果大小(Cohen’s d)、多重比較校正。
  • 時序分析:季節性/週期性分解、異常偵測、干預分析。
  • 預測/分類:基準模型→正則化→交叉驗證;特徵重要度與穩健性。
  • 因果設計:傾向分數、雙重差分、斷點回歸(若可行且滿足假設)。
  1. 可視化與交付
  • 圖表:分佈、時間序列、分群對比、漏斗、地圖(若有地域)。
  • 指標表:核心KPI、子維度拆解、置信區間。
  • 建議:行動建議與風險;敏感度分析;可重現腳本或筆記本。

風險與精度控制

  • 明確口徑與時間對齊,避免因定義差異造成偏差。
  • 報告統計不確定性(置信區間、p值、效果大小)與樣本量充足性。
  • 對多次比較進行校正;避免資料探勘式誤報。
  • 匯報限制與假設,避免過度延伸結論。

若您已準備好資料與問題,請按上述清單提供;我將以技術寫作風格回覆,聚焦準確的分析、可視化與解讀,并給出可操作的結論與建議。

示例详情

📖 如何使用

30秒出活:复制 → 粘贴 → 搞定
与其花几十分钟和AI聊天、试错,不如直接复制这些经过千人验证的模板,修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间,足够你轻松享受两杯咖啡!
加载中...
💬 不会填参数?让 AI 反过来问你
不确定变量该填什么?一键转为对话模式,AI 会像资深顾问一样逐步引导你,问几个问题就能自动生成完美匹配你需求的定制结果。零门槛,开口就行。
转为对话模式
🚀 告别复制粘贴,Chat 里直接调用
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别"手动搬运"。
即将推出
🔌 接口一调,提示词自己会进化
手动跑一次还行,跑一百次呢?通过 API 接口动态注入变量,接入批量评价引擎,让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化,你只管收结果。
发布 API
🤖 一键变成你的专属 Agent 应用
不想每次都配参数?把这条提示词直接发布成独立 Agent,内嵌图片生成、参数优化等工具,分享链接就能用。给团队或客户一个"开箱即用"的完整方案。
创建 Agent

✅ 特性总结

一键比对多数据集差异,自动输出关键指标与结论,快速锁定可行动洞察。
自动清洗与预处理说明,提示缺失值、异常点与采样偏差,减少分析风险。
一键生成对比图表与简明文档,直观呈现趋势、分布与差距,便于分享决策。
支持参数化分析路径,可选维度、时段与分组,灵活适配不同业务场景。
自动输出可执行建议与优先级排序,帮助团队快速落地改进与试验计划。
结合上下文与业务目标,精准解读指标变化原因,避免误判与过度优化。
适用于营销、产品、运营、风控等场景,快速评估方案效果与资源投入回报。
支持多语言输出与统一格式规范,便于跨团队协作与对外高效发布报告。
一键生成测试设计与对照组建议,减少试验偏差,让A/B测试更稳更快。

🎯 解决的问题

将 AI 打造成“数据集对比分析专家”,帮助业务与数据团队在分钟级完成多数据集的差异识别与结论提炼;标准化对比分析流程(数据准备—指标统一—对比与检验—可视化—结论与行动建议),让输出可直接用于汇报与决策;适配 A/B 测试、活动复盘、渠道评估、用户分群、版本迭代等高频场景;突出清晰、客观、结构化的表达,既给出结论也说明依据与局限,降低误判风险;支持持续复用,成为团队的“通用提示词”,显著提升分析效率与一致性。

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。
加载中...