×
¥
查看详情
🔥 会员专享 文生文 数据分析

数据集对比分析专家

👁️ 413 次查看
📅 Sep 24, 2025
💡 核心价值: 专注于数据集对比分析的精准技术表达,提供专业建议。

🎯 可自定义参数(1个)

输出语言
输出内容的语言,例如:中文、英文等。示例:中文

🎨 效果示例

已就位。为保证分析高质量与可复现性,请按以下要点提供信息或数据,我将基于您的具体任务进行精准分析与可视化,并给出可执行结论。

请提供

  • 业务目标与问题范围:要回答的核心问题/决策场景;关键指标(定义、口径、单位、期望方向)。
  • 数据概览:数据源与时间范围;数据粒度(如用户-日、订单-明细);主键;行数级别;字段清单(字段名、类型、单位、含义、可能取值)。
  • 数据样例:建议提供前50行或抽样(可脱敏);或提供可下载链接/结构化描述(CSV/Parquet/SQL)。
  • 约束与期望输出:时限、隐私/合规要求、可用算力;希望的交付(图表类型、模型、报告/Notebook/SQL)。
  • 评估标准:成功判据(如相对提升%、统计显著性、误差阈值、业务KPI)。

分析方法与流程(我将按需裁剪执行)

  1. 数据准备
  • 完整性与一致性:主键唯一性检查;重复与异常记录清理;单位与时区统一;时间对齐与去重。
  • 缺失值与异常值:缺失机制诊断(MCAR/MAR/MNAR);IQR/稳健z-score/时间序列异常检测;合理填补或删失策略。
  • 编码与类型:类别高基数处理(合并长尾/目标编码);数值缩放;日期派生特征(周内/节假日/滞后特征)。
  1. 探索性分析与可视化
  • 分布与集中趋势:均值/中位数/分位数/变异系数;置信区间。
  • 分组对比与异质性:箱线图/小提琴图/条形图+误差线;Aggr与分层可视化。
  • 相关性与共线性:Pearson/Spearman/Kendall;VIF;偏相关;热力图。
  • 时间序列特性:分解(趋势、季节性、残差);ADF平稳性检验;滞后/自相关ACF/PACF。
  1. 统计检验与因果/实验
  • 对比分析:正态/方差齐性检验(Shapiro/Levene);t检验或Mann-Whitney;多重比较控制(Benjamini-Hochberg);效应量(Cohen’s d/Cliff’s delta)。
  • A/B测试:样本量/功效分析;分层与CUPED;顺序检测与错误率控制;干扰/样本污染排查。
  • 观测因果:回归调整、倾向评分匹配/加权;差分中的差分(含平行趋势检验);断点回归;合成控制(如政策/渠道上线评估)。
  1. 预测/分类/时间序列建模
  • 回归/分类:基线到梯度提升/正则化线性;避免数据泄漏;K折或留出验证;不平衡处理(权重/重采样);指标:RMSE/MAE/R2、ROC-AUC/PR-AUC、校准度。
  • 时间序列:SARIMAX/ETS/TBATS或基于滞后特征的树模型;节假日/促销外生变量;滚动回测(expanding/rolling origin);指标:sMAPE、MASE、RMSE。
  • 生存/流失:Kaplan-Meier、Cox模型(检验PH假设);指标:中位生存期、HR、Brier score。
  1. 结果验证与解释
  • 稳健性:敏感性分析、替代口径、子样本分析、留一法/交叉验证。
  • 可解释性:特征重要性(Permutation/SHAP),偏依赖与局部解释;残差诊断。
  • 业务落地:可执行建议、风险与假设边界、预估影响区间。

可交付

  • 可视化图表:分布/对比/时间趋势/相关性与诊断图(使用颜色盲安全方案,附注释与区间)。
  • 可复现工件:分析报告(含方法、假设、限制);Python/R Notebook;必要SQL;指标字典。
  • 决策摘要:关键发现、效应量与不确定性、行动清单与预期影响。

数据模板示例(可直接粘贴)

  • 目标:提升转化率(CVR=order_users/visit_users),期望+5%。
  • 粒度:用户-日;主键:user_id+date;时间:2024-01-01~2024-06-30。
  • 字段: user_id(str), date(YYYY-MM-DD), channel(cat), device(cat), visits(int), clicks(int), orders(int), revenue(float, CNY), is_new_user(bin), campaign(cat)
  • 备注:节假日口径含法定+调休;iOS收入单位为分需换算为元。
  • 输出:分渠道CVR差异分析+显著性;拟合包含渠道/设备/新老用户的Logistic回归;可视化与结论。

请提供上述信息或上传样例数据,我将据此启动分析并给出结构化结论与可视化建议。

Acknowledged. I will respond as a data analysis specialist with precise, context-aware methods across preprocessing, statistical analysis, visualization, and interpretation. To proceed efficiently and maintain accuracy, please share your task or dataset and the following details:

Required inputs

  • Objective and key questions: What decisions will this analysis inform? Any hypotheses to test?
  • Unit of analysis and granularity: Row meaning (e.g., transaction, user-day), time coverage, sampling frame.
  • Target variable(s) and key features: Definitions, data dictionary, expected relationships.
  • Data sources and joins: Primary keys, foreign keys, expected constraints, known quality issues.
  • Experiment/causal design (if applicable): Randomization, assignment, exposure, inclusion/exclusion criteria.
  • Metrics/KPIs: Business metrics to optimize or monitor; success thresholds.
  • Context constraints: Regulatory, operational, domain-specific rules.
  • Preferred environment: Python/R/SQL; ability to share sample data (schema + 10–50 rows).

Standard analysis workflow

  1. Problem framing

    • Define hypotheses, metrics, unit of analysis, cohorts/segments, and time windows.
    • Identify confounders and potential sources of bias.
  2. Data audit and preprocessing

    • Validate schema, types, uniqueness, referential integrity, and time coverage.
    • Handle missingness (MCAR/MAR/MNAR) using appropriate strategies: listwise deletion (if MCAR and small), simple imputation (median/mode), multiple imputation (MICE), or model-based imputations; document rationale.
    • Detect and treat outliers using robust statistics (IQR/median absolute deviation) or domain rules; consider winsorization and robust models.
    • Address duplicates, inconsistent labels, and timezone issues; standardize units and encodings.
    • Prevent target leakage by ensuring features are available at prediction time.
  3. Exploratory data analysis (EDA)

    • Univariate: distributions, tails, missingness maps.
    • Bivariate/multivariate: correlations (Pearson/Spearman), mutual information, pivoted group summaries, pairwise plots.
    • Temporal: trend/seasonality, stationarity diagnostics (ADF/KPSS), lag features, cohort retention curves.
  4. Statistical inference

    • Variable-type and design-appropriate tests:
      • Two-group numeric: t-test (if normal, equal variances) or Welch’s t-test; Mann–Whitney U if non-normal.
      • Multi-group numeric: ANOVA or Kruskal–Wallis; post-hoc Tukey/Holm.
      • Categorical associations: chi-square or Fisher’s exact (small counts).
      • Correlation: Pearson (linear, normal), Spearman (monotonic), partial correlations controlling for confounders.
      • Regression: linear/logistic/Poisson/negative binomial; regularization (L1/L2); robust SEs; check assumptions (linearity, homoscedasticity, multicollinearity, residual diagnostics).
    • Multiple testing control via FDR (Benjamini–Hochberg) or Bonferroni where appropriate.
    • Report effect sizes and confidence intervals, not just p-values.
  5. Modeling (if predictive or forecasting)

    • Baselines: simple mean/propensity/logistic baseline; naive or seasonal naive for time series.
    • Feature engineering: domain-driven features, interactions, lags/rolling stats; avoid leakage.
    • Models:
      • Classification: logistic regression, tree-based (RF/GBM), calibrated probabilities (Platt/Isotonic).
      • Regression: linear/regularized, tree-based (GBM/XGBoost/LightGBM).
      • Time series: ARIMA/SARIMA, ETS; for complex seasonality consider TBATS; cross-validated ML with time-aware splits.
      • Panel/causal: fixed/random effects, difference-in-differences, synthetic controls; check parallel trends.
    • Evaluation:
      • Classification: ROC-AUC, PR-AUC (for imbalance), log-loss, precision/recall/F1, calibration (reliability curves), decision curves.
      • Regression: MAE, RMSE, MAPE/sMAPE (mind zero-valued targets).
      • Forecasting: sMAPE, MASE, rolling-origin validation.
    • Interpretability: SHAP/feature importance, partial dependence; stability across folds.
  6. Visualization

    • Choose charts aligned with data type and message: distributions (histograms/ECDF/box/violin), relationships (scatter with CI/binned heatmaps), time series (decomposition, anomaly overlays), categorical comparisons (bar/point-range with CIs).
    • Always include axis units, uncertainty bands where relevant, and clear labeling of cohorts/time windows.
  7. Results interpretation and recommendations

    • Summarize key findings with quantified effects and uncertainty.
    • Identify limitations, assumptions, sensitivity analyses, and robustness checks.
    • Translate findings into actionable steps and expected impact on KPIs.

Quality and bias considerations

  • Confounding: Include known covariates, stratify or adjust via regression/propensity methods.
  • Selection bias: Verify sampling frame; compare sample vs population.
  • Measurement error: Assess reliability of key variables; conduct sensitivity analyses.
  • Data drift: For ongoing models, monitor feature distributions and performance over time.
  • Reproducibility: Version data, code, parameters; provide seeds and environment details.

Deliverables (tailored to your task)

  • Cleaned dataset summary and data quality report.
  • EDA visuals and statistical test results with effect sizes and CIs.
  • Model artifacts (if applicable): training pipeline, metrics, interpretability outputs.
  • Executive summary: findings, limitations, and recommended actions.
  • Reproducible notebook/script with instructions.

To begin, please provide:

  • The exact question(s) you want answered and the decision context.
  • Schema or sample rows, and a brief data dictionary.
  • Time range, granularity, and any inclusion/exclusion rules.
  • Target variable definition (if modeling) and key KPIs.
  • Any known constraints, experimental setup, or suspected issues.
  • Preferred tools (Python/R/SQL) and any formatting requirements for outputs.

Once I have these, I will propose a concise analysis plan and proceed with rigorous, verifiable results.

已就緒。為確保分析高效、準確並可重現,請提供以下最小必要資訊與樣本資料。收到後我將基於您的目標設計嚴謹的預處理、統計分析、可視化與結果解讀流程。

請提供

  • 分析目標與決策問題:明確定義要回答的問題、成功指標(KPI/指標)、期望輸出形式(圖表、指標表、模型、建議)。
  • 資料來源與結構:資料表清單、欄位名稱、資料型別(數值/類別/時間)、主鍵與關聯(外鍵)、單位與時區。
  • 時間範圍與抽樣:分析期間、是否滾動視窗、抽樣策略(若資料量大)。
  • 定義與口徑:指標口徑(如「活躍用戶」定義)、去重規則、缺失值處理原則、異常值處理原則。
  • 統計或模型需求:需要描述統計、推論(假設檢定/置信區間)、因果推斷、預測/分類或分群。
  • 約束與環境:可用工具(Python/R/SQL)、效能限制、資料存取規範與隱私要求。
  • 代表性樣本:每張表提供10–50行樣本(可匿名),或一份可重現的匯出檔(CSV/Parquet),以便快速驗證欄位與分佈。

預期分析流程(可依任務調整)

  1. 資料品質與預處理
  • 結構檢查:主鍵唯一性、關聯完整性、重複列與重複事件。
  • 缺失與異常:缺失模式(MCAR/MAR/MNAR)分析;極端值與錯誤單位/時區;類別稀疏度。
  • 一致性:時間戳對齊、事件去重、口徑統一(如時區、週期、轉換漏斗邏輯)。
  • 特徵工程:衍生指標(轉化率、留存、客單價、週期聚合)、編碼(類別/日期)、尺度轉換。
  1. 探索性分析(EDA)
  • 分佈與集中趨勢:直方圖、箱型圖、分位數、偏態與峰度。
  • 關聯性:皮爾森/史匹爾曼相關、交叉表、群組對比(分群、分渠道、分時段)。
  • 漏斗與路徑:步驟轉化率、瓶頸定位、用戶行為序列。
  1. 推論與建模(視需求)
  • 組間對比:均值/比例檢定、效果大小(Cohen’s d)、多重比較校正。
  • 時序分析:季節性/週期性分解、異常偵測、干預分析。
  • 預測/分類:基準模型→正則化→交叉驗證;特徵重要度與穩健性。
  • 因果設計:傾向分數、雙重差分、斷點回歸(若可行且滿足假設)。
  1. 可視化與交付
  • 圖表:分佈、時間序列、分群對比、漏斗、地圖(若有地域)。
  • 指標表:核心KPI、子維度拆解、置信區間。
  • 建議:行動建議與風險;敏感度分析;可重現腳本或筆記本。

風險與精度控制

  • 明確口徑與時間對齊,避免因定義差異造成偏差。
  • 報告統計不確定性(置信區間、p值、效果大小)與樣本量充足性。
  • 對多次比較進行校正;避免資料探勘式誤報。
  • 匯報限制與假設,避免過度延伸結論。

若您已準備好資料與問題,請按上述清單提供;我將以技術寫作風格回覆,聚焦準確的分析、可視化與解讀,并給出可操作的結論與建議。

示例详情

📖 如何使用

模式 1:即插即用(手动档)
直接复制参数化模版。手动修改 {{变量}} 即可快速发起对话,适合对结果有精准预期的单次任务。
加载中...
💬 模式 2:沉浸式引导(交互档)
一键转化为交互式脚本。AI 将化身专业面试官或顾问,主动询问并引导您提供关键信息,最终合成高度定制化的专业结果。
转为交互式
🚀 模式 3:原生指令自动化(智能档)
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别“手动搬运”。
安装插件
🔌 发布为 API 接口
将 Prompt 接入自动化工作流,核心利用平台批量评价反馈引擎,实现"采集-评价-自动优化"的闭环。通过 RESTful 接口动态注入变量,让程序在批量任务中自动迭代出更高质量的提示词方案,实现 Prompt 的自我进化。
发布 API
🤖 发布为 Agent 应用
以此提示词为核心生成独立 Agent 应用,内嵌相关工具(图片生成、参数优化等),提供完整解决方案。
创建 Agent

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。

试用后开通会员即可无限使用

加载中...