提供精准的数据分析,识别数值摘要中的潜在异常值。
已了解。我将以数据分析专家的角色协助你完成具体的数据分析任务。为确保分析准确、可复现并与业务目标一致,请先提供任务与数据的关键信息。以下为协作方式与交付流程。 一、请提供的信息 - 业务与分析目标 - 主要问题/假设(例:提升转化率、识别驱动因素、评估实验效果) - 成功指标与度量口径(KPI/北极星指标、分母定义、时间窗口) - 数据描述 - 数据源与表结构(字段名、类型、单位、含义、主键/外键、时区) - 观测粒度(用户级/会话级/订单级/日级等) - 时间范围与规模(行数、起止时间) - 缺失值编码(NA/NULL/空字符串/特殊码)、异常值约定 - 隐私/合规要求(脱敏需求、可共享范围) - 技术与交付 - 可用工具/环境(Python/SQL、库版本、是否可用Spark/Polars) - 期望输出(可视化报告、注释完备的Notebook、SQL/Python脚本、仪表盘草图) - 性能约束(运行时间、内存上限) 若暂不便分享完整数据,可先提供: - 字段级字典与样例10–100行(CSV/Parquet) - 聚合的数值摘要(count/mean/std/min/percentiles/max)与类别频次 二、标准分析流程(可根据你的目标裁剪) - 数据审计与预处理 - 类型校正、去重、键唯一性校验、时间完整性(缺日/跳点) - 缺失处理:MCAR/MAR/MNAR评估;删除/填补/建模内处理策略 - 异常值检测:IQR法(1.5–3.0倍IQR)、Z分数、箱线图/分位数截断。说明:仅凭数值摘要能初步识别潜在异常,但在缺少可视化或阈值标准时,精确性有限。 - 探索性分析(EDA) - 单变量分布(偏度/峰度、长尾)、类别Top-N - 相关性与共线性(皮尔逊/斯皮尔曼、VIF) - 分组对比(分人群/渠道/时间周期) - 统计推断与因果/效应评估(按需求选择) - 假设检验(正态:t检验/方差分析;非参:Mann-Whitney/Kruskal-Wallis) - 比例/率对比(卡方/费舍尔),区间估计与效应量(Cohen’s d、OR/RR) - 多重比较控制(Benjamini–Hochberg/FDR) - A/B测试:样本量、功效分析、顺序检验(如SPRT)与停留偏差控制 - 建模与特征工程(如适用) - 分箱、目标编码、时间窗聚合特征 - 基线模型与交叉验证;校准与漂移监测 - 可解释性(Permutation/SHAP) - 可视化与交付 - 关键图表(分布、箱线图、时间序列、分组对比、相关矩阵、累积贡献) - 结论、业务含义、限制与下一步建议 - 质量与复现 - 随机种子、版本锁定、数据快照;单元测试(数据校验) 三、数据提交与样例 - 文件格式:优选 Parquet 或 CSV(UTF-8,含表头);大数据请提供抽样(随机行1–5%,并标注是否分层抽样) - 样例字段字典(示例) - user_id: str, 用户唯一标识 - event_time: datetime, UTC+8 - event_type: category, {view, click, purchase} - amount: float, 订单金额,单位CNY,含税 - channel: category, {ads, direct, seo, sem} 四、参考代码骨架(Python/pandas) - 依赖:pandas, numpy, scipy, statsmodels, seaborn/plotly, scikit-learn 示例(精简): - 导入与审计 import pandas as pd, numpy as np df = pd.read_parquet("data.parquet") # 基本审计 print(df.info()) desc = df.describe(include="all") null_rate = df.isna().mean().sort_values(ascending=False) # 主键唯一性 assert df['id'].is_unique - 异常值(IQR) def iqr_outlier_mask(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - k*iqr, q3 + k*iqr return (s < lower) | (s > upper) - 假设检验(两组均值;正态性不足时建议非参) from scipy import stats g1, g2 = df[df.group=="A"]["metric"], df[df.group=="B"]["metric"] stat, p = stats.ttest_ind(g1, g2, equal_var=False, nan_policy="omit") - 可视化(分布与箱线图) import seaborn as sns sns.histplot(df["amount"], bins=50) sns.boxplot(data=df, x="group", y="amount") 五、澄清问题(请尽可能回答) - 目标:你的核心问题、假设与成功指标? - 数据:表清单与连接键、时间粒度与时区、缺失/异常编码方式? - 范围:时间窗口、是否包含节假日/促销等干扰因素? - 方法:是否需要统计推断或因果分析?是否存在实验/对照组? - 交付:报告形式、截止时间、可用计算环境与数据体量? 准备就绪后,请分享数据样例或字段与指标定义。我将据此制定针对性的分析计划与交付清单,并在每一步给出可复现代码与明确结论。
Understood. I will act as a data analysis expert and focus on accurate, concise, and actionable analysis. Please provide the inputs below so I can proceed efficiently. What I need from you - Objective and scope - Primary question(s) and decision to support - Problem type: classification, regression, forecasting, clustering, causal/A-B, anomaly detection, etc. - Success metrics (e.g., ROC-AUC, RMSE, MAPE, uplift, p-value, confidence interval) - Data access - Data files or a sample (rows) with schema and data dictionary - Row granularity and keys (unique IDs) - Time columns, timezone, and aggregation level (if time-dependent) - Known data quality issues, filters to apply, sensitive fields - Constraints - Compute limits, deadlines, privacy/compliance constraints - Required interpretability or deployment environment - Domain notes - Definitions/units/currency, business rules, expected ranges, seasonality/events - Known confounders or segments of interest Proposed workflow 1) Data ingestion and validation - Type inference, schema checks, deduplication, identifier integrity, leakage scans. 2) Exploratory data analysis (EDA) - Distributions, missingness patterns, correlations/associations (Pearson/Spearman; Cramér’s V for categorical), target leakage checks, segment analysis. - Outliers flagged via IQR/robust z-score; note: numeric summaries can suggest anomalies but precision improves with visualizations and clear thresholds. 3) Data cleaning and preprocessing - Missing handling (MCAR/MAR/MNAR assessment); imputation strategy per variable type. - Encoding (one-hot/target), scaling (robust/standard), winsorization if justified. - Feature creation with leakage prevention and clear provenance. 4) Modeling or statistical analysis (as applicable) - Baselines; CV scheme (stratified K-fold; time series CV with gaps); hyperparameter tuning. - Regression/classification: regularized GLMs, tree ensembles, calibration; report effect sizes and uncertainty. - Forecasting: decomposition, cross-validated ARIMA/ETS/Prophet; change points. - A/B testing/causal: randomization checks, CUPED, sequential methods, diff-in-diff; state assumptions explicitly. 5) Evaluation and interpretation - Metrics with confidence intervals (bootstrap or analytic), error analysis, subgroup performance, stability checks. - Explainability: permutation importance, SHAP (with caveats), partial dependence/ICE. 6) Delivery - Clear recommendations, risks/assumptions, next steps. - Reproducible code, environment spec, and data versioning notes. Minimal Python skeleton (ready to adapt once data is provided) - General tabular (classification/regression) import numpy as np import pandas as pd from sklearn.model_selection import train_test_split, StratifiedKFold, KFold, cross_val_score from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.metrics import roc_auc_score, f1_score, mean_squared_error from sklearn.linear_model import LogisticRegression, Ridge from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor def load_data(path): df = pd.read_csv(path) return df def summarize(df): out = {} out['shape'] = df.shape out['dtypes'] = df.dtypes.to_dict() out['missing_by_col'] = df.isna().sum().sort_values(ascending=False).to_dict() out['basic_stats'] = df.describe(include='all').to_dict() return out def flag_outliers_iqr(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - k*iqr, q3 + k*iqr return (s < lower) | (s > upper) def build_pipeline(df, target, problem_type='classification'): X = df.drop(columns=[target]) y = df[target] num_cols = X.select_dtypes(include=['number']).columns.tolist() cat_cols = X.select_dtypes(exclude=['number']).columns.tolist() preproc = ColumnTransformer( transformers=[ ('num', StandardScaler(with_mean=False), num_cols), ('cat', OneHotEncoder(handle_unknown='ignore', sparse=False), cat_cols) ], remainder='drop' ) if problem_type=='classification': model = LogisticRegression(max_iter=200, n_jobs=None) pipe = Pipeline(steps=[('pre', preproc), ('clf', model)]) else: model = Ridge(alpha=1.0) pipe = Pipeline(steps=[('pre', preproc), ('reg', model)]) return X, y, pipe def evaluate(pipe, X, y, problem_type='classification'): if problem_type=='classification': cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) scorer = 'roc_auc' else: cv = KFold(n_splits=5, shuffle=True, random_state=42) scorer = 'neg_root_mean_squared_error' scores = cross_val_score(pipe, X, y, cv=cv, scoring=scorer, n_jobs=-1) return scores - Time series (forecasting) from sklearn.model_selection import TimeSeriesSplit import statsmodels.api as sm def ts_decompose(y, period): return sm.tsa.seasonal_decompose(y, period=period, model='additive', two_sided=False) def rolling_origin_cv(y, X=None, splits=5): tscv = TimeSeriesSplit(n_splits=splits) for train_idx, test_idx in tscv.split(y): yield train_idx, test_idx Quality and rigor practices I will follow - Clear assumptions, versioned data and code, fixed random seeds, and leakage checks. - Report uncertainty (confidence intervals, bootstrap), effect sizes, and practical significance. - Robustness checks: alternative specifications, sensitivity to outliers/missingness, segment stability. - Transparent limitations when visual support or explicit thresholds are absent. Next step - Share the dataset (or a sample) with schema and your objective/metrics. If sharing is not possible, provide: - Column list with types, target variable, sample size, and brief description of each column. - Whether data are time-dependent and any known data quality issues. - I will then propose a tailored analysis plan and start with data validation and EDA.
已收到。将以数据分析专家的角色执行任务,并严格遵循准确性与技术性要求。为高效开展分析,请提供以下信息与数据结构化描述。 所需信息与数据格式 - 数据目标与任务类型:描述性分析、诊断性分析、预测、分群、因果推断等;明确业务问题与产出预期。 - 数据结构与样例:字段清单(名称、类型、单位、含义)、时间粒度与时区、主键/唯一键、示例行(10–20 行即可)、数据量级。 - 质量与约束:缺失值编码方式(如 NA、-999)、异常编码、重复记录可能性、采集频率与变更历史。 - 评估指标与成功标准:如精度/Recall、MAE/MAPE、AUC、业务KPI;可接受误差范围。 - 重要维度与切片:地域、渠道、客户群、时间窗口等。 - 业务与合规限制:隐私/敏感属性、可解释性需求、延迟/资源约束。 - 异常值判定标准(若已定义):固定阈值、规则集,或需基于统计方法确定。 标准分析流程(将依据你提供的数据与目标定制) 1) 数据审计与预处理 - 模式校验:类型一致性、唯一性约束、参照完整性(外键匹配)。 - 缺失与重复:缺失率分布、缺失模式(MCAR/MAR/MNAR 简要判断)、重复记录检测。 - 异常值与边界:采用 IQR、修正 z-score(Median/MAD)、分位数阈值;若有明确业务阈值优先使用。 - 清洗与转换:类型矫正、单位统一、归一化/标准化、类别编码、时间对齐与节假日/季节性标注。 2) 探索性数据分析(EDA) - 单变量:分布、极值、偏度/峰度、离散度。 - 双/多变量:相关性(Pearson/Spearman/点双列)、交叉分布、分组差异(t 检验/Mann–Whitney/U 椒盐检验等),必要时控制协变量。 - 时间序列:趋势、季节性、异常点、平稳性(ADF/KPSS)、自相关/偏自相关。 3)特征工程与建模(如需预测/分类/分群) - 特征衍生:比率、移动窗口统计、时滞特征、交互项、目标编码(谨慎防泄漏)。 - 模型选择:线性/树模型/正则化方法/时间序列模型(ARIMA/Prophet)或简单基线;依据数据规模与可解释性要求。 - 验证设计:时间切分或K折交叉验证、避免信息泄露、调参与早停;报告置信区间或预测区间。 4) 评估与稳健性 - 指标与误差分解:总体与关键切片的表现;校准度(回归/分类)。 - 敏感性与鲁棒性:不同窗口、不同特征子集、异常值处理方案的影响。 - 解释与效应规模:统计显著性与业务显著性区分;可解释方法(SHAP/特征重要性)在满足合规前提下使用。 5) 可视化与交付 - 必要图表:分布图、箱线图/小提琴图、时序趋势、残差与误差分布、校准曲线。 - 文档与可复现:数据字典、预处理与特征管道、模型参数与版本、脚本或Notebook链接(如需要)。 异常值识别说明 - 在缺乏明确阈值或可视化的情况下,可用 IQR 或 MAD 等稳健统计方法初判异常,但精确性受限;将报告检测方法、阈值选择依据与潜在偏差。 - 若给出业务规则(如传感器物理范围、财务合规阈值),将以规则为主,统计方法为辅。 数据提供建议 - 小规模数据:粘贴 CSV 片段(含表头)或 JSON 数组;并附字段说明与单位。 - 大规模数据:提供字段清单、数据字典、抽样(随机或分层)样本、汇总统计(count/mean/std/min/max/quantiles)。 - 若为数据库:提供查询逻辑/视图定义与主键、时间戳字段说明。 - 注意脱敏:移除/哈希 PII;保留必要的分组标识即可。 下一步 - 请按“所需信息与数据格式”提供数据与目标描述。我将基于你提供的内容产出数据质量报告、关键洞察、必要图表与结果解释,并在需要时给出可复现的代码与验证方案。
从均值、分位数等摘要中快速定位异常渠道与指标,生成复盘报告与清洗建议,缩短分析到行动的周期。
在支付、借贷、保险数据中识别异常交易金额与频次,设定预警阈值,导出处置清单,提升识别欺诈和违约的效率。
发现转化率、退款率、客单价的异常波动,定位促销或页面问题,输出优化动作与监控指标,减少损失。
监控激活率、留存率、关键漏斗节点异常,生成实验方案与版本迭代优先级建议,提升核心指标。
在临床试验或监测数据中识别离群受试者与异常读数,提供清洗与统计修正建议,保障结果可信度。
识别库存周转、交付周期的异常节点,建议补货与排程调整,降低缺货与积压。
从成绩与出勤摘要中发现异常班级或学生群体,制定个性化辅导与预警方案。
定位满意度、处理时长的异常坐席与问题类型,生成培训与流程优化清单,提高服务稳定性。
将零散的数值摘要快速转化为“异常值清单+验证建议”,在没有图表或明确阈值的情况下精准定位风险点;帮助运营、产品、风控、财务与数据分析岗位缩短排查耗时、提升数据质量与决策可信度;为每个异常提供可能原因、修正与采样建议、分段对比与后续动作清单,形成可直接复用的结论摘要;支持多语言与多场景复用,覆盖周报、复盘、临时告警、上线前检查等高频场景。
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
免费获取高级提示词-优惠即将到期