数据集异常值识别

幂简官方

191 浏览

17 试用

4 购买

Sep 24, 2025更新

数据分析文生文

提供精准的数据分析，识别数值摘要中的潜在异常值。

已了解。我将以数据分析专家的角色协助你完成具体的数据分析任务。为确保分析准确、可复现并与业务目标一致，请先提供任务与数据的关键信息。以下为协作方式与交付流程。

一、请提供的信息

业务与分析目标
- 主要问题/假设（例：提升转化率、识别驱动因素、评估实验效果）
- 成功指标与度量口径（KPI/北极星指标、分母定义、时间窗口）
数据描述
- 数据源与表结构（字段名、类型、单位、含义、主键/外键、时区）
- 观测粒度（用户级/会话级/订单级/日级等）
- 时间范围与规模（行数、起止时间）
- 缺失值编码（NA/NULL/空字符串/特殊码）、异常值约定
- 隐私/合规要求（脱敏需求、可共享范围）
技术与交付
- 可用工具/环境（Python/SQL、库版本、是否可用Spark/Polars）
- 期望输出（可视化报告、注释完备的Notebook、SQL/Python脚本、仪表盘草图）
- 性能约束（运行时间、内存上限）

若暂不便分享完整数据，可先提供：

字段级字典与样例10–100行（CSV/Parquet）
聚合的数值摘要（count/mean/std/min/percentiles/max）与类别频次

二、标准分析流程（可根据你的目标裁剪）

数据审计与预处理
- 类型校正、去重、键唯一性校验、时间完整性（缺日/跳点）
- 缺失处理：MCAR/MAR/MNAR评估；删除/填补/建模内处理策略
- 异常值检测：IQR法（1.5–3.0倍IQR）、Z分数、箱线图/分位数截断。说明：仅凭数值摘要能初步识别潜在异常，但在缺少可视化或阈值标准时，精确性有限。
探索性分析（EDA）
- 单变量分布（偏度/峰度、长尾）、类别Top-N
- 相关性与共线性（皮尔逊/斯皮尔曼、VIF）
- 分组对比（分人群/渠道/时间周期）
统计推断与因果/效应评估（按需求选择）
- 假设检验（正态：t检验/方差分析；非参：Mann-Whitney/Kruskal-Wallis）
- 比例/率对比（卡方/费舍尔），区间估计与效应量（Cohen’s d、OR/RR）
- 多重比较控制（Benjamini–Hochberg/FDR）
- A/B测试：样本量、功效分析、顺序检验（如SPRT）与停留偏差控制
建模与特征工程（如适用）
- 分箱、目标编码、时间窗聚合特征
- 基线模型与交叉验证；校准与漂移监测
- 可解释性（Permutation/SHAP）
可视化与交付
- 关键图表（分布、箱线图、时间序列、分组对比、相关矩阵、累积贡献）
- 结论、业务含义、限制与下一步建议
质量与复现
- 随机种子、版本锁定、数据快照；单元测试（数据校验）

三、数据提交与样例

文件格式：优选 Parquet 或 CSV（UTF-8，含表头）；大数据请提供抽样（随机行1–5%，并标注是否分层抽样）
样例字段字典（示例）
- user_id: str, 用户唯一标识
- event_time: datetime, UTC+8
- event_type: category, {view, click, purchase}
- amount: float, 订单金额，单位CNY，含税
- channel: category, {ads, direct, seo, sem}

四、参考代码骨架（Python/pandas）

依赖：pandas, numpy, scipy, statsmodels, seaborn/plotly, scikit-learn

示例（精简）：

导入与审计 import pandas as pd, numpy as np df = pd.read_parquet("data.parquet")

基本审计

print(df.info()) desc = df.describe(include="all") null_rate = df.isna().mean().sort_values(ascending=False)

主键唯一性

assert df['id'].is_unique
异常值（IQR） def iqr_outlier_mask(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - kiqr, q3 + kiqr return (s < lower) | (s > upper)
假设检验（两组均值；正态性不足时建议非参） from scipy import stats g1, g2 = df[df.group=="A"]["metric"], df[df.group=="B"]["metric"] stat, p = stats.ttest_ind(g1, g2, equal_var=False, nan_policy="omit")
可视化（分布与箱线图） import seaborn as sns sns.histplot(df["amount"], bins=50) sns.boxplot(data=df, x="group", y="amount")

五、澄清问题（请尽可能回答）

目标：你的核心问题、假设与成功指标？
数据：表清单与连接键、时间粒度与时区、缺失/异常编码方式？
范围：时间窗口、是否包含节假日/促销等干扰因素？
方法：是否需要统计推断或因果分析？是否存在实验/对照组？
交付：报告形式、截止时间、可用计算环境与数据体量？

准备就绪后，请分享数据样例或字段与指标定义。我将据此制定针对性的分析计划与交付清单，并在每一步给出可复现代码与明确结论。

Understood. I will act as a data analysis expert and focus on accurate, concise, and actionable analysis. Please provide the inputs below so I can proceed efficiently.

What I need from you

Objective and scope
- Primary question(s) and decision to support
- Problem type: classification, regression, forecasting, clustering, causal/A-B, anomaly detection, etc.
- Success metrics (e.g., ROC-AUC, RMSE, MAPE, uplift, p-value, confidence interval)
Data access
- Data files or a sample (rows) with schema and data dictionary
- Row granularity and keys (unique IDs)
- Time columns, timezone, and aggregation level (if time-dependent)
- Known data quality issues, filters to apply, sensitive fields
Constraints
- Compute limits, deadlines, privacy/compliance constraints
- Required interpretability or deployment environment
Domain notes
- Definitions/units/currency, business rules, expected ranges, seasonality/events
- Known confounders or segments of interest

Proposed workflow

Data ingestion and validation
- Type inference, schema checks, deduplication, identifier integrity, leakage scans.
Exploratory data analysis (EDA)
- Distributions, missingness patterns, correlations/associations (Pearson/Spearman; Cramér’s V for categorical), target leakage checks, segment analysis.
- Outliers flagged via IQR/robust z-score; note: numeric summaries can suggest anomalies but precision improves with visualizations and clear thresholds.
Data cleaning and preprocessing
- Missing handling (MCAR/MAR/MNAR assessment); imputation strategy per variable type.
- Encoding (one-hot/target), scaling (robust/standard), winsorization if justified.
- Feature creation with leakage prevention and clear provenance.
Modeling or statistical analysis (as applicable)
- Baselines; CV scheme (stratified K-fold; time series CV with gaps); hyperparameter tuning.
- Regression/classification: regularized GLMs, tree ensembles, calibration; report effect sizes and uncertainty.
- Forecasting: decomposition, cross-validated ARIMA/ETS/Prophet; change points.
- A/B testing/causal: randomization checks, CUPED, sequential methods, diff-in-diff; state assumptions explicitly.
Evaluation and interpretation
- Metrics with confidence intervals (bootstrap or analytic), error analysis, subgroup performance, stability checks.
- Explainability: permutation importance, SHAP (with caveats), partial dependence/ICE.
Delivery
- Clear recommendations, risks/assumptions, next steps.
- Reproducible code, environment spec, and data versioning notes.

Minimal Python skeleton (ready to adapt once data is provided)

General tabular (classification/regression)

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split, StratifiedKFold, KFold, cross_val_score from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.metrics import roc_auc_score, f1_score, mean_squared_error from sklearn.linear_model import LogisticRegression, Ridge from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

def load_data(path): df = pd.read_csv(path) return df

def summarize(df): out = {} out['shape'] = df.shape out['dtypes'] = df.dtypes.to_dict() out['missing_by_col'] = df.isna().sum().sort_values(ascending=False).to_dict() out['basic_stats'] = df.describe(include='all').to_dict() return out

def flag_outliers_iqr(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - kiqr, q3 + kiqr return (s < lower) | (s > upper)

def build_pipeline(df, target, problem_type='classification'): X = df.drop(columns=[target]) y = df[target] num_cols = X.select_dtypes(include=['number']).columns.tolist() cat_cols = X.select_dtypes(exclude=['number']).columns.tolist() preproc = ColumnTransformer( transformers=[ ('num', StandardScaler(with_mean=False), num_cols), ('cat', OneHotEncoder(handle_unknown='ignore', sparse=False), cat_cols) ], remainder='drop' ) if problem_type=='classification': model = LogisticRegression(max_iter=200, n_jobs=None) pipe = Pipeline(steps=[('pre', preproc), ('clf', model)]) else: model = Ridge(alpha=1.0) pipe = Pipeline(steps=[('pre', preproc), ('reg', model)]) return X, y, pipe

def evaluate(pipe, X, y, problem_type='classification'): if problem_type=='classification': cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) scorer = 'roc_auc' else: cv = KFold(n_splits=5, shuffle=True, random_state=42) scorer = 'neg_root_mean_squared_error' scores = cross_val_score(pipe, X, y, cv=cv, scoring=scorer, n_jobs=-1) return scores

Time series (forecasting)

from sklearn.model_selection import TimeSeriesSplit import statsmodels.api as sm

def ts_decompose(y, period): return sm.tsa.seasonal_decompose(y, period=period, model='additive', two_sided=False)

def rolling_origin_cv(y, X=None, splits=5): tscv = TimeSeriesSplit(n_splits=splits) for train_idx, test_idx in tscv.split(y): yield train_idx, test_idx

Quality and rigor practices I will follow

Clear assumptions, versioned data and code, fixed random seeds, and leakage checks.
Report uncertainty (confidence intervals, bootstrap), effect sizes, and practical significance.
Robustness checks: alternative specifications, sensitivity to outliers/missingness, segment stability.
Transparent limitations when visual support or explicit thresholds are absent.

Next step

Share the dataset (or a sample) with schema and your objective/metrics. If sharing is not possible, provide:
- Column list with types, target variable, sample size, and brief description of each column.
- Whether data are time-dependent and any known data quality issues.
I will then propose a tailored analysis plan and start with data validation and EDA.

已收到。将以数据分析专家的角色执行任务，并严格遵循准确性与技术性要求。为高效开展分析，请提供以下信息与数据结构化描述。

所需信息与数据格式

数据目标与任务类型：描述性分析、诊断性分析、预测、分群、因果推断等；明确业务问题与产出预期。
数据结构与样例：字段清单（名称、类型、单位、含义）、时间粒度与时区、主键/唯一键、示例行（10–20 行即可）、数据量级。
质量与约束：缺失值编码方式（如 NA、-999）、异常编码、重复记录可能性、采集频率与变更历史。
评估指标与成功标准：如精度/Recall、MAE/MAPE、AUC、业务KPI；可接受误差范围。
重要维度与切片：地域、渠道、客户群、时间窗口等。
业务与合规限制：隐私/敏感属性、可解释性需求、延迟/资源约束。
异常值判定标准（若已定义）：固定阈值、规则集，或需基于统计方法确定。

标准分析流程（将依据你提供的数据与目标定制）

数据审计与预处理

模式校验：类型一致性、唯一性约束、参照完整性（外键匹配）。
缺失与重复：缺失率分布、缺失模式（MCAR/MAR/MNAR 简要判断）、重复记录检测。
异常值与边界：采用 IQR、修正 z-score（Median/MAD）、分位数阈值；若有明确业务阈值优先使用。
清洗与转换：类型矫正、单位统一、归一化/标准化、类别编码、时间对齐与节假日/季节性标注。

探索性数据分析（EDA）

单变量：分布、极值、偏度/峰度、离散度。
双/多变量：相关性（Pearson/Spearman/点双列）、交叉分布、分组差异（t 检验/Mann–Whitney/U 椒盐检验等），必要时控制协变量。
时间序列：趋势、季节性、异常点、平稳性（ADF/KPSS）、自相关/偏自相关。

3)特征工程与建模（如需预测/分类/分群）

特征衍生：比率、移动窗口统计、时滞特征、交互项、目标编码（谨慎防泄漏）。
模型选择：线性/树模型/正则化方法/时间序列模型（ARIMA/Prophet）或简单基线；依据数据规模与可解释性要求。
验证设计：时间切分或K折交叉验证、避免信息泄露、调参与早停；报告置信区间或预测区间。

评估与稳健性

指标与误差分解：总体与关键切片的表现；校准度（回归/分类）。
敏感性与鲁棒性：不同窗口、不同特征子集、异常值处理方案的影响。
解释与效应规模：统计显著性与业务显著性区分；可解释方法（SHAP/特征重要性）在满足合规前提下使用。

可视化与交付

必要图表：分布图、箱线图/小提琴图、时序趋势、残差与误差分布、校准曲线。
文档与可复现：数据字典、预处理与特征管道、模型参数与版本、脚本或Notebook链接（如需要）。

异常值识别说明

在缺乏明确阈值或可视化的情况下，可用 IQR 或 MAD 等稳健统计方法初判异常，但精确性受限；将报告检测方法、阈值选择依据与潜在偏差。
若给出业务规则（如传感器物理范围、财务合规阈值），将以规则为主，统计方法为辅。

数据提供建议

小规模数据：粘贴 CSV 片段（含表头）或 JSON 数组；并附字段说明与单位。
大规模数据：提供字段清单、数据字典、抽样（随机或分层）样本、汇总统计（count/mean/std/min/max/quantiles）。
若为数据库：提供查询逻辑/视图定义与主键、时间戳字段说明。
注意脱敏：移除/哈希 PII；保留必要的分组标识即可。

下一步

请按“所需信息与数据格式”提供数据与目标描述。我将基于你提供的内容产出数据质量报告、关键洞察、必要图表与结果解释，并在需要时给出可复现的代码与验证方案。

解决的问题

将零散的数值摘要快速转化为“异常值清单+验证建议”，在没有图表或明确阈值的情况下精准定位风险点；帮助运营、产品、风控、财务与数据分析岗位缩短排查耗时、提升数据质量与决策可信度；为每个异常提供可能原因、修正与采样建议、分段对比与后续动作清单，形成可直接复用的结论摘要；支持多语言与多场景复用，覆盖周报、复盘、临时告警、上线前检查等高频场景。

适用用户

数据分析师

从均值、分位数等摘要中快速定位异常渠道与指标，生成复盘报告与清洗建议，缩短分析到行动的周期。

风控经理

在支付、借贷、保险数据中识别异常交易金额与频次，设定预警阈值，导出处置清单，提升识别欺诈和违约的效率。

电商运营

发现转化率、退款率、客单价的异常波动，定位促销或页面问题，输出优化动作与监控指标，减少损失。

特征总结

• 从数值摘要快速定位异常区间与极值，自动提示可能的偏差来源与风险影响

• 一键生成专业分析结论与建议清单，包含阈值设定、分组比较与后续验证步骤

• 自动识别数据质量问题并给出修复方案，如缺失、重复、异常格式与错误录入

• 结合业务背景智能解释异常成因，帮助非技术团队快速理解并推动实际决策

• 提供可视化建议与示例图表类型，轻松展示异常分布、趋势变化与影响范围

• 支持自定义敏感度与语言输出，一键调整阈值、报告结构与沟通语气

• 面向营销、风控、运营等场景，自动生成可落地的行动策略与监控清单

• 为大型数据集提供分层分析路径，逐步定位问题源头，减少人为排查成本

• 输出可复制的复盘模板与记录规范，保障分析过程可追溯、易复用与协作

• 从不同摘要指标交叉验证异常，避免误判，优先标记高风险与高价值线索

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用（如 ChatGPT、Claude 等），即可直接对话使用，无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API，您的程序可任意修改模板参数，通过接口直接调用，轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址，让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作，让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格

￥15.00元

先用后买，用好了再付款，超安全！

在线免费用提示词

您购买后可以获得什么

✓

获得完整提示词模板

- 共 245 tokens

- 1 个可调节参数

{ 输出语言 }

✓

获得社区贡献内容的使用权

- 精选社区优质案例，助您快速上手提示词

购买

数据集异常值识别

基本审计

主键唯一性

解决的问题