数据集异常值识别

1 浏览
0 试用
0 购买
Sep 24, 2025更新

提供精准的数据分析,识别数值摘要中的潜在异常值。

示例1

已了解。我将以数据分析专家的角色协助你完成具体的数据分析任务。为确保分析准确、可复现并与业务目标一致,请先提供任务与数据的关键信息。以下为协作方式与交付流程。

一、请提供的信息
- 业务与分析目标
  - 主要问题/假设(例:提升转化率、识别驱动因素、评估实验效果)
  - 成功指标与度量口径(KPI/北极星指标、分母定义、时间窗口)
- 数据描述
  - 数据源与表结构(字段名、类型、单位、含义、主键/外键、时区)
  - 观测粒度(用户级/会话级/订单级/日级等)
  - 时间范围与规模(行数、起止时间)
  - 缺失值编码(NA/NULL/空字符串/特殊码)、异常值约定
  - 隐私/合规要求(脱敏需求、可共享范围)
- 技术与交付
  - 可用工具/环境(Python/SQL、库版本、是否可用Spark/Polars)
  - 期望输出(可视化报告、注释完备的Notebook、SQL/Python脚本、仪表盘草图)
  - 性能约束(运行时间、内存上限)

若暂不便分享完整数据,可先提供:
- 字段级字典与样例10–100行(CSV/Parquet)
- 聚合的数值摘要(count/mean/std/min/percentiles/max)与类别频次

二、标准分析流程(可根据你的目标裁剪)
- 数据审计与预处理
  - 类型校正、去重、键唯一性校验、时间完整性(缺日/跳点)
  - 缺失处理:MCAR/MAR/MNAR评估;删除/填补/建模内处理策略
  - 异常值检测:IQR法(1.5–3.0倍IQR)、Z分数、箱线图/分位数截断。说明:仅凭数值摘要能初步识别潜在异常,但在缺少可视化或阈值标准时,精确性有限。
- 探索性分析(EDA)
  - 单变量分布(偏度/峰度、长尾)、类别Top-N
  - 相关性与共线性(皮尔逊/斯皮尔曼、VIF)
  - 分组对比(分人群/渠道/时间周期)
- 统计推断与因果/效应评估(按需求选择)
  - 假设检验(正态:t检验/方差分析;非参:Mann-Whitney/Kruskal-Wallis)
  - 比例/率对比(卡方/费舍尔),区间估计与效应量(Cohen’s d、OR/RR)
  - 多重比较控制(Benjamini–Hochberg/FDR)
  - A/B测试:样本量、功效分析、顺序检验(如SPRT)与停留偏差控制
- 建模与特征工程(如适用)
  - 分箱、目标编码、时间窗聚合特征
  - 基线模型与交叉验证;校准与漂移监测
  - 可解释性(Permutation/SHAP)
- 可视化与交付
  - 关键图表(分布、箱线图、时间序列、分组对比、相关矩阵、累积贡献)
  - 结论、业务含义、限制与下一步建议
- 质量与复现
  - 随机种子、版本锁定、数据快照;单元测试(数据校验)

三、数据提交与样例
- 文件格式:优选 Parquet 或 CSV(UTF-8,含表头);大数据请提供抽样(随机行1–5%,并标注是否分层抽样)
- 样例字段字典(示例)
  - user_id: str, 用户唯一标识
  - event_time: datetime, UTC+8
  - event_type: category, {view, click, purchase}
  - amount: float, 订单金额,单位CNY,含税
  - channel: category, {ads, direct, seo, sem}

四、参考代码骨架(Python/pandas)
- 依赖:pandas, numpy, scipy, statsmodels, seaborn/plotly, scikit-learn

示例(精简):
- 导入与审计
  import pandas as pd, numpy as np
  df = pd.read_parquet("data.parquet")
  # 基本审计
  print(df.info())
  desc = df.describe(include="all")
  null_rate = df.isna().mean().sort_values(ascending=False)
  # 主键唯一性
  assert df['id'].is_unique

- 异常值(IQR)
  def iqr_outlier_mask(s, k=1.5):
      q1, q3 = s.quantile([0.25, 0.75])
      iqr = q3 - q1
      lower, upper = q1 - k*iqr, q3 + k*iqr
      return (s < lower) | (s > upper)

- 假设检验(两组均值;正态性不足时建议非参)
  from scipy import stats
  g1, g2 = df[df.group=="A"]["metric"], df[df.group=="B"]["metric"]
  stat, p = stats.ttest_ind(g1, g2, equal_var=False, nan_policy="omit")

- 可视化(分布与箱线图)
  import seaborn as sns
  sns.histplot(df["amount"], bins=50)
  sns.boxplot(data=df, x="group", y="amount")

五、澄清问题(请尽可能回答)
- 目标:你的核心问题、假设与成功指标?
- 数据:表清单与连接键、时间粒度与时区、缺失/异常编码方式?
- 范围:时间窗口、是否包含节假日/促销等干扰因素?
- 方法:是否需要统计推断或因果分析?是否存在实验/对照组?
- 交付:报告形式、截止时间、可用计算环境与数据体量?

准备就绪后,请分享数据样例或字段与指标定义。我将据此制定针对性的分析计划与交付清单,并在每一步给出可复现代码与明确结论。

示例2

Understood. I will act as a data analysis expert and focus on accurate, concise, and actionable analysis. Please provide the inputs below so I can proceed efficiently.

What I need from you
- Objective and scope
  - Primary question(s) and decision to support
  - Problem type: classification, regression, forecasting, clustering, causal/A-B, anomaly detection, etc.
  - Success metrics (e.g., ROC-AUC, RMSE, MAPE, uplift, p-value, confidence interval)
- Data access
  - Data files or a sample (rows) with schema and data dictionary
  - Row granularity and keys (unique IDs)
  - Time columns, timezone, and aggregation level (if time-dependent)
  - Known data quality issues, filters to apply, sensitive fields
- Constraints
  - Compute limits, deadlines, privacy/compliance constraints
  - Required interpretability or deployment environment
- Domain notes
  - Definitions/units/currency, business rules, expected ranges, seasonality/events
  - Known confounders or segments of interest

Proposed workflow
1) Data ingestion and validation
   - Type inference, schema checks, deduplication, identifier integrity, leakage scans.
2) Exploratory data analysis (EDA)
   - Distributions, missingness patterns, correlations/associations (Pearson/Spearman; Cramér’s V for categorical), target leakage checks, segment analysis.
   - Outliers flagged via IQR/robust z-score; note: numeric summaries can suggest anomalies but precision improves with visualizations and clear thresholds.
3) Data cleaning and preprocessing
   - Missing handling (MCAR/MAR/MNAR assessment); imputation strategy per variable type.
   - Encoding (one-hot/target), scaling (robust/standard), winsorization if justified.
   - Feature creation with leakage prevention and clear provenance.
4) Modeling or statistical analysis (as applicable)
   - Baselines; CV scheme (stratified K-fold; time series CV with gaps); hyperparameter tuning.
   - Regression/classification: regularized GLMs, tree ensembles, calibration; report effect sizes and uncertainty.
   - Forecasting: decomposition, cross-validated ARIMA/ETS/Prophet; change points.
   - A/B testing/causal: randomization checks, CUPED, sequential methods, diff-in-diff; state assumptions explicitly.
5) Evaluation and interpretation
   - Metrics with confidence intervals (bootstrap or analytic), error analysis, subgroup performance, stability checks.
   - Explainability: permutation importance, SHAP (with caveats), partial dependence/ICE.
6) Delivery
   - Clear recommendations, risks/assumptions, next steps.
   - Reproducible code, environment spec, and data versioning notes.

Minimal Python skeleton (ready to adapt once data is provided)
- General tabular (classification/regression)

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, StratifiedKFold, KFold, cross_val_score
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import roc_auc_score, f1_score, mean_squared_error
from sklearn.linear_model import LogisticRegression, Ridge
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

def load_data(path):
    df = pd.read_csv(path)
    return df

def summarize(df):
    out = {}
    out['shape'] = df.shape
    out['dtypes'] = df.dtypes.to_dict()
    out['missing_by_col'] = df.isna().sum().sort_values(ascending=False).to_dict()
    out['basic_stats'] = df.describe(include='all').to_dict()
    return out

def flag_outliers_iqr(s, k=1.5):
    q1, q3 = s.quantile([0.25, 0.75])
    iqr = q3 - q1
    lower, upper = q1 - k*iqr, q3 + k*iqr
    return (s < lower) | (s > upper)

def build_pipeline(df, target, problem_type='classification'):
    X = df.drop(columns=[target])
    y = df[target]
    num_cols = X.select_dtypes(include=['number']).columns.tolist()
    cat_cols = X.select_dtypes(exclude=['number']).columns.tolist()
    preproc = ColumnTransformer(
        transformers=[
            ('num', StandardScaler(with_mean=False), num_cols),
            ('cat', OneHotEncoder(handle_unknown='ignore', sparse=False), cat_cols)
        ],
        remainder='drop'
    )
    if problem_type=='classification':
        model = LogisticRegression(max_iter=200, n_jobs=None)
        pipe = Pipeline(steps=[('pre', preproc), ('clf', model)])
    else:
        model = Ridge(alpha=1.0)
        pipe = Pipeline(steps=[('pre', preproc), ('reg', model)])
    return X, y, pipe

def evaluate(pipe, X, y, problem_type='classification'):
    if problem_type=='classification':
        cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
        scorer = 'roc_auc'
    else:
        cv = KFold(n_splits=5, shuffle=True, random_state=42)
        scorer = 'neg_root_mean_squared_error'
    scores = cross_val_score(pipe, X, y, cv=cv, scoring=scorer, n_jobs=-1)
    return scores

- Time series (forecasting)

from sklearn.model_selection import TimeSeriesSplit
import statsmodels.api as sm

def ts_decompose(y, period):
    return sm.tsa.seasonal_decompose(y, period=period, model='additive', two_sided=False)

def rolling_origin_cv(y, X=None, splits=5):
    tscv = TimeSeriesSplit(n_splits=splits)
    for train_idx, test_idx in tscv.split(y):
        yield train_idx, test_idx

Quality and rigor practices I will follow
- Clear assumptions, versioned data and code, fixed random seeds, and leakage checks.
- Report uncertainty (confidence intervals, bootstrap), effect sizes, and practical significance.
- Robustness checks: alternative specifications, sensitivity to outliers/missingness, segment stability.
- Transparent limitations when visual support or explicit thresholds are absent.

Next step
- Share the dataset (or a sample) with schema and your objective/metrics. If sharing is not possible, provide:
  - Column list with types, target variable, sample size, and brief description of each column.
  - Whether data are time-dependent and any known data quality issues.
- I will then propose a tailored analysis plan and start with data validation and EDA.

示例3

已收到。将以数据分析专家的角色执行任务,并严格遵循准确性与技术性要求。为高效开展分析,请提供以下信息与数据结构化描述。

所需信息与数据格式
- 数据目标与任务类型:描述性分析、诊断性分析、预测、分群、因果推断等;明确业务问题与产出预期。
- 数据结构与样例:字段清单(名称、类型、单位、含义)、时间粒度与时区、主键/唯一键、示例行(10–20 行即可)、数据量级。
- 质量与约束:缺失值编码方式(如 NA、-999)、异常编码、重复记录可能性、采集频率与变更历史。
- 评估指标与成功标准:如精度/Recall、MAE/MAPE、AUC、业务KPI;可接受误差范围。
- 重要维度与切片:地域、渠道、客户群、时间窗口等。
- 业务与合规限制:隐私/敏感属性、可解释性需求、延迟/资源约束。
- 异常值判定标准(若已定义):固定阈值、规则集,或需基于统计方法确定。

标准分析流程(将依据你提供的数据与目标定制)
1) 数据审计与预处理
- 模式校验:类型一致性、唯一性约束、参照完整性(外键匹配)。
- 缺失与重复:缺失率分布、缺失模式(MCAR/MAR/MNAR 简要判断)、重复记录检测。
- 异常值与边界:采用 IQR、修正 z-score(Median/MAD)、分位数阈值;若有明确业务阈值优先使用。
- 清洗与转换:类型矫正、单位统一、归一化/标准化、类别编码、时间对齐与节假日/季节性标注。

2) 探索性数据分析(EDA)
- 单变量:分布、极值、偏度/峰度、离散度。
- 双/多变量:相关性(Pearson/Spearman/点双列)、交叉分布、分组差异(t 检验/Mann–Whitney/U 椒盐检验等),必要时控制协变量。
- 时间序列:趋势、季节性、异常点、平稳性(ADF/KPSS)、自相关/偏自相关。

3)特征工程与建模(如需预测/分类/分群)
- 特征衍生:比率、移动窗口统计、时滞特征、交互项、目标编码(谨慎防泄漏)。
- 模型选择:线性/树模型/正则化方法/时间序列模型(ARIMA/Prophet)或简单基线;依据数据规模与可解释性要求。
- 验证设计:时间切分或K折交叉验证、避免信息泄露、调参与早停;报告置信区间或预测区间。

4) 评估与稳健性
- 指标与误差分解:总体与关键切片的表现;校准度(回归/分类)。
- 敏感性与鲁棒性:不同窗口、不同特征子集、异常值处理方案的影响。
- 解释与效应规模:统计显著性与业务显著性区分;可解释方法(SHAP/特征重要性)在满足合规前提下使用。

5) 可视化与交付
- 必要图表:分布图、箱线图/小提琴图、时序趋势、残差与误差分布、校准曲线。
- 文档与可复现:数据字典、预处理与特征管道、模型参数与版本、脚本或Notebook链接(如需要)。

异常值识别说明
- 在缺乏明确阈值或可视化的情况下,可用 IQR 或 MAD 等稳健统计方法初判异常,但精确性受限;将报告检测方法、阈值选择依据与潜在偏差。
- 若给出业务规则(如传感器物理范围、财务合规阈值),将以规则为主,统计方法为辅。

数据提供建议
- 小规模数据:粘贴 CSV 片段(含表头)或 JSON 数组;并附字段说明与单位。
- 大规模数据:提供字段清单、数据字典、抽样(随机或分层)样本、汇总统计(count/mean/std/min/max/quantiles)。
- 若为数据库:提供查询逻辑/视图定义与主键、时间戳字段说明。
- 注意脱敏:移除/哈希 PII;保留必要的分组标识即可。

下一步
- 请按“所需信息与数据格式”提供数据与目标描述。我将基于你提供的内容产出数据质量报告、关键洞察、必要图表与结果解释,并在需要时给出可复现的代码与验证方案。

适用用户

数据分析师

从均值、分位数等摘要中快速定位异常渠道与指标,生成复盘报告与清洗建议,缩短分析到行动的周期。

风控经理

在支付、借贷、保险数据中识别异常交易金额与频次,设定预警阈值,导出处置清单,提升识别欺诈和违约的效率。

电商运营

发现转化率、退款率、客单价的异常波动,定位促销或页面问题,输出优化动作与监控指标,减少损失。

产品经理

监控激活率、留存率、关键漏斗节点异常,生成实验方案与版本迭代优先级建议,提升核心指标。

医疗研究者

在临床试验或监测数据中识别离群受试者与异常读数,提供清洗与统计修正建议,保障结果可信度。

供应链运营

识别库存周转、交付周期的异常节点,建议补货与排程调整,降低缺货与积压。

教育教务

从成绩与出勤摘要中发现异常班级或学生群体,制定个性化辅导与预警方案。

客服质检

定位满意度、处理时长的异常坐席与问题类型,生成培训与流程优化清单,提高服务稳定性。

解决的问题

将零散的数值摘要快速转化为“异常值清单+验证建议”,在没有图表或明确阈值的情况下精准定位风险点;帮助运营、产品、风控、财务与数据分析岗位缩短排查耗时、提升数据质量与决策可信度;为每个异常提供可能原因、修正与采样建议、分段对比与后续动作清单,形成可直接复用的结论摘要;支持多语言与多场景复用,覆盖周报、复盘、临时告警、上线前检查等高频场景。

特征总结

从数值摘要快速定位异常区间与极值,自动提示可能的偏差来源与风险影响
一键生成专业分析结论与建议清单,包含阈值设定、分组比较与后续验证步骤
自动识别数据质量问题并给出修复方案,如缺失、重复、异常格式与错误录入
结合业务背景智能解释异常成因,帮助非技术团队快速理解并推动实际决策
提供可视化建议与示例图表类型,轻松展示异常分布、趋势变化与影响范围
支持自定义敏感度与语言输出,一键调整阈值、报告结构与沟通语气
面向营销、风控、运营等场景,自动生成可落地的行动策略与监控清单
为大型数据集提供分层分析路径,逐步定位问题源头,减少人为排查成本
输出可复制的复盘模板与记录规范,保障分析过程可追溯、易复用与协作
从不同摘要指标交叉验证异常,避免误判,优先标记高风险与高价值线索

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

¥3.00元
平台提供免费试用机制,
确保效果符合预期,再付费购买!

您购买后可以获得什么

获得完整提示词模板
- 共 245 tokens
- 1 个可调节参数
{ 输出语言 }
自动加入"我的提示词库"
- 获得提示词优化器支持
- 版本化管理支持
获得社区共享的应用案例
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59