×
¥
查看详情
🔥 会员专享 文生文 数据分析

数据集异常值识别

👁️ 394 次查看
📅 Sep 24, 2025
💡 核心价值: 提供精准的数据分析,识别数值摘要中的潜在异常值。

🎯 可自定义参数(1个)

输出语言
指定输出的语言,例如:中文、英文。

🎨 效果示例

已了解。我将以数据分析专家的角色协助你完成具体的数据分析任务。为确保分析准确、可复现并与业务目标一致,请先提供任务与数据的关键信息。以下为协作方式与交付流程。

一、请提供的信息

  • 业务与分析目标
    • 主要问题/假设(例:提升转化率、识别驱动因素、评估实验效果)
    • 成功指标与度量口径(KPI/北极星指标、分母定义、时间窗口)
  • 数据描述
    • 数据源与表结构(字段名、类型、单位、含义、主键/外键、时区)
    • 观测粒度(用户级/会话级/订单级/日级等)
    • 时间范围与规模(行数、起止时间)
    • 缺失值编码(NA/NULL/空字符串/特殊码)、异常值约定
    • 隐私/合规要求(脱敏需求、可共享范围)
  • 技术与交付
    • 可用工具/环境(Python/SQL、库版本、是否可用Spark/Polars)
    • 期望输出(可视化报告、注释完备的Notebook、SQL/Python脚本、仪表盘草图)
    • 性能约束(运行时间、内存上限)

若暂不便分享完整数据,可先提供:

  • 字段级字典与样例10–100行(CSV/Parquet)
  • 聚合的数值摘要(count/mean/std/min/percentiles/max)与类别频次

二、标准分析流程(可根据你的目标裁剪)

  • 数据审计与预处理
    • 类型校正、去重、键唯一性校验、时间完整性(缺日/跳点)
    • 缺失处理:MCAR/MAR/MNAR评估;删除/填补/建模内处理策略
    • 异常值检测:IQR法(1.5–3.0倍IQR)、Z分数、箱线图/分位数截断。说明:仅凭数值摘要能初步识别潜在异常,但在缺少可视化或阈值标准时,精确性有限。
  • 探索性分析(EDA)
    • 单变量分布(偏度/峰度、长尾)、类别Top-N
    • 相关性与共线性(皮尔逊/斯皮尔曼、VIF)
    • 分组对比(分人群/渠道/时间周期)
  • 统计推断与因果/效应评估(按需求选择)
    • 假设检验(正态:t检验/方差分析;非参:Mann-Whitney/Kruskal-Wallis)
    • 比例/率对比(卡方/费舍尔),区间估计与效应量(Cohen’s d、OR/RR)
    • 多重比较控制(Benjamini–Hochberg/FDR)
    • A/B测试:样本量、功效分析、顺序检验(如SPRT)与停留偏差控制
  • 建模与特征工程(如适用)
    • 分箱、目标编码、时间窗聚合特征
    • 基线模型与交叉验证;校准与漂移监测
    • 可解释性(Permutation/SHAP)
  • 可视化与交付
    • 关键图表(分布、箱线图、时间序列、分组对比、相关矩阵、累积贡献)
    • 结论、业务含义、限制与下一步建议
  • 质量与复现
    • 随机种子、版本锁定、数据快照;单元测试(数据校验)

三、数据提交与样例

  • 文件格式:优选 Parquet 或 CSV(UTF-8,含表头);大数据请提供抽样(随机行1–5%,并标注是否分层抽样)
  • 样例字段字典(示例)
    • user_id: str, 用户唯一标识
    • event_time: datetime, UTC+8
    • event_type: category, {view, click, purchase}
    • amount: float, 订单金额,单位CNY,含税
    • channel: category, {ads, direct, seo, sem}

四、参考代码骨架(Python/pandas)

  • 依赖:pandas, numpy, scipy, statsmodels, seaborn/plotly, scikit-learn

示例(精简):

  • 导入与审计 import pandas as pd, numpy as np df = pd.read_parquet("data.parquet")

    基本审计

    print(df.info()) desc = df.describe(include="all") null_rate = df.isna().mean().sort_values(ascending=False)

    主键唯一性

    assert df['id'].is_unique

  • 异常值(IQR) def iqr_outlier_mask(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - kiqr, q3 + kiqr return (s < lower) | (s > upper)

  • 假设检验(两组均值;正态性不足时建议非参) from scipy import stats g1, g2 = df[df.group=="A"]["metric"], df[df.group=="B"]["metric"] stat, p = stats.ttest_ind(g1, g2, equal_var=False, nan_policy="omit")

  • 可视化(分布与箱线图) import seaborn as sns sns.histplot(df["amount"], bins=50) sns.boxplot(data=df, x="group", y="amount")

五、澄清问题(请尽可能回答)

  • 目标:你的核心问题、假设与成功指标?
  • 数据:表清单与连接键、时间粒度与时区、缺失/异常编码方式?
  • 范围:时间窗口、是否包含节假日/促销等干扰因素?
  • 方法:是否需要统计推断或因果分析?是否存在实验/对照组?
  • 交付:报告形式、截止时间、可用计算环境与数据体量?

准备就绪后,请分享数据样例或字段与指标定义。我将据此制定针对性的分析计划与交付清单,并在每一步给出可复现代码与明确结论。

Understood. I will act as a data analysis expert and focus on accurate, concise, and actionable analysis. Please provide the inputs below so I can proceed efficiently.

What I need from you

  • Objective and scope
    • Primary question(s) and decision to support
    • Problem type: classification, regression, forecasting, clustering, causal/A-B, anomaly detection, etc.
    • Success metrics (e.g., ROC-AUC, RMSE, MAPE, uplift, p-value, confidence interval)
  • Data access
    • Data files or a sample (rows) with schema and data dictionary
    • Row granularity and keys (unique IDs)
    • Time columns, timezone, and aggregation level (if time-dependent)
    • Known data quality issues, filters to apply, sensitive fields
  • Constraints
    • Compute limits, deadlines, privacy/compliance constraints
    • Required interpretability or deployment environment
  • Domain notes
    • Definitions/units/currency, business rules, expected ranges, seasonality/events
    • Known confounders or segments of interest

Proposed workflow

  1. Data ingestion and validation
    • Type inference, schema checks, deduplication, identifier integrity, leakage scans.
  2. Exploratory data analysis (EDA)
    • Distributions, missingness patterns, correlations/associations (Pearson/Spearman; Cramér’s V for categorical), target leakage checks, segment analysis.
    • Outliers flagged via IQR/robust z-score; note: numeric summaries can suggest anomalies but precision improves with visualizations and clear thresholds.
  3. Data cleaning and preprocessing
    • Missing handling (MCAR/MAR/MNAR assessment); imputation strategy per variable type.
    • Encoding (one-hot/target), scaling (robust/standard), winsorization if justified.
    • Feature creation with leakage prevention and clear provenance.
  4. Modeling or statistical analysis (as applicable)
    • Baselines; CV scheme (stratified K-fold; time series CV with gaps); hyperparameter tuning.
    • Regression/classification: regularized GLMs, tree ensembles, calibration; report effect sizes and uncertainty.
    • Forecasting: decomposition, cross-validated ARIMA/ETS/Prophet; change points.
    • A/B testing/causal: randomization checks, CUPED, sequential methods, diff-in-diff; state assumptions explicitly.
  5. Evaluation and interpretation
    • Metrics with confidence intervals (bootstrap or analytic), error analysis, subgroup performance, stability checks.
    • Explainability: permutation importance, SHAP (with caveats), partial dependence/ICE.
  6. Delivery
    • Clear recommendations, risks/assumptions, next steps.
    • Reproducible code, environment spec, and data versioning notes.

Minimal Python skeleton (ready to adapt once data is provided)

  • General tabular (classification/regression)

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split, StratifiedKFold, KFold, cross_val_score from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.metrics import roc_auc_score, f1_score, mean_squared_error from sklearn.linear_model import LogisticRegression, Ridge from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

def load_data(path): df = pd.read_csv(path) return df

def summarize(df): out = {} out['shape'] = df.shape out['dtypes'] = df.dtypes.to_dict() out['missing_by_col'] = df.isna().sum().sort_values(ascending=False).to_dict() out['basic_stats'] = df.describe(include='all').to_dict() return out

def flag_outliers_iqr(s, k=1.5): q1, q3 = s.quantile([0.25, 0.75]) iqr = q3 - q1 lower, upper = q1 - kiqr, q3 + kiqr return (s < lower) | (s > upper)

def build_pipeline(df, target, problem_type='classification'): X = df.drop(columns=[target]) y = df[target] num_cols = X.select_dtypes(include=['number']).columns.tolist() cat_cols = X.select_dtypes(exclude=['number']).columns.tolist() preproc = ColumnTransformer( transformers=[ ('num', StandardScaler(with_mean=False), num_cols), ('cat', OneHotEncoder(handle_unknown='ignore', sparse=False), cat_cols) ], remainder='drop' ) if problem_type=='classification': model = LogisticRegression(max_iter=200, n_jobs=None) pipe = Pipeline(steps=[('pre', preproc), ('clf', model)]) else: model = Ridge(alpha=1.0) pipe = Pipeline(steps=[('pre', preproc), ('reg', model)]) return X, y, pipe

def evaluate(pipe, X, y, problem_type='classification'): if problem_type=='classification': cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) scorer = 'roc_auc' else: cv = KFold(n_splits=5, shuffle=True, random_state=42) scorer = 'neg_root_mean_squared_error' scores = cross_val_score(pipe, X, y, cv=cv, scoring=scorer, n_jobs=-1) return scores

  • Time series (forecasting)

from sklearn.model_selection import TimeSeriesSplit import statsmodels.api as sm

def ts_decompose(y, period): return sm.tsa.seasonal_decompose(y, period=period, model='additive', two_sided=False)

def rolling_origin_cv(y, X=None, splits=5): tscv = TimeSeriesSplit(n_splits=splits) for train_idx, test_idx in tscv.split(y): yield train_idx, test_idx

Quality and rigor practices I will follow

  • Clear assumptions, versioned data and code, fixed random seeds, and leakage checks.
  • Report uncertainty (confidence intervals, bootstrap), effect sizes, and practical significance.
  • Robustness checks: alternative specifications, sensitivity to outliers/missingness, segment stability.
  • Transparent limitations when visual support or explicit thresholds are absent.

Next step

  • Share the dataset (or a sample) with schema and your objective/metrics. If sharing is not possible, provide:
    • Column list with types, target variable, sample size, and brief description of each column.
    • Whether data are time-dependent and any known data quality issues.
  • I will then propose a tailored analysis plan and start with data validation and EDA.

已收到。将以数据分析专家的角色执行任务,并严格遵循准确性与技术性要求。为高效开展分析,请提供以下信息与数据结构化描述。

所需信息与数据格式

  • 数据目标与任务类型:描述性分析、诊断性分析、预测、分群、因果推断等;明确业务问题与产出预期。
  • 数据结构与样例:字段清单(名称、类型、单位、含义)、时间粒度与时区、主键/唯一键、示例行(10–20 行即可)、数据量级。
  • 质量与约束:缺失值编码方式(如 NA、-999)、异常编码、重复记录可能性、采集频率与变更历史。
  • 评估指标与成功标准:如精度/Recall、MAE/MAPE、AUC、业务KPI;可接受误差范围。
  • 重要维度与切片:地域、渠道、客户群、时间窗口等。
  • 业务与合规限制:隐私/敏感属性、可解释性需求、延迟/资源约束。
  • 异常值判定标准(若已定义):固定阈值、规则集,或需基于统计方法确定。

标准分析流程(将依据你提供的数据与目标定制)

  1. 数据审计与预处理
  • 模式校验:类型一致性、唯一性约束、参照完整性(外键匹配)。
  • 缺失与重复:缺失率分布、缺失模式(MCAR/MAR/MNAR 简要判断)、重复记录检测。
  • 异常值与边界:采用 IQR、修正 z-score(Median/MAD)、分位数阈值;若有明确业务阈值优先使用。
  • 清洗与转换:类型矫正、单位统一、归一化/标准化、类别编码、时间对齐与节假日/季节性标注。
  1. 探索性数据分析(EDA)
  • 单变量:分布、极值、偏度/峰度、离散度。
  • 双/多变量:相关性(Pearson/Spearman/点双列)、交叉分布、分组差异(t 检验/Mann–Whitney/U 椒盐检验等),必要时控制协变量。
  • 时间序列:趋势、季节性、异常点、平稳性(ADF/KPSS)、自相关/偏自相关。

3)特征工程与建模(如需预测/分类/分群)

  • 特征衍生:比率、移动窗口统计、时滞特征、交互项、目标编码(谨慎防泄漏)。
  • 模型选择:线性/树模型/正则化方法/时间序列模型(ARIMA/Prophet)或简单基线;依据数据规模与可解释性要求。
  • 验证设计:时间切分或K折交叉验证、避免信息泄露、调参与早停;报告置信区间或预测区间。
  1. 评估与稳健性
  • 指标与误差分解:总体与关键切片的表现;校准度(回归/分类)。
  • 敏感性与鲁棒性:不同窗口、不同特征子集、异常值处理方案的影响。
  • 解释与效应规模:统计显著性与业务显著性区分;可解释方法(SHAP/特征重要性)在满足合规前提下使用。
  1. 可视化与交付
  • 必要图表:分布图、箱线图/小提琴图、时序趋势、残差与误差分布、校准曲线。
  • 文档与可复现:数据字典、预处理与特征管道、模型参数与版本、脚本或Notebook链接(如需要)。

异常值识别说明

  • 在缺乏明确阈值或可视化的情况下,可用 IQR 或 MAD 等稳健统计方法初判异常,但精确性受限;将报告检测方法、阈值选择依据与潜在偏差。
  • 若给出业务规则(如传感器物理范围、财务合规阈值),将以规则为主,统计方法为辅。

数据提供建议

  • 小规模数据:粘贴 CSV 片段(含表头)或 JSON 数组;并附字段说明与单位。
  • 大规模数据:提供字段清单、数据字典、抽样(随机或分层)样本、汇总统计(count/mean/std/min/max/quantiles)。
  • 若为数据库:提供查询逻辑/视图定义与主键、时间戳字段说明。
  • 注意脱敏:移除/哈希 PII;保留必要的分组标识即可。

下一步

  • 请按“所需信息与数据格式”提供数据与目标描述。我将基于你提供的内容产出数据质量报告、关键洞察、必要图表与结果解释,并在需要时给出可复现的代码与验证方案。

示例详情

📖 如何使用

30秒出活:复制 → 粘贴 → 搞定
与其花几十分钟和AI聊天、试错,不如直接复制这些经过千人验证的模板,修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间,足够你轻松享受两杯咖啡!
加载中...
💬 不会填参数?让 AI 反过来问你
不确定变量该填什么?一键转为对话模式,AI 会像资深顾问一样逐步引导你,问几个问题就能自动生成完美匹配你需求的定制结果。零门槛,开口就行。
转为对话模式
🚀 告别复制粘贴,Chat 里直接调用
无需切换,输入 / 唤醒 8000+ 专家级提示词。 插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境,系统智能推荐最契合的 Prompt 并自动完成参数化,让海量资源触手可及,从此彻底告别"手动搬运"。
即将推出
🔌 接口一调,提示词自己会进化
手动跑一次还行,跑一百次呢?通过 API 接口动态注入变量,接入批量评价引擎,让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化,你只管收结果。
发布 API
🤖 一键变成你的专属 Agent 应用
不想每次都配参数?把这条提示词直接发布成独立 Agent,内嵌图片生成、参数优化等工具,分享链接就能用。给团队或客户一个"开箱即用"的完整方案。
创建 Agent

✅ 特性总结

从数值摘要快速定位异常区间与极值,自动提示可能的偏差来源与风险影响
一键生成专业分析结论与建议清单,包含阈值设定、分组比较与后续验证步骤
自动识别数据质量问题并给出修复方案,如缺失、重复、异常格式与错误录入
结合业务背景智能解释异常成因,帮助非技术团队快速理解并推动实际决策
提供可视化建议与示例图表类型,轻松展示异常分布、趋势变化与影响范围
支持自定义敏感度与语言输出,一键调整阈值、报告结构与沟通语气
面向营销、风控、运营等场景,自动生成可落地的行动策略与监控清单
为大型数据集提供分层分析路径,逐步定位问题源头,减少人为排查成本
输出可复制的复盘模板与记录规范,保障分析过程可追溯、易复用与协作
从不同摘要指标交叉验证异常,避免误判,优先标记高风险与高价值线索

🎯 解决的问题

将零散的数值摘要快速转化为“异常值清单+验证建议”,在没有图表或明确阈值的情况下精准定位风险点;帮助运营、产品、风控、财务与数据分析岗位缩短排查耗时、提升数据质量与决策可信度;为每个异常提供可能原因、修正与采样建议、分段对比与后续动作清单,形成可直接复用的结论摘要;支持多语言与多场景复用,覆盖周报、复盘、临时告警、上线前检查等高频场景。

🕒 版本历史

当前版本
v2.1 2024-01-15
优化输出结构,增强情节连贯性
  • ✨ 新增章节节奏控制参数
  • 🔧 优化人物关系描述逻辑
  • 📝 改进主题深化引导语
  • 🎯 增强情节转折点设计
v2.0 2023-12-20
重构提示词架构,提升生成质量
  • 🚀 全新的提示词结构设计
  • 📊 增加输出格式化选项
  • 💡 优化角色塑造引导
v1.5 2023-11-10
修复已知问题,提升稳定性
  • 🐛 修复长文本处理bug
  • ⚡ 提升响应速度
v1.0 2023-10-01
首次发布
  • 🎉 初始版本上线
COMING SOON
版本历史追踪,即将启航
记录每一次提示词的进化与升级,敬请期待。

💬 用户评价

4.8
⭐⭐⭐⭐⭐
基于 28 条评价
5星
85%
4星
12%
3星
3%
👤
电商运营 - 张先生
⭐⭐⭐⭐⭐ 2025-01-15
双十一用这个提示词生成了20多张海报,效果非常好!点击率提升了35%,节省了大量设计时间。参数调整很灵活,能快速适配不同节日。
效果好 节省时间
👤
品牌设计师 - 李女士
⭐⭐⭐⭐⭐ 2025-01-10
作为设计师,这个提示词帮我快速生成创意方向,大大提升了工作效率。生成的海报氛围感很强,稍作调整就能直接使用。
创意好 专业
COMING SOON
用户评价与反馈系统,即将上线
倾听真实反馈,在这里留下您的使用心得,敬请期待。
加载中...