机器学习数据预处理清单生成器

10 浏览
1 试用
0 购买
Nov 29, 2025更新

本提示词专为AI/ML工程师设计,能够根据指定的机器学习模型类型,生成全面且专业的数据预处理检查清单。该清单涵盖数据清洗、特征工程、数据转换等关键预处理步骤,确保数据质量满足特定模型的技术要求。通过系统化的检查项和详细的操作指导,帮助工程师高效完成数据预处理工作,提升模型训练效果和预测准确性。适用于监督学习、无监督学习、深度学习等多种机器学习场景。

  • 模型类型概述

    • 监督学习(高级,混合型特征)。混合型通常包含数值、类别(名义/有序)、文本、时间/日期、地理坐标及ID等。
    • 预处理重点是构建信息密度高、无泄漏、对目标函数有判别力的特征,同时保证转换在训练-验证-测试中严格隔离(fit-on-train, transform-on-val/test)。
    • 模型敏感性差异:
      • 需要数值尺度规范的模型:线性/逻辑回归、KNN、SVM、神经网络、距离度量类算法。
      • 对尺度不敏感:树模型(GBDT、随机森林);但对稀疏高维特征和高基数类别的编码策略敏感。
    • 对高基数类别、偏态分布、缺失与异常值、时间/组结构、潜在泄漏源(目标编码/时序泄漏/重复带标签冲突)的控制是关键。
  • 数据质量检查清单

    • 架构与一致性
      • 字段类型与业务字典一致(数值/类别/布尔/时间/地理);单位统一(如米/公里)与坐标系一致(WGS84等)。
      • 唯一标识(ID)唯一性、无跨分区冲突;外键/主键完整性。
    • 缺失值与可用性
      • 字段缺失率分布(整体/分群),行级缺失模式(MCAR/MAR/MNAR)初判。
      • 关键字段不可缺失率(如目标/时间戳)为0;若存在,剔除或修复策略记录。
    • 异常值与离群
      • 数值特征:使用MAD鲁棒Z-score、IQR、分位点(如1/99或0.5/99.5)审计;多变量异常用Isolation Forest/LOF进行标记(先标记再决定处理,不直接删除)。
      • 类别特征:低频类别阈值(如频率<0.1%);异常组合(如非法状态对)。
    • 重复与冲突
      • 完全重复行去重;ID重复但标签冲突的记录定位并优先保留可信来源。
    • 目标变量质量
      • 分类:类占比、长尾类识别(如占比<1%);标签稀疏/噪声检测(交叉验证下的高损失样本占比、可疑样本清单)。
      • 回归:目标分布偏度/峰度,极端值阈值,必要时记录对数/Box-Cox可行性。
    • 时序/组结构与泄漏扫描
      • 若存在时间:检查特征是否使用未来信息(窗口、滞后是否基于t之前);切分采用时间切分,不使用随机分层。
      • 若存在组(用户/设备):使用GroupKFold,避免跨组信息泄漏。
      • 目标相关特征排查:与目标相关性异常高且非先验可解释的字段(如“审批结果时间差”)标记审计。
    • 基数与稀疏性
      • 类别基数统计、未知类别比例预估(线上分布 vs 线下训练分布)。
      • 高维稀疏特征(文本/哈希/one-hot)稀疏度与非零均值审计。
    • 切分策略与抽样
      • 训练/验证/测试切分固定随机种子;分类任务使用分层抽样;时间或组任务使用对应切分方法。
    • 数据体量与代表性
      • 每类样本量、每特征有效样本量;训练与验证分布漂移监控(PSI或KS初筛)。
  • 特征处理步骤

    • 通用防泄漏约束
      • 一切统计类转换(均值/方差/目标编码/分箱/降维)在每个训练折上独立fit,并仅对该折验证集/测试集transform。
      • 保留“是否缺失”指示列,以显式利用MNAR信号。
    • 数值特征
      • 缺失处理:中位数/分组中位数填充;强偏态用分位数填充;保留缺失指示列。
      • 异常与偏态:分位点截尾/赢化(winsorize);对数/Box-Cox/Yeo-Johnson处理偏态;稳健缩放(RobustScaler)用于受异常影响明显的特征。
      • 非线性增强:多项式/交互项(受控阶数,建议≤2);样条(分段/样条基函数)用于单调/非线性关系建模(线性模型友好)。
      • 离散化(可选):等频/基于目标的单调分箱(如IV最大化,保监/风控常用),并辅以WOE编码(需交叉验证平滑)。
    • 类别特征
      • 清洗:统一大小写/空白/同义映射;极低频类别合并为“Other”;未知类别保留“Unknown”桶并在推理中默认映射。
      • 编码策略(按模型和基数)
        • 树模型:有序编码/频数编码/目标编码(K折、平滑、加入噪声);一般避免大规模One-Hot。
        • 线性/SVM/KNN/NN:One-Hot(中低基数);高基数用目标编码(K折+平滑)、计数/频率编码、哈希编码(控制碰撞)。
      • 目标编码要点:KFold目标编码(n_splits≥5)、加噪(如N(0, σ)),平滑(基于全局均值与类内计数),严格fold内拟合。
    • 有序特征
      • 明确顺序映射为整数;避免One-Hot破坏序结构;可在树模型中直接使用或在线性模型中配合样条/单调约束。
    • 文本特征(短文本/描述)
      • 规范化:小写、去除控制字符/冗余空白;保留或移除标点视任务而定;统一分词(中文分词器/英文tokenizer)。
      • 表示:TF-IDF(词/字n-gram);高维时TruncatedSVD降维(fit-on-train);字符n-gram适合噪声/错拼场景。
      • 衍生:长度、词汇多样性、是否包含关键模式(正则旗标);多语言时加入语言识别标签。
    • 时间/日期特征
      • 分解:年/季度/月/周/日/小时;工作日/周末/节假日;周期特征采用正余弦编码(如小时/周内日)。
      • 时距:与关键时间点的差值(如“距注册天数”);滞后/滚动统计(严格基于t之前窗口);事件计数(过去7/30天次数)。
      • 时区/夏令时对齐并固化。
    • 地理特征
      • 坐标转换:经纬度转弧度;sin/cos循环编码(经度)。
      • 距离:Haversine距离到POI/中心;基于栅格(Geohash/H3)聚合的密度/均值特征。
    • 标识与潜在泄漏
      • 纯ID类特征删除;含业务序列信息但与目标同源的字段(如“审核完成时间”)评估后剔除或仅用其衍生的历史可用统计。
    • 特征选择与降维
      • 过滤法:低方差阈值;数值-数值相关性阈值(如>|0.95|)去冗余;分类任务用互信息/卡方筛选;回归用互信息/相关系数+F检验。
      • 嵌入法:L1正则(Lasso/L1-LogReg);基于树的特征重要度(多折平均);递归特征消除(RFE)需嵌套CV。
      • 降维:数值密集特征用PCA;稀疏文本向量用TruncatedSVD;所有降维步骤需fit于训练集。
    • 类不平衡(若为分类)
      • 切分:StratifiedKFold保持类占比。
      • 重采样:训练折内应用;数值或混合特征用SMOTE/Borderline-SMOTE/SMOTENC;结合欠采样(如Tomek Links/ENN)控制边界噪声。
      • 替代方案:类权重在模型端设置(与预处理兼容);对极端不平衡目标优先考虑加权而非过度合成。
    • 目标变量转换
      • 回归:目标强偏态时考虑log1p/Box-Cox(记录lambda),预测阶段逆变换;分类:标签编码与正负样本权重记录并固化。
  • 数据转换要求

    • 规范化与缩放
      • 标准化(StandardScaler):线性/SVM/KNN/NN默认;稳健缩放(RobustScaler)应对重尾/异常值。
      • 归一化到[0,1](MinMax)仅在需要距离/相似度或激活函数敏感时使用;避免对树模型做缩放(无收益)。
      • 幂变换(Yeo-Johnson/Box-Cox)仅对正偏态有效,确保正值约束(Box-Cox)。
    • 编码与数据类型
      • One-Hot采用稀疏存储(CSR);哈希向量维度通过碰撞率目标(如<1%)确定。
      • 目标编码需保存:折数、平滑参数、全局均值、类别计数;推理时未知类别回退到全局均值或频数均值。
      • Pandas Categorical/Arrow类型管理类别字典,固化映射并版本化。
    • 稀疏/致密表示
      • 文本/大规模One-Hot使用稀疏矩阵;与兼容的模型/训练器搭配(如线性/线性SVM/部分树模型实现)。
      • 神经网络一般使用嵌入或密集张量,避免超大稀疏输入,必要时先SVD降维。
    • 流水线与可复现性
      • 将Column-wise变换封装为列变换流水线;所有变换器与参数序列化(版本、随机种子、训练统计)。
      • 拆分后再fit转换器;禁止在全量数据上fit任意与目标相关的转换。
  • 预处理验证方法

    • 切分与泄漏验证
      • 验证折内仅执行transform;检查验证/测试集中不存在训练阶段未见的目标信息(例如目标编码未遵守KFold)。
      • 若为时序/组数据,确认使用TimeSeriesSplit/GroupKFold且各折时间/组不穿越。
    • 分布一致性与漂移
      • 训练 vs 验证的PSI(数值分箱10等频);数值特征KS检验;类别特征以JSD/卡方对比频率分布。
      • 上线后监控未知类别占比、缺失率变化、PSI阈值预警(如PSI>0.2)。
    • 缺失与插补质量
      • MCAR模拟遮蔽评估:在训练集随机掩蔽5%非缺失值,比较插补前后RMSE/MAE;记录各特征插补误差。
    • 特征重要性与稳定性
      • 多折Permutation Importance/SHAP稳定性(方差/排名一致性);高不稳定特征考虑简化或正则化。
    • 预处理步骤消融
      • 逐步移除某一预处理组件(如目标编码/分箱/交互项),比较CV指标变化与置信区间,确认每步有净收益。
    • 稀疏与维度控制
      • 稀疏矩阵非零比例、内存占用;SVD后累积解释方差比阈值(如≥0.9)。
    • 类不平衡策略评估(分类)
      • 在嵌套CV中评估不同重采样/类权重组合的PR-AUC、F1(按业务阈值)、ROC-AUC;确保重采样仅作用于训练折。
    • 目标变换验证(回归)
      • 对数/幂变换前后残差正态性与异方差性对比;预测逆变换后评估MAE/RMSE与偏差。

备注与实施要点

  • 任何涉及目标统计的操作(目标编码、基于目标的分箱/筛选)必须在CV内进行,严禁使用整训练集或包含验证/测试数据的统计量。
  • 为生产化,固化类别映射、插补统计、缩放参数与降维矩阵;对未知/异常输入提供确定性的回退策略。
  • 全流程记录元数据:特征来源、处理参数、时间戳与版本,以便回溯与一致性审计。
  • 模型类型概述:简要说明该模型的数据特点

    • 场景与对象:无监督学习、数值型特征。常见方法(如基于距离/密度/流形的算法)对特征尺度、异常值、维度冗余高度敏感。
    • 预处理重点:数据规约(维度规约与样本规约)以降低存储与计算成本、减小噪声和冗余,同时尽量保持几何结构(距离/邻域关系)。
    • 关键要求:
      • 统一数值尺度,控制异常值影响(避免距离畸变)。
      • 去除无信息或强冗余特征,采用稳健的降维(PCA/Incremental PCA/随机投影等)。
      • 必要时进行样本规约(去重、密度感知抽样)以适配算法与资源约束。
  • 数据质量检查清单:详细列出数据质量评估项目

    • 数据结构与类型
      • 所有特征为数值型(float32/float64);禁止出现字符串、混合类型、NaN/Inf。
      • 记录行列数、内存占用;估算后续降维目标(如内存压缩≥50%)。
    • 缺失值
      • 统计每列缺失率;标记缺失率>40%的特征为删除候选。
      • 分析缺失模式(随机/系统性),避免因删除引入偏差。
    • 数值范围与单位一致性
      • 各特征单位一致(若来自多源数据,需统一量纲)。
      • 检查极端大小差异(max(std)/min(std)>1e3提示必须缩放)。
    • 异常值与重尾分布
      • 单变量:使用MAD方法,阈值 |x−median|/MAD>6 标记为异常;或基于分位数在[0.5%, 99.5%]外的点。
      • 多变量:在样本子集上用稳健协方差(MCD)识别高杠杆点。
    • 重复与近重复
      • 完全重复行去除。
      • 近重复:对特征进行4位有效数字四舍五入后查重,或基于余弦相似度>0.999的样本对去重。
    • 稀疏性与常量列
      • 常量/零方差特征删除(var=0)。
      • 稀疏列(>95%为0)标记为稀疏存储候选。
    • 相关性与共线性
      • 计算皮尔逊相关矩阵;|r|>0.95的特征对保留其一。
      • 计算条件数或VIF(>10提示严重共线性)。
    • 数值分布与偏态
      • 统计偏度|skew|与峰度;|skew|>1建议进行幂变换(Yeo-Johnson/Box-Cox,Box-Cox需正值)。
    • 漂移与批次效应(如多批数据)
      • 通过特征均值/方差在不同批次上的差异比(|Δμ|/σ>0.5)检测批次效应,必要时做批次标准化。
  • 特征处理步骤:系统描述特征工程的具体操作

    • 清洗(先行步骤)
      • 缺失值处理:缺失率>40%的列删除;其余使用中位数/分位数插补(稳健,避免均值受异常值影响)。记录插补参数。
      • 异常值处理:剪裁到[1%,99%]或基于MAD阈值的winsorization;保持原值可另存一列异常标记(可选)。
      • 去重:删除完全重复与高相似近重复样本。
    • 特征选择(规约:删除低信息与冗余)
      • 删除常量与近零方差特征(方差阈值如<1e−6,基于标准化后)。
      • 相关性过滤:对|r|>0.95的特征对,保留缺失更少、噪声更低或业务更优的一列。
      • 共线性控制:对VIF>10的特征集进一步降维或剔除。
    • 特征变换(稳健尺度与分布整形)
      • 缩放:优先使用RobustScaler(对离群点稳健);若异常点已处理,可用StandardScaler。
      • 分布矫正:对|skew|>1的特征应用Yeo-Johnson(适用于非正值);全为正时可用Box-Cox。
      • 白化(可选):PCA后白化以消除特征间相关性(对某些基于距离的方法有效)。
      • 量化(面向存储/IO):将连续值按等频或KMeans分箱(如32/64级),仅用于压缩或粗化,不替代建模输入的原精度,除非评估通过。
    • 维度规约(提取/压缩)
      • PCA/IncrementalPCA:以累计解释方差≥95%为目标;大样本用IncrementalPCA分批拟合。
      • 随机投影(Gaussian/Sparse):按Johnson–Lindenstrauss界确定维度 d ≥ 4·ln(n)/ε^2(ε∈[0.2,0.5]);适用于极大规模数据的近似距离保持。
      • NMF(非负数据):用于部件化表示,设定重构误差阈值或稀疏度目标。
      • UMAP(用于结构保留与可视化/预嵌入):仅在验证其邻域保持性达标后用于下游;记录超参(n_neighbors/min_dist)。
    • 样本规约(在资源受限或需加速时)
      • 去重/近重复删除(见清洗)。
      • 密度感知抽样:先在小子集上做k-means(如k=√n),按簇大小分层抽样,保留每簇至少m个样本(m≥max(10, 1%簇大小))。
      • 核心集/覆盖度:选择k-center贪心或k-means++初始化点作为代表,确保样本到最近代表的最大距离低于阈值(由业务容忍度设定)。
      • 异常值裁剪:移除极端离群点以稳定距离与密度估计,但需保留异常标记供审计。
  • 数据转换要求:明确数据格式转换的技术规范

    • 数据类型与精度
      • 统一为float32以节省内存;涉及高精度线性代数(如PCA拟合)阶段可使用float64拟合,变换结果存float32。
    • 存储与格式
      • 大规模稀疏数据使用CSR/CSC存储;密集数据使用列式存储(Parquet/Arrow Feather)避免CSV精度丢失与IO开销。
    • 拟合-应用分离
      • 缩放/变换(插补器、缩放器、PCA等)在训练拆分或首批数据上fit,并将参数持久化(版本化);后续仅transform。
    • 批处理与流式
      • 对超大数据采用分块标准化(先统计全局中位数/分位数或均值/方差,再逐块变换);IncrementalPCA/partial_fit用于流式降维。
    • 随机性与可复现
      • 固定random_state;记录库版本、参数、数据快照指纹(hash)确保可重复。
  • 预处理验证方法:提供预处理效果的评估指标

    • 质量与稳健性
      • 缺失与异常处理后:各列NaN/Inf=0;异常标记率在预期范围内(如<2%或业务阈值)。
      • 冗余降低:平均|相关系数|下降,|r|>0.95的特征对数减少≥90%。
      • 条件数:标准化后协方差矩阵条件数显著降低(例如<1e3)。
    • 维度规约有效性
      • PCA累计解释方差≥目标(如95%);重构误差(MSE)在可接受范围(以原方差为基准)。
      • 距离/邻域保持:在抽样子集上计算原空间与降维空间的成对距离Spearman相关≥0.9;或计算信任度(trustworthiness)≥0.95(流形方法)。
      • 随机投影:验证距离失真率≤ε(在样本对上统计 |d’−d|/d 的中位数≤目标)。
    • 样本规约覆盖性
      • 覆盖度:原样本到最近代表点的最大距离/中位距离比值≤阈值(如≤3)。
      • 统计保持:规约前后各特征的均值/方差差异小(|Δμ|/σ<0.1;方差比在[0.8,1.2]); 距离分布KS检验p>0.05(未显著改变)。
    • 性能与资源
      • 内存占用减少比例(如≥50%);关键步骤(距离计算/聚类)的运行时间下降比例(如≥60%)。
    • 可重复性与审计
      • 变换器参数与随机种子已记录;输入输出样本计数、删除/裁剪/抽样数量与规则留痕。

补充:推荐的执行顺序(便于落地)

  1. 类型/缺失/异常检测与处理 → 2) 去重 → 3) 缩放与分布矫正 → 4) 特征选择(方差阈值/相关过滤/共线性) → 5) 维度规约(PCA/随机投影/增量PCA) → 6) 样本规约(可选) → 7) 持久化变换器与质量验收(上述验证项)。

模型类型概述

  • 模型类型:深度学习(文本)
  • 数据特点与需求:
    • 模型通常接收离散的整数序列(token IDs),并依赖一致的分词/子词规则与稳定的词表。
    • 对序列长度敏感,需要明确的截断/填充策略及对应的注意力掩码。
    • 语料的编码、Unicode规范化、标点/大小写/特殊符号处理直接影响词表覆盖率和OOV(未登录词)比例。
    • 数据转换是核心:原始文本到模型输入(tokens、ids、mask、特殊标记)需严格、可复现。

数据质量检查清单

  • 编码与Unicode一致性
    • 确认统一为UTF-8;记录并修复无法解码样本占比(目标≤0.1%)。
    • 应用Unicode规范化(NFC或NFKC);统计规范化前后码点差异比例(≤2%为常见范围)。
  • 文本完整性
    • 检测空值、空字符串、仅空白/不可见字符(U+200B等);清理或标记;比例≤1%。
    • 去除或解析HTML/富文本标记(保留语义内容);统计含HTML样本比例并在转换前处理。
  • 语言/脚本一致性
    • 语言检测(单语语料目标≥95%准确率);多语需按语言分桶或使用统一子词模型。
    • 检测混合脚本(Latin+CJK等),明确策略(保留/分离)。
  • 重复与近重复
    • 直接重复(字符串完全一致)占比;近重复(MinHash/Jaccard)占比;去重后重复率目标≤1–3%。
  • 长度分布异常
    • 统计字符长度、分词后长度分布;识别极短(<3 token)与极长(>95百分位)样本占比。
    • 建立长文处理策略(分片/滑窗);确保训练/验证集一致。
  • 特殊符号与控制字符
    • 检测控制字符(C0/C1)、私用区(PUA)码点、无效标点;统一替换或移除。
  • 标注一致性(如为监督任务)
    • 标签值域校验(离散集合/Schema);异常标签比例≤0.5%。
    • 训练/验证/测试集之间数据泄漏检查(文本哈希比对),泄漏率应为0。
  • 类别/主题分布稳定性(监督/主题任务)
    • 类别占比偏差(训练与验证对比)≤5%;必要时分层采样或加权。

特征处理步骤

  • 文本标准化
    • Unicode规范化:优先NFC,URL/代码片段可考虑NFKC。
    • 空白规范:合并多空格为单空格;移除零宽字符。
    • 大小写策略:英文任务若使用“cased”模型保留大小写;否则统一小写并保留专有名词信号的替代方案(例如实体占位符)。
    • 标点与符号:保留语义性标点(句号、逗号、问号);对表情、emoji、URL、邮箱、数字等选择映射到占位符(如 ),并统计占位符比例。
    • 数字处理:大数归一化为或分解为子词;确保与词表策略一致。
  • 分词/子词策略选择
    • 子词优先:BPE、WordPiece、SentencePiece(Unigram)任选其一并保持全流程一致。
      • 英文/空白分词易用:WordPiece/BPE。
      • 多语/无空格语言(中文、日文):SentencePiece(Unigram或BPE)或字符/字节级方案。
      • 代码混合/噪声文本:字节级BPE更鲁棒。
    • 训练词表建议:基于训练集语料,词表大小典型范围8k–64k;保留特殊标记:[PAD]、[UNK]、[CLS]、[SEP](依模型而定)。
    • OOV策略:统一映射到[UNK];控制OOV率(训练集≤1–2%,验证集≤3–5%)。
  • 序列处理
    • 最大长度设定:根据长度分布与显存预算选择max_len(如128/256/512);统计截断比例(目标≤10%)。
    • 填充与掩码:右填充[PAD];生成attention_mask(1表示有效,0表示填充)。
    • 长文策略:分片(chunk)+滑窗(stride 32–64);保证跨片上下文最小重叠。
  • 特征创建(按需)
    • 句子/段落边界标记:插入[SEP]分隔;用于句间任务。
    • 实体占位符与类型标签:将敏感或稀有实体统一占位并可选保留类型(如 )。
    • 字符级后备:为高OOV场景增加字符序列分支(可选);保持与主序列同步的填充策略。
  • 数据切分与一致性
    • 先随机切分数据集(train/val/test),再在训练集上拟合标准化/分词/词表;避免泄漏。
    • 在验证/测试集上仅应用训练阶段拟合的转换工件(词表、正则、占位符表)。

数据转换要求

  • 输入与存储格式
    • 原始数据:统一JSONL或CSV;字段至少包含 id、text(UTF-8)、可选 label。
    • 中间工件版本化:tokenizer配置、词表(vocab.txt/模型文件)、占位符表、正则规则、max_len、特殊标记集。
    • 模型输入张量:
      • input_ids:int32,形状[batch_size, max_len]。
      • attention_mask:int8/int32,形状一致。
      • token_type_ids(如需):int8/int32。
      • 可选labels:int64(分类)、float32(回归/序列标注)。
    • 文件格式:大规模数据使用TFRecord、RecordIO或Parquet;小规模可用NPZ或Pickle(训练/推理环境一致)。
  • 转换流程规范
    • 统一的流水线顺序:编码校验 → Unicode规范化 → 文本清理 → 占位符映射 → 分词/子词 → 映射为ids → 截断/填充 → 掩码生成 → 序列打包。
    • 动态填充与批处理:按batch最大长度动态填充可提升效率;确保dataloader生成一致的mask。
    • 随机性控制:所有包含随机性的步骤(如分片位置)固定种子并记录。
  • 词表与特殊标记
    • 特殊标记且索引固定:[PAD]=0(常用约定)、[UNK]、[CLS]、[SEP];在词表文件中显式声明。
    • 保证占位符(等)在词表中有单独条目;避免被分解为子词造成语义丢失。
  • 可追溯性与再现性
    • 保存流水线配置(YAML/JSON),包含所有参数与版本信息。
    • 对每个数据分片记录哈希(SHA-256)与样本计数;确保训练/验证/测试可再现。

预处理验证方法

  • 词表覆盖与OOV
    • 统计训练/验证集OOV率;目标训练≤2%,验证≤5%;若超阈值,增大词表或改用子词/字节级方案。
  • 序列长度与截断影响
    • 截断样本比例(按文档与token两维);目标≤10%;若超阈值,提升max_len或启用分片。
    • 填充占比与平均有效长度;过高填充(>50%)提示需动态padding或更合理的batch组装。
  • 特殊标记与占位符比率
    • [UNK]占比、占位符()占比;异常升高说明清洗或词表策略需调整。
  • 语言与噪声控制
    • 语言检测准确率(单语≥95%);HTML残留率(目标≈0);控制字符比例(≈0)。
  • 一致性与再现性
    • tokenizer一致性测试:对随机样本进行分词→反分词(若支持)或分词稳定性对比;差异率≈0。
    • 数据泄漏检测:训练/验证/测试文本哈希重合率=0。
  • 下游可用性快检(轻量)
    • 小规模训练/验证切片(1–5%数据)进行快速训练,监控学习曲线是否正常(loss下降、梯度稳定);异常则回溯预处理与转换。
  • 性能与资源
    • 数据加载吞吐与GPU利用率评估;动态padding/按长度分桶应提升吞吐(≥10%为常见改进)。

以上检查清单与流程确保文本型深度学习模型的数据转换稳定、可复现,并在数据质量、特征处理与转换规范上符合最佳实践。根据语料语言、任务类型与硬件约束,可微调词表规模、最大序列长度与分词策略。

示例详情

解决的问题

用一条指令,把“数据预处理”变成标准化、可执行的清单化流程。通过输入模型类型、数据特征与关注重点,快速生成专属的预处理检查清单,覆盖数据清洗、特征处理、数据转换与效果验证四大板块;适配监督学习、无监督学习与深度学习等多场景;用于项目立项、训练前质检、上线前复核与跨人协作评审,帮助团队更快启动、更稳提升模型表现、更容易复用沉淀为团队标准。

适用用户

机器学习工程师

在建模前快速生成可执行的清洗与特征处理计划,减少试错次数,加速从原始数据到可训练数据的准备。

数据科学家

为不同算法自动产出差异化预处理方案,明确控制变量,稳定实验流程,提升A/B实验与复现效率。

MLOps/平台工程师

将清单转化为标准化任务与作业,规范离线与实时环节,降低回滚风险,确保模型上线过程顺畅可控。

特征总结

一键生成模型定制的预处理清单,覆盖清洗、特征、转换,全流程不遗漏。
按监督、无监督、深度学习场景切换,自动匹配不同数据要求与建议策略。
自动识别缺失与异常处理要点,附可操作步骤,降低数据问题反复返工。
给出特征选择与构造路径,结合业务指标,快速提升训练效率与可解释性。
提供数值与类别数据转换规范,避免数据泄漏与数据漂移,稳住模型上线表现。
输出可执行的验证方法与指标,帮助你快速回归核对,确保预处理效果达标。
支持按技术深度与重点领域定制,研发、实验、生产三种节奏自由切换。
模板化清单便于团队协作与复用,标准沉淀可复查,减少人均沟通成本负担。
兼顾离线批处理与实时管道建议,缩短从样本到上线的全链路准备时间。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥20.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 605 tokens
- 4 个可调节参数
{ 模型类型 } { 技术深度级别 } { 特征类型 } { 预处理重点领域 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59