AI 写作

图片

视频

热门角色

热门业务

模型专用

登录/注册

我的提示词库退出登录

AI开发者

让AI在编码、重构与问题诊断中发挥更大效能，显著提升开发速度与交付质量。

产品经理

精准理解产品需求意图，加速落地更贴合业务的功能方案。

商业分析师

明确业务分析诉求，使数据产品更快对齐真实决策场景。

电商运营人员

洞察电商运营关键场景，加速开发提升转化与效率的工具。

法律从业者

聚焦法律服务关键流程，使产品更好支撑合规与审查需求。

财务规划师

抓住财务规划核心逻辑，提升工具对预算与风险管理的实际价值。

市场营销人员

理解营销增长路径，使产品更有效驱动转化与投放效果。

品牌营销人员

洞察品牌建设重点，让工具更好支撑品牌传播与内容效率。

新媒体运营

把握内容运营节奏，使产品更直接提升生产与投放效率。

🔥 解锁更多角色分类，释放更大创作价值

不止热门角色，我们为你扩展了更多细分角色分类，覆盖职场提升、商业增长、内容创作、学习规划等多元场景。精准匹配不同目标，让每一次生成都更有方向、更高命中率。

立即探索更多角色分类，找到属于你的增长加速器。

提示词工程

帮助构建高质量提示词逻辑，让AI应用在不同任务中发挥更稳定可靠的效果。

数据分析

让数据分析需求更结构化，使分析类工具在洞察挖掘与决策支持上发挥更高价值。

写作

捕捉写作结构与表达需求，使写作工具更高效提升内容质量与创作速度。

内容创作

清晰呈现创作链路，使内容生成工具更高效提升产出质量与创意效率。

内容营销

聚焦内容投放的核心场景，让产品更有效推动曝光、转化与增长。

SEO

提炼搜索优化关键因素，使工具更准确提升流量表现与排名成果。

工具

聚焦工具使用场景，使功能模块更精准解决实际效率问题。

商业战略

提炼战略分析与决策框架，让产品更好支持业务判断与规划落地。

策略

梳理策略制定中的关键变量，让系统更好支撑规划、评估与执行的全流程。

🚀 更专业的提示词，帮你抢占业务先机

精选高转化业务场景提示词，覆盖营销获客、内容变现、品牌传播、办公提效等核心需求。每一个提示词都围绕“结果导向”设计，帮助你减少试错成本，快速产出可落地方案。

不只是提升效率，更是提升竞争力。

立即使用专业提示词，加速你的业务增长。

DeepSeek

专注高效推理与复杂任务处理，适合需要深度逻辑的应用场景。

OpenAI

语言生成与多模态能力领先，写作、对话和创意表现尤为出色。

Claude

在编程与安全性上表现突出，代码生成和严谨任务更值得信赖。

Gemini

谷歌最新大模型，多模态理解与搜索结合，信息处理与整合能力强。

Grok

实时数据与社交属性鲜明，适合热点追踪与互动场景。

Qwen

阿里出品，中文理解与企业级场景覆盖全面，兼具实用与本地化优势。

Kimi

长文本处理能力突出，适合科研、学习与大文档分析类任务。

🎯 为AI模型量身打造的专用提示词

这里的提示词专为不同大模型深度优化，无论是文生文、文生图还是代码生成，都能发挥模型的最佳效果。

你可以在多个模型间自由试用，对比体验不同风格与能力，始终找到最适合的那一个。

模块内容持续更新，确保每次使用都有新发现，让提示词与模型的结合真正释放最大价值。

×

¥元

查看详情

首页 / 机器学习数据预处理清单生成器

🔥 会员专享文生文其它

机器学习数据预处理清单生成器

收藏翻译工具格式化工具交互式填充优化工具发布为 API 发布为 Agent

👁️ 114 次查看

📅 Nov 29, 2025

💡 核心价值： 本提示词专为AI/ML工程师设计，能够根据指定的机器学习模型类型，生成全面且专业的数据预处理检查清单。该清单涵盖数据清洗、特征工程、数据转换等关键预处理步骤，确保数据质量满足特定模型的技术要求。通过系统化的检查项和详细的操作指导，帮助工程师高效完成数据预处理工作，提升模型训练效果和预测准确性。适用于监督学习、无监督学习、深度学习等多种机器学习场景。

复制提示词终身会员免费复制

展开全部 ▼

🎯 可自定义参数（4个）

模型类型

机器学习模型的类型

技术深度级别

预处理清单的技术深度级别

特征类型

数据特征的主要类型

预处理重点领域

预处理的重点关注领域

🎨 效果示例

模型类型概述
- 监督学习（高级，混合型特征）。混合型通常包含数值、类别（名义/有序）、文本、时间/日期、地理坐标及ID等。
- 预处理重点是构建信息密度高、无泄漏、对目标函数有判别力的特征，同时保证转换在训练-验证-测试中严格隔离（fit-on-train, transform-on-val/test）。
- 模型敏感性差异：
  - 需要数值尺度规范的模型：线性/逻辑回归、KNN、SVM、神经网络、距离度量类算法。
  - 对尺度不敏感：树模型（GBDT、随机森林）；但对稀疏高维特征和高基数类别的编码策略敏感。
- 对高基数类别、偏态分布、缺失与异常值、时间/组结构、潜在泄漏源（目标编码/时序泄漏/重复带标签冲突）的控制是关键。
数据质量检查清单
- 架构与一致性
  - 字段类型与业务字典一致（数值/类别/布尔/时间/地理）；单位统一（如米/公里）与坐标系一致（WGS84等）。
  - 唯一标识（ID）唯一性、无跨分区冲突；外键/主键完整性。
- 缺失值与可用性
  - 字段缺失率分布（整体/分群），行级缺失模式（MCAR/MAR/MNAR）初判。
  - 关键字段不可缺失率（如目标/时间戳）为0；若存在，剔除或修复策略记录。
- 异常值与离群
  - 数值特征：使用MAD鲁棒Z-score、IQR、分位点（如1/99或0.5/99.5）审计；多变量异常用Isolation Forest/LOF进行标记（先标记再决定处理，不直接删除）。
  - 类别特征：低频类别阈值（如频率<0.1%）；异常组合（如非法状态对）。
- 重复与冲突
  - 完全重复行去重；ID重复但标签冲突的记录定位并优先保留可信来源。
- 目标变量质量
  - 分类：类占比、长尾类识别（如占比<1%）；标签稀疏/噪声检测（交叉验证下的高损失样本占比、可疑样本清单）。
  - 回归：目标分布偏度/峰度，极端值阈值，必要时记录对数/Box-Cox可行性。
- 时序/组结构与泄漏扫描
  - 若存在时间：检查特征是否使用未来信息（窗口、滞后是否基于t之前）；切分采用时间切分，不使用随机分层。
  - 若存在组（用户/设备）：使用GroupKFold，避免跨组信息泄漏。
  - 目标相关特征排查：与目标相关性异常高且非先验可解释的字段（如“审批结果时间差”）标记审计。
- 基数与稀疏性
  - 类别基数统计、未知类别比例预估（线上分布 vs 线下训练分布）。
  - 高维稀疏特征（文本/哈希/one-hot）稀疏度与非零均值审计。
- 切分策略与抽样
  - 训练/验证/测试切分固定随机种子；分类任务使用分层抽样；时间或组任务使用对应切分方法。
- 数据体量与代表性
  - 每类样本量、每特征有效样本量；训练与验证分布漂移监控（PSI或KS初筛）。
特征处理步骤
- 通用防泄漏约束
  - 一切统计类转换（均值/方差/目标编码/分箱/降维）在每个训练折上独立fit，并仅对该折验证集/测试集transform。
  - 保留“是否缺失”指示列，以显式利用MNAR信号。
- 数值特征
  - 缺失处理：中位数/分组中位数填充；强偏态用分位数填充；保留缺失指示列。
  - 异常与偏态：分位点截尾/赢化（winsorize）；对数/Box-Cox/Yeo-Johnson处理偏态；稳健缩放（RobustScaler）用于受异常影响明显的特征。
  - 非线性增强：多项式/交互项（受控阶数，建议≤2）；样条（分段/样条基函数）用于单调/非线性关系建模（线性模型友好）。
  - 离散化（可选）：等频/基于目标的单调分箱（如IV最大化，保监/风控常用），并辅以WOE编码（需交叉验证平滑）。
- 类别特征
  - 清洗：统一大小写/空白/同义映射；极低频类别合并为“Other”；未知类别保留“Unknown”桶并在推理中默认映射。
  - 编码策略（按模型和基数）
    - 树模型：有序编码/频数编码/目标编码（K折、平滑、加入噪声）；一般避免大规模One-Hot。
    - 线性/SVM/KNN/NN：One-Hot（中低基数）；高基数用目标编码（K折+平滑）、计数/频率编码、哈希编码（控制碰撞）。
  - 目标编码要点：KFold目标编码（n_splits≥5）、加噪（如N(0, σ)），平滑（基于全局均值与类内计数），严格fold内拟合。
- 有序特征
  - 明确顺序映射为整数；避免One-Hot破坏序结构；可在树模型中直接使用或在线性模型中配合样条/单调约束。
- 文本特征（短文本/描述）
  - 规范化：小写、去除控制字符/冗余空白；保留或移除标点视任务而定；统一分词（中文分词器/英文tokenizer）。
  - 表示：TF-IDF（词/字n-gram）；高维时TruncatedSVD降维（fit-on-train）；字符n-gram适合噪声/错拼场景。
  - 衍生：长度、词汇多样性、是否包含关键模式（正则旗标）；多语言时加入语言识别标签。
- 时间/日期特征
  - 分解：年/季度/月/周/日/小时；工作日/周末/节假日；周期特征采用正余弦编码（如小时/周内日）。
  - 时距：与关键时间点的差值（如“距注册天数”）；滞后/滚动统计（严格基于t之前窗口）；事件计数（过去7/30天次数）。
  - 时区/夏令时对齐并固化。
- 地理特征
  - 坐标转换：经纬度转弧度；sin/cos循环编码（经度）。
  - 距离：Haversine距离到POI/中心；基于栅格（Geohash/H3）聚合的密度/均值特征。
- 标识与潜在泄漏
  - 纯ID类特征删除；含业务序列信息但与目标同源的字段（如“审核完成时间”）评估后剔除或仅用其衍生的历史可用统计。
- 特征选择与降维
  - 过滤法：低方差阈值；数值-数值相关性阈值（如>|0.95|）去冗余；分类任务用互信息/卡方筛选；回归用互信息/相关系数+F检验。
  - 嵌入法：L1正则（Lasso/L1-LogReg）；基于树的特征重要度（多折平均）；递归特征消除（RFE）需嵌套CV。
  - 降维：数值密集特征用PCA；稀疏文本向量用TruncatedSVD；所有降维步骤需fit于训练集。
- 类不平衡（若为分类）
  - 切分：StratifiedKFold保持类占比。
  - 重采样：训练折内应用；数值或混合特征用SMOTE/Borderline-SMOTE/SMOTENC；结合欠采样（如Tomek Links/ENN）控制边界噪声。
  - 替代方案：类权重在模型端设置（与预处理兼容）；对极端不平衡目标优先考虑加权而非过度合成。
- 目标变量转换
  - 回归：目标强偏态时考虑log1p/Box-Cox（记录lambda），预测阶段逆变换；分类：标签编码与正负样本权重记录并固化。
数据转换要求
- 规范化与缩放
  - 标准化（StandardScaler）：线性/SVM/KNN/NN默认；稳健缩放（RobustScaler）应对重尾/异常值。
  - 归一化到[0,1]（MinMax）仅在需要距离/相似度或激活函数敏感时使用；避免对树模型做缩放（无收益）。
  - 幂变换（Yeo-Johnson/Box-Cox）仅对正偏态有效，确保正值约束（Box-Cox）。
- 编码与数据类型
  - One-Hot采用稀疏存储（CSR）；哈希向量维度通过碰撞率目标（如<1%）确定。
  - 目标编码需保存：折数、平滑参数、全局均值、类别计数；推理时未知类别回退到全局均值或频数均值。
  - Pandas Categorical/Arrow类型管理类别字典，固化映射并版本化。
- 稀疏/致密表示
  - 文本/大规模One-Hot使用稀疏矩阵；与兼容的模型/训练器搭配（如线性/线性SVM/部分树模型实现）。
  - 神经网络一般使用嵌入或密集张量，避免超大稀疏输入，必要时先SVD降维。
- 流水线与可复现性
  - 将Column-wise变换封装为列变换流水线；所有变换器与参数序列化（版本、随机种子、训练统计）。
  - 拆分后再fit转换器；禁止在全量数据上fit任意与目标相关的转换。
预处理验证方法
- 切分与泄漏验证
  - 验证折内仅执行transform；检查验证/测试集中不存在训练阶段未见的目标信息（例如目标编码未遵守KFold）。
  - 若为时序/组数据，确认使用TimeSeriesSplit/GroupKFold且各折时间/组不穿越。
- 分布一致性与漂移
  - 训练 vs 验证的PSI（数值分箱10等频）；数值特征KS检验；类别特征以JSD/卡方对比频率分布。
  - 上线后监控未知类别占比、缺失率变化、PSI阈值预警（如PSI>0.2）。
- 缺失与插补质量
  - MCAR模拟遮蔽评估：在训练集随机掩蔽5%非缺失值，比较插补前后RMSE/MAE；记录各特征插补误差。
- 特征重要性与稳定性
  - 多折Permutation Importance/SHAP稳定性（方差/排名一致性）；高不稳定特征考虑简化或正则化。
- 预处理步骤消融
  - 逐步移除某一预处理组件（如目标编码/分箱/交互项），比较CV指标变化与置信区间，确认每步有净收益。
- 稀疏与维度控制
  - 稀疏矩阵非零比例、内存占用；SVD后累积解释方差比阈值（如≥0.9）。
- 类不平衡策略评估（分类）
  - 在嵌套CV中评估不同重采样/类权重组合的PR-AUC、F1（按业务阈值）、ROC-AUC；确保重采样仅作用于训练折。
- 目标变换验证（回归）
  - 对数/幂变换前后残差正态性与异方差性对比；预测逆变换后评估MAE/RMSE与偏差。

备注与实施要点

任何涉及目标统计的操作（目标编码、基于目标的分箱/筛选）必须在CV内进行，严禁使用整训练集或包含验证/测试数据的统计量。
为生产化，固化类别映射、插补统计、缩放参数与降维矩阵；对未知/异常输入提供确定性的回退策略。
全流程记录元数据：特征来源、处理参数、时间戳与版本，以便回溯与一致性审计。

模型类型概述：简要说明该模型的数据特点
- 场景与对象：无监督学习、数值型特征。常见方法（如基于距离/密度/流形的算法）对特征尺度、异常值、维度冗余高度敏感。
- 预处理重点：数据规约（维度规约与样本规约）以降低存储与计算成本、减小噪声和冗余，同时尽量保持几何结构（距离/邻域关系）。
- 关键要求：
  - 统一数值尺度，控制异常值影响（避免距离畸变）。
  - 去除无信息或强冗余特征，采用稳健的降维（PCA/Incremental PCA/随机投影等）。
  - 必要时进行样本规约（去重、密度感知抽样）以适配算法与资源约束。
数据质量检查清单：详细列出数据质量评估项目
- 数据结构与类型
  - 所有特征为数值型（float32/float64）；禁止出现字符串、混合类型、NaN/Inf。
  - 记录行列数、内存占用；估算后续降维目标（如内存压缩≥50%）。
- 缺失值
  - 统计每列缺失率；标记缺失率>40%的特征为删除候选。
  - 分析缺失模式（随机/系统性），避免因删除引入偏差。
- 数值范围与单位一致性
  - 各特征单位一致（若来自多源数据，需统一量纲）。
  - 检查极端大小差异（max(std)/min(std)>1e3提示必须缩放）。
- 异常值与重尾分布
  - 单变量：使用MAD方法，阈值 |x−median|/MAD>6 标记为异常；或基于分位数在[0.5%, 99.5%]外的点。
  - 多变量：在样本子集上用稳健协方差（MCD）识别高杠杆点。
- 重复与近重复
  - 完全重复行去除。
  - 近重复：对特征进行4位有效数字四舍五入后查重，或基于余弦相似度>0.999的样本对去重。
- 稀疏性与常量列
  - 常量/零方差特征删除（var=0）。
  - 稀疏列（>95%为0）标记为稀疏存储候选。
- 相关性与共线性
  - 计算皮尔逊相关矩阵；|r|>0.95的特征对保留其一。
  - 计算条件数或VIF（>10提示严重共线性）。
- 数值分布与偏态
  - 统计偏度|skew|与峰度；|skew|>1建议进行幂变换（Yeo-Johnson/Box-Cox，Box-Cox需正值）。
- 漂移与批次效应（如多批数据）
  - 通过特征均值/方差在不同批次上的差异比（|Δμ|/σ>0.5）检测批次效应，必要时做批次标准化。
特征处理步骤：系统描述特征工程的具体操作
- 清洗（先行步骤）
  - 缺失值处理：缺失率>40%的列删除；其余使用中位数/分位数插补（稳健，避免均值受异常值影响）。记录插补参数。
  - 异常值处理：剪裁到[1%,99%]或基于MAD阈值的winsorization；保持原值可另存一列异常标记（可选）。
  - 去重：删除完全重复与高相似近重复样本。
- 特征选择（规约：删除低信息与冗余）
  - 删除常量与近零方差特征（方差阈值如<1e−6，基于标准化后）。
  - 相关性过滤：对|r|>0.95的特征对，保留缺失更少、噪声更低或业务更优的一列。
  - 共线性控制：对VIF>10的特征集进一步降维或剔除。
- 特征变换（稳健尺度与分布整形）
  - 缩放：优先使用RobustScaler（对离群点稳健）；若异常点已处理，可用StandardScaler。
  - 分布矫正：对|skew|>1的特征应用Yeo-Johnson（适用于非正值）；全为正时可用Box-Cox。
  - 白化（可选）：PCA后白化以消除特征间相关性（对某些基于距离的方法有效）。
  - 量化（面向存储/IO）：将连续值按等频或KMeans分箱（如32/64级），仅用于压缩或粗化，不替代建模输入的原精度，除非评估通过。
- 维度规约（提取/压缩）
  - PCA/IncrementalPCA：以累计解释方差≥95%为目标；大样本用IncrementalPCA分批拟合。
  - 随机投影（Gaussian/Sparse）：按Johnson–Lindenstrauss界确定维度 d ≥ 4·ln(n)/ε^2（ε∈[0.2,0.5]）；适用于极大规模数据的近似距离保持。
  - NMF（非负数据）：用于部件化表示，设定重构误差阈值或稀疏度目标。
  - UMAP（用于结构保留与可视化/预嵌入）：仅在验证其邻域保持性达标后用于下游；记录超参（n_neighbors/min_dist）。
- 样本规约（在资源受限或需加速时）
  - 去重/近重复删除（见清洗）。
  - 密度感知抽样：先在小子集上做k-means（如k=√n），按簇大小分层抽样，保留每簇至少m个样本（m≥max(10, 1%簇大小)）。
  - 核心集/覆盖度：选择k-center贪心或k-means++初始化点作为代表，确保样本到最近代表的最大距离低于阈值（由业务容忍度设定）。
  - 异常值裁剪：移除极端离群点以稳定距离与密度估计，但需保留异常标记供审计。
数据转换要求：明确数据格式转换的技术规范
- 数据类型与精度
  - 统一为float32以节省内存；涉及高精度线性代数（如PCA拟合）阶段可使用float64拟合，变换结果存float32。
- 存储与格式
  - 大规模稀疏数据使用CSR/CSC存储；密集数据使用列式存储（Parquet/Arrow Feather）避免CSV精度丢失与IO开销。
- 拟合-应用分离
  - 缩放/变换（插补器、缩放器、PCA等）在训练拆分或首批数据上fit，并将参数持久化（版本化）；后续仅transform。
- 批处理与流式
  - 对超大数据采用分块标准化（先统计全局中位数/分位数或均值/方差，再逐块变换）；IncrementalPCA/partial_fit用于流式降维。
- 随机性与可复现
  - 固定random_state；记录库版本、参数、数据快照指纹（hash）确保可重复。
预处理验证方法：提供预处理效果的评估指标
- 质量与稳健性
  - 缺失与异常处理后：各列NaN/Inf=0；异常标记率在预期范围内（如<2%或业务阈值）。
  - 冗余降低：平均|相关系数|下降，|r|>0.95的特征对数减少≥90%。
  - 条件数：标准化后协方差矩阵条件数显著降低（例如<1e3）。
- 维度规约有效性
  - PCA累计解释方差≥目标（如95%）；重构误差（MSE）在可接受范围（以原方差为基准）。
  - 距离/邻域保持：在抽样子集上计算原空间与降维空间的成对距离Spearman相关≥0.9；或计算信任度（trustworthiness）≥0.95（流形方法）。
  - 随机投影：验证距离失真率≤ε（在样本对上统计 |d’−d|/d 的中位数≤目标）。
- 样本规约覆盖性
  - 覆盖度：原样本到最近代表点的最大距离/中位距离比值≤阈值（如≤3）。
  - 统计保持：规约前后各特征的均值/方差差异小（|Δμ|/σ<0.1；方差比在[0.8,1.2]）；距离分布KS检验p>0.05（未显著改变）。
- 性能与资源
  - 内存占用减少比例（如≥50%）；关键步骤（距离计算/聚类）的运行时间下降比例（如≥60%）。
- 可重复性与审计
  - 变换器参数与随机种子已记录；输入输出样本计数、删除/裁剪/抽样数量与规则留痕。

补充：推荐的执行顺序（便于落地）

类型/缺失/异常检测与处理 → 2) 去重 → 3) 缩放与分布矫正 → 4) 特征选择（方差阈值/相关过滤/共线性） → 5) 维度规约（PCA/随机投影/增量PCA） → 6) 样本规约（可选） → 7) 持久化变换器与质量验收（上述验证项）。

模型类型概述

模型类型：深度学习（文本）
数据特点与需求：
- 模型通常接收离散的整数序列（token IDs），并依赖一致的分词/子词规则与稳定的词表。
- 对序列长度敏感，需要明确的截断/填充策略及对应的注意力掩码。
- 语料的编码、Unicode规范化、标点/大小写/特殊符号处理直接影响词表覆盖率和OOV（未登录词）比例。
- 数据转换是核心：原始文本到模型输入（tokens、ids、mask、特殊标记）需严格、可复现。

数据质量检查清单

编码与Unicode一致性
- 确认统一为UTF-8；记录并修复无法解码样本占比（目标≤0.1%）。
- 应用Unicode规范化（NFC或NFKC）；统计规范化前后码点差异比例（≤2%为常见范围）。
文本完整性
- 检测空值、空字符串、仅空白/不可见字符（U+200B等）；清理或标记；比例≤1%。
- 去除或解析HTML/富文本标记（保留语义内容）；统计含HTML样本比例并在转换前处理。
语言/脚本一致性
- 语言检测（单语语料目标≥95%准确率）；多语需按语言分桶或使用统一子词模型。
- 检测混合脚本（Latin+CJK等），明确策略（保留/分离）。
重复与近重复
- 直接重复（字符串完全一致）占比；近重复（MinHash/Jaccard）占比；去重后重复率目标≤1–3%。
长度分布异常
- 统计字符长度、分词后长度分布；识别极短（<3 token）与极长（>95百分位）样本占比。
- 建立长文处理策略（分片/滑窗）；确保训练/验证集一致。
特殊符号与控制字符
- 检测控制字符（C0/C1）、私用区（PUA）码点、无效标点；统一替换或移除。
标注一致性（如为监督任务）
- 标签值域校验（离散集合/Schema）；异常标签比例≤0.5%。
- 训练/验证/测试集之间数据泄漏检查（文本哈希比对），泄漏率应为0。
类别/主题分布稳定性（监督/主题任务）
- 类别占比偏差（训练与验证对比）≤5%；必要时分层采样或加权。

特征处理步骤

文本标准化
- Unicode规范化：优先NFC，URL/代码片段可考虑NFKC。
- 空白规范：合并多空格为单空格；移除零宽字符。
- 大小写策略：英文任务若使用“cased”模型保留大小写；否则统一小写并保留专有名词信号的替代方案（例如实体占位符）。
- 标点与符号：保留语义性标点（句号、逗号、问号）；对表情、emoji、URL、邮箱、数字等选择映射到占位符（如、、），并统计占位符比例。
- 数字处理：大数归一化为或分解为子词；确保与词表策略一致。
分词/子词策略选择
- 子词优先：BPE、WordPiece、SentencePiece（Unigram）任选其一并保持全流程一致。
  - 英文/空白分词易用：WordPiece/BPE。
  - 多语/无空格语言（中文、日文）：SentencePiece（Unigram或BPE）或字符/字节级方案。
  - 代码混合/噪声文本：字节级BPE更鲁棒。
- 训练词表建议：基于训练集语料，词表大小典型范围8k–64k；保留特殊标记：[PAD]、[UNK]、[CLS]、[SEP]（依模型而定）。
- OOV策略：统一映射到[UNK]；控制OOV率（训练集≤1–2%，验证集≤3–5%）。
序列处理
- 最大长度设定：根据长度分布与显存预算选择max_len（如128/256/512）；统计截断比例（目标≤10%）。
- 填充与掩码：右填充[PAD]；生成attention_mask（1表示有效，0表示填充）。
- 长文策略：分片（chunk）+滑窗（stride 32–64）；保证跨片上下文最小重叠。
特征创建（按需）
- 句子/段落边界标记：插入[SEP]分隔；用于句间任务。
- 实体占位符与类型标签：将敏感或稀有实体统一占位并可选保留类型（如、）。
- 字符级后备：为高OOV场景增加字符序列分支（可选）；保持与主序列同步的填充策略。
数据切分与一致性
- 先随机切分数据集（train/val/test），再在训练集上拟合标准化/分词/词表；避免泄漏。
- 在验证/测试集上仅应用训练阶段拟合的转换工件（词表、正则、占位符表）。

数据转换要求

输入与存储格式
- 原始数据：统一JSONL或CSV；字段至少包含 id、text（UTF-8）、可选 label。
- 中间工件版本化：tokenizer配置、词表（vocab.txt/模型文件）、占位符表、正则规则、max_len、特殊标记集。
- 模型输入张量：
  - input_ids：int32，形状[batch_size, max_len]。
  - attention_mask：int8/int32，形状一致。
  - token_type_ids（如需）：int8/int32。
  - 可选labels：int64（分类）、float32（回归/序列标注）。
- 文件格式：大规模数据使用TFRecord、RecordIO或Parquet；小规模可用NPZ或Pickle（训练/推理环境一致）。
转换流程规范
- 统一的流水线顺序：编码校验 → Unicode规范化 → 文本清理 → 占位符映射 → 分词/子词 → 映射为ids → 截断/填充 → 掩码生成 → 序列打包。
- 动态填充与批处理：按batch最大长度动态填充可提升效率；确保dataloader生成一致的mask。
- 随机性控制：所有包含随机性的步骤（如分片位置）固定种子并记录。
词表与特殊标记
- 特殊标记且索引固定：[PAD]=0（常用约定）、[UNK]、[CLS]、[SEP]；在词表文件中显式声明。
- 保证占位符（、等）在词表中有单独条目；避免被分解为子词造成语义丢失。
可追溯性与再现性
- 保存流水线配置（YAML/JSON），包含所有参数与版本信息。
- 对每个数据分片记录哈希（SHA-256）与样本计数；确保训练/验证/测试可再现。

预处理验证方法

词表覆盖与OOV
- 统计训练/验证集OOV率；目标训练≤2%，验证≤5%；若超阈值，增大词表或改用子词/字节级方案。
序列长度与截断影响
- 截断样本比例（按文档与token两维）；目标≤10%；若超阈值，提升max_len或启用分片。
- 填充占比与平均有效长度；过高填充（>50%）提示需动态padding或更合理的batch组装。
特殊标记与占位符比率
- [UNK]占比、占位符（、）占比；异常升高说明清洗或词表策略需调整。
语言与噪声控制
- 语言检测准确率（单语≥95%）；HTML残留率（目标≈0）；控制字符比例（≈0）。
一致性与再现性
- tokenizer一致性测试：对随机样本进行分词→反分词（若支持）或分词稳定性对比；差异率≈0。
- 数据泄漏检测：训练/验证/测试文本哈希重合率=0。
下游可用性快检（轻量）
- 小规模训练/验证切片（1–5%数据）进行快速训练，监控学习曲线是否正常（loss下降、梯度稳定）；异常则回溯预处理与转换。
性能与资源
- 数据加载吞吐与GPU利用率评估；动态padding/按长度分桶应提升吞吐（≥10%为常见改进）。

以上检查清单与流程确保文本型深度学习模型的数据转换稳定、可复现，并在数据质量、特征处理与转换规范上符合最佳实践。根据语料语言、任务类型与硬件约束，可微调词表规模、最大序列长度与分词策略。

示例详情

📖 如何使用

⚡ 模式 1：即插即用（手动档）

直接复制参数化模版。手动修改 {{变量}} 即可快速发起对话，适合对结果有精准预期的单次任务。

💬 模式 2：沉浸式引导（交互档）

一键转化为交互式脚本。AI 将化身专业面试官或顾问，主动询问并引导您提供关键信息，最终合成高度定制化的专业结果。

转为交互式 →

🚀 模式 3：原生指令自动化（智能档）

无需切换，输入 / 唤醒 8000+ 专家级提示词。插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境，系统智能推荐最契合的 Prompt 并自动完成参数化，让海量资源触手可及，从此彻底告别“手动搬运”。

安装插件 →

🔌 发布为 API 接口

将 Prompt 接入自动化工作流，核心利用平台批量评价反馈引擎，实现"采集-评价-自动优化"的闭环。通过 RESTful 接口动态注入变量，让程序在批量任务中自动迭代出更高质量的提示词方案，实现 Prompt 的自我进化。

🤖 发布为 Agent 应用

以此提示词为核心生成独立 Agent 应用，内嵌相关工具（图片生成、参数优化等），提供完整解决方案。

创建 Agent →

🛠️ 提示词工具

多语言翻译

将提示词翻译为英文、日文等多种语言

交互式转换

转换为 Chat 交互式对话风格

参数格式化

可视化界面替换参数，快速生成

转化为 API 接口，程序调用

提示词优化

通过 AI 优化器改写提示词

发布为 Agent

生成独立 Agent 应用

🕒 版本历史

当前版本

v2.1 2024-01-15

优化输出结构，增强情节连贯性

✨ 新增章节节奏控制参数
🔧 优化人物关系描述逻辑
📝 改进主题深化引导语
🎯 增强情节转折点设计

v2.0 2023-12-20

重构提示词架构，提升生成质量

🚀 全新的提示词结构设计
📊 增加输出格式化选项
💡 优化角色塑造引导

v1.5 2023-11-10

修复已知问题，提升稳定性

🐛 修复长文本处理bug
⚡ 提升响应速度

v1.0 2023-10-01

首次发布

🎉 初始版本上线

COMING SOON

版本历史追踪，即将启航

记录每一次提示词的进化与升级，敬请期待。

💬 用户评价

4.8

⭐⭐⭐⭐⭐

基于 28 条评价

5星

85%

4星

12%

3星

3%

👤

电商运营 - 张先生

⭐⭐⭐⭐⭐ 2025-01-15

双十一用这个提示词生成了20多张海报，效果非常好！点击率提升了35%，节省了大量设计时间。参数调整很灵活，能快速适配不同节日。

效果好节省时间

👤

品牌设计师 - 李女士

⭐⭐⭐⭐⭐ 2025-01-10

作为设计师，这个提示词帮我快速生成创意方向，大大提升了工作效率。生成的海报氛围感很强，稍作调整就能直接使用。

创意好专业

COMING SOON

用户评价与反馈系统，即将上线

倾听真实反馈，在这里留下您的使用心得，敬请期待。

💬

提交反馈

您的反馈对我们非常重要

💡 您的真实感受，是提示词通往完美的最后一块拼图。

整体评价 *

★ ★ ★ ★ ★

非常满意

反馈类型

🪲 Bug反馈 💡 功能建议 📝 内容问题 ⭐ 使用评价

反馈内容 *

0 / 500

试用后开通会员即可无限使用

加载中...

热门提示词

快速关键词生成助手
内容营销策略制定
快速测试场景生成器
小说创作策略指南
SEO优化关键词生成助手
文章标题生成器

热门角色

内容创作者
开发者
产品经理
商业顾问
市场营销
企业管理者
SEO专家
数据分析师

热门业务

代码
内容创作
人力资源
数据分析
创意写作
艺术插画

大模型API

DeepSeek
OpenAI
Claude
Gemini
Grok
Qwen

使用我们的提示词工具

提示词API化工具(敬请期待)
提示词应用工具
我的提示词库
加入分销计划，零成本获得收益

Copyright © 2024 All Rights Reserved 北京蜜堂有信科技有限公司

公司地址：北京市朝阳区光华路和乔大厦C座1508

增值电信业务经营许可证：京B2-20191889

京ICP备18034931号-7

意见反馈：010-53324933,mtyy@miitang.com

敬请期待...

反馈问题

描述 *

截图

点击或拖拽图片到此处上传（最多5张）

联系方式