¥
立即购买

数据预处理清单

372 浏览
33 试用
9 购买
Nov 24, 2025更新

根据用户提供的数据集信息,生成结构化、清晰且可执行的数据预处理步骤,涵盖数据清洗、转换及准备流程,帮助用户高效、精准地完成数据分析前的准备工作,适用于多种数据科学场景。

以下为面向“情感预测(基于rating)与质量过滤(识别低质量/垃圾评论)”的预处理步骤,覆盖结构化、文本与时序数据。步骤按执行顺序组织,并对各字段与问题给出具体处理策略与可量化阈值(可根据验证结果微调)。

  1. 数据一致性与模式校验
  • 字段存在性与类型校验:review_id(字符串/长整)、user_id、product_id、review_text(字符串)、rating(1–5整数)、helpful_votes(非负整数)、review_time(UTC时间戳/ISO8601)、device_type(分类)、category(分类)、is_verified(布尔/二元)。
  • 去重与主键检查:确保review_id唯一;若存在重复review_id或同一行的完全重复记录,按最近更新时间或保留首条进行去重。
  • 合法值范围:
    • rating ∈ {1,2,3,4,5},其他值/小数视为异常并置为缺失。
    • helpful_votes ≥ 0;异常负值置零并记录。
    • is_verified ∈ {0,1};其他映射为缺失并增加缺失指示。
  • 时间解析:统一解析为时区感知UTC,拒绝不可解析或非UTC标记的时间并置为缺失;剔除明显异常时间(例如1970/未来>当前时间+7天)。
  1. 文本清洗与标准化(review_text)
  • HTML处理:移除标签(保留可见文本)、解码HTML实体(如 ),剔除脚本/样式片段。
  • URL/@/邮箱/手机号遮蔽:
    • URL统一替换为特殊标记
    • @用户名替换为 <USER_MENTION>。
    • 邮箱/手机号正则识别并替换为 ,以减少隐私风险与噪声。
  • Unicode规范化:统一为NFKC,规范全角/半角字符(如中文符号、数字)。
  • 简繁转换:将繁体统一转换为简体;保留原文版本的冗余字段可选(raw_text)以便审计。
  • 英文大小写与数字处理:英文统一小写;长数字串替换为 (保留数量级信息可选)。
  • Emoji处理:将Emoji转为可解释的文本标记(如“😊”→<EMOJI_SMILE>),同时保留原字符以便后续模型或词表学习(双通道或覆盖策略二选一)。
  • 规范重复字符:将长重复(如“好~好~~~”、“棒!!!!!!!!”)压缩为1–2次并保留强调标志(如重复计数特征)。
  • 非文本噪声移除:移除仅含HTML/标记且无语义的文本;剔除控制字符、不可见字符。
  • 语言与字符集检测:若文本绝大部分为非中文/英文(如乱码),标记为低质量并进入质量过滤候选。
  1. 低质量/占位评论与短文本处理
  • 占位短语词典与规则匹配(示例:已收到、先评、占位、还未使用、以后再评、OK、NICE、GOOD,仅供方向参考,需基于样本库构建并迭代):匹配则打上占位标记 placeholder_flag=1。
  • 极短文本阈值:中文字符数<5或分词后token数<3标记为short_flag=1;全大写英文比例>0.8标记为all_caps_flag=1。
  • 全重复文本检测:
    • 精确重复:同一user_id在短窗口(如72小时)内对同一product_id出现完全相同标准化文本(清洗后)→保留一条,其余标记 dup_flag=1 并剔除或下游用于质量负样本。
    • 近重复:使用SimHash/MinHash+Jaccard相似度(≥0.9)在用户内/商品内检测近似重复,处理同上。
  1. 拼写与错别字(可选,谨慎启用)
  • 中文常见混淆集与词频校正:仅在不改变语义风险的词上执行(如常见输入法错误、少量实体词规范化),生成校正版本与校正标记 spelling_fix_flag;避免过度校正导致语义漂移。
  • 英文拼写校正:对英文常见错误进行轻量校正;专有名词例外。
  1. 缺失值处理
  • review_time缺失(约1.2%):保留为缺失并新增 time_missing_flag;时序特征工程时跳过或用用户/商品分布统计进行弱插补(如仅派生日/周等需时序的特征时填“N/A”类目,不进行数值插补以免引入虚假时间)。
  • rating缺失(约4.6%):
    • 用途区分:训练情感预测时剔除;质量过滤模型保留并新增 rating_missing_flag。
  • device_type/category/is_verified缺失:设为“未知”类别并增加缺失指示变量。
  • helpful_votes缺失或异常:缺失置0并加缺失指示;异常高值在预处理阶段不删除,后续进行变换与截尾。
  1. 数值与分类字段标准化
  • helpful_votes重尾处理:log1p变换;并对极端值进行分位截尾(如上限裁剪至P99/P99.5)。
  • 分类编码:
    • device_type、category:统一标签字典;罕见类别合并为“其他”;后续使用目标编码或One-Hot(视模型而定)。
    • is_verified标准化为{0,1}整型。
  • 用户/商品稳健性特征(为质量过滤与潜在偏置控制准备):
    • 用户评论频率:近7/30天review计数、对同一商品的重复次数。
    • 商品层面统计:商品历史评论数、平均helpful_votes(log尺度)、近期评论密度。
    • 注意:这些为特征工程准备,不应在情感预测中造成标签泄漏(不使用与rating直接相关的聚合时窗内目标统计)。
  1. 分词与特征管道(文本向量化前置)
  • 中文分词:使用稳定的中文分词器,并结合自定义词典(电商术语、品牌、规格型号);保留数字/单位(如“128G”“500ml”)作为原子词。
  • 子词/字符级补充:为应对错别字与混排,准备字符或BPE子词级通道。
  • 停用词策略:不全局去停用词;仅在质量过滤特征中可统计停用词占比(过高可能指示低信息量)。
  • 特殊标记保留:、<USER_MENTION>、、<EMOJI_*>作为独立token。
  1. 标签与样本准备
  • 情感预测(目标=rating):
    • 保留rating非缺失样本;可将1–2视为负向,4–5视为正向,3视为中性用于二/三分类(具体取决于建模方案)。若做五分类,则不重映射。
    • 类别不均衡处理:不在预处理阶段重采样;在训练阶段采用分层抽样的训练/验证划分与类别权重。必要时保留SMOTE/下采样方案备选。
  • 质量过滤(目标=低质量/正常,构建弱标签):
    • 低质量正例启发式:placeholder_flag=1 或 short_flag=1 或 dup_flag=1 或 all_caps_flag=1 或文本长度极端低 或语言检测异常。
    • 正常负例启发式:文本长度≥阈值、无占位/重复、包含实体词/情感词、无大规模掩码标记。
    • 生成 weak_quality_label,并保留规则命中特征以供模型解释;后续可用人工抽样校正少量标签。
  1. 时序特征与泄漏防控
  • 时间特征派生:小时、星期几、月份、是否节假日(如需要)、评论在商品生命周期位置(按商品首评时间对齐的相对天数)。
  • 用户短期多评控制:训练/验证/测试划分按时间前推法(如最近X月作为测试)以避免时间泄漏与重复用户文本泄漏。
  • 防止同用户/同商品跨集泄漏:在划分时尽量将同一user_id或同一product_id的近重复样本分配到同一集合。
  1. 规范化输出与审计
  • 保留多视图字段:
    • text_raw(原始文本)、text_clean(清洗后)、text_tokens(分词/子词序列)。
    • 质量标记与缺失指示:placeholder_flag、short_flag、dup_flag、all_caps_flag、time_missing_flag、rating_missing_flag 等。
  • 版本化与可追溯:记录预处理代码版本、词典版本、规则变更日志、样本计数变化(行数、缺失比例、删除/标记数量)。
  • 数据平衡报告:按rating与质量弱标签输出分布统计,验证不均衡情况与预处理影响。
  1. 可选增强(依据资源与效果)
  • 正则化拼写/同义词归一:常见情感词、网络用语归一(如“巨好”“炒鸡好”→“非常好”),需在不损害细微情感的前提下谨慎执行。
  • 领域实体识别:品牌、型号、规格抽取,供质量过滤的语义信息量特征(含实体的评论通常质量更高)。
  • 负面关键词强化:保留否定词与程度副词,避免停用词清洗导致情感信息损失。

执行结果应产出干净、结构一致、带有质量与缺失标记的数据集,为后续的建模管道(文本向量化、特征构造、训练与评估)提供可复现输入。上述阈值与词典需基于开发集迭代优化,并通过小样本人工审查与离线指标(如文本信息量分布、近重复率下降幅度)进行验证。

以下预处理步骤面向“工单主题与优先级的统计监测与可视化基线”,覆盖结构化、文本、多语言与时序特性,并兼顾数据质量、隐私与可追溯性。

  1. 数据接入与模式校验
  • 明确定义模式与类型:ticket_id(string/long)、created_at/closed_at(datetime, ISO 8601)、channel(enum: web/app/phone)、subject/body(string, UTF-8)、tags(array[string])、priority(enum→有序型)、status(enum)、agent_id(string)、customer_tier(enum/string)。
  • 编码与规范:统一UTF-8,Unicode标准化(NFKC),移除不可见控制字符。
  • 唯一性与完整性:
    • ticket_id唯一性校验;重复ID就地合并或剔除并记录。
    • 枚举字段值落库校验(channel/priority/status/customer_tier),异常值映射到“UNKNOWN”并上报。
  • 时区统一:将created_at/closed_at转为UTC,保留原时区字段(若有)。
  1. 时间派生与时序对齐
  • 生成时间切片特征:date、week、month、iso_week、hour_of_day、dow。
  • 关闭状态与时长:
    • open_flag = closed_at缺失或status非“closed”。
    • resolution_time_hours = (closed_at - created_at) 在closed_at存在时计算;缺失时置NaN并保留open_flag。
  • 滚动窗口键:rolling_7d、rolling_28d索引(用于后续基线聚合)。
  1. 基础质量筛除与异常标注
  • 空主体与垃圾样本:
    • 清洗前body为空或仅含标点/URL/附件占位的记录标注empty_body_flag并剔除出主题统计(可保留用于率的分母策略需一致)。
  • 超长文本:
    • 计算字符/词长度分布;设定安全上限(如前P99长度),生成length_bucket;对超长样本保留摘要视图(例如前/后各N字符)和长度特征,避免统计时OOM。
  • 重复与近重复:
    • 绝对重复:相同ticket_id或(subject_clean+body_clean相同)的保留一条并聚合计数。
    • 近重复:对正文清洗后文本做指纹(MinHash/SimHash),同一customer_tier或相近时间窗(如72小时)内,相似度≥阈值(如0.9)聚簇并打标near_dup_cluster_id;统计时默认保留首条,聚合“重复量”指标以监测异常。
  1. 文本预清洗(保留原文与版本化)
  • HTML/Markdown处理:去HTML标签与脚本样式、解码实体、Markdown转纯文本;保留链接占位符,附件/图片用占位符
  • 邮件转发/引用与签名去除:
    • 去除邮件头(From:/To:/Subject:/Sent:等)、转发分隔线(-----Original Message-----/转发:等)、引用块(行首>)。
    • 签名与自动署名识别(基于规则与库,如常见签名触发词、talon/回复解析器)。
  • 模板化问候与常见客套:
    • 移除开头/结尾的标准问候与落款(多语言短语词表驱动,保留占位标记/以便后续占比分析可选)。
  • 正则标准化:
    • 统一标点、空白与重复字符压缩;表情符号转占位符;URL/路径/代码块保留占位符。
  • 电话录音转写常见错词纠正(可选):
    • 频道=phone时启用特定词典与简单纠错(英语可用SymSpell;中文用定制词典优先于通用拼写纠错,避免过度纠正品牌/SKU)。
  1. 隐私与敏感信息去标识
  • 用正则/规则检测并替换为类别占位符,保留统计信号而不泄露内容:
    • 手机号/座机:;邮箱:;订单号/物流单号/泛ID(模式+校验位/长度规则):<ORDER_ID>;IP地址:
  • 可选:对占位前的原值进行不可逆哈希并单独安全存储以用于去重,不回写到分析集。
  • 敏感信息覆盖率与剩余泄露率抽样审计。
  1. 语言识别与分段
  • 基于句级或段级语言检测(fastText/cld3),为中英混排与少量日语提供比例估计:lang_primary、lang_mix_ratio。
  • 语言路由:
    • 中文:中文分词(自定义词典注入产品/品牌/常用SKU),全角半角统一,数字与单位标准化。
    • 英文:小写化、词形还原或轻量词干化,保留专有名词大写版本作为别名表可选。
    • 日语:形态学分析(MeCab/fugashi),数量较少可降级为字符n-gram。
  • 停用词表按语言应用;对代码混写保留混合token。
  • 生成clean_text与tokens字段,并记录token_count。
  1. 标签与枚举标准化
  • tags数组:
    • 去重、小写化、去空白,统一同义词与别名映射(维护映射表),移除低信息标签(如“web”、“app”若已在channel)。
  • priority处理:
    • 规范化为有序型(如 P1>…>P4 或 high>medium>low),建立数值映射priority_num,异常值置NA并打标。
  • status标准化:合并近义状态为有限集合(open/pending/solved/closed等)。
  1. 缺失值处理
  • subject缺失(约8%):
    • 生成subject_filled:优先用subject_clean,缺失时用body_clean前N字符或关键短语抽取(避免引入噪声,N建议80–120),并打标subject_imputed_flag。
  • closed_at缺失(约11%):
    • open_flag=1,resolution_time置NaN;统计时区分开/已结单。
  • 其他字段缺失:生成缺失指示变量,分类变量缺失映射为“UNKNOWN”。
  1. 垃圾工单与低质量样本识别
  • 规则与启发:
    • body清洗后长度过短且仅占位符/噪声;重复提交且无内容变更;典型垃圾短语/钓鱼模式;极高相似度群发样本。
  • 输出spam_flag;默认从主题统计中排除,另行统计“垃圾率”指标以监测异常流量。
  1. 特征与派生字段(用于后续统计分组)
  • 时间:created_month、created_week、created_dow、created_hour。
  • 时长:resolution_time_hours、age_hours(对open票据)。
  • 文本密度:char_len、token_len、url_count、pii_count。
  • 渠道/层级:channel、customer_tier标准化。
  • 主题候选信号(不做建模,仅为统计准备):
    • normalized_tags(主来源)。
    • 关键短语/高频n-gram(按语言),过滤停用词与占位符。
    • topic_key初稿:若tags包含标准主题映射则用映射,否则用规则词典匹配的主题类别;无法匹配置“OTHER”。规则表版本化,确保统计可复现。
  1. 近似重复与聚簇标注产物
  • 输出duplicate_flag、near_dup_cluster_id、cluster_rep_id、dup_count,以便统计时按簇去重或加权。
  • 记录去重后有效样本数,供基线分母使用。
  1. 数据抽样与一致性
  • 为可视化与基线固定样本定义:
    • 统计默认口径:非垃圾、非重复代表样本;时间维度按created_at;主题采用topic_key或normalized_tags。
    • 明确是否包含未结单(建议区分展示)。
  1. 输出数据表(分析数据集与数据集市)
  • tickets_clean(每工单一行):
    • 关键字段:ticket_id、created_at_utc、closed_at_utc、open_flag、channel、priority/priority_num、status、agent_id、customer_tier、subject_filled、clean_text、lang_primary、lang_mix_ratio、char_len/token_len/url_count/pii_count、duplicate/near-dup/spam标记、topic_key、normalized_tags、resolution_time_hours。
  • tokens_or_phrases(可选长表):
    • ticket_id、token/phrase、tf、lang,用于主题词统计。
  • aggregates_ready(可选预聚合):
    • 按月/周×topic_key×priority的计数、占比、趋势字段,方便可视化直接消费。
  1. 质量与审计报告
  • 覆盖与变化:
    • 语言分布、去重比例、垃圾比例、PII替换计数、subject填补率、closed_at缺失率、超长文本比例。
  • 稳定性检查:
    • 主题映射命中率、标签同义词归一化命中率、每月分布漂移(PSI/JS散度)预警阈值。
  • 版本化:
    • 规则表、停用词表、同义词映射、PII正则、语言词典的版本号写入数据集元数据。

实施建议与注意事项

  • 工具链:pandas/pyarrow、dateutil/pytz、ftfy、bs4/html2text、regex、langid/fastText/cld3、jieba/spaCy/MeCab、datasketch(simhash/minhash)、talon/邮件回复解析器。
  • 占位符策略:统一小写尖括号占位,避免与正文混淆;占位符计数作为特征保留。
  • 性能:对近重复采用LSH或指纹分桶;预清洗与分词分批处理;长文本截断仅用于内存安全,统计口径基于完整清洗文本。
  • 隐私合规:所有PII在进入分析层前已去标识;严禁将原始PII写入分析输出或可视化层。

上述预处理完成后,即可在一致的样本口径上进行主题与优先级的时序统计与可视化基线构建(按月/周计数、占比、趋势、开放/已结单拆分、渠道与客群切片)。

以下为面向“学科主题分类”与“关键词扩展”建模目标的中文科研论文摘要数据集(约12万篇)的系统化预处理步骤。流程覆盖数据读取、编码与文本规范化、重复与撤稿处理、语言与字段修正、关键词处理、分词与特征准备,以及数据集切分与质量监控。输出遵循结构化、可复现与审计可追踪的原则。

一、数据读取与编码规范化

  • 编码检测与统一:
    • 自动检测每条记录的编码(如 chardet/uchardet),统一转为 UTF-8。
    • 去除 BOM、替换不可见控制字符(U+0000-U+001F)、归一化换行符为 “\n”。
    • Unicode 规范化为 NFKC,以消除全角/半角、兼容字符差异。
  • 文本修复:
    • 使用 ftfy 或等效工具修复常见乱码、错位字符。
    • 统一空白:折叠多余空格、统一制表符为单空格。
  • 中文简繁统一:
    • 使用 OpenCC 将繁体中文统一为简体(或明确采用简体为目标变体)。

二、基础字段与元数据规范化

  • paper_id:
    • 统一类型为字符串;检查唯一性。若发现版本号或附加后缀,解析成 version 字段(如 v1/v2)。
  • title、abstract:
    • 去除首尾空白;保留大小写(中文不区分,英文维持原状)。
  • authors:
    • 标准化为列表:拆分多种分隔符(逗号/分号/空格)、去除职称/单位标注(若混入)。
    • 去除重复作者、统一姓名中的空格与连字符格式。
  • published_date:
    • 解析为 ISO 8601(YYYY-MM-DD),记录时区信息为标准化 UTC;异常/缺失标为 null。
  • language:
    • 使用高精度语言识别(fastText lid.176 或 CLD3)校正 language 字段,记录置信度;保留 zh/en 双语标签。
  • field(学科粗分类):
    • 建立受控词表(canonical taxonomy),统一同义/别名(如“计算机科学/计算机/信息科学”合并)。
    • 标记噪声:若 field 与抽取的关键词分布或标题词汇不一致(规则或弱监督),打噪声标记 noisy_field=1。

三、文本内容清洗与规范化(重点:LaTeX/引用/OCR)

  • LaTeX 公式与命令处理:
    • 数学环境替换为占位符:[MATH](不删除整体,以保留“数学性”信号):匹配 $...$、$$...$$、(...)、[...]、\begin{equation/align/...}...\end{...}。
    • 格式命令保留内容、移除命令:如 \textbf{X} -> “X”、\emph{Y} -> “Y”。
    • 引用/标签命令彻底移除:\cite{}、\ref{}、\eqref{}、\label{}、\bibitem{}。
    • 其它纯样式命令(\mathbf、\mathrm、\alpha 等)若在数学环境中一并替换为 [MATH];若误置于正文,删除命令仅保留字母内容(如 alpha -> “alpha”)。
  • 文献引用与参考标号剥离:
    • 删除“文献[1]”、“参见[2,3]”等方括号数字序列(匹配 [\d{1,3}(,\s?\d{1,3}|-\d{1,3})*]),同时可去掉前缀“文献/参考”词语。
    • 删除正文中的引用标号模式如 “[12]”、“[3–5]”,但保留非引用的括号数字(通过前后语境过滤,如含“文献/参见/参考/见”等触发词)。
    • 英文式引用(如“(Smith, 2020)”):谨慎处理,仅在高置信匹配(作者姓+逗号+4位年份)时移除,避免误删普通括注。
  • OCR 误差缓解(轻量规则+黑/白名单):
    • 常见混淆表:O/0、l/1、rn/m、—/-, 。/., ,/,, 等;结合上下文长度与语言字典进行替换。
    • 连续标点与错位引号统一:全角/半角标点归一,重复标点折叠。
    • 不进行激进纠错,保留专有名词与化学式;对纠错变更计数并记录日志(ocr_fix_count)。
  • HTML 与转义处理:
    • 去除 HTML 标签、解码实体( 、< 等)。
  • 特殊前缀清理:
    • 去除“摘要:/Abstract:/关键词:/Key words:”等冗余前缀(若误置于摘要字段)。
  • 长度与结构:
    • 记录清洗前后摘要字符数与词/子词数,用于后续建模截断策略;不在预处理阶段截断正文。

四、重复与版本、撤稿处理

  • 撤稿标注:
    • 若元数据提供撤稿标记则直接使用;否则基于标题/摘要中的高置信触发词(“撤稿声明/Retraction/撤回”)进行标注 retracted=1。
    • 模型训练默认排除撤稿条目或另置标签以避免污染。
  • 重复投稿与版本聚类:
    • 精确重复:title+authors+abstract 完全相同,合并保留最早 published_date。
    • 近似重复/Fuzzy:使用文本指纹(SimHash/MinHash)或句向量(中文/多语 Sentence-BERT)做相似度聚类;设阈值(如 cosine ≥0.95)判定同一稿件不同版本。
    • 在重复簇内选择主版本:优先规则为非撤稿、摘要更完整(长度/无明显乱码)、发布时间较新或包含关键词的版本;标记 cluster_id 与 canonical_id。
    • 防数据泄漏:同簇记录必须分配到同一数据子集(train/val/test)。

五、语言与跨语处理

  • 语言一致性:
    • 使用语言识别修正 language 字段;对 zh/en 混合摘要不分割,保留混合文本但记录 lang_mix=1。
  • 英文摘要处理策略(二选一,视建模选择):
    • 方案A(统一中文):将英文摘要机器翻译为中文(记录翻译来源与置信度),以统一语料;保留原文供审计。
    • 方案B(多语建模):使用多语模型(mBERT/LaBSE 等)并保留原文,不翻译;对英文文本应用英文小写化、停用词与标点归一化。
  • 简体统一已在前述步骤完成。

六、字段(field)清洗与标注稳健化

  • 受控词表映射:
    • 将原 field 映射到标准学科集合;保留原始标签与映射后标签(field_raw, field_canonical)。
  • 噪声检验与弱监督修正:
    • 使用标题/摘要高频词与已清洗关键词进行投票或规则匹配(如词典命中率、领域特征词)对明显错标进行修正或置为 unknown。
    • 在训练阶段可采用样本加权或温和标签平滑以缓解噪声(预处理阶段仅生成噪声标记与建议修正)。

七、关键词处理与标准化

  • 解析与清洗:
    • 使用多分隔符拆分(“,”、“,”、“;”、“;”、“、”),去除首尾空白与重复。
    • 简繁统一、英文小写化、合并同义词(基于受控词表与词典),去除明显非关键词的停用词条。
    • 去除过短且非术语的单字词(保留化学元素/符号等确定术语)。
  • 缺失与标记:
    • 标记 keywords_missing(约15%);不进行监督训练用的直接填补,以避免标签噪声。
    • 可生成无监督候选(TextRank/YAKE/KeyBERT)供后续关键词扩展模型做负/正样本采样或推断参考,单独存储为 keyword_candidates。
  • 词表构建:
    • 统计全局关键词频次,建立受控词表(去重、合并别名),为多标签分类或序列标注准备。

八、分词、停用与特征准备(针对不同模型)

  • Transformer 类模型(推荐用于主题分类与关键词扩展):
    • 不进行额外分词,采用预训练模型的子词分词器(中文 RoBERTa/BERT 或多语模型)。
    • 记录最大子词长度分布,后续训练阶段统一 max_seq_len(如 512);不在预处理阶段截断。
  • 传统特征(用于基线或补充):
    • 中文分词:使用 pkuseg/jieba/THULAC,加入领域词典(来自关键词与高频术语),减少歧义切分。
    • 停用词:使用精炼的中文停用词表,保留领域词与数字/单位;英文文本使用英文停用词与小写化。
    • 构造 TF-IDF/词袋/n-gram(1–2或1–3),并记录字典大小与 OOV 比例。

九、数据集切分与采样策略

  • 切分原则:
    • 去重簇一致性:同簇样本在同一子集(防泄漏)。
    • 分层切分:按 field_canonical 与 language 分层,确保代表性。
    • 时间切分(可选):以最近时间段作为测试集以检验时序泛化。
  • 典型比例:训练/验证/测试 ≈ 80/10/10;撤稿样本不进入训练,可进入测试作稳健性检验(标记 retracted=1)。

十、质量监控与审计日志

  • 指标记录:
    • 编码修复率、乱码/控制字符清除率、语言识别纠正率。
    • LaTeX 剥离数量(公式占位计数)、引用标号清除计数。
    • OCR 修正计数与类型分布;文本长度变化分布。
    • 重复簇数量、去重比例、版本保留策略统计。
    • field 噪声比例与修正覆盖率;关键词缺失比例与清洗后词表大小。
  • 审计与可追踪:
    • 每条记录保留处理轨迹(flags 与 counts),包括 has_math、citation_count、ocr_fix_count、cluster_id、canonical_id、language_confidence、field_mapping_source。
    • 采样人工抽检(每步至少随机抽检1–2%),校正规则或阈值。

十一、输出数据模式(示例字段)

  • paper_id、canonical_id、cluster_id、version、title、abstract_clean、has_math、citation_count、ocr_fix_count、authors_clean、published_date_utc、language、language_confidence、lang_mix、field_raw、field_canonical、noisy_field、keywords_clean、keywords_missing、keyword_candidates(可选)、abstract_len_chars、abstract_len_subwords。

备注与边界控制

  • 数字与化学/材料式保留(如 “SiO2”、“H2O”、“3D”);仅删纯引用标号,不做全局数字清除。
  • 数学占位符保留有助于主题分类(数学/物理类文本的信号),后续模型可基于 [MATH] 作为特征。
  • 英文摘要统一策略需与模型选择一致;若比例“少量英文”,优先采用方案A(翻译统一中文)以简化管线。

该预处理方案旨在最大程度提升文本规范性和标签可靠性,降低重复与噪声对主题分类与关键词扩展模型训练的影响,并确保处理过程可审计与可复现。

示例详情

该提示词已被收录:
“数据分析师必备:高效洞察与建模提示词合集”
覆盖从数据理解到建模全流程,助你提升分析效率
√ 立即可用 · 零学习成本
√ 参数化批量生成
√ 专业提示词工程师打磨
该提示词已被收录:
“AI工程师必备:高效建模与数据处理提示词合集”
覆盖建模到评估关键环节,助你快速构建高性能模型
√ 立即可用 · 零学习成本
√ 参数化批量生成
√ 专业提示词工程师打磨
查看更多

解决的问题

把零散复杂的数据清洗工作,转化为“可直接执行”的步骤清单。该提示词可根据你提供的数据集场景,快速生成标准化、可复用的预处理方案,覆盖缺失值、字段规范、异常与重复检测、编码与归一、样本切分、特征工程与验证等关键环节。目标是减少返工与试错、缩短分析启动时间、提升模型表现与结论可信度,并支持指定输出语言与风格,让跨团队沟通更顺畅。

适用用户

数据分析师

快速为新数据集生成清洗与标准化方案,缩短建模准备时间,提升报表与模型稳定性。

商业运营经理

将复杂数据处理转为可执行清单,指导团队统一指标口径,减少错报漏报,提升决策可信度。

数据科学团队负责人

制定跨项目预处理规范与验收标准,一键下发检查表,保障协作一致性与交付质量。

特征总结

按数据集特征生成定制化预处理清单,一步到位明确清洗、转换与校验流程
自动识别常见数据问题并给出可执行方案,如缺失值、异常点与字段不一致
一键生成可复用的步骤说明与执行顺序,便于团队协作与跨项目标准化落地
支持多语言输出与不同写作风格,轻松适配报告、文档或培训材料的使用场景
结合业务目标给出数据筛选与分组建议,帮助指标口径统一,减少分析偏差
自动生成可视化前的数据整理建议,明确字段类型转换与分箱、标准化步骤
根据任务场景生成不同深度版本:速览清单、详细指南、执行检查表自由切换
提供数据质量评估要点与验收标准,确保预处理后数据可追溯、可对比、可复现
场景化提示参数,用户只需填写数据集简述,即可生成贴合业务的处理方案
严谨的表达与结构化输出,帮助新人快速上手,也让专家复核更高效更安心

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥20.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 252 tokens
- 3 个可调节参数
{ 数据集描述 } { 目标分析方法 } { 数据类型 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
使用提示词兑换券,低至 ¥ 9.9
了解兑换券 →
限时半价

不要错过!

半价获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59