热门角色不仅是灵感来源,更是你的效率助手。通过精挑细选的角色提示词,你可以快速生成高质量内容、提升创作灵感,并找到最契合你需求的解决方案。让创作更轻松,让价值更直接!
我们根据不同用户需求,持续更新角色库,让你总能找到合适的灵感入口。
本提示词为数据科学家设计,能够针对指定数据类型或数据特征生成专业、结构化的数据预处理步骤。输出内容涵盖数据清洗、缺失值处理、异常值检测、特征编码和标准化等操作,内容准确、可执行,并采用技术写作风格呈现,帮助用户快速准备高质量分析或建模数据集。
以下为针对该客户行为二分类流失(churn)场景的预处理方案与特征生成流程。目标是构建干净、可复现的特征表,采用可解释的编码方案,并在数据清洗与特征工程阶段考虑类不平衡。数据规模中型(1–100万行),数据源为CSV,缺失值策略采用模型预测填充,异常值处理采用Winsorization。
一、总体原则与输出
二、数据摄取与模式定义
文件读取与一致化
目标列与范围检查
三、重复记录与样本界定 3. 去重策略(客户级唯一)
四、类别标准化与别名处理 4. 类别清洗与规范化
五、计费一致性与业务规则校正 5. 计费一致性检查与特征化
六、异常值与数值分布处理 6. Winsorization(训练集拟合)
七、缺失值处理(模型预测填充) 8. 缺失分析与策略
八、文本字段处理(complaint_text) 10. 文本清洗 - 统一小写;移除控制字符;标准化空白。 - 表情与噪声处理:使用emoji词典将emoji映射到类别令牌(如:emoji_negative, :emoji_positive, :emoji_neutral);保留常见标点与否定词。 - 非字母数字字符过滤:保留对情绪或强调有意义的符号(!、?),其他符号剔除。
九、类别编码(可解释) 12. 低/中基数类别 - contract_type、payment_method、auto_renew:One-Hot编码,设定显式“unknown/other”桶。 - auto_renew转布尔(True/False),缺失作为第三状态或填补后再布尔。
十、日期衍生特征 14. 时间特征生成 - 从signup_date、last_login计算: - tenure_months_check = floor((snapshot_date − signup_date)/30.44) 与原tenure_months一致性校验差异(tenure_diff)。 - days_since_last_login(对缺失值插补后再计算;或先以缺失为极大值并保留missing标志)。 - 月份/季节性(如需):signup_month、signup_weekday(One-Hot),谨慎使用避免伪模式。
十一、特征交互与业务派生 15. 比率与误差特征 - arpu = total_charges / max(1, tenure_months)(Winsorize前先计算,后续对arpu本身亦可Winsorize并log1p)。 - fee_to_arpu_ratio = monthly_fee / max(1e-3, arpu)。 - tickets_per_month = service_tickets_90d / 3 / max(1, monthly_fee分档或tenure_months)。 - 上述计费误差特征:billing_error、billing_error_ratio、billing_inconsistent。
十 二、类不平衡考虑(在预处理与划分中落实) 16. 数据划分 - Stratified train/validation/test(如7/2/1),按churn分层;如存在时间快照因素,优先时间后验划分(训练早期、测试后期),再在训练内分层。 - 所有变换(Winsorize、缩放、词表、插补器、编码器)只在训练集拟合。
十 三、可复现性与治理 18. 版本化与审计 - 数据版本ID(源CSV哈希、行数、时间戳)。 - 预处理配置文件(分位点、词典、映射、缩放/插补器参数、随机种子)。 - 随机性控制:固定seed;对K折编码、插补、词汇选择使用确定性流程。 - 输出日志:每步的影响(删除/修正行数、winsor化比例、插补率、类别规范化替换计数)。
十 四、输出特征表结构(示例) 19. 字段与类型(训练/推理一致) - 主键与目标: - customer_id (string), churn (int) - 数值连续: - monthly_fee_log_scaled (float), total_charges_log_scaled (float), service_tickets_90d_log_scaled (float) - arpu_log_scaled (float), fee_to_arpu_ratio (float) - billing_error (float), billing_error_ratio (float), billing_inconsistent (int) - 时间衍生: - tenure_months (int/float), tenure_diff (int), days_since_last_login (float), signup_month_OHE..., signup_weekday_OHE... - 类别编码: - contract_type_OHE..., payment_method_OHE..., auto_renew_flag (int), region_freq (float) 或 region_OHE... - income_level_OHE...(如存在) - 文本特征: - text_len (int), word_count (int), exclamation_count (int), question_count (int) - emoji_negative_count (int), emoji_positive_count (int) - lexicon_negative_hits (int), lexicon_positive_hits (int) - tfidf_token_1..N(受控词汇的稀疏列或以向量存储) - 质量与审计: - dup_count (int), dup_resolved_method (string) - winsorized_flags_*(可选), missing_income_flag (int), missing_text_flag (int), last_login_imputed_flag (int)
十五、预处理步骤清单(执行顺序摘要)
该流程在保证可解释性的前提下,结合模型预测插补与Winsorization处理右偏与极端值,并通过分层划分与严格的训练集拟合策略避免信息泄露,产出稳定可复现的特征表用于后续分类建模与类不平衡处理。
以下方案面向多门店多品类日级层级时间序列(~100万-1000万行,Parquet),目标是在保证稳健性的前提下,构建可训练的特征矩阵并制定缺失/异常处理策略,兼顾滚动验证与再训练需求。步骤以时间序列无泄露为核心,适配促销结构性突变、节假日尖峰与缺货置零等业务特点。
一、数据与主键
二、读取与模式校验
三、清洗与标准化(无泄露)
四、特征矩阵构建(无泄露、可扩展)
五、滚动验证与再训练
六、可扩展计算与实现建议
七、输出数据规范
八、关键决策与默认值总结
该流程可直接落地于PySpark/Polars管线,确保在百万级到千万级行数下稳定运行,并为后续建模(如CatBoost/LightGBM/XGBoost或全局分层模型)提供一致、可复现的特征矩阵与评估框架。
以下为面向推荐系统的可复用日志清洗、特征编码、文本向量化与归一化流程,针对超大型事件级交互数据(>1000万行),确保线上/离线一致性。流程以批处理(Spark/Flink)为主,支持流式增量更新,严格版本化与可重现。
一、管道设计原则
二、输入与模式校验
三、时间与会话处理
四、机器人与异常检测(仅打标,不硬删)
五、缺失值处理(标记优先)
六、文本清洗与向量化(中文友好)
七、分类与ID特征编码
八、数值特征变换与归一化
九、特征聚合与时窗
十、稀疏与长尾控制
十一、线上/离线一致性保障
十二、输出产物与存储
十三、关键参数与阈值建议(需按数据调优)
该流程覆盖日志清洗、中文文本处理、特征编码与数值归一化,并通过严格版本化与统一实现保证线上/离线一致。可直接用于候选召回与排序特征构建,支持超大规模数据处理与持续迭代。
将复杂、易遗漏的数据预处理流程,转化为一份可直接执行的“专家级操作清单”。用户只需描述数据类型或数据特征,即可获得定制化的步骤、注意事项与验证标准,快速提升数据质量、减少返工与试错,帮助团队更快进入建模与分析阶段,并形成可共享、可评审的交付文档。适用于表格、文本、时间序列、图像、音频等多种场景,支持指定输出语言,确保跨部门沟通顺畅、协作一致,最终以更低成本更高效率完成数据项目。
快速生成不同数据类型的预处理方案,标准化特征构建与数据切分,加速实验迭代并稳定模型效果。
一键得到清洗与修复步骤,规范缺失值处理、异常剔除与编码,提升报表可信度与决策速度。
围绕核心指标制定数据准备清单,保障AB测试、漏斗分析与用户分层的可比性与可复现性。
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
半价获取高级提示词-优惠即将到期