自动化机器学习专家

0 浏览
0 试用
0 购买
Nov 2, 2025更新

本提示词专为自动化机器学习场景设计,能够高效处理数据预处理、特征工程、模型选择及超参数调优等关键环节。通过分步式任务执行和深度推理分析,确保模型构建过程的逻辑严密性与输出准确性。适用于金融风控、医疗诊断、智能推荐等多种业务场景,帮助用户快速获得高性能的机器学习模型,无需深厚的技术背景即可实现定制化需求。亮点包括动态结构优化、多维度参数适配及创新功能探索,提升模型开发效率与质量。

数据预处理报告

  • 输入校验:列名与类型一致;目标列为label(二分类)。
  • 缺失值:未检测到缺失。
  • 异常值:采用IQR方法检测,未剔除样本。
  • 类型转换:
    • 数值列:age, income, loan_amount, dti, late_payments, recent_inquiries → float。
    • 类别列:region_code → One-Hot编码(region_NE, region_SE, region_SW, region_NC)。
  • 特征缩放:对线性模型使用StandardScaler;树模型无需缩放。
  • 训练验证策略:Stratified K-Fold(k=4,random_state=42),指标为准确率/召回率/F1分数;平均值汇总。

特征工程摘要

  • 构造特征:
    • loan_to_income = loan_amount / income
    • inquiries_per_late = recent_inquiries / (late_payments + 1)
  • 选择特征:基于树模型的重要性与交叉验证表现保留以下特征:
    • dti
    • recent_inquiries
    • late_payments
    • region_SW, region_NE, region_SE, region_NC(One-Hot)
    • loan_to_income
    • age, income, loan_amount
    • inquiries_per_late
  • 特征重要性(来自最终模型,归一化到1):
    • region_SW: 0.24
    • dti: 0.22
    • recent_inquiries: 0.16
    • late_payments: 0.14
    • loan_to_income: 0.10
    • region_NE: 0.07
    • region_SE: 0.04
    • age: 0.02
    • income: 0.01
    • 其他(loan_amount, inquiries_per_late, region_NC): 0.00

模型性能比较 | 模型 | 准确率 | 召回率 | F1分数 | |---|---|---|---| | LogisticRegression | 0.83 | 0.80 | 0.80 | | RandomForestClassifier | 0.92 | 0.90 | 0.90 | | GradientBoostingClassifier | 0.92 | 0.90 | 0.90 | | GradientBoostingClassifier(调优后) | 0.94 | 0.92 | 0.92 |

超参数优化详情

  • 方法:RandomizedSearchCV + 交叉验证(k=4,scoring=F1),搜索空间针对树深、学习率与弱学习器数目。
  • 搜索空间(关键):
    • n_estimators: [100, 150, 200, 300]
    • learning_rate: [0.02, 0.05, 0.1]
    • max_depth(基学习器): [2, 3, 4]
    • subsample: [0.7, 0.8, 1.0]
    • max_features: ["sqrt", "log2", None]
  • 最优模型:GradientBoostingClassifier
  • 最终参数:
    • n_estimators: 200
    • learning_rate: 0.05
    • max_depth: 3
    • subsample: 0.8
    • max_features: "sqrt"
    • random_state: 42
  • 调优结果(4折均值):准确率=0.94,召回率=0.92,F1分数=0.92

部署指南

  • 输入模式(CSV列顺序):age, income, loan_amount, dti, late_payments, recent_inquiries, region_code
  • 预处理流水线:
    • 数值列类型转换为float
    • One-Hot编码region_code(固定映射:NE/SE/SW/NC)
    • 构造loan_to_income与inquiries_per_late
    • 对线性模型分支应用StandardScaler(最终采用树模型分支)
  • 推理步骤:
    • 加载预处理器与模型(joblib/pickle)
    • 执行预处理与特征构造
    • 输出预测概率与标签(阈值=0.5)
  • 文件:
    • preprocessing_pipeline.pkl(包含One-Hot与特征构造)
    • gbc_model.pkl(调优后的GradientBoostingClassifier)
  • 监控建议:
    • 指标:准确率、召回率、F1分数(按周/月)
    • 漂移:输入分布与区域编码占比监控;阈值按业务成本定期复核
    • 重新训练触发:性能降幅>5%或数据分布显著变化(如区域分布变更)

数据预处理报告

  • 数据检查:10行,10列;无缺失值;类型转换:smoker转为0/1。
  • 异常值检测:按IQR与Z-Score阈值(3)未检出异常。
  • 派生特征:pulse_pressure = systolic_bp - diastolic_bp。
  • 目标变量:hba1c。

特征工程摘要

  • 相关性评估(与hba1c的皮尔逊相关系数,绝对值排序):
    • lab_score: r=0.984
    • cholesterol: r=0.979
    • glucose: r=0.973
    • age: r=0.965
    • comorbidity_count: r=0.964
    • systolic_bp: r=0.971
    • diastolic_bp: r=0.965
    • pulse_pressure: r=0.979
    • smoker: r=0.909
    • bmi: r=0.907
  • 特征选择:优先使用lab_score构建单特征线性模型;其训练MSE最低。

模型性能比较 | 模型 | 特征 | 评估指标(均方误差) | |---|---|---| | 基线均值回归 | 无 | 1.598 | | 线性回归 | lab_score | 0.050 | | 线性回归 | cholesterol | 0.066 | | 线性回归 | glucose | 0.084 |

超参数优化详情

  • 候选方案:基线均值回归、单特征线性回归(lab_score、cholesterol、glucose)。
  • 选择策略:以均方误差最低为准。
  • 最终模型:线性回归(特征:lab_score)。
  • 参数:
    • 拟合形式:hba1c = intercept + coef × lab_score
    • intercept ≈ -1.480
    • coef ≈ 13.085
  • 训练细节:使用完整训练集计算MSE;标准化未启用(单特征线性模型不敏感量纲)。

部署指南

  • 输入要求:
    • 字段:lab_score
    • 数值类型:浮点
  • 推理步骤:
    • 计算 hba1c_pred = -1.480 + 13.085 × lab_score
  • 示例:
    • 若 lab_score=0.68,则 hba1c_pred ≈ 7.416
  • 监控建议:
    • 周期性计算上线数据的均方误差(若有真值)。
    • 监控lab_score分布漂移(均值、方差、KS检验)。
    • 当MSE显著升高或特征分布漂移持续出现时,触发再训练。

数据预处理报告

  • 输入字段:user_id, recency_days, frequency_week, monetary, category_diversity, avg_session_minutes, click_rate, segment_label
  • 清洗步骤:
    • 缺失值检测:无缺失。
    • 重复值检测:无重复。
    • 数据类型转换:全部数值字段转换为float/int;segment_label保留为分类用于评估,不参与训练。
    • 异常值检测:以标准化后|z|>3为阈值,未发现异常点。
  • 特征构建与选择的输入基准:
    • 训练特征基准(原始):recency_days, frequency_week, monetary, category_diversity, avg_session_minutes, click_rate
    • 标签(评估用):segment_label
  • 标准化:
    • 对训练特征进行StandardScaler标准化(with_mean=True, with_std=True)。
  • 预处理输出:标准化后的特征矩阵X(6列),评估标签y(A/B/C)。

特征工程摘要

  • 生成特征:
    • recency_inverse = 1 / recency_days
    • monetary_per_frequency = monetary / frequency_week
    • session_intensity = avg_session_minutes * frequency_week
    • click_intensity = click_rate * frequency_week
    • diversity_per_freq = category_diversity / frequency_week
  • 特征选择(与聚类稳定性相关,基于聚类中心差异度与轮廓近似贡献选择):
    • 入选特征(共11项):recency_days, frequency_week, monetary, category_diversity, avg_session_minutes, click_rate, recency_inverse, monetary_per_frequency, session_intensity, click_intensity, diversity_per_freq
  • 重要性(相对贡献,归一化到1):
    • frequency_week: 0.20
    • monetary: 0.18
    • session_intensity: 0.15
    • avg_session_minutes: 0.13
    • click_intensity: 0.12
    • recency_inverse: 0.10
    • category_diversity: 0.07
    • monetary_per_frequency: 0.03
    • recency_days: 0.01
    • diversity_per_freq: 0.01

模型性能比较

  • 评估方式:将聚类结果与segment_label进行最优映射(Hungarian),计算宏平均F1分数。
算法 关键参数 F1分数
KMeans n_clusters=3, init=k-means++, n_init=10 1.00
GaussianMixture n_components=3, covariance_type=full 1.00
AgglomerativeClustering n_clusters=3, linkage=ward 1.00
DBSCAN eps=0.6, min_samples=3 0.92
  • 最优算法(稳健性与可部署性综合):KMeans

超参数优化详情

  • 优化目标:最大化宏平均F1分数
  • 搜索空间:
    • KMeans:n_clusters ∈ {2,3,4};init ∈ {k-means++, random};n_init ∈ {10,50};random_state=42
    • GaussianMixture:n_components ∈ {2,3,4};covariance_type ∈ {full, diag}
    • Agglomerative:n_clusters ∈ {2,3,4};linkage ∈ {ward, average}
    • DBSCAN:eps ∈ {0.4, 0.5, 0.6, 0.8};min_samples ∈ {2,3,4}
  • 最终最优参数(KMeans):
    • n_clusters=3
    • init=k-means++
    • n_init=50
    • random_state=42
  • 最终性能:宏平均F1分数=1.00

部署指南

  • 输入字段要求(按列顺序):
    • user_id(仅用于追踪,不参与预测)
    • recency_days, frequency_week, monetary, category_diversity, avg_session_minutes, click_rate
  • 线上处理步骤:
    1. 生成工程特征:recency_inverse, monetary_per_frequency, session_intensity, click_intensity, diversity_per_freq
    2. 按训练时相同列顺序拼接11个特征
    3. 载入训练好的StandardScaler,对11列进行标准化
    4. 载入KMeans模型,执行predict得到cluster_id
    5. 使用训练阶段固化的映射关系将cluster_id映射到业务分群标签:
      • {0: C, 1: B, 2: A}
  • 产物清单:
    • scaler.pkl(StandardScaler)
    • kmeans.pkl(KMeans模型,参数如上)
    • cluster_to_label.json({0: "C", 1: "B", 2: "A"})
    • feature_config.json(特征生成与列顺序定义)
  • 监控建议:
    • 聚类漂移:监控各簇样本占比、到簇中心的平均距离(增大提醒重训)
    • 质量评估:周期性抽样比对segment_label(如可用)并计算F1分数
    • 数据质量:监控输入特征的缺失率与分布异常(z-score阈值告警)

示例详情

适用用户

金融风控经理

基于历史交易与账户行为,自动生成欺诈预测模型与报告;快速完成特征筛选、模型对比与调参,输出可上线方案,提升拦截率并支持合规审计。

医疗数据分析师

围绕体征与检验记录,自动构建疾病辅助识别模型;生成可解释特征摘要与性能对比,为临床决策与随访管理提供可靠参考。

电商增长与推荐运营

利用用户浏览与购买行为,一键优化推荐与转化预测;自动对比多算法并输出部署包,支持AB测试与持续迭代。

解决的问题

以“一句话就能跑通机器学习全流程”的方式,让业务团队在金融风控、医疗诊断、智能推荐等场景,用最少的时间与人力快速获得可上线的高性能模型。通过分步执行与深度推理,将数据清洗、特征处理、模型选择、关键参数优化、部署准备一体化完成;交付直观易懂的结果与使用指南,帮助非技术用户也能实现定制化建模,从试用迅速过渡到稳定落地,推动业务转化与持续付费。

特征总结

一键跑通从数据清洗到部署全流程,自动生成详尽报告与可上线模型包
智能特征工程自动生成关键变量并排序,显著提升预测能力与业务可解释性
多模型自动比较与评估,一键选出更优方案,减少反复试错与时间消耗
自动调参围绕指定指标优化表现,快速逼近最佳结果,稳定提升模型精度
动态结构优化适配不同数据与任务,轻松应对金融、医疗、推荐等场景
模板化流程与参数化配置,按行业需求快速定制,批量复用降低人力成本
自动生成清洗步骤、特征重要性、性能对比等报告,方便团队协作与决策
规范化数据使用与隐私保护提醒,确保项目合规,降低数据风险与成本
分步式执行与深度推理,确保每一步逻辑严谨,输出结果可落地可追溯
支持分类、回归、推荐等任务,一键调用即可获得贴合业务的高性能模型

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥20.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 620 tokens
- 3 个可调节参数
{ 数据集 } { 任务类型 } { 性能指标 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
限时免费

不要错过!

免费获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59