🔥 会员专享文生文其它

机器学习评估指标专家

👁️ 112 次查看

📅 Nov 29, 2025

💡 核心价值： 本提示词专为AI/ML工程师设计，能够根据具体的机器学习问题类型，系统性地推荐合适的评估指标体系。它覆盖了分类、回归、聚类、推荐系统等主流机器学习场景，不仅提供标准评估指标，还会详细解释每个指标的适用场景、计算方法和优缺点，帮助工程师在实际项目中做出科学的模型评估决策。输出内容采用专业的技术文档风格，结构清晰、逻辑严谨，便于直接应用于技术报告和项目文档。

终身会员免费复制

🎯 可自定义参数（3个）

问题类型

机器学习问题的具体类型

业务场景

具体的业务应用场景

评估目标

评估的主要目标和侧重点

🎨 效果示例

问题类型概述

任务：多标签文本分类（每条评论可同时属于[辱骂、广告、涉敏…]多个类别）
评估重点：
- 类别极度不均衡（少数类需被重视）
- 同时关注阈值无关的排序能力（便于模型对比）与阈值相关的实际拦截表现（便于上线决策）
- 需要支持按业务代价差异进行加权（例如涉敏>辱骂>广告）

核心评估指标

主要指标

宏平均 F1（Macro F1）
- 计算方法：对每个标签 l，Precision_l = TP_l / (TP_l + FP_l)，Recall_l = TP_l / (TP_l + FN_l)，F1_l = 2·Precision_l·Recall_l / (Precision_l + Recall_l)。Macro F1 = 各标签 F1 的简单平均。
- 适用场景：类不均衡、需要“兼顾少数类”的总体评分。
- 优点：不给多数类过高权重；能直观反映少数类改进。
- 局限：依赖阈值；不利用 TN（真负），在极度稀有类上方差较大。
微平均 F1（Micro F1）
- 计算方法：将所有标签的 TP、FP、FN 在样本-标签层面汇总后计算 Precision、Recall 和 F1。
- 适用场景：衡量整体拦截/放行质量与平台总体负担。
- 优点：稳定、样本量大时方差小。
- 局限：容易被多数类主导，对少数类改善不敏感。
每标签 PR 曲线下面积（AP，Average Precision）；宏平均 mAP 和微平均 AUPRC
- 计算方法：对每个标签，按预测分数从高到低计算 Precision-Recall 曲线，AP ≈ ∑(ΔRecall × Precision)。宏平均 mAP 为各标签 AP 的平均；微平均 AUPRC 将所有标签的样本合并后计算一条 PR 曲线的面积。
- 适用场景：强不均衡下的首选“阈值无关”指标；比较模型排序质量。
- 优点：相比 ROC-AUC 更能反映正类稀有时的性能；对业务“先看最高分”的审核流程契合。
- 局限：对阈值选择不直接给建议；极稀有标签的 AP 不稳定，需报告置信区间。
目标精度下的召回（Recall@Precision≥τ），可取 τ=0.90/0.95/0.98
- 计算方法：在每个标签的 PR 曲线上，找到 Precision≥τ 的点，报告最大 Recall；可取宏/微平均。
- 适用场景：上线阈值选择与风控约束（例如“至少95%精度”以减少误封）。
- 优点：与运营风险直接对齐；可用于分级策略（高危标签使用更高 τ）。
- 局限：可能使召回偏低；在小样本少数类上受统计波动影响较大。
成本加权 Fβ（Weighted Fβ）
- 计算方法：Fβ_l = (1+β²)·P_l·R_l / (β²·P_l + R_l)，β>1 时更重召回；再用业务权重 w_l 做加权平均：∑(w_l·Fβ_l)/∑w_l。
- 适用场景：不同标签危害不同；例如涉敏设更高权重与更大 β（如 β=2）。
- 优点：把业务代价映射到指标；便于做权衡。
- 局限：权重与 β 需与风控共识，且可能随政策变动。
实例级 Jaccard 指数（又称样本级 IoU）
- 计算方法：对每个样本，J = |Y_pred ∩ Y_true| / |Y_pred ∪ Y_true|，对样本平均。
- 适用场景：衡量“整套标签集合”的匹配程度，反映多标签共现处理能力。
- 优点：直观、与实例级 F1 有单调关系（F1 = 2J/(1+J)）。
- 局限：仍依赖阈值；对空集合（正负都为空）需约定处理。
Hamming Loss
- 计算方法：在样本-标签层面，错误标注的比例：HL = (FP + FN) / (样本数 × 标签数)。
- 适用场景：衡量逐标签错误率，关注整体误标密度。
- 优点：对多标签密度敏感；易解释。
- 局限：多数负类多时，HL 可能很低但不代表模型对正类好。
标签级错误率曲线：FNR、FPR、Precision、Recall（逐标签）
- 计算方法：常规二分类指标逐标签计算；可在目标阈值下报告。
- 适用场景：为策略制定提供“每千评论误杀数（FP/1k）”、“漏放率（FNR）”等运维指标。
- 优点：可操作性强；直连审核队列容量与风险。
- 局限：单点阈值依赖；需配合 PR 曲线看全貌。

辅助指标

ROC-AUC（逐标签，宏/微平均）
- 适用：基准参考。
- 优点：历史广泛使用。
- 局限：在极不均衡时可能过于乐观，优先看 PR-AUC。
Subset Accuracy（Exact Match）
- 计算：预测集合与真值集合完全一致的样本占比。
- 优点：严格、作为上限参考。
- 局限：在多标签下极苛刻，常数值很低，不宜单独作为核心指标。
LRAP（Label Ranking Average Precision）
- 计算：对每个样本，要求所有真实标签的分数应高于非真实标签，度量其平均精度；对样本再平均。
- 适用：更关注“真标签整体排序”而非固定阈值。
- 局限：不直接反映运营阈值表现。
Coverage Error / Ranking Loss
- 适用：分析需要看多少个Top标签才能覆盖所有真标签（越小越好）。
- 局限：解释性不如 PR 指标直观。
校准指标：Brier Score（逐标签）、ECE（Expected Calibration Error，逐标签）
- 适用：需要将分数作为概率阈值或用于人机协同（基于置信度分配审核流）。
- 优点：指示分数可信度，便于阈值与工作流配置。
- 局限：对样本量与分箱敏感；建议配合等值线或可靠性图。
混淆矩阵（逐标签）与类流行度（Prevalence）
- 适用：误杀/漏放来源分析；支持定制代价矩阵。
- 局限：仅在阈值处解释，不比较全局排序。

指标选择建议

离线模型对比（阈值无关优先）
1. 宏平均 mAP（每标签 AP 的平均）作为主指标，辅以微平均 AUPRC
2. 报告每标签 AP（突出少数类变化）
3. 作为参考补充 ROC-AUC（宏/微）
上线阈值与运营策略
1. Recall@Precision≥τ（逐标签与宏/微），建议 τ=0.95 用于高风险标签，τ=0.90 用于一般风险
2. 成本加权 Fβ（β=2，按业务代价设权重），用于多目标单值决策
3. 报告每千评论的 FP、FN（FP/1k、FN/1k）与队列量预测
综合质量（实例视角）
1. 宏 F1 + 微 F1（展示少数类与总体）
2. 实例级 Jaccard + Hamming Loss（补充集级一致性与逐标签误差）
逐标签监控与故障定位
- 每标签：Precision、Recall、F1、AP、R@P≥τ、FNR/FPR、Prevalence、置信区间
- 用 PR 曲线对关键标签（涉敏/仇恨/未成年人相关）单独审视

优先级推荐（按业务目标）：

兼顾少数类与总体：mAP（宏） > Macro F1 > Micro F1 > Jaccard > Hamming
安全优先（低误杀）：R@P≥0.95（宏/逐标签） > 加权 Fβ(β=2) > FP/1k
提升召回（人审兜底）：加权 Fβ(β=2) > Macro Recall @ 固定 Precision ≥0.90 > mAP
分数用于自动化策略：校准指标（Brier/ECE） > R@P≥τ > 加权 Fβ

注意事项

数据划分与不均衡
- 使用多标签迭代分层（iterative stratification）保证各标签分布与共现关系在 train/valid/test 中一致。
- 极罕见标签需合并时间窗或扩充验证集；为其报告置信区间（自助法/分层抽样）。
阈值策略
- 使用“每标签独立阈值”，而非统一阈值；在验证集上以最大化 Fβ 或满足 Precision≥τ 选阈。
- 在类不均衡时优先依据 PR 曲线调阈，而非 ROC 曲线。
- 若部署多通道：高置信自动拦截、中等置信进入人工队列、低置信放行；分别选不同阈值。
校准
- 逐标签做概率校准（Platt/Isotonic），提升 R@P 目标的可达性与稳定性。
- 校准后需在独立验证集复核 ECE/Brier 与 R@P 变化。
标签质量与缺失标注
- 审核场景常见“漏标正例”，会通胀 FP、压低 Precision。建议构建高置信注释集用于评估，或在评测时二次复审模型判为正且数据标为负的样本。
- 多标注一致性（例如 Cohen’s κ）可用于评估集质量，不作为模型指标，但影响解释。
业务代价与报表
- 明确代价矩阵并与 Weighted Fβ 对齐；分层汇报高风险标签单独指标。
- 提供运营友好指标：FP/1k、TP/1k、队列量、人工时长估计。
统计稳健性
- 为 AP、R@P、Macro F1 提供置信区间（bootstrap 1000+ 次）。
- 报告标签流行度与有效样本数，避免因极小样本误读结果。
分布漂移与多域
- 按语言/话题/时间分桶评估宏/微 F1 与 R@P；上线后持续监控 PR-AUC 与校准漂移。
- 对新兴违规类型，单独追踪零样本/小样本标签的 AP 与 R@P。
结果解释与对齐
- 核心看法：PR 系列（AP、R@P）用于比较与上线；Macro F1 抓少数类；Micro F1 看总体；Jaccard/Hamming 看实例一致性；校准指标保障阈值可用性。
- 避免仅用 ROC-AUC 或 Accuracy，二者在强不均衡下误导性强。

总结的最佳实践：

离线对比用 mAP（宏）+ 每标签 AP + 微 AUPRC
上线决策用 R@P≥τ（逐标签）+ 成本加权 Fβ + 运营量化指标（FP/1k、队列量）
常规报告补充 Macro/Micro F1、Jaccard、Hamming
逐标签校准后再选阈，并以迭代分层和置信区间确保结论稳健

问题类型概述

资讯（新闻）推荐的核心目标是把合适的长文、短文在正确的时机呈现给用户，提升点击与深度阅读，同时保持内容的多样性与来源均衡，避免形成信息茧房。评估需要覆盖三类能力：

排序与相关性：推荐列表是否把更可能点击、深入阅读的内容排在前面。
参与度与阅读质量：不仅看点击，还要看读完率、停留时长等深度指标，且需长度归一化。
多样性与覆盖：单用户列表的多样性、全站的题材与来源覆盖、长尾曝光、用户间差异性，以抑制信息茧房。

评估目标为业务效果验证，建议“离线+在线”一体化：离线用反事实/排名指标做预检，在线用A/B测试验证业务提升，并把多样性与安全指标作为护栏。

核心评估指标

主要指标

CTR@k（Click-Through Rate）
- 计算方法：CTR@k = 顶部k位曝光的点击数 / 顶部k位曝光次数。
- 适用场景：衡量排序质量与吸引力的首要业务指标，适合在线A/B与离线回放。
- 优缺点：直观敏感；易受位置偏置与标题党影响。应结合位置校正或把“跳出率”作护栏。
RCR（Read Completion Rate，阅读完成率）
- 计算方法（建议统一口径）：RCR = 完读数 / 打开次数；完读判定：滚动深度≥90% 或归一化停留≥阈值（如≥0.8）。
- 适用场景：衡量阅读质量与内容匹配，尤其对长文重要。
- 优缺点：能抑制点击率与质量不一致的问题；需设定合理的“完读阈值”，并对长短文分别监控，避免长度偏置。
nDT（Normalized Dwell Time，归一化停留时长）
- 计算方法：nDT = min(1, 实际停留时间 / 期望阅读时长)，期望阅读时长≈字数 / 平均阅读速率（如每分钟300–400字；业务可按类别校准）。
- 适用场景：兼顾长短文，衡量页面停留是否达到应有水平。
- 优缺点：降低长度影响，更公平地比较长短文；需维护可靠的期望时长估计（按文体、用户速度分层更稳）。
Engagement-NDCG@k（带参与度增益的归一化折损累计增益）
- 计算方法：令每条内容的增益 g_i = α·click_i + β·complete_i + γ·nDT_i（α、β、γ按业务权重设定，如 β≥α，γ用于长文平衡）。 DCG@k = Σ_{i=1..k} g_i / log2(i+1)，NDCG@k = DCG@k / IDCG@k（IDCG为同集合的理想排序的DCG）。
- 适用场景：离线评估排名模型（CTR/完读/停留综合），对“点击+深读”双目标更稳。
- 优缺点：与排序目标一致；权重需通过历史实验或高层OEC确定；对展示位敏感，需明确k（如k=5,10）。
校准指标（针对点击/完读预测）
- Brier Score：均方误差，BS = mean((p̂ - y)^2)。
- ECE（Expected Calibration Error）：把预测概率分桶，ECE = Σ_m (n_m/N) · |avg(p̂)_m - avg(y)_m|。
- 适用场景：验证CTR/完读模型的概率是否可信，避免因概率不准导致次优排序或预算浪费。
- 优缺点：简单直观；ECE受分桶影响，建议配合可靠性图与分箱敏感性分析。
ILD@k（Intra-List Diversity，列表内多样性）
- 计算方法：ILD@k = 2 / (k·(k-1)) · Σ_{i<j} (1 - sim(i,j))，sim 可用主题/语义向量的余弦相似度。
- 适用场景：单用户列表的内容差异性，避免同质化。
- 优缺点：可直接感知“看起来都一样”的问题；依赖相似度模型质量，需统一向量与相似度口径。
Coverage（覆盖度）
- Item Coverage（全站）：被曝光过的内容数 / 候选内容总数。
- Topic/Source Coverage@k（单列或全局）：列表中的独立主题/来源数 / 总主题/来源数。
- 适用场景：衡量长尾与来源均衡曝光，防止集中于少数热门与头部媒体。
- 优缺点：简单清晰；不直接衡量“相关性”，需与质量指标联用。
Novelty@k / Serendipity@k（新颖度 / 意外惊喜）
- Novelty 计算：nov(item) = 1 - pop_percentile(item)，Novelty@k = 平均 nov。
- Serendipity 计算：Serendipity@k = 平均 [rel(item) · (1 - sim_to_user_history(item))]，rel 可用点击/完读标记或模型分。
- 适用场景：鼓励跳出用户惯常兴趣，同时保证有用。
- 优缺点：有效对抗信息茧房；需要定义“用户历史相似度”与“流行度”，口径不可频繁变动。

辅助指标

HR@k（Hit Rate）：命中率，是否在前k中至少有一个被点击/完读；适合离线二分类式的打分评估。
MAP@k / MRR@k：多正例检索的平均精确率/倒数排名；用于离线排序对照，但对业务直观性不如NDCG。
Bounce Rate（跳出率）：打开后很快退出的比例（如停留<5秒或滚动<10%）；用于抑制标题党。
Scroll Depth（滚动深度）：平均滚动比例；与RCR互证，尤其在图文混排场景。
Session Length / Pages per Session：会话时长、每会话阅读篇数；衡量整体粘性与阅读链路质量。
Freshness（新鲜度）：推荐内容的平均发布时间间隔或最近内容占比；新闻时效性的重要护栏。
Inter-User Diversity（跨用户差异性）：不同用户列表的相异度平均（同ILD思路，跨用户比对）；防止所有人看同样的内容。
Long-tail Exposure Ratio / Gini（曝光公平性）：对曝光分布的均衡性（Gini越低越均衡）。
IPS/SNIPS 离线反事实评估（位置/曝光偏置校正）
- 计算方法：IPS估计的CTR = mean(click · 1 / prop_show)，SNIPS对权重归一化以降方差。
- 适用场景：用带随机/探索日志的倾向得分（prop_show）对离线评估去偏。
- 优缺点：能更接近在线真实效果；需要可靠的倾向建模与一定随机性日志。

指标选择建议

目标：提升点击与深度阅读（默认）
- 主指标优先级：Engagement-NDCG@k（β≥α）、CTR@k、RCR、nDT。
- 护栏：Bounce Rate、Freshness、校准（Brier/ECE）。
- 多样性目标：ILD@k、Topic/Source Coverage@k 设置最低阈值（如 ILD@10≥0.3，来源覆盖≥3）。
目标：强化深度阅读与满意度（长文重点）
- 主指标优先级：RCR、nDT、Engagement-NDCG@k（加大β、γ权重）。
- 护栏：CTR 不显著下滑（相对基线≤X%），跳出率下降。
- 多样性：Serendipity@k、Inter-User Diversity 提升，避免只推“长文重度兴趣圈”。
目标：提升多样性与抑制信息茧房
- 主指标优先级：ILD@k、Topic/Source Coverage、Novelty@k、Inter-User Diversity、Long-tail Exposure/Gini。
- 护栏：Engagement-NDCG@k 不低于基线-Y%，RCR 不显著下降，Freshness维持。
- 策略：用“多目标OEC+约束”形式，如 OEC = w1·CTR + w2·RCR + w3·nDT，附带约束 ILD@k≥阈值、Gini≤阈值、Freshness≥阈值。
在线业务效果验证（A/B试验建议）
- OEC（总体评估准则）：OEC = 0.4·CTR + 0.4·RCR + 0.2·nDT（示例，需按你们业务历史调参）。
- 护栏与合规：Bounce Rate、Freshness、Topic/Source Coverage、Long-tail Exposure、延迟（响应时延）、投诉/举报率。
- 分群监控：长文/短文、冷启动用户、重度/轻度读者、不同时段与事件热度。

注意事项

长短文归一化与分群评估
- 停留与完读需长度归一化，建议同时报告“分桶结果”（短文、中篇、长文）。
- nDT 的期望时长应按文体与用户阅读速度分层校准，避免统一速率造成偏差。
位置与曝光偏置
- 离线评估尽量用带探索的日志并应用IPS/SNIPS；或在在线A/B中控制展示位（随机化top-N中的部分）。
- 明确k值与页内布局（首屏/二屏）对CTR与NDCG的影响。
指标口径一致性
- 定义统一的“完读阈值”“跳出阈值”“流行度计算窗口（如7/30天）”“相似度模型与主题体系”，防止指标漂移。
- Novelty/Serendipity 依赖“用户历史窗口”（如过去30天），需固定窗口并定期复盘。
多样性度量的技术依赖
- ILD/Inter-User Diversity 取决于内容向量与主题标签质量；建议使用文本+图像多模态向量，并定期做向量质量回测。
- Coverage类指标要区分“可用候选集合”与“全库”，避免把下架或低质内容计入分母。
防标题党与质量守护
- 同时监控 CTR 上升与 Bounce Rate/RCR 下降的对冲；必要时引入“点击后满意度”代理（如停留>20秒且滚动>50%）。
- 对来源与内容质量设红线（违规/低质打压），在多样性提升时不牺牲安全。
时效性与非平稳性
- 新闻有强时间漂移，评估窗口需短（如日/周），并在热点事件时单独监控指标（防止热点拉高CTR而掩盖其他问题）。
统计显著性与稳健性
- 在线实验报告效应大小（相对提升%）、置信区间、p值；避免仅看平均而忽略方差。
- 设立“最小可检测效应”（MDE）与实验时长，防止过早结论。
组合与权重学习
- OEC权重可通过历史A/B结果回归或分层贝叶斯方法学习；在不同战略周期（追增长/追质量）调整权重。
- 对多样性相关指标更适合作为“约束/护栏”而非直接加权到OEC，避免模型为刷多样性牺牲相关性。

总结：以“Engagement-NDCG + CTR/RCR/nDT”作为相关性-质量主线，以“ILD/Coverage/Novelty/Serendipity/Long-tail公平”作为多样性与防茧房的护栏，并通过校准与反事实评估校正偏置。在线以OEC+A/B验证，分群与时效性监控确保真实业务提升与稳定性。

问题类型概述

这是一个回归问题：目标是预测用户对文章的阅读时长/停留时间（连续值），用于两个业务场景：

首页排序：更看重“相对排序是否正确”（谁更容易带来更长停留），对绝对数值的刻度不敏感。
写作指导：更看重“数值是否准确与可解释”（某篇文章大致会有多长停留），需要良好的绝对误差与校准。

阅读/停留时间通常呈正偏、长尾分布，且可能包含0或极小值（快速离开），并可能受内容长度、用户习惯等强混杂因素影响。因此评估需同时覆盖“排序质量 + 绝对误差 + 校准/稳健性”。

核心评估指标

主要指标

MAE（Mean Absolute Error，平均绝对误差）
- 计算方法：MAE = (1/n) Σ |y_i − ŷ_i|
- 适用场景：作为“写作指导”的核心指标，单位与业务一致（秒），易解释。
- 优缺点：对异常值不敏感（比RMSE更稳健）；但不体现相对误差，对长尾/不同量级样本的相对偏差不敏感。
RMSLE 或 log1p-MAE（对数尺度误差）
- 计算方法：
  - RMSLE = sqrt[(1/n) Σ (log(1+y_i) − log(1+ŷ_i))^2]
  - 或 log1p-MAE = (1/n) Σ |log(1+y_i) − log(1+ŷ_i)|
- 适用场景：阅读时长长尾、倍数误差更有业务意义时；既用于算法对比，也更贴近“相对准确度”。
- 优缺点：降低长尾影响、衡量比例型误差；但对0值需用log1p处理，解释单位不直观（对数域）。
NDCG@K（Normalized Discounted Cumulative Gain，归一化折损累计增益）
- 计算方法（面向“首页排序”离线评估，按会话/曝光批次计算后取平均）：
  - 令排名第i的预测结果对应真实增益 g_i，DCG@K = Σ_{i=1..K} g_i / log2(i+1)
  - NDCG@K = DCG@K / IDCG@K（IDCG为真实最优排序的DCG）
  - 增益建议：g(y) = log(1 + min(y, T_cap)) 或 g(y) = min(y, T_cap)，以抑制极端长尾
- 适用场景：离线模拟“按预测值排序”的质量；K取5/10/20与业务层级匹配。
- 优缺点：贴合排序业务目标，稳健对比不同算法；但依赖会话划分与增益定义，绝对值无业务单位。
Spearman ρ（秩相关）或会话内C-index（一致性指标）
- 计算方法：
  - Spearman ρ：计算真实y与预测ŷ在同一会话内的秩相关系数，再在会话间平均
  - C-index（Concordance Index）：随机采样同一会话内样本对(i,j)，统计 sign(ŷ_i − ŷ_j) 与 sign(y_i − y_j) 一致的比例
- 适用场景：评估“相对排序正确性”；对刻度不敏感。
- 优缺点：直接反映排序一致性；但无法体现刻度/绝对误差。
校准斜率/截距（Calibration slope/intercept）
- 计算方法：在测试集上回归 y = a + b·ŷ，报告 b（斜率）与 a（截距）
- 适用场景：用于“写作指导”与跨人群可解释性；斜率≈1、截距≈0表示刻度校准好。
- 优缺点：可诊断系统性偏差（整体高估/低估、缩放问题）；但不是误差指标，需与MAE/RMSLE一起使用。

辅助指标

RMSE（Root Mean Squared Error，均方根误差）
- 计算方法：RMSE = sqrt[(1/n) Σ (y_i − ŷ_i)^2]
- 适用场景：在意大误差惩罚时；对比算法鲁棒性。
- 优缺点：突出大偏差，但对长尾/噪声很敏感，易被极端样本主导。
MedianAE（中位绝对误差）
- 计算方法：样本绝对误差的中位数
- 适用场景：数据含离群值或测量噪声大时，作为稳健统计量。
- 优缺点：抗极端值，非常稳健；但不反映总体均值水平。
WAPE / sMAPE（加权/对称相对误差）
- 计算方法：
  - WAPE = Σ|y−ŷ| / Σ|y|
  - sMAPE = (1/n) Σ [2|y−ŷ| / (|y|+|ŷ|)]
- 适用场景：需要“相对误差”解释（如不同量级文章可比）；WAPE常用于业务汇总看整体相对偏差。
- 优缺点：具相对尺度含义；MAPE对 y≈0 不稳定，sMAPE更稳健但对小值仍敏感。
R²（决定系数）
- 计算方法：R² = 1 − Σ(y−ŷ)² / Σ(y−ȳ)²
- 适用场景：快速看“相对基线”的拟合程度。
- 优缺点：易受长尾和分布变化影响，可能为负；仅作参考，不建议单独用于排序或业务决策。
Pinball Loss（分位数损失）/ PICP & Winkler Score（若模型输出不确定性）
- 计算方法：
  - Pinball(τ) = (1/n) Σ ρ_τ(y−q̂_τ)，ρ_τ(u)=max(τu, (τ−1)u)
  - PICP（区间覆盖率）：真实y落在预测区间的比例；Winkler得分综合区间宽度与是否命中
- 适用场景：为写作指导提供置信区间/分位数预测时。
- 优缺点：面向不确定性评估，能检查“覆盖率=目标置信水平”；但实现要求模型输出分布或分位数。
分组误差与稳定性（Cohort MAE/WAPE、分桶校准）
- 计算方法：按用户活跃度、内容长度、题材、冷启动程度等分组，分别计算MAE/WAPE与校准，再加权平均。
- 适用场景：发现特定人群/内容类型的系统性偏差，指导特征/损失加权优化。
- 优缺点：可显著提升可解释性；但需合理的分组设计与样本量。

指标选择建议

首页排序优先（离线）
- 第一优先：NDCG@K（K=5/10/20；g(y)=log(1+min(y,T_cap))），平均于会话
- 第二优先：Spearman ρ 或 C-index（会话内平均）
- 第三优先：RMSLE 或 log1p-MAE（确保对长尾稳健，避免被极端值误导）
- 诊断性：分组NDCG、分组ρ，查看在不同内容类型/用户段的排序一致性
写作指导优先（绝对数值与校准）
- 第一优先：MAE（原始秒级）
- 第二优先：WAPE 或 sMAPE（便于跨量级的相对误差对比）
- 第三优先：校准斜率/截距（理想：斜率≈1、截距≈0）
- 长尾稳健：RMSLE 或 log1p-MAE 作为补充，避免少数超长停留主导评估
- 若提供区间/分位数：PICP（目标95%）、Winkler/Pinball(τ=0.1/0.5/0.9)
综合算法对比（统一看板）
- 主面板：NDCG@K、MAE、RMSLE、Spearman ρ、校准斜率/截距
- 分组面板：按内容长度、主题、用户活跃度、新老文章等维度的MAE/WAPE与NDCG
- 统计显著性：对会话级NDCG、样本级误差做配对bootstrap，报告95%置信区间与相对提升（如MAE相对下降%)

注意事项

长尾与极端值
- 建议在评估中同时报告原尺度（MAE）与对数尺度（RMSLE/log1p-MAE）；对NDCG使用增益截断 T_cap 或log增益，避免极端值主导。
- 可对评估用的误差进行Winsorize（如99.5分位）用于稳定均值类指标，但需同时保留未经截断的报告以透明化。
会话/曝光粒度与数据切分
- 排序类指标必须在“同一会话/同一曝光池”内计算后再平均，严禁跨会话混排。
- 采用时间切分或留后验证，避免时间泄漏；尽量保证训练/验证分布一致。
0值与很小停留
- MAPE不适合含0值场景；优先WAPE或sMAPE。对对数类指标使用log1p以避免log(0)。
- 如存在测量下限（如<1秒记为0），在解释相对误差时需特别提示。
文章长度与用户差异的混杂
- 建议同时报告“归一化误差”：如 nMAE = |y−ŷ| / max(ε, 期望阅读时长基线)，基线可由字数/阅读速度估计。
- 分组评估（长文/短文、冷启动/热门、不同用户活跃度）以发现系统性偏差。
校准诊断
- 除斜率/截距外，可做预测分位分桶（如10等频），对比每桶平均ŷ与平均y，计算分桶校准MAE/RMSE。
- 若用于人机协作建议（写作指导），不良校准会直接影响信任度，应作为优化目标（可引入校准正则或后处理缩放）。
不确定性与分位数（若输出）
- 检查PICP是否接近目标置信水平（如95%）；过宽区间虽高覆盖但实用性差，需结合平均区间宽度（PINAW/Winkler）权衡。
- 分位数预测用Pinball Loss评估 τ=0.5/0.9/0.95 等关键分位，提升对长尾上侧风险的刻画。
统计显著性与可复现实验
- 对关键指标（会话级NDCG、样本级MAE/RMSLE）做配对bootstrap或置换检验，报告CI与p值。
- 固化会话划分、暴露池构造、截断/增益函数、评估脚本版本，确保横向比较公平。
业务一致性
- 排序用指标与线上目标要一致（如线上优化Top-K时，线下应报告相同K）；写作指导强调可解释的绝对误差与良好校准。
- 引入简单而强的基线（如“按字数×平均阅读速度”或“用户历史平均停留”），报告相对提升，便于业务方理解。

总结最佳实践：用“双轨评估”覆盖排序与刻度两个维度。排序侧以NDCG@K + Spearman/C-index为主，刻度侧以MAE + RMSLE（或log1p-MAE）+ 校准斜率/截距为主，辅以WAPE/sMAPE与分组诊断。在长尾和0值场景下优先对数尺度指标与相对误差指标；全程采用会话内计算与时间切分，并用统计显著性与分组稳定性保障算法对比的可靠性。

📖 如何使用

⚡ 模式 1：即插即用（手动档）

直接复制参数化模版。手动修改 {{变量}} 即可快速发起对话，适合对结果有精准预期的单次任务。

加载中...

💬 模式 2：沉浸式引导（交互档）

一键转化为交互式脚本。AI 将化身专业面试官或顾问，主动询问并引导您提供关键信息，最终合成高度定制化的专业结果。

转为交互式 →

🚀 模式 3：原生指令自动化（智能档）

无需切换，输入 / 唤醒 8000+ 专家级提示词。插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境，系统智能推荐最契合的 Prompt 并自动完成参数化，让海量资源触手可及，从此彻底告别“手动搬运”。

安装插件 →

🔌 发布为 API 接口

将 Prompt 接入自动化工作流，核心利用平台批量评价反馈引擎，实现"采集-评价-自动优化"的闭环。通过 RESTful 接口动态注入变量，让程序在批量任务中自动迭代出更高质量的提示词方案，实现 Prompt 的自我进化。

发布 API →

🤖 发布为 Agent 应用

以此提示词为核心生成独立 Agent 应用，内嵌相关工具（图片生成、参数优化等），提供完整解决方案。

创建 Agent →

🛠️ 提示词工具

🕒 版本历史

当前版本

v2.1 2024-01-15

优化输出结构，增强情节连贯性

✨ 新增章节节奏控制参数
🔧 优化人物关系描述逻辑
📝 改进主题深化引导语
🎯 增强情节转折点设计

v2.0 2023-12-20

重构提示词架构，提升生成质量

🚀 全新的提示词结构设计
📊 增加输出格式化选项
💡 优化角色塑造引导

v1.5 2023-11-10

修复已知问题，提升稳定性

🐛 修复长文本处理bug
⚡ 提升响应速度

v1.0 2023-10-01

首次发布

🎉 初始版本上线

COMING SOON

版本历史追踪，即将启航

记录每一次提示词的进化与升级，敬请期待。

💬 用户评价

4.8

⭐⭐⭐⭐⭐

基于 28 条评价

5星

85%

4星

12%

3星

👤

电商运营 - 张先生

⭐⭐⭐⭐⭐ 2025-01-15

双十一用这个提示词生成了20多张海报，效果非常好！点击率提升了35%，节省了大量设计时间。参数调整很灵活，能快速适配不同节日。

效果好节省时间

👤

品牌设计师 - 李女士

⭐⭐⭐⭐⭐ 2025-01-10

作为设计师，这个提示词帮我快速生成创意方向，大大提升了工作效率。生成的海报氛围感很强，稍作调整就能直接使用。

创意好专业

COMING SOON

用户评价与反馈系统，即将上线

倾听真实反馈，在这里留下您的使用心得，敬请期待。

试用后开通会员即可无限使用

加载中...

机器学习评估指标专家

🎯 可自定义参数（3个）

🎨 效果示例

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

📖 如何使用

🛠️ 提示词工具

🕒 版本历史

💬 用户评价

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

AI开发者

产品经理

商业分析师

电商运营人员

法律从业者

财务规划师

市场营销人员

品牌营销人员

新媒体运营

提示词工程

数据分析

写作

内容创作

内容营销

SEO

工具

商业战略

策略

DeepSeek

OpenAI

Claude

Gemini

Grok

Qwen

Kimi

机器学习评估指标专家

🎯 可自定义参数（3个）

🎨 效果示例

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

问题类型概述

核心评估指标

主要指标

辅助指标

指标选择建议

注意事项

示例详情

📖 如何使用

🛠️ 提示词工具

🕒 版本历史

💬 用户评价

提交反馈

热门提示词

热门角色

热门业务

大模型API

使用我们的提示词工具

反馈问题