热门角色不仅是灵感来源,更是你的效率助手。通过精挑细选的角色提示词,你可以快速生成高质量内容、提升创作灵感,并找到最契合你需求的解决方案。让创作更轻松,让价值更直接!
我们根据不同用户需求,持续更新角色库,让你总能找到合适的灵感入口。
本提示词专为AI/ML工程师设计,能够根据具体的机器学习问题类型,系统性地推荐合适的评估指标体系。它覆盖了分类、回归、聚类、推荐系统等主流机器学习场景,不仅提供标准评估指标,还会详细解释每个指标的适用场景、计算方法和优缺点,帮助工程师在实际项目中做出科学的模型评估决策。输出内容采用专业的技术文档风格,结构清晰、逻辑严谨,便于直接应用于技术报告和项目文档。
宏平均 F1(Macro F1)
微平均 F1(Micro F1)
每标签 PR 曲线下面积(AP,Average Precision);宏平均 mAP 和微平均 AUPRC
目标精度下的召回(Recall@Precision≥τ),可取 τ=0.90/0.95/0.98
成本加权 Fβ(Weighted Fβ)
实例级 Jaccard 指数(又称样本级 IoU)
Hamming Loss
标签级错误率曲线:FNR、FPR、Precision、Recall(逐标签)
ROC-AUC(逐标签,宏/微平均)
Subset Accuracy(Exact Match)
LRAP(Label Ranking Average Precision)
Coverage Error / Ranking Loss
校准指标:Brier Score(逐标签)、ECE(Expected Calibration Error,逐标签)
混淆矩阵(逐标签)与类流行度(Prevalence)
离线模型对比(阈值无关优先)
上线阈值与运营策略
综合质量(实例视角)
逐标签监控与故障定位
优先级推荐(按业务目标):
数据划分与不均衡
阈值策略
校准
标签质量与缺失标注
业务代价与报表
统计稳健性
分布漂移与多域
结果解释与对齐
总结的最佳实践:
资讯(新闻)推荐的核心目标是把合适的长文、短文在正确的时机呈现给用户,提升点击与深度阅读,同时保持内容的多样性与来源均衡,避免形成信息茧房。评估需要覆盖三类能力:
评估目标为业务效果验证,建议“离线+在线”一体化:离线用反事实/排名指标做预检,在线用A/B测试验证业务提升,并把多样性与安全指标作为护栏。
CTR@k(Click-Through Rate)
RCR(Read Completion Rate,阅读完成率)
nDT(Normalized Dwell Time,归一化停留时长)
Engagement-NDCG@k(带参与度增益的归一化折损累计增益)
校准指标(针对点击/完读预测)
ILD@k(Intra-List Diversity,列表内多样性)
Coverage(覆盖度)
Novelty@k / Serendipity@k(新颖度 / 意外惊喜)
目标:提升点击与深度阅读(默认)
目标:强化深度阅读与满意度(长文重点)
目标:提升多样性与抑制信息茧房
在线业务效果验证(A/B试验建议)
长短文归一化与分群评估
位置与曝光偏置
指标口径一致性
多样性度量的技术依赖
防标题党与质量守护
时效性与非平稳性
统计显著性与稳健性
组合与权重学习
总结:以“Engagement-NDCG + CTR/RCR/nDT”作为相关性-质量主线,以“ILD/Coverage/Novelty/Serendipity/Long-tail公平”作为多样性与防茧房的护栏,并通过校准与反事实评估校正偏置。在线以OEC+A/B验证,分群与时效性监控确保真实业务提升与稳定性。
这是一个回归问题:目标是预测用户对文章的阅读时长/停留时间(连续值),用于两个业务场景:
阅读/停留时间通常呈正偏、长尾分布,且可能包含0或极小值(快速离开),并可能受内容长度、用户习惯等强混杂因素影响。因此评估需同时覆盖“排序质量 + 绝对误差 + 校准/稳健性”。
MAE(Mean Absolute Error,平均绝对误差)
RMSLE 或 log1p-MAE(对数尺度误差)
NDCG@K(Normalized Discounted Cumulative Gain,归一化折损累计增益)
Spearman ρ(秩相关)或会话内C-index(一致性指标)
校准斜率/截距(Calibration slope/intercept)
RMSE(Root Mean Squared Error,均方根误差)
MedianAE(中位绝对误差)
WAPE / sMAPE(加权/对称相对误差)
R²(决定系数)
Pinball Loss(分位数损失)/ PICP & Winkler Score(若模型输出不确定性)
分组误差与稳定性(Cohort MAE/WAPE、分桶校准)
首页排序优先(离线)
写作指导优先(绝对数值与校准)
综合算法对比(统一看板)
长尾与极端值
会话/曝光粒度与数据切分
0值与很小停留
文章长度与用户差异的混杂
校准诊断
不确定性与分位数(若输出)
统计显著性与可复现实验
业务一致性
总结最佳实践:用“双轨评估”覆盖排序与刻度两个维度。排序侧以NDCG@K + Spearman/C-index为主,刻度侧以MAE + RMSLE(或log1p-MAE)+ 校准斜率/截距为主,辅以WAPE/sMAPE与分组诊断。在长尾和0值场景下优先对数尺度指标与相对误差指标;全程采用会话内计算与时间切分,并用统计显著性与分组稳定性保障算法对比的可靠性。
从问题识别到指标方案一次生成,拿到优先级与组合策略,搭建评估体系与基线对比,显著缩短训练与迭代周期
将业务目标转为可量化读数,定义实验口径与验收标准,生成结构化报告与结论说明,提升跨团队沟通效率
把功能需求映射到可验收的指标框架,统一团队口径,准备评审材料与决策依据,推动上线与效果复盘
将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。
把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。
在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。
免费获取高级提示词-优惠即将到期