不止热门角色,我们为你扩展了更多细分角色分类,覆盖职场提升、商业增长、内容创作、学习规划等多元场景。精准匹配不同目标,让每一次生成都更有方向、更高命中率。
立即探索更多角色分类,找到属于你的增长加速器。
宏平均 F1(Macro F1)
微平均 F1(Micro F1)
每标签 PR 曲线下面积(AP,Average Precision);宏平均 mAP 和微平均 AUPRC
目标精度下的召回(Recall@Precision≥τ),可取 τ=0.90/0.95/0.98
成本加权 Fβ(Weighted Fβ)
实例级 Jaccard 指数(又称样本级 IoU)
Hamming Loss
标签级错误率曲线:FNR、FPR、Precision、Recall(逐标签)
ROC-AUC(逐标签,宏/微平均)
Subset Accuracy(Exact Match)
LRAP(Label Ranking Average Precision)
Coverage Error / Ranking Loss
校准指标:Brier Score(逐标签)、ECE(Expected Calibration Error,逐标签)
混淆矩阵(逐标签)与类流行度(Prevalence)
离线模型对比(阈值无关优先)
上线阈值与运营策略
综合质量(实例视角)
逐标签监控与故障定位
优先级推荐(按业务目标):
数据划分与不均衡
阈值策略
校准
标签质量与缺失标注
业务代价与报表
统计稳健性
分布漂移与多域
结果解释与对齐
总结的最佳实践:
资讯(新闻)推荐的核心目标是把合适的长文、短文在正确的时机呈现给用户,提升点击与深度阅读,同时保持内容的多样性与来源均衡,避免形成信息茧房。评估需要覆盖三类能力:
评估目标为业务效果验证,建议“离线+在线”一体化:离线用反事实/排名指标做预检,在线用A/B测试验证业务提升,并把多样性与安全指标作为护栏。
CTR@k(Click-Through Rate)
RCR(Read Completion Rate,阅读完成率)
nDT(Normalized Dwell Time,归一化停留时长)
Engagement-NDCG@k(带参与度增益的归一化折损累计增益)
校准指标(针对点击/完读预测)
ILD@k(Intra-List Diversity,列表内多样性)
Coverage(覆盖度)
Novelty@k / Serendipity@k(新颖度 / 意外惊喜)
目标:提升点击与深度阅读(默认)
目标:强化深度阅读与满意度(长文重点)
目标:提升多样性与抑制信息茧房
在线业务效果验证(A/B试验建议)
长短文归一化与分群评估
位置与曝光偏置
指标口径一致性
多样性度量的技术依赖
防标题党与质量守护
时效性与非平稳性
统计显著性与稳健性
组合与权重学习
总结:以“Engagement-NDCG + CTR/RCR/nDT”作为相关性-质量主线,以“ILD/Coverage/Novelty/Serendipity/Long-tail公平”作为多样性与防茧房的护栏,并通过校准与反事实评估校正偏置。在线以OEC+A/B验证,分群与时效性监控确保真实业务提升与稳定性。
这是一个回归问题:目标是预测用户对文章的阅读时长/停留时间(连续值),用于两个业务场景:
阅读/停留时间通常呈正偏、长尾分布,且可能包含0或极小值(快速离开),并可能受内容长度、用户习惯等强混杂因素影响。因此评估需同时覆盖“排序质量 + 绝对误差 + 校准/稳健性”。
MAE(Mean Absolute Error,平均绝对误差)
RMSLE 或 log1p-MAE(对数尺度误差)
NDCG@K(Normalized Discounted Cumulative Gain,归一化折损累计增益)
Spearman ρ(秩相关)或会话内C-index(一致性指标)
校准斜率/截距(Calibration slope/intercept)
RMSE(Root Mean Squared Error,均方根误差)
MedianAE(中位绝对误差)
WAPE / sMAPE(加权/对称相对误差)
R²(决定系数)
Pinball Loss(分位数损失)/ PICP & Winkler Score(若模型输出不确定性)
分组误差与稳定性(Cohort MAE/WAPE、分桶校准)
首页排序优先(离线)
写作指导优先(绝对数值与校准)
综合算法对比(统一看板)
长尾与极端值
会话/曝光粒度与数据切分
0值与很小停留
文章长度与用户差异的混杂
校准诊断
不确定性与分位数(若输出)
统计显著性与可复现实验
业务一致性
总结最佳实践:用“双轨评估”覆盖排序与刻度两个维度。排序侧以NDCG@K + Spearman/C-index为主,刻度侧以MAE + RMSLE(或log1p-MAE)+ 校准斜率/截距为主,辅以WAPE/sMAPE与分组诊断。在长尾和0值场景下优先对数尺度指标与相对误差指标;全程采用会话内计算与时间切分,并用统计显著性与分组稳定性保障算法对比的可靠性。
试用后开通会员即可无限使用