教学场景脚本:A/B测试入门与结果解读(60分钟)
一、课程概览与目标
学员在60分钟后能够:
- 明确A/B测试的假设、指标、样本量与实验周期要点。
- 使用电子表格完成转化率、置信区间与提升率计算。
- 解读实验结果并形成1段可执行的产品结论。
- 用英文撰写简要报告(100–150字)。
教学风格:翻转课堂 + 问题导向 + 讲授式 + 混合式
目标对象:本科高年级或初入职的产品/数据岗;40人;英文读写中级;熟练使用表格与在线测评。
二、课前准备(翻转课堂,15–20分钟)
学员完成:
- 预习材料(教师提供):微课视频2段或短讲义
- A/B测试核心概念:对照/实验、随机化、指标、样本量、实验周期与陷阱(SRM、提前停止、多重检验)。
- 二项分布与正态近似,转化率与95%置信区间。
- 3题诊断小测(在线):区分绝对提升 vs 相对提升;判断何时可用正态近似(np≥10且n(1−p)≥10);识别主指标与护栏指标。
- 工具准备:登录表格与测验系统;下载数据包与表格模板(见下文)。
三、数据包与任务背景(提供给全班)
业务场景:注册页CTA风格优化(Variant B vs A)。目标:提升注册转化率(Sign-up conversion)。
- 团队分组:8组,每组5人。角色建议:分析手、记录手、质检手、报告手、计时协调。
- 数据(7天实验快照,用于练习计算与判读):
- A组:访客 nA=12,000;转化 xA=1,320(pA=11.00%)
- B组:访客 nB=11,800;转化 xB=1,420(pB≈12.03%)
- 规划参数(用于样本量与周期推算):
- 基线转化率 p0=11%
- 最小可检测效应(MDE):相对提升10%(绝对差 δ=0.011)
- 流量:每日按50/50分流,每组约3,000 UV/天
四、教学脚本(60分钟,问题提出-探索引导-方案构建-反思提升)
阶段1:问题提出(0–6分钟,讲授式+问题导向)
- 教师引导(2分钟):
- 提示目标:从业务问题出发,完成样本量与周期估算,用表格计算指标与置信区间,做出是否上线的产品决策,并输出一段英文报告。
- 板书四要素:假设、指标、样本量、周期。
- 触发问题(4分钟,小组快速讨论并上墙便签):
- Q1:本实验的零假设与备择假设如何表述?
- H0: pB − pA = 0;H1: pB − pA > 0(单侧)或 ≠0(双侧)。本课示范使用双侧。
- Q2:主指标与护栏指标各是什么?(主:注册转化率;护栏示例:加载失败率、退款率、SRM)
阶段2:探索引导(6–25分钟,混合式:微讲授8分钟 + 实操11分钟)
A. 关键概念快速回顾(8分钟,讲授式)
- 随机化与分流:50/50;避免样本污染;检查SRM(样本占比异常)。
- 样本量近似(95%显著性、80%检验效能的简化公式,教学用近似):
- 每组样本量 n ≈ 16 × p0(1−p0) / δ^2
- 本例:n ≈ 16 × 0.11×0.89 / 0.011^2 ≈ 12,950/组
- 实验周期估算:周期天数 ≈ n / 日均每组流量。建议覆盖至少1个完整周以平衡周期性。
- 指标计算与正态近似(适用条件:np≥10 且 n(1−p)≥10):
- 转化率 p = x/n
- 95%CI ≈ p ± 1.96 × sqrt[p(1−p)/n]
- 提升率(相对)= (pB − pA)/pA
- 显著性粗判:双侧Z检验或观察CI是否跨0(差值的CI)
- 风险提示:提前停止偏差、多重比较、样本不平衡(SRM)、新鲜度/学习效应、漏斗后续指标。
B. 表格实操引导(11分钟,小组)
- 指令(投屏示范模板,组内同步跟做):
- 录入数据:nA, xA, nB, xB
- 计算 pA, pB, CIs,提升率,Z值与p值
- 期望产出:每组在共享表格页完成所有计算,并截图保存。
阶段3:方案构建(25–50分钟,问题导向+任务驱动)
任务1:完成表格计算与显著性判断(10分钟)
- 步骤提示:
- 计算转化率:pA=0.1100;pB≈0.1203
- 95%CI:
- A:≈[0.1044, 0.1156]
- B:≈[0.1145, 0.1262]
- 相对提升:≈+9.4%
- Z检验(双侧):z≈2.50;p≈0.012(显著于5%)
- 决策占位:初步结论“B优于A”,保留风险说明。
任务2:样本量与周期(5分钟)
- 推算:所需每组≈12,950;当前A=12,000,B=11,800,接近但略不足,建议补齐或延长至≥1整周,或进行复现实验。
任务3:形成可执行的产品结论(中文→要点)(5分钟)
- 模板(中文要点):
- 决策:上线/灰度/复现实验
- 依据:主指标提升、显著性、区间范围
- 风险:SRM、周期性、后续指标未验证
- 行动:下一步验证与监控计划
任务4:英文简报写作(100–150字)(5分钟)
- 英文模板(可替换数值与决策):
- Title: AB Test on Sign-up CTA
- Hypothesis: Variant B improves sign-up rate by ≥10% vs A.
- Results: CR_A=11.0%, CR_B=12.0% (+9.4% lift). Two-sided z=2.50, p=0.012. 95% CIs do not clearly favor A.
- Decision: Roll out B to 50% with a 1-week follow-up.
- Risks: Potential SRM and weekly seasonality; validate downstream activation.
- Next: Run a confirmation test and monitor guardrails.
- 产出:每组提交英文段落(100–150字)。
阶段4:反思提升(50–60分钟,同伴互评+在线测验)
- 同伴互评(5分钟):两两互评英文简报(见评分维度)。
- 在线测验(5分钟):6题自动判分小测,覆盖概念与计算要点。
五、表格模板与公式(Excel/Google Sheets通用英文函数)
字段与单元格建议:
- 输入:nA(B2)=12000;xA(B3)=1320;nB(E2)=11800;xB(E3)=1420
- 转化率:
- pA(C3)=B3/B2
- pB(F3)=E3/E2
- 95%CI(使用Z=1.96或NORM.S.INV(0.975)):
- SE_A(C4)=SQRT(C3*(1-C3)/B2)
- L_A(C5)=C3-1.96C4;U_A(C6)=C3+1.96C4
- SE_B(F4)=SQRT(F3*(1-F3)/E2)
- L_B(F5)=F3-1.96F4;U_B(F6)=F3+1.96F4
- 提升率(相对):
- 显著性(双侧Z检验):
- p_pool(H4)=(B3+E3)/(B2+E2)
- SE_diff(H5)=SQRT(H4*(1-H4)*(1/B2+1/E2))
- Z(H6)=(F3-C3)/H5
- p_value(H7)=2*(1-NORM.S.DIST(ABS(H6),TRUE))
- SRM粗检(样本占比偏差):
- split_diff(H8)=ABS(B2-E2)/(B2+E2)
- 规则:若 split_diff > 0.02,标记“疑似SRM”
- 样本量与周期(规划近似,95%/80%):
- n_per_group(H9)=16P0(1-P0)/delta^2(输入P0=0.11,delta=0.011)
- days_needed(H10)=CEILING(n_per_group/daily_per_group,1)
六、结果解读与写作模板(中文要点 → 英文段落)
- 解读框架(中文):
- 结论:B较A在注册转化率上提升约9–10%,统计显著(p≈0.012)。
- 区间与不确定性:B的95%CI为[11.45%, 12.62%],与A存在轻微重叠,建议复验或延长实验。
- 风险:样本接近但略低于规划;需覆盖完整周;检查SRM与后续行为指标(如激活率)。
- 行动:灰度上线B(如50%),并以1周为窗口做复现实验与监控。
- 英文简报结构(100–150字):
- Context-Hypothesis-Metric
- Key Numbers (CRs, lift, z, p, CIs)
- Decision
- Risks
- Next steps
七、评估与评分(混合式)
- 在线测验(20%):6题(选择/判断/数值)
- 示例考点:
- 判断能否使用正态近似(np与n(1−p)阈值)。
- 计算绝对差与相对提升。
- 读取CI判断显著性。
- 识别SRM。
- 项目作品(60%):小组提交
- 表格正确性(公式与结果准确,含CI、Z检验、样本量与周期)——30分
- 决策与理由(与数据一致、可执行)——15分
- 风险与后续计划(识别至少2项实质风险)——10分
- 版面与可复用性(清晰标注、可复算)——5分
- 同伴互评(20%):英文报告段落(100–150字)
- 维度(各1–5分):清晰度(结构与数据点齐全)、技术准确性(术语与数值)、可执行性(明确动作)、风险意识(≥2项)、语言质量(语法与简洁)。
八、教师操作提示与风控清单
- 时间控制:每阶段设置倒计时;在阶段2B与阶段3任务1处巡场核对公式是否正确。
- 常见错误与纠偏:
- 将相对提升误作绝对差:强调 lift=(pB−pA)/pA。
- 提前停止:提醒按预先样本量与周期执行。
- 不满足近似条件:若np或n(1−p)<10,提示改用精确二项法(本课不展开),并标注“不满足近似假设”的风险。
- SRM未检:检查分流占比与埋点一致性。
- 护栏指标建议:页面报错率、加载时延、退订率、客诉率;若越线即暂停上线。
- 课堂资源:
- 数据与模板:预置到共享盘;每组独立sheet。
- 测验系统:设置即时反馈与题后解析(包含标准答案公式)。
九、板书与口令要点(便于复现)
- 四要素:Hypothesis – Metric – Sample Size – Duration
- 关键公式:
- p̂ = x/n;CI95% ≈ p̂ ± 1.96×sqrt[p̂(1−p̂)/n]
- Lift = (pB − pA)/pA
- Z = (pB − pA)/sqrt[p_pool(1−p_pool)(1/nA+1/nB)]
- n/组 ≈ 16×p0(1−p0)/δ^2(95%/80%近似)
- 决策语句模板:Decision; Rationale (key stats); Risks; Next steps.
本脚本可在一台投屏设备与40台学员终端的混合环境中直接执行。所有数值与公式均为教学常用且经验证的近似与检验方法;当近似前提不满足时,需在报告中标注限制并避免过度外推。