¥
立即购买

事件复盘报告生成器

27 浏览
2 试用
0 购买
Dec 3, 2025更新

本提示词专为DevOps工程师设计,用于快速生成专业的事件复盘报告模板。通过结构化的工作流程,确保报告内容全面覆盖事件概述、影响分析、时间线追溯、根本原因诊断和改进措施等关键模块。该模板强调技术写作的精确性和客观性,支持自定义事件类型和输出格式,帮助团队系统化总结经验教训,提升运维质量与协作效率。适用于服务中断、部署失败、性能下降等多种运维场景,是持续改进流程中的重要工具。

[服务中断] <系统/服务名称> 生产事故复盘报告 - <日期>

执行摘要(简要概述)

  • 事件类型:服务中断
  • 严重级别:<Sev-1/2/3,统一定义见附录>
  • 影响概述:<受影响用户范围/业务功能/地域/时长>
  • 根本原因概要:<一句话概述技术与流程根因>
  • 恢复情况:<恢复时间点/是否完全恢复/临时性风险>
  • 后续行动摘要:<关键改进项数量/完成时限/负责人>

事件详情

  • 发生时间(UTC+8):
  • 发现时间(UTC+8):<YYYY-MM-DD HH:mm:ss;指出是监控告警/用户报障/例行巡检>
  • 恢复时间(UTC+8):
  • 持续时间:<总分钟/小时;含影响窗口>
  • 影响范围:
    • 业务层面:<订单数下降X%/成功率下降Y%/延迟提升Zms/错误率R%>
    • 用户层面:<活跃用户数/新用户/地区/客户等级;避免披露敏感信息>
    • 技术层面:<受影响服务/集群/可用区/依赖组件>
  • 变更/操作背景:<是否有变更、发布、扩缩容、基础设施维护等触发背景>
  • 版本与环境:<版本号/集群/可用区/关键配置;仅限非敏感信息>
  • 事件确认与分级:<分级标准与判定依据,引用指标与阈值>

时间线

时间点 (UTC+8) 事件描述 负责人
监控触发告警:<告警名称/指标/阈值/主机或服务标识(脱敏)> <值班/系统>
首次确认影响:<影响范围/严重级别初判> <应急负责人>
采取缓解措施:<回滚/切流/扩容/降级> <执行人>
根因定位关键证据:<日志/指标/链路追踪ID(脱敏)> <分析人>
恢复完成:<业务指标恢复正常/验证用例通过> <恢复负责人>
复核与监控观察窗口结束:<观测期长度与结果> <复核人>

根本原因分析

  • 问题陈述
    • 现象:<用户/监控观察到的可测量异常>
    • 影响:<明确量化的业务和技术指标>
  • 5 Whys 分析
    1. 为什么发生服务中断?<原因1>
    2. 为什么会出现原因1?<原因2>
    3. 为什么会出现原因2?<原因3>
    4. 为什么会出现原因3?<原因4>
    5. 为什么会出现原因4(系统性根因)?<根因>
  • 技术根因
    • 失败组件/模块:<服务/中间件/基础设施>
    • 失效模式:<资源耗尽/竞态/死锁/配置错误/网络分区/依赖超时/限流不当/GC暂停等>
    • 触发条件:<流量脉冲/重试风暴/发布窗口/单点故障/依赖SLA下降>
    • 数据与证据:
      • 指标:<CPU/内存/连接数/错误率/延迟曲线截图链接>
      • 日志:<关键日志片段位置与时间;不含敏感数据>
      • 追踪:<TraceID/Span关系(脱敏)>
      • 配置/变更:<PR/变更单编号与差异摘要>
    • 复现实验与验证:
      • 复现步骤:<在预生产/隔离环境验证的步骤>
      • 结果:<与生产现象一致/不一致的对比>
      • 反证:<排除的其它候选根因及依据>
  • 流程与组织根因
    • 监控覆盖:<缺失/阈值不当/告警抑制误配/无SLO映射>
    • 变更管理:<变更未灰度/回滚预案缺失/审批不充分/窗口冲突>
    • 可靠性工程:<容量评估不足/混沌演练缺失/依赖SLA未对齐>
    • 文档与Runbook:<排障指南缺口/知识孤岛>
  • 影响扩散机制
    • 扇出/依赖链:<上游/下游影响与级联关系>
    • 自激效应:<重试风暴/队列积压/连接耗尽/缓存穿透>
    • 保护缺失:<熔断/限流/隔离/降级策略缺失或未生效>
  • 恢复机理
    • 有效的恢复动作:<为什么有效;对症原理>
    • 未生效动作:<为什么无效;避免下次重复尝试>

改进措施

说明:请区分短期止血(1周内)与长期根治(1-8周),每项措施需明确验收标准与度量方式(可在“措施描述”中说明)。 | 措施描述(含验收标准/指标) | 负责人 | 完成时限 | |---|---|---| | <示例:为<服务X>新增P99延迟与错误率告警,阈值基于SLO:错误率>1%持续5分钟触发;演练验证告警在模拟故障中TTR<5分钟> | <负责人> | | | <示例:为依赖Y启用隔离+熔断+超时退避,限流策略基于令牌桶,压测验证在依赖失效时核心接口成功率≥99%> | <负责人> | | | <示例:发布流程引入强制灰度10%,自动化健康检查与一键回滚;模拟回滚演练通过> | <负责人> | | | <示例:容量基线与高峰容量评估,建立自动扩缩容策略;压测报告与阈值配置入库> | <负责人> | | | <示例:补齐Runbook与故障树,值班演练覆盖主要失效模式> | <负责人> | |

经验教训

  • 技术
    • <监控指标选择/阈值设定/告警路由/可观测性覆盖>
    • <架构弹性:限流、熔断、隔离、降级策略的适用性与默认安全策略>
    • <容量与性能:负载模型、峰值预测、压测方法与自动化>
  • 流程
    • <变更管理:灰度/回滚/冻结窗口/审批准则>
    • <事前评审:设计评审、风险评估与演练机制>
  • 运维与响应
    • <值班与升级路径清晰度/跨团队协作/沟通节奏与渠道>
    • <Runbook可用性与排障效率>
  • 安全与合规
    • <最小化信息披露/日志脱敏/凭证轮换/审计记录>
  • 数据与度量
    • <SLO/SLA/SLA违约统计与TTR/MTTD/MTTR改进目标>

附录(相关日志、监控图表等参考资料)

  • 指标与监控
    • <时序指标仪表盘链接/截图位置;含延迟、错误率、QPS、资源利用率曲线>
    • <告警记录:告警ID、触发与恢复时间、路由策略>
  • 日志与追踪
    • <日志存档位置/查询语句/时间范围;脱敏处理说明>
    • <分布式追踪:示例Trace链接(脱敏)与关键调用链截图>
  • 变更与配置
    • <相关PR/变更单/发布流水线运行记录;差异对比链接>
    • <配置快照与校验结果>
  • 演练与验证材料
    • <预生产/沙箱复现实验记录与结果>
    • <压测报告与容量评估表>
  • 角色与通讯录
    • <应急负责人/技术负责人/平台/数据库/网络/安全/供应商联系人;仅限内部可见>
  • 严重级别分级标准(参考)
    • Sev-1:核心业务大面积不可用/数据不一致风险高/TTR>60分钟
    • Sev-2:部分核心功能降级/影响限定在某区域或客群/TTR≤60分钟
    • Sev-3:边缘功能影响/可通过手动或降级绕过/TTR≤15分钟
  • 指标定义与目标
    • MTTD/MTTR/SLO目标值与测量方法
  • 风险与合规说明
    • <敏感信息处理、数据最小化、审计需求>

填写指南与检查清单(可删除)

  • 核对数据一致性:时间线各时间点与日志/告警时间一致;时区统一
  • 量化影响:提供具体指标与区间曲线,避免笼统描述
  • 证据链完整:指标、日志、追踪、配置变更需相互佐证
  • 验证根因:提供可复现实验与反证过程
  • 改进可执行:每条措施有明确验收标准、负责人、时限
  • 知识沉淀:更新Runbook/监控阈值/演练计划并记录版本号
【模板】生产环境部署失败 - 事件复盘报告

【模板】生产环境部署失败 - 事件复盘报告

执行摘要

事件类型
部署失败
事件编号
INC-YYYYMMDD-XXXX
严重级别
P1 / P2 / P3
首次发现时间
YYYY-MM-DD HH:mm:ss TZ
影响时长
总计 X 分钟(MTTD: X 分钟;MTTR: X 分钟)
发现方式
监控告警 / 发布流程校验 / 用户反馈
影响概述
对业务、用户和技术影响的一句话总结(例如:线上结算服务新版本回滚,5% 请求失败,持续 18 分钟)
当前状态
已恢复 / 已回滚 / 部分缓解 / 进行中
一句话根因结论
例如:部署包与数据库迁移脚本版本不匹配导致启动失败

事件详情

发生时间
YYYY-MM-DD HH:mm:ss TZ
持续时间
X 分钟(从触发到完全恢复)
影响范围
受影响业务模块/地区/用户群体/流量比例(例如:订单创建 API,影响 20% 流量,区域:CN)
受影响服务与版本
服务名@版本号(例如:order-service@v1.23.4)
运行环境
Prod / DC1 / Kubernetes 集群 / Namespace
触发变更
变更单编号 / 发布批次 / 相关 PR/Commit 链接
依赖与外部因素
数据库/缓存/消息队列/第三方依赖版本与可用性
回滚与恢复策略
回滚到 vX.Y.Z;切换流量;禁用新特性开关等
合规与窗口
是否在变更窗口内;是否经过四眼审查;审批人

时间线

时间点 事件描述 负责人
YYYY-MM-DD HH:mm:ss 开始部署至生产环境,批次 #1 启动 发布管理员A
YYYY-MM-DD HH:mm:ss 健康检查失败,错误率上升超过阈值;自动终止后续批次 平台系统
YYYY-MM-DD HH:mm:ss 触发告警(错误率/5xx/部署失败),当班工程师接警并升级 值班工程师B
YYYY-MM-DD HH:mm:ss 决定回滚至上一个稳定版本;执行回滚 SRE C
YYYY-MM-DD HH:mm:ss 业务指标恢复至基线;宣布事件进入监控观察期 值班工程师B
YYYY-MM-DD HH:mm:ss 初步根因定位:配置不一致导致启动失败 研发负责人D
YYYY-MM-DD HH:mm:ss 完成证据收集与日志归档;输出初稿复盘 事件经理E
注:请按时间顺序记录“发生—检测—响应—缓解—恢复—验证—复盘”全流程。确保对应证据可追溯(日志、告警ID、变更ID等)。

根本原因分析

<h4>问题陈述</h4>
<p class="placeholder">用一段话清晰描述部署失败的现象(例如:服务容器启动后存活探针连续失败 10 次,Pod 被反复重启;错误日志显示缺少环境变量 X)。</p>

<h4>5 Why 分析</h4>
<ol>
  <li class="placeholder">为什么发生部署失败?(例如:服务启动报错,无法连接数据库)</li>
  <li class="placeholder">为什么无法连接数据库?(例如:数据库连接字符串配置缺失)</li>
  <li class="placeholder">为什么配置缺失?(例如:新版本引入配置项未在生产环境变量中下发)</li>
  <li class="placeholder">为什么未在生产下发?(例如:CI/CD 未对必须配置进行强制校验)</li>
  <li class="placeholder">为什么未建立强制校验?(例如:缺少配置基线与发布前检查策略)</li>
</ol>

<h4>技术分析(可复用检查清单)</h4>
<ul>
  <li>制品与镜像:构建产物是否来自同一源码版本与依赖锁定文件;镜像签名/哈希一致。</li>
  <li>配置与密钥:环境变量、配置中心、密钥(如API Key)是否齐全、权限正确、版本一致。</li>
  <li>兼容性:接口/协议/数据库模式(Schema)是否前向/后向兼容;特性开关默认值是否合理。</li>
  <li>启动与健康:启动参数、端口、探针(存活/就绪)阈值是否匹配新版本的启动时长与内存需求。</li>
  <li>依赖可用性:数据库/缓存/消息队列/第三方服务是否在变更窗口内稳定。</li>
  <li>发布策略:蓝绿/金丝雀(小流量试运行)/分批发布/自动回滚是否正确执行。</li>
  <li>资源与限额:CPU/内存/连接池/文件句柄/磁盘IO是否满足新版本需求;是否出现OOM或限流。</li>
  <li>平台与编排:Kubernetes/Helm 参数、滚动策略、探针、ReadinessGate 是否正确。</li>
  <li>回滚路径:回滚剧本是否有效;数据库迁移是否可逆(是否采用双写/影子表/分阶段迁移)。</li>
</ul>

<h4>验证步骤与证据</h4>
<ul>
  <li class="placeholder">日志证据:应用启动日志、探针失败日志、平台事件(如 K8s events)、CI/CD 控制台输出链接。</li>
  <li class="placeholder">监控证据:错误率/延迟/可用性告警截图与指标曲线;变更点与指标的时序对齐。</li>
  <li class="placeholder">配置与代码证据:配置 diff、Helm values diff、相关 PR/Commit 链接与代码片段。</li>
  <li class="placeholder">依赖侧证据:数据库/第三方可用性与慢查询/连接错误统计。</li>
  <li class="placeholder">重现实验:在预生产/沙箱复现失败路径与修复后的对照试验结果。</li>
</ul>

<h4>非原因排除</h4>
<ul>
  <li class="placeholder">说明已检查但排除的方向(例如:网络 ACL 已验证不相关;证书有效期正常)。</li>
</ul>

<h4>促成因素(非直接根因)</h4>
<ul>
  <li class="placeholder">例如:缺少强制发布前配置校验;批次粒度过大;告警阈值偏高导致检测延迟。</li>
</ul>

改进措施

措施描述(具体、可衡量) 负责人 完成时限
在 CI 阶段增加“必需配置清单”校验(缺失即失败);覆盖生产环境变量与密钥存在性检查,目标:拦截 100% 配置缺失类问题。 Dev Lead YYYY-MM-DD
完善蓝绿/金丝雀发布策略:先以 1% 流量运行 10 分钟,关键指标(错误率<1%,P95 延迟<目标)达标后再扩容。 SRE Manager YYYY-MM-DD
引入数据库迁移闸门:应用部署前验证 Schema 版本兼容;不可逆迁移需双阶段发布与回滚计划。 DBA YYYY-MM-DD
为关键服务建立启动时长与资源基线;调整探针阈值与滚动策略以适配新版本启动特征。 Platform YYYY-MM-DD
错误预算与变更窗口策略:高风险变更仅在低峰窗口执行,需四眼审查与回滚演练记录。 Change Owner YYYY-MM-DD
建设发布前端到端验收(合成交易/冒烟),覆盖核心路径 90%+;不达标自动阻断发布。 QA Lead YYYY-MM-DD
完善运行手册与回滚剧本;季度演练 ≥1 次并记录时长与成功率(目标:MTTR 降低 30%)。 Incident Manager YYYY-MM-DD
注:每项措施应满足 SMART 原则(具体、可衡量、可实现、相关性强、有时限)。

经验教训

技术与架构

  • 示例:配置与代码应解耦并有基线校验;数据库迁移需设计前/后向兼容路径。

流程与治理

  • 示例:发布审批需关注风险评级与回滚计划;高风险变更采用更小批次与更长观察期。

监控与告警

  • 示例:关键指标告警阈值需反映用户体验;变更标注应与指标时间线对齐。

沟通与响应

  • 示例:建立统一战情频道;关键信息(影响范围、状态、下一步)定期广播。

风险管理

  • 示例:在发布前进行“预演”和“失败演练”,确保回滚路径可靠。

附录

  • 变更单与发布记录:变更单编号,发布流水线运行链接,审批记录。
  • CI/CD 日志:构建日志、部署日志、回滚日志链接。
  • 系统与应用日志:关键错误栈、Kubernetes 事件(kubectl describe/events)、Pod 日志。
  • 监控图表:错误率、延迟、吞吐、可用性、资源使用曲线与事件标注截图。
  • 配置与版本差异:配置中心快照、Helm values diff、环境变量清单、依赖版本锁定文件。
  • 代码与评审:相关 PR/Commit 链接、设计与风险评审记录。
  • Runbook 与演练记录:回滚剧本、发布前检查清单、最近一次演练结果。
  • 数据导出:受影响请求样本、错误分布、慢查询清单(脱敏处理)。

事件标题 性能下降事件复盘报告(模板)

执行摘要(简要概述)

  • 事件类型:性能下降
  • 发生时间(本地/UTC):[YYYY-MM-DD HH:MM]
  • 持续时间:[时长,例:2小时15分]
  • 当前状态:[已恢复/部分恢复/未恢复]
  • 客户影响概述:简要说明影响范围与体感,例如“部分用户访问变慢,峰值请求延迟升高,少量请求超时”
  • 主要原因概述(一句话):[例如:应用新版本引入的数据库查询效率下降]
  • 下一步方向(供客户了解):[例如:已回滚恢复;计划进行代码优化与容量评估]

事件详情

  1. 发生时间
  • 起始时间(本地/UTC):[YYYY-MM-DD HH:MM]
  • 发现/告警时间(本地/UTC):[YYYY-MM-DD HH:MM]
  • 恢复时间(本地/UTC):[YYYY-MM-DD HH:MM]
  • 持续时间:[计算值]
  1. 影响范围(面向客户)
  • 受影响用户:数量或占比(如:X万用户,约Y%)
  • 受影响地域/客户群体:[例如:华东地区/移动端用户]
  • 受影响产品/功能:[模块或页面名称]
  • 受影响表现:访问变慢/请求超时/页面加载延迟增加
  • 关键性能指标(KPI)变化(如适用):
    • 平均/95分位/99分位延迟:从[A]ms上升至[B]ms
    • 错误率(%):从[A]%上升至[B]%
    • 吞吐量/QPS:从[A]降至[B]
  • 客户支持与沟通:客户通知时间、渠道与频次(如:邮件/状态页/工单)

时间线(按时间顺序)

  • [YYYY-MM-DD HH:MM] 事件触发/异常出现:描述;负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 监控告警触发:告警名称/阈值;负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 初步定位与缓解动作:如限流/扩容/回滚;负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 客户通知与更新:渠道与摘要;负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 核心处置动作:如配置变更/索引修复/依赖恢复;负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 服务指标恢复至基线:证据(监控图/日志要点);负责人/团队:[名称]
  • [YYYY-MM-DD HH:MM] 事件关闭与复盘启动:负责人/团队:[名称]

根本原因分析

  • 直接表现(症状) 描述用户可感知的问题与受影响指标(延迟、错误率等)。

  • 直接原因(初步) 说明导致性能下降的直接技术原因(如慢查询、资源耗尽、依赖变慢)。

  • 5 Whys 分析(建议至少3-5层)

    1. 为什么出现性能下降?[原因1]
    2. 为什么会发生原因1?[原因2]
    3. 为什么会发生原因2?[原因3]
    4. 为什么会发生原因3?[原因4]
    5. 为什么会发生原因4?[根本性原因/系统性缺陷]
  • 证据与验证过程

    • 监控与日志:关键图表与日志要点(时间区间、指标变化、错误码)
    • 配置/代码/发布记录:相关变更ID与时间
    • 依赖系统状态:数据库/缓存/第三方服务指标或事件
    • 复现实验/对比测试:方法、结果与结论
    • 关联性排除:说明已排除的非根因(含证据)
  • 触发因素与放大因素

    • 触发因素:如突发流量峰值、特定查询模式、热点数据变更
    • 放大因素:如容量冗余不足、索引缺失、熔断/重试策略不当

经验教训

  • 有效做法
    • 例:快速回滚/加容策略生效,状态页及时更新,缩短客户感知时长
  • 需要改进的方面(不列具体改进措施,仅方向)
    • 例:发布前性能基线验证覆盖不足;对关键依赖的容量余量评估需加强
  • 风险预警信号
    • 例:延迟上升早期信号被告警阈值掩盖;重试风暴前置指标未被监控
  • 客户沟通注意点
    • 例:在首次通知中明确影响范围、缓解进展与下一次更新时间

附录(参考资料清单)

  • 监控图表链接与截图说明(时间区间与对应指标)
  • 关键日志片段(已脱敏)
  • 变更/发布/工单/状态页ID与链接
  • 依赖服务状态证明(如第三方SLA公告)
  • 压测与对比测试报告摘要
  • 术语说明(面向客户的简明解释)

示例详情

解决的问题

面向运维与研发一线团队,快速生成一份结构完备、逻辑严谨、可直接对外/对内汇报的事件复盘报告模板;覆盖事件概览、影响评估、时间线追溯、根因定位、改进计划与知识沉淀等关键模块,适配服务中断、发布失败、性能波动与安全告警等多类场景。通过标准化流程与可定制字段,帮助团队在数分钟内完成高质量复盘底稿,统一口径、提升协作效率,支撑周会复盘、合规审计与客户回溯,最终降低故障复发率与沟通成本。

适用用户

DevOps与SRE工程师

值班后十分钟内产出结构完整复盘稿,准确还原时间线与影响,快速定位根因并生成改进清单,支持复盘会直接使用。

技术负责人与研发经理

获得面向管理层的精炼摘要与量化指标,清晰看到责任分工与整改时限,用于周会、月报和跨部门汇报,提升推动力。

客服与运营负责人

自动生成通俗摘要与可复用问答,清楚说明影响范围与恢复情况,用于公告、客服脚本和用户沟通,降低投诉与重复解释。

特征总结

一键生成结构化复盘模板,覆盖概述、影响、时间线、根因与改进,减少漏项与返工。
按需切换受众与技术深度,自动调整措辞与细节,让领导、工程师与客服都能看懂。
内置时间线与表格模块,轻松记录关键节点与责任人,支持回溯与跨团队沟通。
引导式根因分析,多角度多问法拆解问题,沉淀可复用诊断思路与检查清单。
自动生成可量化改进清单,明确负责人与时限,便于跟进闭环、复查与复盘校验。
覆盖中断、部署异常、性能波动等场景,模板即时匹配业务语境,报告更贴近实际。
可定制输出格式与语气风格,适配周会纪要、管理汇报与知识库等多种载体。
复盘后自动整理经验要点与附件索引,方便归档共享,助力培训与新人快速上手。
支持参数保存与模板复用,团队一键套用最佳范式,显著缩短写作与审批周期。
遵循严谨写作规范,避免夸大与泄露信息,确保报告客观、准确、可追溯与可复核。

如何使用购买的提示词模板

1. 直接在外部 Chat 应用中使用

将模板生成的提示词复制粘贴到您常用的 Chat 应用(如 ChatGPT、Claude 等),即可直接对话使用,无需额外开发。适合个人快速体验和轻量使用场景。

2. 发布为 API 接口调用

把提示词模板转化为 API,您的程序可任意修改模板参数,通过接口直接调用,轻松实现自动化与批量处理。适合开发者集成与业务系统嵌入。

3. 在 MCP Client 中配置使用

在 MCP client 中配置对应的 server 地址,让您的 AI 应用自动调用提示词模板。适合高级用户和团队协作,让提示词在不同 AI 工具间无缝衔接。

AI 提示词价格
¥20.00元
先用后买,用好了再付款,超安全!

您购买后可以获得什么

获得完整提示词模板
- 共 613 tokens
- 5 个可调节参数
{ 事件类型 } { 输出格式 } { 技术深度 } { 受众群体 } { 包含改进措施 }
获得社区贡献内容的使用权
- 精选社区优质案例,助您快速上手提示词
使用提示词兑换券,低至 ¥ 9.9
了解兑换券 →
限时半价

不要错过!

半价获取高级提示词-优惠即将到期

17
:
23
小时
:
59
分钟
:
59