🔥 终身会员专享文生文其它

IT系统运维任务清单生成器

👁️ 107 次查看

📅 Dec 4, 2025

💡 核心价值： 本提示词专为IT运维场景设计，能够根据指定的服务器或系统类型，生成10项标准化的日常维护任务清单。通过系统化的任务分解和专业技术分析，确保维护内容的全面性和可操作性，涵盖系统监控、安全检查、性能优化等关键运维环节，帮助IT团队建立规范的维护流程，提升系统稳定性和安全性。适用于各类企业IT环境中的服务器、网络设备、数据库系统等基础设施的日常运维管理。

终身会员免费复制

🎯 可自定义参数（4个）

系统类型

需要维护的服务器或系统类型

维护重点

维护的重点关注方向

环境类型

系统部署的环境类型

关键等级

系统业务关键程度

🎨 效果示例

系统类型概述

类型与环境：Linux 应用服务器，生产环境，关键等级高，承载业务应用与接口服务。
维护重点：安全基线与补丁、日志审计、性能与容量、备份恢复。
关键组件：操作系统内核与包管理器、SSH 与身份认证、系统日志（journald/rsyslog）、审计（audit）、防火墙（iptables/nftables/系统防火墙）、存储与文件系统（LVM/RAID/EXT4/XFS）、监控代理、备份系统。

维护任务清单（10项）

安全基线巡检与加固核查
补丁管理与漏洞修复流程
日志审计与留存（系统日志与安全审计）
账户与权限管理（含SSH与sudo）
备份策略与恢复演练
性能监控与容量规划
关键服务可用性与进程守护
存储与文件系统健康检查
网络与防火墙策略核查（含证书与时间同步）
配置与变更管理（含配置基线与漂移检测）

每项任务的详细说明

安全基线巡检与加固核查

说明/要点
- SSH：禁止root直连、仅允许所需用户与密钥登录，限制弱算法，设置空闲超时；核查 /etc/ssh/sshd_config。
- 身份与认证：密码复杂度与有效期（/etc/login.defs 与 PAM 配置），sudo 最小权限原则，记录命令审计。
- 服务与端口：关闭/移除不必要服务与包；仅开放业务必要端口。
- 内核与网络安全参数（/etc/sysctl.d）：禁用源路由，拒绝伪造包与重定向，启用反向路径过滤等。
- 安全机制：启用并强制执行 SELinux 或 AppArmor（选择其一，保持策略“enforcing/complain→enforce”的受控推进）。
- 时间同步：使用可靠时间源（NTP/Chrony），保证审计时序一致。
- 基线参考：对照行业基线（如 CIS、国家等保）形成检查表并固化。
执行频率建议
- 每周快速巡检，重大变更后即刻复核；每月完整基线审计。
预期效果
- 降低因弱配置导致的入侵与误操作风险，统一安全标准。
风险提示和注意事项
- 调整 SSH、PAM、SELinux 等可能影响登录与应用行为，须先在灰度/测试环境验证并预设应急回退方案。

补丁管理与漏洞修复流程

说明/要点
- 更新策略：区分安全补丁与功能更新，优先处理高危安全补丁（参考 CVE：公共漏洞编号）。
- 流程：每周收集可用更新 → 测试环境验证 → 变更审批 → 备份/快照 → 生产维护窗分批滚动更新 → 回归验证。
- 包管理：使用发行版原生包管理器（APT/YUM/DNF）；内核更新需规划重启；禁止在生产环境直接进行“无验证的大版本升级”。
- 版本锁定：对关键依赖进行版本冻结与白名单管控，避免意外升级。
执行频率建议
- 安全更新每周评估、每月例行维护窗统一发布；高危漏洞（可被利用）在24–72小时内加急处理。
预期效果
- 快速消除已知漏洞，维持系统可支持状态与合规性。
风险提示和注意事项
- 更新前必须完成有效备份与回退预案；核对依赖变更与兼容性，避免引发业务中断。

日志审计与留存（系统日志与安全审计）

说明/要点
- 系统日志：规范 journald/rsyslog 输出等级、格式与分流策略；业务日志独立目录、独立轮转（logrotate），防止单日志撑爆磁盘。
- 安全审计（audit）：开启审计守护，定义关键文件与敏感操作规则（例如监控 /etc/passwd、sudo 执行、登录失败）。
- 归档与集中：日志加密传输至集中平台（或安全日志系统），确保至少180天留存（按合规要求设定）。
- 审计与告警：设置异常登录、权限变更、重复失败、核心文件变更等告警；确保时钟同步以保证事件顺序。
执行频率建议
- 每日审查关键告警与失败事件；每周轮转与容量复核；每月抽查审计完整性。
预期效果
- 完整可追溯的操作与安全事件链路，支持事中告警与事后取证。
风险提示和注意事项
- 审计规则过于宽泛可能带来性能开销；日志留存不足或未集中会影响合规与取证。

账户与权限管理（含SSH与sudo）

说明/要点
- 账户生命周期：及时创建/禁用/删除，禁止共享账户；定期清理无用与过期账户。
- SSH 密钥与口令：强制使用强口令策略与密钥登录；密钥定期轮换；建议接入多因素认证（MFA）能力。
- sudo 审计：最小权限授权，必须记录命令审计；禁止无必要的 NOPASSWD。
- 特权审计：定期核对拥有特权的用户与组（wheel、sudo 等）。
执行频率建议
- 每周账户变更核对；每月全量权限与密钥盘点；每季度进行访问再认证（确认权限合理性）。
预期效果
- 降低权限滥用与凭据泄露风险，提升审计可见性。
风险提示和注意事项
- 密码/密钥策略调整需提前沟通并灰度推行，避免批量登录失败影响运维效率。

备份策略与恢复演练

说明/要点
- 备份范围：系统配置（/etc、服务配置）、应用发布包与依赖、业务数据与数据库、脚本与定时任务。
- 策略：每日增量、每周全量；异地与离线副本；启用备份加密与校验；保留至少按合规/业务要求的周期（如30/90/180天）。
- 恢复演练：按 RPO/RTO（恢复点/恢复时间目标）季度演练，覆盖单文件、整库与整机级别。
- 变更前必备份：系统更新、配置大改、架构调整前必须制作可验证的回退点。
执行频率建议
- 备份按策略自动执行并每日校验成功率；每月抽样恢复验证；每季度全流程演练。
预期效果
- 出故障时可快速恢复，数据可用性与完整性得到保障。
风险提示和注意事项
- 未验证的备份等同无备份；务必妥善管理加密密钥与访问控制，防止勒索与误删。

性能监控与容量规划

说明/要点
- 关键指标：CPU 利用率、负载、内存与换页、磁盘 I/O、网络延迟与丢包、应用响应时间与错误率。
- 阈值与告警：为不同时段设定基线与阈值，避免“告警风暴”；对资源突增与持续高位设置分级告警。
- 容量规划：按月输出容量报表，评估增长趋势，制定扩容或优化计划（例如磁盘阈值<80%、inode <70%）。
- 性能优化：定位热点（慢查询、锁、GC、I/O 瓶颈），优先做低风险参数优化与缓存策略。
执行频率建议
- 7x24 持续监控；每周性能回顾；每月容量评审与规划。
预期效果
- 提前发现性能退化，避免资源耗尽导致的业务中断。
风险提示和注意事项
- 调优前后需对比验证；避免一次性做多项改动导致难以回溯问题根因。

关键服务可用性与进程守护

说明/要点
- systemd 单元：为关键服务定义 Restart 策略与依赖顺序；限制资源（CPU/内存）以防止雪崩。
- 健康检查：实现本地与远端探活（端口、HTTP 状态、自检接口），纳入监控告警。
- 启动项与定时任务：定期检查定时任务（cron/systemd timer）与启动项有效性与安全性。
- 故障现场：配置核心转储（coredump）策略与收集方法，便于开发排障。
执行频率建议
- 每日检查失败/崩溃的服务与日志；发布后重点观察；每月审查守护与探活策略。
预期效果
- 提升故障自愈能力，缩短故障检测与恢复时间。
风险提示和注意事项
- 不恰当的自动重启可能掩盖根因或放大故障，需配合节流与熔断策略。

存储与文件系统健康检查

说明/要点
- 容量与 inode：检查磁盘与 inode 使用率、最大文件、异常增长日志；清理临时目录与过期包。
- 设备健康：检查磁盘 SMART 指标、RAID/LVM 状态，关注重映射扇区、I/O 错误。
- 文件系统一致性：安排维护窗执行离线检查（需要重启或卸载时），避免线上强制 fsck。
- 写放大与 I/O：识别异常写入（如过度日志），优化轮转与采样频率。
执行频率建议
- 每日检查使用率与异常增长；每周设备健康；每月一致性与碎片/性能复核。
预期效果
- 防止磁盘打满与设备劣化导致的数据损坏与宕机。
风险提示和注意事项
- 文件系统检查需在维护窗执行；清理文件前确认非业务必要，并做好回退。

网络与防火墙策略核查（含证书与时间同步）

说明/要点
- 端口与访问控制：核对监听端口与网络连接，仅允许必要入站/出站；定期审计防火墙规则（iptables/nftables/系统防火墙）。
- 分区与隔离：确认管理网、应用网、数据库网分段隔离；限制横向移动路径。
- TLS/证书：检查证书有效期、剩余天数与算法强度；清理弱加密套件，规划自动化续期。
- 网络健康：丢包/延迟、DNS 可靠性、NTP 时间同步一致性。
执行频率建议
- 每周端口/规则审计；每月证书与加密策略复核；异常时即时复核时间同步。
预期效果
- 降低暴露面与中间人攻击风险，保障通信加密与连通性稳定。
风险提示和注意事项
- 规则变更前须评估连通性影响并预设回退指令；证书更新需验证链路与信任链。

配置与变更管理（含配置基线与漂移检测）

说明/要点
- 配置基线：固化系统与应用关键配置的“标准版本”，包括内核参数、服务配置、目录权限等。
- 漂移检测：定期比对当前配置与基线差异，发现未授权变更。
- 版本化与审计：将配置纳入版本控制，所有修改通过变更流程（工单）与审批。
- 发布规范：实施预检清单（健康、备份、容量）、分批发布与回滚策略，保留变更记录与影响评估。
执行频率建议
- 每日自动化漂移检测；每周变更合规性审查；每月基线更新与复核。
预期效果
- 降低配置错误与不可控变更导致的风险，提升可追溯性。
风险提示和注意事项
- 严格执行“先测试后生产”，避免绕过流程的紧急修改常态化；确保运维审计闭环。

执行频率建议（总体节奏）

每日：告警与关键日志审查、服务健康、磁盘使用率与安全事件。
每周：安全基线快速巡检、补丁评估与计划、账户变更核对、端口与防火墙规则审计、性能回顾。
每月：完整基线审计、补丁集中发布、容量规划、证书/加密策略复核、配置基线更新、备份恢复抽检。
每季度：访问再认证、全流程恢复演练、全面风险评估与改进计划。

预期效果说明

安全性：基线一致、漏洞快速修复、日志可溯源，显著降低入侵与合规风险。
稳定性：服务守护与容量管理结合，避免资源耗尽与单点故障。
可恢复性：备份可用、演练有效，满足 RPO/RTO 目标，支持快速恢复。
可运营性：流程标准化、配置受控、监控有据，减少人工故障与运维压力。

风险提示和注意事项（总体）

避免高风险一次性改动：所有变更先测试后生产，必须有备份与回退。
严格窗口与审批：生产环境补丁、内核、网络与防火墙变更需在维护窗并经审批。
性能与审计平衡：审计与监控规则要适度，避免对关键业务造成可见性能影响。
数据与密钥安全：备份、日志与证书涉及的密钥/凭据必须加密存放并控制访问。
符合标准：建议对齐行业基线与合规要求（如等保、CIS、ISO 27001），并保留审计证据。

系统类型概述

类型与环境：Oracle 数据库实例（测试环境，关键等级中等）
维护重点：
- 事务日志（在线重做日志/归档日志）与备份链完整性
- 慢 SQL 排查与性能基线
- 初始化参数与资源/配额治理
目标：保证可恢复性与容量安全、定位与缓解慢 SQL、控制配置漂移与资源失控，确保测试环境稳定且可重复

维护任务清单（10项）

实例与告警日志健康检查
归档日志与恢复区（FRA）容量与状态检查
备份链完整性验证（RMAN）
控制文件与参数文件（SPFILE/PFILE）基线与变更审计
慢 SQL 识别与定点跟踪（无许可依赖方法优先）
统计信息与执行计划稳定性维护
表空间、数据文件与用户配额治理
会话、锁与资源管理检查
调度作业与批处理运行状态检查
安全与合规快检（登录、监听、补丁信息）

每项任务的详细说明

1) 实例与告警日志健康检查

目的：快速发现实例级异常（ORA 错误、进程异常、参数漂移）
操作要点：
- 数据库/实例状态
  - SQL:
    - select name, open_mode, database_role from v$database;
    - select instance_name, status, logins from v$instance;
- 告警日志查看（ADR：自动诊断库）
  - OS/ADRCI：adrci exec="show alert -tail 200"
- 关注近24小时 ORA- 错误、归档异常、后台进程异常（LGWR/ARCH/DBWR）
执行频率建议：每日1次，异常时即时查看
预期效果：及时发现影响可用性/恢复性的早期征兆
风险与注意：仅查看与记录，不进行在线高风险更改；告警日志清理用 ADRCI 规范操作，避免直接删除目录

2) 归档日志与恢复区（FRA）容量与状态检查

目的：确保归档不中断、FRA 不爆满，避免数据库挂起
操作要点：
- 归档切换速率（近24小时）
  - SQL: select trunc(first_time,'HH24') hr, count(*) switches from v$log_history where first_time>sysdate-1 group by trunc(first_time,'HH24') order by hr;
- FRA 使用率
  - SQL:
    - select round(space_used/space_limit*100,2) used_pct from v$recovery_file_dest;
    - select file_type, percent_space_used, percent_space_reclaimable from v$recovery_area_usage;
- 归档目的地状态
  - SQL: select dest_id, status, error from v$archive_dest_status;
- 阈值建议：FRA 使用率保持低于80%；若超过，优先用 RMAN 清理“过期”而非手工删除
执行频率建议：每日1次；周维度观察增长趋势
预期效果：避免 ORA-19809/19815（FRA 满），保证归档连续
风险与注意：禁止在 OS 层手工删除归档日志；清理需通过 RMAN 且遵循保留策略

3) 备份链完整性验证（RMAN）

目的：验证从当前到目标恢复点的备份可用性，确保可恢复性
操作要点（RMAN）：
- rman target /
- list backup summary;
- report need backup;
- crosscheck backup; crosscheck archivelog all;
- validate backupset; 或 restore validate database;
- 检查保留策略与过期备份（仅在策略允许下清理）
执行频率建议：每日快速核对（list/crosscheck）；每周 validate；每月模拟还原到隔离测试实例
预期效果：及时发现断链、损坏备份，保证恢复演练可行
风险与注意：validate 为只读但会产生较大 I/O，安排在低峰；切勿手工删除备份文件

4) 控制文件与参数文件（SPFILE/PFILE）基线与变更审计

目的：记录并追踪参数变更，确保可回滚与一致性
操作要点：
- 参数变更检测
  - SQL: select name, value, isdefault, ismodified from v$parameter where ismodified <> 'FALSE';
- 备份当前参数文件与控制文件自动备份状态
  - RMAN：show all; 确认 controlfile autobackup on
  - SQL 生成可读 PFILE：create pfile from spfile; 将文件按日期归档
- 记录变更到变更台账/CMDB，按审批流程执行参数调整
执行频率建议：每日检测是否有参数变更；每周归档一份参数快照
预期效果：防止配置漂移；发生问题时能快速回滚
风险与注意：涉及静态参数的调整需计划性重启；紧急变更需审批与回退方案

5) 慢 SQL 识别与定点跟踪（无许可依赖方法优先）

目的：识别高耗时或高资源 SQL，支撑问题复现与修复
操作要点：
- 无需诊断包的视图与方法
  - SQL（近24小时 Top 平均耗时）： select sql_id, executions, round(elapsed_time/1e6,2) total_s, round(elapsed_time/1e6/nullif(executions,0),3) avg_s, round(cpu_time/1e6,2) cpu_s, buffer_gets from v$sql where executions > 0 and last_active_time > sysdate - 1 order by avg_s desc fetch first 20 rows only;
  - 查看已执行语句的实际执行计划： select * from table(dbms_xplan.display_cursor('<sql_id>', null, 'allstats last'));
- 定点会话跟踪（仅针对问题会话，避免全局开启）
  - exec dbms_monitor.session_trace_enable(session_id=>:sid, serial_num=>:serial#, waits=>true, binds=>true);
  - 结束：exec dbms_monitor.session_trace_disable(session_id=>:sid, serial_num=>:serial#);
- 若未购买 Diagnostics/Tuning Pack，避免使用 AWR/ASH；可选用 Statspack 建快照并对比
执行频率建议：每日扫描；出现性能问题时临时跟踪
预期效果：快速定位问题 SQL、缩短排障时间
风险与注意：会话跟踪会产生额外开销，请仅对目标会话短时开启；跟踪文件注意清理

6) 统计信息与执行计划稳定性维护

目的：保证优化器有最新统计信息，减少计划回退与抖动
操作要点：
- 检测过期（stale）统计信息
  - SQL: select owner, table_name from dba_tab_statistics where stale_stats='YES';
- 收集统计信息（示例）
  - exec dbms_stats.gather_schema_stats(ownname => '', options => 'GATHER AUTO', estimate_percent => dbms_stats.auto_sample_size, method_opt => 'FOR ALL COLUMNS SIZE AUTO', degree => 4);
- 大表频繁变更或临时表：考虑锁定统计信息或在数据刷新后再收集
- 重要对象收集前后导出/备份统计信息（dbms_stats.export/import) 便于回退
执行频率建议：每日检查；每周或大规模数据刷新后收集
预期效果：减少慢 SQL、新旧计划切换导致的性能问题
风险与注意：统计信息收集会占用 CPU/I/O，安排在低峰；避免对热点大表在业务高峰收集

7) 表空间、数据文件与用户配额治理

目的：避免空间相关故障（ORA-01653/1652/19502）
操作要点：
- 表空间使用率
  - SQL: select tablespace_name, round(used_percent,2) used_pct from dba_tablespace_usage_metrics;
- 数据文件自动扩展与上限
  - SQL: select file_name, autoextensible, round(bytes/1024/1024) size_mb, round(maxbytes/1024/1024) max_mb from dba_data_files;
- 临时表空间使用
  - SQL: select tablespace_name, sum(bytes_used)/1024/1024 used_mb, sum(bytes_free)/1024/1024 free_mb from v$temp_space_header group by tablespace_name;
- 用户配额
  - SQL: select username, tablespace_name, bytes/1024/1024 quota_mb, max_bytes/1024/1024 max_mb from dba_ts_quotas;
执行频率建议：每日1次
预期效果：空间风险可预警并提前扩容/清理
风险与注意：扩容前确认磁盘可用性；避免随意缩减数据文件（可能导致碎片与锁）

8) 会话、锁与资源管理检查

目的：治理长事务、锁等待和失控会话，保障测试环境稳定
操作要点：
- 活跃/阻塞会话
  - SQL: select sid, serial#, username, event, blocking_session, seconds_in_wait from v$session where status='ACTIVE' or blocking_session is not null;
- 长时间操作
  - SQL: select sid, serial#, opname, sofar, totalwork, units, elapsed_seconds, time_remaining from v$session_longops where sofar < totalwork;
- 资源管理器与会话资源限制
  - SQL: show parameter resource_manager_plan; show parameter resource_limit;
- 必要时终止失控会话（审批后）
  - alter system kill session 'sid,serial#' immediate;
执行频率建议：每日至少1次，出现大量等待/锁争用时即时处理
预期效果：减少锁表与资源争抢导致的整体性能下降
风险与注意：杀会话会触发回滚并加重 I/O；对关键操作需先确认可重试

9) 调度作业与批处理运行状态检查

目的：确保维护与数据刷新类任务按时执行并成功
操作要点：
- 作业健康
  - SQL: select owner, job_name, state, failure_count from dba_scheduler_jobs where enabled='TRUE';
  - SQL: select job_name, status, to_char(log_date,'YYYY-MM-DD HH24:MI') log_time, additional_info from dba_scheduler_job_run_details where log_date>sysdate-1 and status <> 'SUCCEEDED';
- 物化视图刷新状态（如使用）
  - SQL: select owner, mview_name, staleness, last_refresh_date from dba_mviews;
执行频率建议：每日1次
预期效果：及时发现失败作业，避免后续连锁问题
风险与注意：调整/禁用作业需确认依赖关系与窗口时间

10) 安全与合规快检（登录、监听、补丁信息）

目的：降低安全面风险，保持版本与配置透明
操作要点：
- 登录失败与异常来源（启用审计时）
  - 传统审计：select username, userhost, returncode, to_char(timestamp,'YYYY-MM-DD HH24:MI') from dba_audit_session where returncode<>0 and timestamp>sysdate-1;
  - 统一审计：select dbusername, userhost, return_code, event_timestamp from unified_audit_trail where event_timestamp>sysdate-1 and return_code<>0;
- 监听器状态与错误
  - OS：lsnrctl status；检查监听日志异常
- 补丁登记核对（用于测试环境的补丁前置验证）
  - SQL: select patch_id, action, status, action_time from dba_registry_sqlpatch order by action_time desc;
执行频率建议：每日简查；补丁评审与演练按月
预期效果：及时发现异常访问与组件偏差，为后续补丁演练提供依据
风险与注意：任何安全策略变更需评估对应用测试的影响并做好回退

执行频率建议（汇总）

每日：任务1/2/3（快速核对）/4（变更检测）/5（扫描）/7/8/9/10（快检）
每周：任务3（validate）、4（参数快照归档）、6（例行统计信息收集）
每月：任务3（模拟还原演练）、10（补丁与合规评审）

预期效果说明（总体）

可恢复性：通过归档/FRA与备份链持续验证，降低不可恢复风险
性能稳定：慢 SQL 识别与统计信息维护，减少性能抖动与回退
配置可控：参数与配额的可追踪与基线化，降低配置漂移
运维可预期：作业可视化、空间提前量规划，减少突发故障
安全与合规：失败登录与监听状态快检，降低暴露面

风险提示和注意事项（总体）

许可合规：默认不使用 AWR/ASH 等需要 Diagnostics/Tuning Pack 的功能；如已购许可方可使用
清理策略：归档与备份清理必须通过 RMAN 并符合保留策略；禁止 OS 层直接删除
变更控制：参数调整、会话终止、数据文件操作需遵循变更流程并在低峰执行
资源开销：validate、统计信息收集、会话跟踪等操作会增加 I/O/CPU，应安排在低峰并设限
测试环境特性：允许更积极地进行恢复演练与性能试验，但仍需保护关键测试基线数据与时间窗口，避免影响集成/回归测试进度

系统类型概述

系统：Kubernetes 开发集群（Dev）
关键等级：低（以快速交付、频繁变更为主，但仍需基础稳定性与安全边界）
维护重点（结合你的需求）：组件健康监控、节点资源、镜像与权限、CI/CD 流水线
维护原则：低风险、可回滚、以只读巡检和验证为主，严格区分“检查/验证”和“变更/执行”

维护任务清单（10项）

按优先级从高到低排序：

控制平面与核心组件健康监控核查（高）
节点资源与容量管理（高）
工作负载与命名空间巡检（高）
CI/CD 流水线与构建执行器（Runner/Agent）健康检查（高）
镜像仓库、镜像拉取与权限校验（中）
RBAC 权限与凭据安全审计（中）
网络、DNS 与 Ingress 连通性验证（中）
存储、卷状态与备份/快照演练验证（中）
日志、事件与告警体系复盘（中）
变更与更新评估（补丁、版本与回滚预案）（低）

以下为每项任务的详细说明（含频率、预期效果、风险与注意事项）。

1) 控制平面与核心组件健康监控核查（高）

任务目标
- 确认 API Server、调度器、控制器管理器、核心系统组件（如 CoreDNS、CNI 插件等）处于就绪和健康状态。
操作要点/步骤
- 检查 API Server 就绪探针与错误率（readyz/livez 接口；或监控平台中的可用性指标）。
- 查看 kube-system 命名空间内关键 Pod 状态与重启次数，关注异常重启/CrashLoopBackOff。
- 核对监控与告警规则是否处于启用状态，无误静音（silence）或告警抑制。
- 若为自管控制平面（非云托管），检查集群证书到期时间与 etcd 健康（仅做只读核查）。
执行频率建议
- 每日：组件状态与告警面板巡检
- 每周：证书与配置有效性核查（自管时）
预期效果
- 关键面（控制平面）稳定可用，快速发现系统性故障。
风险提示和注意事项
- 避免在工作时段对控制面组件做变更；托管控制面不要尝试登录或改动不可见组件。

2) 节点资源与容量管理（高）

任务目标
- 确保节点 CPU/内存/磁盘/ inode 充足，避免资源压力触发驱逐（Eviction）。
操作要点/步骤
- 利用集群指标（如 metrics-server/监控平台）查看节点 CPU、内存、负载、磁盘使用率、压力信号（MemoryPressure、DiskPressure）。
- 检查容器运行时（containerd/docker）数据目录空间，确保镜像与容器日志不积压；确认镜像回收阈值策略已启用。
- 检查节点污点/可调度性，避免关键节点被错误打污点导致资源不可用。
执行频率建议
- 每日：资源使用率与压力信号巡检
- 每周：磁盘空间与日志滚动策略验证
预期效果
- 降低 Pod 被驱逐和调度失败概率，减少构建/测试任务排队。
风险提示和注意事项
- 不在高峰期清理镜像或大规模日志，避免 IO 抖动；清理前确认无正在使用的镜像/卷。

3) 工作负载与命名空间巡检（高）

任务目标
- 快速识别异常 Pod/Deployment/Job（如 Pending、CrashLoopBackOff、镜像拉取失败）。
操作要点/步骤
- 全量查看各命名空间的工作负载状态；重点关注：副本数不达标、重启频繁、长时间 Pending 资源不足、镜像拉取异常。
- 检查 HPA（水平自动伸缩）和资源配额（ResourceQuota）是否合理，避免过度消耗或资源争用。
- 对关键开发命名空间配置 LimitRange（限制默认 CPU/内存请求/上限），防止“资源黑洞”应用。
执行频率建议
- 每日：异常工作负载清单导出与跟踪
- 每周：HPA 与资源配额合理性复核
预期效果
- 降低构建/测试中断，缩短问题定位时间。
风险提示和注意事项
- 巡检阶段仅做只读与标注，涉及修复需在非高峰期并通过变更流程。

4) CI/CD 流水线与构建执行器健康检查（高）

任务目标
- 确保流水线触发、执行与回传正常，Runner/Agent（执行 Pod）稳定。
操作要点/步骤
- 检查流水线队列长度、平均等待/执行时长、成功率与失败模式（例如拉取依赖超时）。
- 核查 Runner/Agent Pod 数量与资源分配，避免并发不足或过量占用。
- 验证与 VCS（代码仓库）Webhook 及凭据有效性，防止触发失败；清理过期/无用凭据。
- 检查制品（Artifacts）与缓存（例如构建缓存）保留策略，防止存储爆满。
执行频率建议
- 每日：流水线健康与队列监控
- 每周：凭据有效性、并发与资源配置评审
预期效果
- 提升交付效率，减少“卡队”与重复失败。
风险提示和注意事项
- 不在高峰期调整并发上限；凭据更新需验证回滚方案，避免流水线中断。

5) 镜像仓库、镜像拉取与权限校验（中）

任务目标
- 确保镜像可拉取、权限正确、镜像来源可信且可追溯。
操作要点/步骤
- 巡检 ImagePullSecret（镜像拉取凭据）有效性与绑定；检查近期是否有 ImagePullBackOff。
- 建议开发镜像使用明确标签（避免 latest），并保留构建元数据（来源提交、构建时间）。
- 评估镜像清理与保留策略（保留近 N 个版本），定期扫描高危漏洞（使用通用镜像扫描工具）。
执行频率建议
- 每日：拉取失败与异常告警
- 每周：凭据有效性、标签规范与高危漏洞复核
预期效果
- 降低拉取失败与环境污染风险，提升问题回溯能力。
风险提示和注意事项
- 不要在运行中的服务镜像上强制回收；清理策略应先模拟再执行。

6) RBAC 权限与凭据安全审计（中）

任务目标
- 最小权限原则（Least Privilege），避免过度授权与长期有效敏感凭据。
操作要点/步骤
- 审查 ClusterRole/Role 与绑定关系，定位广域（集群级）高权限绑定，收敛至命名空间级最小集。
- 检查 ServiceAccount 的使用范围与 Token 生命周期，避免共享账户或持久 Token。
- 对 Secrets 的读写路径进行梳理，确保敏感数据不被日志或配置泄露。
执行频率建议
- 每周：RBAC 巡检与调整建议
- 每月：凭据轮换计划评估与演练
预期效果
- 降低误操作和横向移动风险，满足基本合规要求。
风险提示和注意事项
- 调整 RBAC 前先离线核对影响范围；对高权限绑定实行“先降级试点，再全量收敛”。

7) 网络、DNS 与 Ingress 连通性验证（中）

任务目标
- 确认服务发现、东西向（Pod-Pod）与南北向（Ingress/出口）流量正常。
操作要点/步骤
- 检查 CoreDNS 就绪与延迟，定期用临时调试 Pod 测试域名解析（如解析 kubernetes.default）。
- 验证 ClusterIP、Headless Service 的连通性；抽样调用关键内部 API。
- 检查 Ingress 控制器 Pod 状态与路由规则变更是否生效；核查常见 4xx/5xx 峰值。
- 若启用 NetworkPolicy（网络策略），确认最新策略未误伤必须流量。
执行频率建议
- 每日：DNS/Ingress 简单探测
- 每周：服务连通性抽样与错误率分析
预期效果
- 及时发现网络抖动与路由异常，减少“环境不稳”的误判。
风险提示和注意事项
- 变更 Ingress/NetworkPolicy 需灰度发布；先验证小范围命名空间。

8) 存储、卷状态与备份/快照演练验证（中）

任务目标
- 确保存储类（StorageClass）正常、PV/PVC 绑定健康；关键资源有可用的备份与还原路径。
操作要点/步骤
- 巡检 PV/PVC 状态、容量利用率与扩容策略（如支持在线扩容）。
- 验证默认 StorageClass 设置正确；检查失败的卷绑定与挂载事件。
- 如已启用 CSI 快照/备份工具，按计划做还原演练到隔离命名空间（不覆盖现网数据）。
- 导出关键命名空间配置清单（只含配置类资源，敏感信息需脱敏/加密）作为最小化“配置备份”。
执行频率建议
- 每周：卷健康与容量巡检
- 每月：快照/还原演练（在隔离环境）
预期效果
- 降低数据丢失与环境恢复失败风险，缩短恢复时间。
风险提示和注意事项
- 备份与还原演练在非生产命名空间进行；不得在业务时段对存量卷做破坏性操作。

9) 日志、事件与告警体系复盘（中）

任务目标
- 形成“发现-定位-告警-改进”的闭环，提升可观测性（观测、记录、告警能力）。
操作要点/步骤
- 汇总近24小时 Warning/高优先级事件；比对过去一周的趋势。
- 检查集群与应用日志采集是否完整（丢日志、字段缺失、过期策略）。
- 回顾本周触发的关键告警，优化阈值与抑制规则，避免告警疲劳。
执行频率建议
- 每日：关键告警与事件回顾
- 每周：阈值优化与规则完善
预期效果
- 降低噪音、提升告警质量与响应速度。
风险提示和注意事项
- 调整告警阈值需保留历史版本；避免一次性下调过多导致漏报。

10) 变更与更新评估（补丁、版本与回滚预案）（低）

任务目标
- 跟踪 Kubernetes/运行时/插件的补丁与安全通告，制定低风险更新与回滚计划。
操作要点/步骤
- 每月评估可用补丁（包含节点操作系统、容器运行时、CNI/DNS 插件）。
- 在开发集群内设立“试点命名空间/节点池”做小范围验证（Canary），通过后再计划全域。
- 维护标准回滚预案（遇到异常可快速恢复到前版本）。
执行频率建议
- 每月：版本与补丁评估；必要时灰度验证
预期效果
- 在保证稳定的前提下获取安全修复与功能改进。
风险提示和注意事项
- 遵循变更窗口与审批；先有回滚包与镜像缓存再实施更新。

执行频率建议（汇总）

每日（工作日）：1 控制面/组件健康、2 节点资源、3 工作负载巡检、4 CI/CD 健康、7 DNS/Ingress 简测、9 关键告警复盘
每周：1 证书/配置核查（自管时）、2 磁盘与日志策略、3 HPA/配额复核、4 凭据与并发配置、5 镜像与漏洞复核、7 连通性抽样、8 卷与容量巡检、9 告警规则优化
每月：6 RBAC 深度审计与凭据轮换评估、8 备份/快照还原演练（隔离环境）、10 版本与补丁评估与试点

预期效果说明（总体）

稳定：控制面与节点资源持续健康，降低因资源枯竭、组件异常导致的停摆
高效：CI/CD 流水线顺畅，减少等待与失败重试
安全：镜像来源可控、权限最小化、凭据合规，减少泄露与越权风险
可恢复：存储与配置具备可验证的恢复路径，缩短恢复时间
可观测：日志、事件、告警构成闭环，问题可被快速发现与定位

风险提示和注意事项（总体）

变更最小化：日常任务以只读巡检、验证与记录为主；涉及变更须经过审批与窗口
托管差异：若为云托管控制面，避免对不可见组件进行任何操作；只做健康核查
数据安全：导出配置或备份时，严禁明文保存敏感信息；采用加密与访问控制
分级灰度：网络策略、Ingress、RBAC 等需先灰度、后全量
性能影响：镜像清理、日志压缩等 IO 密集操作应避开高峰时段，必要时限流
回滚预案：任何可能影响稳定性的调整，必须先准备回滚方案并完成演练

上述清单覆盖监控、备份、更新、优化、权限与安全等核心运维环节，结合开发环境“低关键等级”的特点，以高性价比、低风险的维护动作为主，可直接纳入你的日常运维计划与SOP。

📖 如何使用

⚡ 30秒出活：复制 → 粘贴 → 搞定

与其花几十分钟和AI聊天、试错，不如直接复制这些经过千人验证的模板，修改几个 {{变量}} 就能立刻获得专业级输出。省下来的时间，足够你轻松享受两杯咖啡！

加载中...

💬 不会填参数？让 AI 反过来问你

不确定变量该填什么？一键转为对话模式，AI 会像资深顾问一样逐步引导你，问几个问题就能自动生成完美匹配你需求的定制结果。零门槛，开口就行。

转为对话模式 →

🚀 告别复制粘贴，Chat 里直接调用

无需切换，输入 / 唤醒 8000+ 专家级提示词。插件将全站提示词库深度集成于 Chat 输入框。基于当前对话语境，系统智能推荐最契合的 Prompt 并自动完成参数化，让海量资源触手可及，从此彻底告别"手动搬运"。

即将推出

🔌 接口一调，提示词自己会进化

手动跑一次还行，跑一百次呢？通过 API 接口动态注入变量，接入批量评价引擎，让程序自动迭代出更高质量的提示词方案。Prompt 会自己进化，你只管收结果。

发布 API →

🤖 一键变成你的专属 Agent 应用

不想每次都配参数？把这条提示词直接发布成独立 Agent，内嵌图片生成、参数优化等工具，分享链接就能用。给团队或客户一个"开箱即用"的完整方案。

创建 Agent →

✅ 特性总结

一键生成10项可执行维护清单，覆盖监控、备份、更新与优化，日常巡检不再遗漏。

自动识别系统类型与环境重点，按业务关键等级给出差异化维护策略。

内置任务优先级与执行顺序，先急后缓，帮助团队高效分配人力与时间。

为每项任务提供简明操作要点与注意事项，减少走查成本，新手也能上手。

自动标注执行频率与周期建议，支持日/周/月节奏，形成稳定运维节拍。

集成风险提示与回退建议，避免高风险操作，保障核心系统稳定运行。

适配服务器、网络设备、数据库与云平台，多场景一套模板快速调用。

根据维护重点与合规要求输出标准化内容，轻松用于审计、汇报与交接。

支持团队协作的清单化管理，便于分派、跟踪与复盘，降低重复劳动。

结合性能与安全双维度提出优化方向，让系统持续健康、响应稳定。

🎯 解决的问题

以最少输入，快速生成一份“可直接开工”的IT日常运维清单：10项高优先级任务＋执行方法＋频率建议＋预期效果＋风险提示。根据系统类型、关注点、重要等级与环境自动定制，帮助管理者统一标准、工程师减少遗漏、文档可追溯，最终显著提升系统稳定性与安全性，缩短准备时间，降低运维成本。

🕒 版本历史

当前版本

v2.1 2024-01-15

优化输出结构，增强情节连贯性

✨ 新增章节节奏控制参数
🔧 优化人物关系描述逻辑
📝 改进主题深化引导语
🎯 增强情节转折点设计

v2.0 2023-12-20

重构提示词架构，提升生成质量

🚀 全新的提示词结构设计
📊 增加输出格式化选项
💡 优化角色塑造引导

v1.5 2023-11-10

修复已知问题，提升稳定性

🐛 修复长文本处理bug
⚡ 提升响应速度

v1.0 2023-10-01

首次发布

🎉 初始版本上线

COMING SOON

版本历史追踪，即将启航

记录每一次提示词的进化与升级，敬请期待。

💬 用户评价

4.8

⭐⭐⭐⭐⭐

基于 28 条评价

5星

85%

4星

12%

3星

👤

电商运营 - 张先生

⭐⭐⭐⭐⭐ 2025-01-15

双十一用这个提示词生成了20多张海报，效果非常好！点击率提升了35%，节省了大量设计时间。参数调整很灵活，能快速适配不同节日。

效果好节省时间

👤

品牌设计师 - 李女士

⭐⭐⭐⭐⭐ 2025-01-10

作为设计师，这个提示词帮我快速生成创意方向，大大提升了工作效率。生成的海报氛围感很强，稍作调整就能直接使用。

创意好专业

COMING SOON

用户评价与反馈系统，即将上线

倾听真实反馈，在这里留下您的使用心得，敬请期待。

加载中...

AI开发者

产品经理

商业分析师

电商运营人员

法律从业者

财务规划师

市场营销人员

品牌营销人员

新媒体运营

提示词工程

数据分析

写作

内容创作

内容营销

SEO

工具

商业战略

策略

DeepSeek

OpenAI

Claude

Gemini

Grok

Qwen

Kimi

本地化翻译器

参数填写器

Web chat适配器

个性化调校

API动态调校

IT系统运维任务清单生成器

🎯 可自定义参数（4个）

🎨 效果示例

系统类型概述

维护任务清单（10项）

每项任务的详细说明

执行频率建议（总体节奏）

预期效果说明

风险提示和注意事项（总体）

系统类型概述

维护任务清单（10项）

每项任务的详细说明

1) 实例与告警日志健康检查

2) 归档日志与恢复区（FRA）容量与状态检查

3) 备份链完整性验证（RMAN）

4) 控制文件与参数文件（SPFILE/PFILE）基线与变更审计

5) 慢 SQL 识别与定点跟踪（无许可依赖方法优先）

6) 统计信息与执行计划稳定性维护

7) 表空间、数据文件与用户配额治理

8) 会话、锁与资源管理检查

9) 调度作业与批处理运行状态检查

10) 安全与合规快检（登录、监听、补丁信息）

执行频率建议（汇总）

预期效果说明（总体）

风险提示和注意事项（总体）

系统类型概述

维护任务清单（10项）

1) 控制平面与核心组件健康监控核查（高）

2) 节点资源与容量管理（高）

3) 工作负载与命名空间巡检（高）

4) CI/CD 流水线与构建执行器健康检查（高）

5) 镜像仓库、镜像拉取与权限校验（中）

6) RBAC 权限与凭据安全审计（中）

7) 网络、DNS 与 Ingress 连通性验证（中）

8) 存储、卷状态与备份/快照演练验证（中）

9) 日志、事件与告警体系复盘（中）

10) 变更与更新评估（补丁、版本与回滚预案）（低）

执行频率建议（汇总）

预期效果说明（总体）

风险提示和注意事项（总体）

示例详情

📖 如何使用

✅ 特性总结

🎯 解决的问题

🕒 版本历史

💬 用户评价

提交反馈

热门提示词

热门角色

热门业务