# Hermes Incident Commander

> 仓库地址：https://github.com/Lethe044/hermes-incident-commander
> 作者/组织：Lethe044
> 成熟度：beta
> 分析日期：2026-04-15

## 一句话总结
基于 Hermes Agent 构建的自主 SRE agent，实现从故障检测、诊断、修复到学习的全生命周期自动化。

## 项目定位与架构
Incident Commander 针对的痛点非常明确：P0 incident 的平均 MTTR 为 45-60 分钟，大量时间消耗在人工排查和响应上。它将 Hermes Agent 的多项能力整合为一个连贯的 SRE 工作流。

五阶段检测 pipeline：系统体征采集（CPU/memory/disk/services）→ 严重度分类（P0-P3）→ 根因分析 → 分层修复 → 解决验证。当前覆盖 5 种主要场景：nginx crash、磁盘耗尽、内存泄漏、CPU runaway、systemd unit 故障。

## 关键技术特性
- **Persistent Memory**：构建基础设施拓扑图，学习特定环境的故障模式
- **Skill Auto-Creation**：每次新型 incident 后自动生成预防 playbook
- **Cron Health Checks**：每 5 分钟健康检查 + 每小时全量审计
- **Alert Gateway**：P0/P1 实时通知到 Telegram/Discord/Slack
- **Parallel Subagents**：跨基础设施层并行调查
- **Post-incident Learning**：结构化报告 + prevention skill 存储到 `~/.hermes/skills/`

## 设计亮点与创新
闭环学习机制是核心亮点——每次 incident 不仅被解决，还会生成 prevention skill，使同类问题的下次响应更快。这种"越用越强"的模式完美利用了 Hermes 的 skill 系统。

## 局限性与风险
- 5 种场景覆盖面有限，复杂分布式系统的故障模式远不止此
- 自动修复（auto-remediation）在生产环境需要极高的信任级别
- beta 阶段，建议先在 staging 环境验证

## 与生态系统的关联
是 Hermes 在 **SRE/DevOps 自动化**方向的标杆项目。与 Wizards-of-the-Ghosts 的 DevOps skill 互补但方法不同——Incident Commander 是端到端 agent，WotG 是 skill 库。