# Hermes Skill Distillation

> 仓库地址：https://github.com/beardthelion/hermes-skill-distillation
> 作者/组织：beardthelion
> 成熟度：experimental
> 分析日期：2026-04-15

## 一句话总结
通过执行真实世界 Hermes Agent 任务来生成高质量训练 trajectory，构建 "真实任务优于合成 benchmark" 的闭环学习系统。

## 项目定位与架构
Hermes Skill Distillation 解决了 agent 训练数据质量问题——核心洞察是 "real-world grounded trajectories beat synthetic benchmarks"。系统将真实的 Hermes agent 任务执行转化为可直接用于 fine-tuning 的 SFT 数据。

架构以 `RealWorldTaskEnv` 为核心环境，执行 30 个覆盖 coding / web research / file operations / data analysis / system administration 的多样化任务。每个 trajectory 通过多维奖励函数自动评分，输出 JSONL 格式训练数据。支持与 Atropos 直接集成进行 live RL 训练。

## 关键技术特性
- **RealWorldTaskEnv**：30 个真实世界任务的自定义 Hermes 环境
- **多维奖励结构**：Completion 60%（ToolContext 验证）+ Efficiency 20%（惩罚过多 tool 调用）+ Recovery 20%（LLM 评判错误恢复能力）
- **SFT 数据导出**：生成 Atropos fine-tuning 兼容的 JSONL 格式
- **Live RL 集成**：通过 GRPO 与 Atropos 直接连接进行持续训练
- **对比分析**：demo 工具对比 vanilla Hermes-4-14B 与 fine-tuned 版本的性能差异

## 设计亮点与创新
奖励函数的三维设计是核心创新——不仅考虑任务是否完成（completion），还评估执行效率（efficiency）和错误恢复能力（recovery）。这比简单的成功/失败二分法更能捕捉 "好的 agent 行为" 的细微差别。ToolContext 验证提供了客观的完成度评估，避免了纯 LLM 评判的不稳定性。

## 局限性与风险
Experimental 阶段，hackathon 项目。30 个任务的覆盖面有限，可能不足以代表真实使用场景的多样性。依赖 Modal backend 运行。奖励函数的权重（60/20/20）缺乏系统化调优依据。对比分析的统计显著性未明确。对 Hermes-4-14B 和 OpenAI models 的双重依赖增加了成本。

## 与生态系统的关联
是 Hermes post-training pipeline 的关键组件，与 Atropos RL 直接集成。与 hermes-research-agent 互补——后者提供研究工作流框架，本项目专注于训练数据生成。体现了 Nous Research "self-improving agent" 愿景的核心技术路径：从真实任务中提取训练信号。
