# Hermes WSL Ubuntu

> 仓库地址：https://github.com/metantonio/hermes-wsl-ubuntu
> 作者/组织：metantonio (Antonio Martinez)
> 成熟度：production
> 分析日期：2026-04-15

## 一句话总结
在 WSL2 Ubuntu 环境中端到端部署 Hermes Agent + llama.cpp + Qwen3.5 的完整指南，支持 CUDA GPU 加速的本地化运行。

## 项目定位与架构
Hermes WSL Ubuntu 解决了 Windows 用户运行 Hermes Agent 的环境障碍——Hermes 官方不原生支持 Windows，本项目通过 WSL2 提供了生产级的本地部署方案，包括 GPU 加速推理。

架构连接五个核心组件：**User Interface**（Hermes HUDUI，端口 3001）→ **Core Agent**（Hermes Agent orchestrator）→ **Model Inference**（llama.cpp server，端口 8080）→ **Browser Control**（Camofox，端口 9377）→ **Model Weights**（Qwen3.5 GGUF 量化模型）。支持 NVIDIA CUDA（Linux/WSL）和 Apple Metal（macOS）双路 GPU 加速。

## 关键技术特性
- **本地 AI 执行**：完全脱离云依赖的 LLM 推理
- **GPU 加速**：CUDA (NVIDIA) / Metal (Apple Silicon) 支持
- **模型选择**：Qwen3.5 9B/14B，三种量化级别（Q4_K_M 5.5GB / Q5_K_M 6.5GB / Q5_K_L 6.8GB）
- **浏览器自动化**：集成 Camofox server 实现 web 交互
- **Web 界面**：Hermes HUDUI 提供图形化交互层
- **API 服务**：OpenAI 兼容 REST endpoint
- **Telegram 集成**：bot gateway 支持

## 设计亮点与创新
将 Hermes Agent 的完整功能栈（agent + inference + browser automation + web UI）打包为一个可复现的本地部署方案，是对 "local-first AI" 理念的完整实践。量化模型的三档选择（speed / balance / quality）让用户根据硬件条件灵活取舍。自动化安装脚本降低了 WSL2 + CUDA + llama.cpp 的复杂配置门槛。

## 局限性与风险
硬件门槛较高：GTX 1060+ 最低，12GB+ VRAM 推荐，16GB RAM 最低。Qwen3.5 模型在 agent 场景下的 tool calling 能力可能不如 Claude / GPT-4 级别模型。WSL2 环境的 GPU passthrough 性能可能低于原生 Linux。CUDA toolkit 安装和版本兼容性可能带来配置问题。

## 与生态系统的关联
是 Hermes 在 Windows 平台的唯一 production 级部署方案，填补了官方 WSL2 支持的空白。llama.cpp + Qwen3.5 的组合展示了 Hermes 与开源 LLM 的离线运行能力。与其他需要云 API 的 Hermes 应用形成互补，提供了完全本地化的替代路径。