# NemoHermes

> 仓库地址：https://github.com/Hmbown/NemoHermes
> 作者/组织：Hmbown
> 成熟度：experimental
> 分析日期：2026-04-15

## 一句话总结
一个本地 NVIDIA AI 服务的能力注册和路由系统，自动发现 vLLM/SGLang/NIM 等服务并按角色（chat/vision/STT/TTS）路由任务。

## 项目定位与架构
NemoHermes 解决的是 NVIDIA GPU 环境下多 AI 服务发现和统一调度的问题——当本地运行着 vLLM、SGLang、NIM、faster-whisper、Piper 等多个服务时，NemoHermes 自动发现它们、归一化为统一注册表、按能力路由请求。

三层架构：Discovery probes（检测运行中的服务）→ Registry（归一化合并，缓存至 `~/.nemohermes/registry.json`，5 分钟 TTL）→ Routing（按 role + constraints 匹配最优 endpoint）。

可通过 `npx nemohermes` 独立使用，也可通过 NemoClaw 集成（`openclaw nemohermes`）。目标平台包括 DGX Spark 和 Mac + Spark 配置。

## 关键技术特性
- **服务发现**：自动检测 vLLM、SGLang、NIM、faster-whisper、Piper 等 NVIDIA AI 服务
- **能力路由**：按 role（chat/vision/STT/TTS）+ constraints（streaming/tool calling/structured output/backend preference）路由
- **注册表缓存**：`~/.nemohermes/registry.json`，可配置 TTL（默认 5 分钟）
- **环境配置**：PROFILE、PREFER_LOCAL、ALLOW_CLOUD_FALLBACK 等灵活控制
- **CLI 工具**：doctor（诊断）、discover（发现）、route（路由）
- **NemoClaw 集成**：通过 openclaw 命令集成

## 设计亮点与创新
"能力优先"的路由哲学是正确抽象——用户关心的是"我需要 vision 能力"，而不是"我要连接端口 8080 的 vLLM"。注册表缓存 + TTL 机制平衡了发现延迟和数据新鲜度。支持 cloud fallback 的可配置项也增加了灵活性。

## 局限性与风险
Alpha 阶段，优化目标限定 NVIDIA 和 DGX Spark 环境。对非 NVIDIA 后端不适用。Node.js/npm 生态可能与 Python 为主的 AI 服务环境存在摩擦。发现准确性、路由选择质量和工作流摩擦是项目当前最关心的反馈维度。

## 与生态系统的关联
与 hermes-blockchain-oracle（MCP 暴露 Solana 数据）和 vessel-browser（MCP 暴露浏览器控制）同属通过协议层扩展 agent 能力的工具。NemoHermes 专注 NVIDIA GPU 基础设施层，为本地推理场景提供智能路由。可与 evey-setup（含 Ollama 本地推理）配合使用。
