# Hermes WxTrain Plugin

> 仓库地址：https://github.com/FahrenheitResearch/hermes-wxtrain-plugin
> 作者/组织：Fahrenheit Research
> 成熟度：experimental
> 分析日期：2026-04-15

## 一句话总结
全 Rust 实现的气象 ML 训练数据 pipeline，通过自然语言命令构建 HRRR/GFS/ERA5 训练数据集。

## 项目定位与架构
WxTrain 是一个面向气象 ML 研究者的 Hermes plugin，解决"从气象模型数据构建 ML 训练数据集"的端到端问题。与其他 Python-heavy 的 ML pipeline 不同，它是全 Rust 实现，无 Python/C/Fortran 依赖。

8 个专用工具覆盖完整工作流：数据获取 → 文件分析 → 科学计算 → 可视化 → 数据集规划 → array 组装。支持 architecture-aware planning，针对 Swin Transformer、Diffusion models、Classical ML、Graph networks 生成不同的训练规格。

## 关键技术特性
- **All-Rust Pipeline**：零 Python/C/Fortran 依赖
- **Efficient Data Acquisition**：byte-range subsetting，将 ~125MB 下载压缩到 ~500KB
- **Architecture-aware Planning**：Swin Transformer（25-ch）、Diffusion（13-ch）、Classical ML（22-ch）、Graph networks 各有优化规格
- **Multiple Weather Models**：HRRR（3km）、GFS、ERA5 reanalysis、ECMWF IFS
- **Multiple Output Formats**：NPY、Parquet、WebDataset、Zarr
- **Thermodynamic Calculations**：theta、relative humidity、theta-e 计算

## 设计亮点与创新
byte-range subsetting 将下载量压缩 250 倍，这对处理 TB 级气象数据至关重要。architecture-aware planning 自动为不同 ML 架构生成最优训练规格，减少了研究者的配置工作。

## 局限性与风险
- 极度专业化，用户群限于气象 ML 研究者
- experimental 阶段，生产稳定性待验证
- 全 Rust 实现虽然高效但社区贡献门槛较高

## 与生态系统的关联
与 hermes-weather-plugin（同一作者）形成完整的气象能力栈：weather-plugin 做分析和可视化，wxtrain 做 ML 训练数据准备。与 tinker-atropos 的 RL 训练能力形成潜在协同。
