本次会议旨在解决海光GPU在客户POC测试中遇到的精度问题，并明确了后续的协作计划与资源支持。

## 小结
**1. 项目背景与客户需求**
- 客户为自动驾驶算法公司，正从感知模型过渡到更复杂的端到端模型，对算力需求巨大。
- 客户原计划在3月底交付Demo，8月量产，急需在春节前完成400卡海光GPU集群的部署与试运行。
- 客户已接受用400卡海光GPU替代部分H20卡，这是一个重要的国产化替代机会。

**2. 当前遇到的核心问题**
- **精度问题**：海光DCU上训练的模型在IP16混合精度下，tensor数值误差较大（约1e-1），远高于客户可接受的1e-3阈值，导致loss曲线出现跳变甚至崩溃（Nan），无法与H20平台的训练结果对齐。
- **版本锁定**：客户为规避因软件版本升级带来的未知风险，坚持使用其业务已验证过的PyTorch 2.0.1版本，而非海光提供的更新版本。
- **性能问题**：当前海光DCU的开箱性能仅为H20的50%，需进一步优化。

**3. 解决方案与协作计划**
- **海光侧承诺**：将投入全部资源全力支持此项目，将其作为最高优先级。计划投入多支并行团队，分别针对Transformer、卷积及BN等算子进行专项调试。
- **调试策略**：优先在客户指定的PyTorch 2.0.1版本上解决问题；同时利用海光内部的工具，逐层验证各算子的前向与反向传播精度。
- **资源与协作**：
    - 海光将提供线上环境支持，若资源紧张可临时调用。
    - 双方将建立每日/每两天的进展同步机制，由@@(16802000000037155284692)@@统一同步。
    - 海光将协调各层级的接口人，以便腾讯团队的专项人员能获得必要的登录权限。

## 待办
**1. 基线数据获取**
- @@(kehuanfeng)@@需与客户沟通，争取获取其业务在H20平台上的收敛loss及参数配置，以便进行更有效的精度对比验证。

**2. 建立沟通机制**
- @@(144115216846736373)@@需与@@(16802000000037155284692)@@及海光团队协商，尽快确定并建立双方的日常沟通机制（如日报/周报），确保信息同步。

**3. 协调调试资源**
- @@(lidongchen)@@需协调海光团队为各专项调试团队（如框架、算子等）指定接口人，并协助开通必要的登录权限。

**4. 明确技术接口人**
- 海光侧需明确本次项目的总体技术接口人，由@@(144115383037004329)@@（慧文）担任。

**5. 提供H20平台基线**
- @@(144115383037004329)@@需协助提供H20平台的golden base，用于在春节期间进行基线校验。