
![[image-30.png]]

![[image-31.png]]

本次会议主要汇报了AI基础设施的国产卡适配、存储规划、CPU资源需求及统一通信库OpenUCL的建设进展，并明确了硬件领域的年度OKR。
小结
​​1. AI基础设施规划与进展​​

​​国产卡适配与部署​​

国产卡（如昆仑芯P800、寒武纪590、海光BW1000）因NVIDIA卡断供已开始适配和测试，部分已在使用。
推荐业务在测试关键节点分批下单，以缓解等待周期并保障交付进度。
26年预算下，大模型卡已下单占去年预算的86%，小模型卡也已开始适配并有业务下单。


​​存储规划​​

为提升大模型推理性能，将建设独立的分布式存储集群以承载KV Cache，该方案已推进。
针对近期磁盘涨价和供应紧张的情况，已制定SSD和HDD的供应计划，并推动将部分业务的COS存储从外挂S3迁移至内部1FS。


​​CPU资源需求​​

随着数据处理、Agent AI等业务的火爆，AI业务提出了额外的CPU资源需求，总计约340万核。
讨论了CPU选型（如图灵C/D系列）、内存配置（如强化训练要求1.5T以上）及网络配置（如混元业务对RDMA网络的强诉求）等问题。



​​2. OpenUCL统一通信库建设​​

​​背景与痛点​​

现状：各厂商通信库碎片化，缺乏统一标准，导致异构环境下互通困难、性能下降、测试不统一等问题。


​​解决方案​​

构建一个统一的通信库OpenUCL，通过硬件能力抽象，为上层业务提供屏蔽底层异构硬件的统一服务。
方案分为三层：硬件抽象层、通用组件层、应用层。


​​团队协作与规划​​

由网评负责架构设计和厂商适配，新星海、实验室提供硬件指导和测试支持，云驾评、AI信息等业务团队共同参与需求分析和开发。
整体规划分为三个阶段：初期优化现有厂商库、构建统一框架、最终实现一个全面统一的通信框架。



​​3. 硬件领域年度OKR​​

​​成本降低​​

继续推进服务器能耗优化，覆盖更多机型。
新增内存优化专项，通过工具和压缩技术提升内存利用率。
推广可编程交换机，预计带来150T峰值流量和显著的替换收益。


​​服务效率与稳定性​​

推进OPEN UCL统一通信库、AI Infra Co-Design等重点项目。
新增硬件安全技术方向。
成立异常硬件诊断O/TM，以提升基础设施稳定性。



待办
​​1. OpenUCL统一通信库​​

allenlv(吕建超)需与brucetao(陶阳宇)对接，将广告业务的通信需求纳入后续的统一通信库建设中。
allenlv(吕建超)需与dickzhu(朱健琛)和yachenwang紧密合作，共同研究并实现计算与通信的重叠（Overlap）优化。
allenlv(吕建超)需与dickzhu(朱健琛)跟进精度对齐问题，确保不同硬件间的计算精度一致。

​​2. CPU资源规划​​

dickzhu(朱健琛)需联系IO Infra，刷新并获取强化学习团队对CPU核心数和性能的具体需求。

​​3. OpenUCL协同评审​​

dashwei(魏旸)将在群内同步O/TM协同评审的投票链接，需各位委员在今天内完成打分。
