GPU本月的重点，我们主要面向如DeepSeek的AI推理场景提供多元供应、性能提升两方面能力。

<span style="font-family:.PingFangUITextSC-Regular;">【趋势一】政策有收紧趋势，</span>NVIDIA训练卡供给减少：以H20为主的GPU卡型预估缺口超2.5万卡，推理卡影响相对可控。
<span style="font-family:.PingFangUITextSC-Regular;">【方案：引入多卡型和海外</span>NCP合作来匹配需求增长】
<span style="font-family:.PingFangUITextSC-Regular;">「国内」评估昇腾、</span>MI308X等卡型在推理场景下的性价比并推进云产品化。优先支持与云上PaaS、SaaS服务对接，以提供屏蔽卡型差异的AI推理服务；
<span style="font-family:.PingFangUITextSC-Regular;">「海外」</span>NCP合作，与三部、太极业务以统一的IaaS技术底座方案推进，兼容多业务使用需求，目前已进入采购招标阶段。方案上在合规和安全的要求下，做到使用体验和调度能力不变，降低不同业务的使用复杂度；

<span style="font-family:.PingFangUITextSC-Regular;">【趋势二】资源短缺情况下，客户更关注推理部署的性能优化。</span>
<span style="font-family:.PingFangUITextSC-Regular;">【方案：面向</span>KA及开发者通过技术服务，在有限的资源下发挥最大效能】
<span style="font-family:.PingFangUITextSC-Regular;">「面向</span>KA客户」提供MTP模型抓取实现投机采样（小模型辅助推理加速）、TCCL性能优化实现专家并行等最佳实践，支持如小红书、中信保诚、和睦家、金蝶等客户实现推理吞吐提升20%～50%。同时，持续加入PD分离、FlashInfer等更多加速能力。
<span style="font-family:.PingFangUITextSC-Regular;">「面向中小企业及开发者」支持用户快速搭建推理环境，通过蒸馏量化、卡型屏蔽、知识库管理界面，降低开发者部署门槛和卡型要求，消耗数千卡</span>T4/V100等库存卡型。近期新增钱大妈、杏联健康、智识神工、固加科技等企业客户，覆盖零售、医疗、金融多个领域。