1、转眼间，我方才意识到云计算已经有 15 年的历史了。这些年，云计算产品也在悄然之间，随着技术的发展而不断的变化，比如云原生、Serverless、大模型这些技术，都为云计算带来了新的可能。我特别喜欢丘吉尔的一句话：“能看见多远的过去，就能看到多远的未来。”所以，第一个话题，其实也是今天最重要的话题，我想请李力老师和我们慢慢聊聊，云计算这些年，都经历了哪些重要的发展阶段？

从我的角度，大概分为四个阶段：
一、探索阶段，2013年之前。从应用的角度切入，还是从machine的角度切入。早期的app engine和map reduce
二、技术发展阶段，2013-2015/2016。明确了要做IaaS，那么从计算虚拟化、网络虚拟化、存储虚拟化加上弹性调度框架，Microservice Flow。dag schedule vs rpc。共享信道（以太网）、事务处理（SQL）、逻辑抽离（CGI）、易于追溯（GIT）
三、业务爆发阶段，2015/2016-2020。对应移动互联网的蓬勃发展时期。乐观无锁共享调度，快速调度、快速恢复。2018年的时候做到每分钟创建5000台云服务器。开始在裸金属和异构计算上发力
四、全新的阶段。大算力和产业互联网时代。
实现细节离用户越来越远，操作体验离用户越来越近。
计算能力自下而上的产品化和服务化。


2、从这些发展阶段中，可以看出来云计算产品的大趋势和大方向吗？
核心在于做好基础设施，基础但重要
实现细节离用户越来越远，操作体验离用户越来越近。
计算能力自下而上的产品化和服务化。
几个方向： 1. 云原生化；2. 高性能计算；3. 分布式云；4. 轻量云


3、这些变化，对于用户而言，意味着什么呢？我们也在创业，像我们这样的创业公司，构建软件已经全部在云之上了。
我们当然是希望用户在啥也不感知的情况下就获得最好的基础设施。
除此以外，用户可以在新技术上有一些投入，比如云原生、大模型和更多的云上实践
未来有希望与云结合成为解决方案的产品化，更进一步做到自下而上的产品化和服务化


4、我们再来聊聊大模型。大模型时代，云计算产品会有什么样的变化？是不是 GPU 更好卖了，哈哈。看到这两天，Google Cloud Next 大会上，Google 花了很大篇幅讲他们的 AI 能力。
是的，肯定是供不应求的。腾讯也有自己的强大的ai能力储备
从这个角度来看，gpu也面临着新的机会和挑战
gpu的使用门槛较高，而且从hosting往computing转移，那么对于gpu服务器而言，它让更多用户望而却步
使用云原生的方式让hcc离用户更近
除此以外，还有整个taco套件，在软件层面帮助用户


[[Pasted Graphic.jpg]]


5、咱们具体到腾讯云的 GPU 云服务器，能和我们聊聊你们的这款产品吗？它的设计思路，以及有哪些选项？
训练和推理
训练有星脉网络
1、其中的AngelPTM训练框架：混元同款训练框架，能够帮助大模型训练显存上限、性能大幅提高
2、其中的TCCL自研通讯库：减少40%网络拥塞和80%跨LA组流量，降低训练过程中的通讯占比，提高利用率

目前TACO加速套件，已支持通过HCC集成。	


网络：提供网络TCCL组件，适配星脉网络，实现高性能集群通信；
亮点：
1. 双网口动态聚合优化；解决开源NCCL未适配bond口速率的问题；
2. 全局hash路由；          解决hash选路冲突的问题；
3. 拓扑感知亲和特性，减少跨LC流量50%～80%； 解决跨频繁LC通信的延时问题；
4. 支持nvlink sharp ,进一步提升训练过程all reduce性能；
基于以上优化，能够提升RDMA高性能网络通讯效率，减少训练过程中的通讯占比，将GPU卡利用率维持在一个较高的水平上