# 自研上云的价值

`powellli, 2022-05-11`

[toc]

## 1. 云是什么？

### 1.1 云是IT基础设施通过标准化和服务化走向工业化的必经阶段



云计算的本质是日益壮大并且复杂的众多IT技术体系的标准化和服务化，对使用方可以降低技术投入成本，提高技术生产效率，是IT基础设施走向大规模工业化的革命性阶段。

```
附：IT技术发展的挑战

在信息化和数字化的浪潮下，IT技术体系在不同应用场景和不同设计原则的影响下，呈现繁荣发展但也逐渐分化的趋势，比如通信协议不兼容、开发语言和开发模式的争执、分布式系统中的不可能三角、敏感信息的安全性挑战等。当业务的复杂性提升时，这些技术组成的系统也就变得更加脆弱和不可信赖，这制约了技术本身的发展，也制约了传统行业数字化的发展进程。

这个问题是曾经汽车业所面临的挑战。汽车是最复杂的民用工业产品之一，在上个世纪初，能源技术、材料技术和机械技术逐渐成熟的情况下，传统的汽车生产方式定制化程度高，导致故障率高并且成本昂贵，很难满足大规模的用户需求。以福特为代表的汽车厂商参照其它行业的发展经验，引入了部件标准化和生产流水线的方案，大幅降本增效，将汽车业真正往自动化和工业化推进。

在IT技术领域，互联网巨头是事实上最早进行相关探索的先行者。这是因为比起别的由IT技术支持的业务方向，互联网的产品形态和服务模式天然需要应对海量的用户、场景和需求，对边际成本的极致追求，促使了互联网巨头的技术体系更加标准化以及技术模块之间的分工协作更合理化。而以IT外包且高度定制化为典型的传统运作模式已经开始难以持续，但目前仍然是其它行业的主流模式。

有趣的是，汽车工业的发展和云计算的发展不仅在思想上相似，它们也刚好是第二次工业革命和第三次工业革命的重要发展阶段。
```

## 2. 云有哪些能力？

作为统一的标准化IT基础设施，从底层的基本计算能力到上层的接口化的AI功能，从遍布世界各地的IDC到安装在开发者电脑中的SDK，所有涉及IT系统全生命周期的功能都是云计算的组成部分。腾讯云目前已经有数百个产品为用户提供服务，它们大多来自于腾讯原有先进技术能力的产品化，也有在云原生浪潮下形成的一系列为云而生的规范化业务架构的产品系列，还有一些针对不同行业的上层解决方案。

![image-20220216173453009](/Users/lili/Library/Application Support/typora-user-images/image-20220216173453009.png)



### 2.1 结合标准化的基础设施，云还提供了最领先的数据管理、安全防护、运行框架等全套技术能力

由于云的产品体系庞大，涉及的技术领域也非常广泛，抽象来看我们大概可以将核心技术分以下几个模块分别阐述：

![image-20220217120542453](/Users/lili/Library/Application Support/typora-user-images/image-20220217120542453.png)

大概可以分为以下几个大的模块：

* 软件定义底层基础设施

* 云原生的开发模式

* 数据存储技术

* 数据分析技术

* 数据通信与展现技术

* 安全技术

### 2.2 云不仅仅是IDC的替代，它在建设方式、开发模式、交互模式和数据保护上均有变革

**云建设方式的变革**

以前是数据是云，现在是云贴近数据，通过遨驰分布式云的技术，我们可以将云建设到用户的数据所在地。

**用户开发模式的变革**

我们提供了从IaaS到PaaS和SaaS的能力，对于用户而言，他可以便捷地在云上获得服务化的数据库、AI、容器能力，也可以通过云开发/微搭以低代码的方式快速搭建云上应用

**用户交互模式的变革**

依托于云的整体产品矩阵，尤其是音视频和物联网等新技术的集成，可实现通往全真互联网的路径。

**数据保护的变革**

从传统的被动安全防护到以数据为核心的可信数据交换、隐私计算等。

### 2.3 “云原生(Cloud Native)”是业务上云的最佳实践的集合，真正发挥云的价值

以云的方式使用云，这就是云原生的涵义。

## 3. 自研为什么要上云？

从战略上看，自研业务本身也是云的目标客户，自研上云是对双方都有利的，并且也有机会互相磨炼，形成更科学和稳定的业务架构。当然在具体推进过程当中，`什么时候上云？` `怎么上云？` `如何评价上云成果？` 都会是需要慎重考虑和不断迭代前进的。

自研业务普遍用户基数大、数据流量大，相对公有云上的外部客户来说也就有更复杂的系统架构和更严格的性能保障要求，以及由此带来的各种差异也共同形成了对自研上云的挑战。

|              | 外部典型业务 | 自研业务 |
| ------------ | ------------ | -------- |
| 业务规模     | 小           | 大       |
| 容灾能力     | 弱           | 强       |
| 架构能力     | 弱           | 强       |
| 云原生接受度 | 强           | 弱       |
|              |              |          |

但随着云上产品能力的逐渐成熟，我们可以看到自研业务上云已经具备了可行性，并且能够在技术、产品和商业化协同上创造更大的价值。

### 3.1 云的产品能力已经基本成熟

腾讯公有云经过多年的发展，在市场上已经得到一定程度的认可，稳居国内一线云厂商，稳定性、性能、灵活性基本满足大型业务的需求。

![image-20220223170023655](/Users/lili/Library/Application Support/typora-user-images/image-20220223170023655.png)

### 3.2 自研上云有利于双方业务发展

云的核心逻辑：部件标准化和生产流水线是一个破而后立的过程，它实际上是解决了复杂系统中稳定性和灵活性的矛盾，就像是“云计算”本身的命名一样，技术的复杂度大多在“云”中对用户不可见，并且用户还能非常容易接入到“云”获得强大的技术能力。云计算统一和协调了IT基础设施，让用户在不用理解技术底层逻辑的同时能获得技术发展的红利，专注于自身的业务创新和业务发展。这也符合社会高度分工的趋势。

自研业务上云，其实也是在内部协同上的必然趋势。云作为统一的技术底座，业务只需要更多关注在业务逻辑上；反过来说，原来自研业务在一些技术上的积累，也可以沉淀到云上形成标准化和可复制的技术能力，减少其它业务的重复投入，整体提升效率。

我们在自研上云的过程中也发现了更具体的协同价值，将在下一节阐述。



## 4. 自研上云的价值

### 4.1 技术上相互促进，优化业务架构

#### 4.1.1 自研业务的极致性能要求，鞭策云基础性能超越友商

相对于公有云上的绝大部分第三方业务，自研业务对性能和稳定性的要求更加极致，比如微信的核心系统PaxosStore对每次操作的响应要求在稳定的区间，这促使了**云的计算虚拟化和网络虚拟化进行了底层的大量调优，使得虚拟化性能逼近物理机**，最终满足了微信和QQ的性能要求。

这保障了自研业务大规模上云的基本条件，在云计算的核心性能指标上也超越友商，相同的优化能力可以直接应用在拼多多等外部客户的海量系统核心业务上。

![image-20220511210633146](/Users/lili/Library/Application Support/typora-user-images/image-20220511210633146.png)

#### 4.1.2 云的灵活迁移能力，有效降低故障影响和机房裁撤成本

相对于传统的IDC模式，云上的计算、网络、存储都经过了一层软件定义的过程，打破了硬件和资源规划上的约束，还可以实现完全不需要硬件参与的灵活迁移，这个操作甚至不会被业务所感知到。

通过云的迁移能力，**可以在故障发生时自动将业务平滑迁移到没有问题的设备**，而不需要业务的感知和参与，减少了传统架构下故障对业务稳定运营的影响，也减少了业务运维手工处理故障的人力成本。另一方面，**迁移能力还可以在机房裁撤的场景下，自动将业务从旧机房迁移到新机房**，极大提升机房裁撤时业务迁移的效率，**从原来长达数月的迁移时间缩短到数天**。

WXG运维团队对迁移能力表示认可，并且验收通过了迁移给业务带来的减少故障和裁撤成本的价值。

#### 4.1.3 自研业务进行云原生改造，公司统一业务运行底座

自研上云之后，业务可使用**标准化的云API接口**，通过软件的方式申请和调度资源，同时可以通过使用**TKE等统一的云原生生态体系**优化业务架构，结合**云上中间件产品能力**，大幅提高生产效率。自研上云不仅是资源上做到统一协调调度，也在**基础技术和框架上做到统一和标准化**。

在线教育团队在上云过程中总结出上云的三次层次：『1.机器和网络的迁移； 2.使用云上中间件服务； 3.往云原生架构演进 』 ，上云并拥抱云原生架构（容器、微服务、devops）后 在 研发效能和服务质量上有显著的提升

Robotics X团队上云过程中拥抱云原生架构，从常备资源池，半手工式发布计算任务变成了提交代码自动发布任务并自动扩容计算节点，资源成本大大降低，单次发布时间从小时级缩短到分钟级

![image-20220511211209960](/Users/lili/Library/Application Support/typora-user-images/image-20220511211209960.png)

### 4.2 产品上相互配合，完善产品矩阵

#### 4.2.1 自研产品融入到云的产品体系，统一对外tob售卖

自研上云不仅在技术上让自研业务和云有了充分的协同，也促进了产品上的融合。云是公司统一的tob接口，已经建立起完善的tob服务体系，自研产品可以依托于这个体系快速适配和发布产品，助力完善云上的产品矩阵。

```
部分自研到云上售卖的产品
1. IEG wetest 
2. IEG 蓝鲸
3. TEG 腾讯乐享
4. TEG TAPD
5. TEG 腾讯企业邮
6. QQ音乐 多媒体创作引擎
7. QQ音乐 正版曲库直通车
```



#### 4.2.2 云产品赋能自研业务，发挥云上产品可复制优势

自研上云的云原生改造，意味着把云从替代IDC到更多使用云上的标准产品，从中间件到微服务再到SaaS能力。除了基本的资源型和功能型的产品以外，有一些云上积累的对外服务的能力也有助于自研toc产品的发展。

以腾讯云区块链产品体系中的至信链为例，通过率先在tob市场中打造了“数字藏品”的能力，也可反哺到公司内部自研toc业务，目前幻核、腾讯视频、QQ音乐等均已通过至信链元商品协议推出了针对其目标客户的数字藏品业务。



![image-20220511212951478](/Users/lili/Library/Application Support/typora-user-images/image-20220511212951478.png)

### 4.3 经营上降本增效，改善商业回报

#### 4.3.1 统一自研和公有云资源池，优化成本

公司内部统一技术底座，对于业务运营来说有一个非常大的好处是，自研业务与外部客户统一在一个资源池中进行调度，并且依靠云原生的改造极大地扩展了业务的可调度性。在统一调度的框架下，我们有机会将不同业务类型在不同时段进行搭配和调整，提高底层资源的售卖率，进一步优化成本，提升利润。

基于容器的技术，我们引入了EKS的产品形态，它通过轻量虚拟化的技术屏蔽了容器底层的资源池，并且减少了地域、机型、代次对使用方的影响。通过EKS进行调度，可有效提升CPU利用率，减少CPU空置的成本。

#### 4.3.2 腾讯云的生态力量助力自研业务商业化发展

*Todo(powellli)：没找到合适案例，政府关系帮助发版号？*

## 5. 自研上云的展望

### 5.1 更加云原生化

用云的方式使用云，通过促进云的发展来助力业务发展，云原生化的进一步增强有利于公司内部toc、tob产品在技术、产品和商业化上的进一步结合，发挥出集团的合力优势。

### 5.2 更加场景化

自研业务几乎在其所在领域都是龙头，在上云之后积累的经验，通过场景化沉淀为解决方案，有机会成为云产品在外部市场竞争中的独特优势，真正让腾讯的技术能力和领先经验赋能到外部用户。

### 5.3 更加商业化

当前的技术协同和产品协同日趋完善，腾讯自研业务有机会更多参与到产业互联网的发展浪潮当中，增强商业化的协作是自研上云所带来的公司内部协作基础上更有想象空间的方向。