---
title: "‎Google Gemini"
source: "https://gemini.google.com/u/1/app/b725bde96a409470"
author:
  - "[[Gemini]]"
published:
created: 2025-12-31
description: "认识 Gemini：Google 旗下的 AI 助理。在写作、规划和开展头脑风暴等方面获得帮助。体验生成式 AI 的强大功能。"
tags:
  - "clippings"
---
### 1\. FlashAttention：解决“计算与存储的搬运工”问题

- **解决的问题**：**IO 瓶颈 (Memory Wall)**。 在大模型计算注意力时，中间矩阵（
	$$
	QKT
	$$
	）非常大。传统的注意力机制需要频繁地在 GPU 的显存（HBM）和计算核心（SRAM）之间搬运数据。这种“搬运”比实际的“计算”要慢得多。
- **核心特点**：
	- **分块 (Tiling)**：不计算完整的超大矩阵，而是把矩阵切成小块，在高速的 SRAM 里直接算完。
	- **重计算 (Recomputation)**：为了省内存，不存中间结果，需要时宁愿多算一遍（算力比显存带宽便宜）。
- **前沿进展 (2025)**：**FlashAttention-3**。
	- 针对 **NVIDIA Hopper (H100/H200)** 架构进行了深度定制。
	- **异步加速**：利用 H100 的 TMA（张量存储加速器）和 WGMMA，让计算和数据搬运完全并行。
	- **支持 FP8**：在保持精度的同时，吞吐量比 FA-2 提升了近 2 倍，利用率达到了 GPU 理论峰值的 75%。

---

### 2\. PagedAttention：解决“内存碎片的浪费”问题

- **解决的问题**：**KV Cache 的内存碎片化与浪费**。 大模型生成时需要缓存 KV Cache。由于输出长度不可知，传统做法是预先分配一块巨大的连续内存，导致大量的内部碎片（空间浪费）和外部碎片（存不下新请求）。
- **核心特点**：
	- **虚拟内存思想**：借鉴了操作系统的“分页”机制。将 KV Cache 拆成不连续的小块（Pages），哪里有空填哪里。
	- **物理/逻辑解耦**：模型看到的缓存是连续的，但实际物理内存是散落在显存各处的。
- **前沿进展 (2025)**：**vLLM 引擎的极致演进**。
	- **自动前缀缓存 (Automatic Prefix Caching)**：多个人问同一个问题时，System Prompt 的 KV Cache 在显存里只存一份，多路共享，显存占用暴减。
	- **解耦式推理 (Disaggregated Serving)**：将 Prefill（预填充，处理 Prompt）和 Decode（生成，处理 Token）拆分到不同的 GPU 机器上，通过 PagedAttention 进行高效的内存交换。

---

### 3\. 批次管理优化 (Continuous Batching)：解决“木桶效应”问题

- **解决的问题**：**GPU 等待浪费**。 传统的“静态批次（Static Batching）”必须等这一批里写得最慢的那个人写完，才能开始下一批。这导致 GPU 在大多数时间都在等“显卡上的差生”完成任务。
- **核心特点**：
	- **迭代级调度 (Iteration-level Scheduling)**：不再以“一批”为单位，而是以“一个 Token”为单位。
	- **插队机制**：只要有一个请求结束了，新的请求立刻插进来，GPU 每一毫秒都在满载工作。
- **前沿进展 (2025)**：**与投机采样（Speculative Decoding）的深度融合**。
	- 现在最前沿的批次管理不仅是“插队”，还配合一个小模型来预测下一个词。如果小模型猜对了，一次迭代能出好几个 Token，批次利用率呈几何倍数增长。

---

### 总结：2025 年的“完美推理栈”

作为互联网公司高管，你可以这样理解这套技术组合的商业价值：

1. **FlashAttention-3** 压榨了**单张显卡**的极限算力（省电费、省卡）。
2. **PagedAttention** 解决了**内存容量**的天花板（支持更长的对话，支持更多并发用户）。
3. **Continuous Batching** 优化了**服务器集群**的周转率（降低用户等待时间，提升总吞吐）。

| 技术 | 核心价值 | 关键词 |
| --- | --- | --- |
| **FlashAttention-3** | **快**：计算速度极致 | $$ O(N) $$  显存、异步、FP8 |
| **PagedAttention** | **省**：内存利用率极致 | 分页、共享前缀、vLLM |
| **持续批次 (CB)** | **多**：系统吞吐量极致 | 迭代调度、动态插队 |