一 原理
图解大模型计算加速系列之:vLLM核心技术PagedAttention原理 - 知乎 (zhihu.com)
https://zhuanlan.zhihu.com/p/691038809
二 源码分析
1 测试参数设置
test_paged_attention(
num_seqs=32,
num_heads=(64, 64),
head_size=64,
block_size=16,
dtype=torch.float16,
seed=1,
device="cuda:0",
)

![[数据集][目标检测]喝水检测数据集VOC+YOLO格式995张3类别](https://img-blog.csdnimg.cn/direct/e556c45e72e74096838932592675af64.png)
















