1. 思想
核心思想是空间换时间来进行加速
2. 基本原理
transformer是自回归生成模型,abc三个字符预测def
 过程是:
  abc -> d
  d进行回归得到abc,回归讲究的是回去,如香港回归
  abcd -> e
  这里abc的运算中间值Q V可以保存下来作为Cache,避免后面继续再算了
  abcde -> f
  最终得到def
参考:
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention_哔哩哔哩_bilibili
https://zhuanlan.zhihu.com/p/700197845 https://zhuanlan.zhihu.com/p/700197845
https://zhuanlan.zhihu.com/p/700197845


















