LLM/HPC常见术语汇总
文章目录一、基础架构类LLM核心概念二、核心算子/层类算子开发重点三、训练/推理优化类四、性能/硬件相关类算子开发核心五、推理策略类汇总关键点一、基础架构类LLM核心概念术语全称核心解释LLM场景关联Transformer-2017年提出的序列建模架构LLM的基础由Encoder/Decoder、Self-Attention、FFN组成所有现代LLMLLaMA/Qwen/GLM均基于Transformer变体Encoder编码器双向注意力输入序列全可见如BERT仅Encoder架构少用LLM多为Decoder-onlyDecoder解码器单向因果注意力只能看前文如GPTLLM主流架构LLaMA/GPT均为Decoder-onlyToken-文本的最小单位字/词/子词LLM的输入基本单元如“大模型”可能拆为“大”“模型”两个tokenVocabVocabulary模型可识别的token字典包含所有可生成的token常见大小32k/64k/128k如LLaMA2 vocab32000Embedding-将token转为高维向量语义表示LLM第一层输出维度为hidden_dim如4096Hidden DimHidden Dimension模型每一层的特征维度核心超参如LLaMA2-7B的hidden_dim4096FFNFeed Forward Network前馈网络Transformer的非线性层占模型计算量≈50%核心是GEMM算子Num HeadsNumber of Attention Heads多头注意力的头数如LLaMA2-7B num_heads32拆分hidden_dim并行计算二、核心算子/层类算子开发重点术语全称核心解释LLM场景关联MHSAMulti-Head Self-Attention多头自注意力将Q/K/V拆分为多个头并行计算最后拼接LLM最核心算子显存/性能瓶颈所在SASelf-Attention自注意力计算token间的关联权重聚合上下文信息MHSA的基础单元核心流程Q·K^T→Softmax→×VCACross-Attention交叉注意力Decoder关注Encoder输出如翻译模型多模态LLM如GPT-4V常用LNLayer Normalization层归一化对每个token的特征做归一化减均值、除方差解决训练不稳定LLM每一层后必用RMSNormRoot Mean Square Normalization简化版LN仅做均方根缩放无均值减法LLaMA/Qwen等LLM标配计算更快BNBatch Normalization批归一化对批次维度做归一化LLM中几乎不用序列长度不一致批维度无意义Softmax-归一化函数将分值转为和为1的概率分布MHSA中归一化注意力权重输出层生成token概率ScaleSoftmax-带缩放的Softmax分值/√head_dimMHSA专用防止Q·K^T分值过大导致梯度消失RoPERotary Position Embedding旋转位置编码通过复数旋转给Q/K加入位置信息LLaMA/Qwen主流位置编码方式算子开发高频考点ALiBiAttention with Linear Biases线性偏置位置编码给注意力分值加位置偏置推理友好无需额外位置向量存储GELU/SwiGLUGaussian Error Linear Units激活函数引入非线性FFN层核心SwiGLU是LLM主流替代GELUGEMMGeneral Matrix Multiplication通用矩阵乘法支持任意形状矩阵乘LLM 90%计算量来自GEMMQKV投影/FFNMatMulMatrix Multiplication基础矩阵乘法GEMM的子集特指二维矩阵乘Reduce-归约算子Sum/Mean/Max/VarLN/RMSNorm/Softmax的核心子算子三、训练/推理优化类术语全称核心解释LLM场景关联KVCacheKey-Value Cache推理时缓存历史K/V避免重复计算注意力LLM推理提速核心显存占用主要来源FlashAttention-高性能Attention实现分块内存复用降低显存解决MHSA O(N²)显存问题LLM训练/推理标配PagedAttention-分页式KVCache将缓存分页管理vLLM推理引擎核心支持动态批处理MoEMixture of Experts混合专家模型稀疏激活不同专家网络大模型扩容方案如GLaM降低计算量TopK-选取分值最高的K个元素MoE中选激活的专家生成时选候选tokenGather/Scatter-聚合/分散算子按索引读写数据MoE中分发/收集token到对应专家All2All-集体通信算子跨卡全量数据交换MoE多卡并行时分发token到不同卡的专家Dropout-正则化算子随机屏蔽神经元输出训练时防止过拟合推理时关闭Quantization-量化降低数据精度FP32→FP16/BF16/FP8/INT4减少显存占用、提升推理速度算子开发重点TPTensor Parallelism张量并行拆分模型参数到多卡大模型训练/推理必用如70B模型拆8卡PPPipeline Parallelism流水线并行拆分模型层到多卡超大规模模型如175B的并行方式ZeROZero Redundancy Optimizer零冗余优化器拆分优化器状态到多卡降低训练显存占用主流大模型训练框架标配四、性能/硬件相关类算子开发核心术语全称核心解释LLM场景关联SMStreaming MultiprocessorGPU核心计算单元包含CUDA Core/Tensor Core算子线程块分配的基本单元Tensor Core-NVIDIA专用矩阵计算单元支持混合精度GEMM算子性能优化核心LLM计算提速关键Warp-CUDA基本执行单元32个线程Reduce/Softmax算子优化的核心粒度Warp Shuffle-Warp内线程直接交换数据的指令Reduce算子高性能实现的核心手段Shared Memory-SM级高速共享内存速度≈寄存器FlashAttention核心优化减少全局内存访存Global Memory-GPU全局显存HBMLLM大张量存储位置访存速度慢Coalesced Access-全局内存合并访问线程访问连续地址算子访存优化的核心要求提升带宽利用率Kernel Fusion-算子融合将多个算子合并为一个Kernel减少中间张量存储提升LLM算子吞吐量Memory-Bound-算子性能瓶颈为内存访问而非计算MHSA/Softmax/Reduce均为访存绑定Compute-Bound-算子性能瓶颈为计算速度GEMM/FFN层接近计算绑定五、推理策略类术语全称核心解释LLM场景关联Speculative Sampling-推测采样小模型推测、大模型验证提升LLM推理速度如FastChatBeam Search-束搜索保留多个候选序列生成结果提升生成质量推理延迟较高Greedy Search-贪心搜索每次选概率最高的token推理速度最快生成多样性低Dynamic Batching-动态批处理合并不同长度的推理请求vLLM/TensorRT-LLM核心提升吞吐量汇总关键点算子开发核心聚焦MHSA/FlashAttention、LN/RMSNorm、Softmax、Reduce、RoPE、GEMM、KVCache、MoE相关算子LLM特有优化KVCache、FlashAttention、量化、张量并行是区别于传统CV/NLP的核心硬件优化关键词Tensor Core、Warp Shuffle、Shared Memory、Kernel Fusion是CUDA算子开发的核心抓手。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2431214.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!