FasterTransformer模型支持矩阵:BERT/GPT/ViT等15+模型适配指南
FasterTransformer模型支持矩阵BERT/GPT/ViT等15模型适配指南【免费下载链接】FasterTransformerTransformer related optimization, including BERT, GPT项目地址: https://gitcode.com/gh_mirrors/fa/FasterTransformerFasterTransformer是一个针对Transformer模型的高效优化库专注于提升BERT、GPT等模型的推理性能。本文将详细介绍FasterTransformer支持的15主流Transformer模型及其适配方法帮助开发者快速掌握模型部署技巧。 核心模型支持概览FasterTransformer提供了对多种Transformer架构的深度优化覆盖自然语言处理、计算机视觉等多个领域。以下是主要支持的模型类型模型类型代表模型应用场景优化特性编码器模型BERT、Longformer、DeBERTa文本分类、问答融合注意力、INT8量化解码器模型GPT、GPT-J、GPT-NeoX文本生成张量并行、KV缓存编码器-解码器T5、BART机器翻译、摘要动态填充移除视觉TransformerViT、Swin Transformer图像分类融合多头注意力混合模型MoE、Wenets多模态、语音识别专家并行、稀疏激活⚡性能亮点在A100上GPT-3 175B模型通过张量并行实现20倍推理加速BERT INT8量化比PyTorch快4.3倍数据来源docs/bert_guide.md 热门模型深度解析BERT自然语言理解的基石BERT作为最广泛使用的Transformer模型之一FasterTransformer提供了全链路优化方案图1FasterTransformer BERT编码器工作流程支持四种优化路径核心优化技术Effective Transformer通过移除填充tokens减少30%无效计算docs/bert_guide.mdINT8量化两种量化模式平衡精度与性能Mode 1保留残差连接FP32精度适合高精度场景Mode 2全INT8计算T4上比FP16快1.7倍docs/bert_guide.mdTensorRT融合将多头注意力融合为单一 kernel降低显存访问延迟快速启动# 构建BERT GEMM配置 ./bin/bert_gemm 32 32 12 64 1 0 # 运行INT8推理 ./bin/bert_int8_example 32 12 32 12 64 1 1 2GPT文本生成的强大引擎针对GPT类模型的自回归特性FasterTransformer设计了专属优化方案图2GPT推理流程包含上下文编码与生成两个阶段核心优化技术张量并行将模型参数拆分到多GPU支持530B超大模型docs/gpt_guide.mdKV缓存缓存上下文注意力计算结果生成阶段提速4倍动态批处理支持共享上下文优化批量请求吞吐量提升30%多模型支持OpenAI GPT系列124M-175BMeta OPT125M-175BBLOOM560M-176B支持SmoothQuant INT8量化精度损失1%docs/gpt_guide.mdViT视觉Transformer的加速方案将Transformer应用于计算机视觉领域FasterTransformer提供端到端优化图3ViT INT8量化流程融合多头注意力与量化操作核心优化技术图像分块优化重叠分块计算加速1.8倍混合精度计算FP16特征提取INT8注意力精度损失0.5%TensorRT插件A100上比PyTorch快4.5倍docs/vit_guide.md支持模型ViT-B/L/H系列Swin Transformer支持224x224至384x384分辨率️ 快速开始指南环境准备# 克隆仓库 git clone https://gitcode.com/gh_mirrors/fa/FasterTransformer cd FasterTransformer # 构建项目 mkdir build cd build cmake -DSM80 -DCMAKE_BUILD_TYPERelease -DBUILD_PYTON .. make -j12模型转换工具FasterTransformer提供多种模型转换脚本支持主流框架 checkpoint模型来源转换工具示例命令HuggingFacehuggingface_bert_convert.pypython examples/pytorch/bert/utils/huggingface_bert_convert.py -i bert-base-uncased -o ft_bertMegatronmegatron_ckpt_convert.pypython examples/pytorch/gpt/utils/megatron_ckpt_convert.py -i megatron_model -o ft_gptONNXonnx_ckpt_convert.pypython examples/onnx/multi_gpu_gpt/onnx_ckpt_convert.py -i gpt2.onnx -o ft_onnx性能基准测试# BERT性能测试 python examples/pytorch/bert/bert_example.py 32 12 32 12 64 --data_type fp16 --time # GPT性能测试 mpirun -n 8 python examples/pytorch/gpt/multi_gpu_gpt_example.py --tensor_para_size8 # ViT性能测试 ./bin/vit_example 32 384 16 768 12 12 1 1 模型性能对比单GPU性能T4模型批量大小PyTorch latency(ms)FasterTransformer latency(ms)加速比BERT-base326842632.6xGPT-3 1.3B84521124.0xViT-B_16326841504.6x多GPU扩展A100 8卡模型参数量吞吐量(tokens/s)延迟(ms)GPT-3 175B175B128082Megatron-530B530B960124 资源与文档官方文档BERT详细指南docs/bert_guide.mdGPT部署教程docs/gpt_guide.mdViT优化说明docs/vit_guide.md示例代码C示例examples/cpp/PyTorch示例examples/pytorch/TensorRT插件examples/tensorrt/性能调优GEMM配置生成工具./bin/bert_gemm、./bin/gpt_gemm量化工具examples/pytorch/bert/bert-quantization-sparsityFasterTransformer持续扩展模型支持范围目前已适配超过15种Transformer架构。通过张量并行、量化、 kernel融合等优化技术在保持精度的同时实现2-20倍推理加速是生产环境部署Transformer模型的理想选择。【免费下载链接】FasterTransformerTransformer related optimization, including BERT, GPT项目地址: https://gitcode.com/gh_mirrors/fa/FasterTransformer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2412192.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!