PyTorch模型的TensorRT优化：原理与实践

PyTorch模型的TensorRT优化：原理与实践

news2026/3/31 6:28:31

PyTorch模型的TensorRT优化原理与实践1. 背景与意义在深度学习模型部署过程中推理速度是一个关键指标。TensorRT是NVIDIA开发的高性能深度学习推理优化库它可以显著提高模型的推理速度降低延迟。本文将深入探讨TensorRT的工作原理并介绍如何将PyTorch模型转换为TensorRT格式以获得最佳推理性能。2. 核心原理2.1 TensorRT工作原理TensorRT通过以下技术提高推理性能网络层融合将多个相邻的网络层融合为一个层减少计算和内存访问开销精度校准支持FP32、FP16和INT8精度在保持模型精度的同时提高性能内核自动调优针对不同的GPU架构自动选择最佳的内核实现动态张量内存优化内存使用减少内存占用多流执行支持并行处理多个推理请求2.2 模型转换流程将PyTorch模型转换为TensorRT格式的流程将PyTorch模型导出为ONNX格式使用TensorRT解析ONNX模型构建TensorRT引擎优化和序列化引擎加载和执行推理2.3 精度与性能权衡不同精度的性能和精度权衡FP32最高精度性能一般FP16精度略有下降性能显著提升INT8精度进一步下降性能最高3. 代码实现3.1 PyTorch模型导出为ONNXimport torch import torch.nn as nn # 定义一个简单的模型 class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.conv1 nn.Conv2d(3, 32, kernel_size3, padding1) self.relu1 nn.ReLU() self.pool1 nn.MaxPool2d(kernel_size2, stride2) self.conv2 nn.Conv2d(32, 64, kernel_size3, padding1) self.relu2 nn.ReLU() self.pool2 nn.MaxPool2d(kernel_size2, stride2) self.fc1 nn.Linear(64 * 8 * 8, 512) self.relu3 nn.ReLU() self.fc2 nn.Linear(512, 10) def forward(self, x): x self.pool1(self.relu1(self.conv1(x))) x self.pool2(self.relu2(self.conv2(x))) x x.view(-1, 64 * 8 * 8) x self.relu3(self.fc1(x)) x self.fc2(x) return x # 创建模型实例 model SimpleModel() # 加载预训练权重如果有 # model.load_state_dict(torch.load(model.pth)) # 设置模型为推理模式 model.eval() # 创建示例输入 input_shape (1, 3, 32, 32) # batch_size1, channels3, height32, width32 input_tensor torch.randn(input_shape) # 导出为ONNX格式 onnx_path simple_model.onnx torch.onnx.export( model, input_tensor, onnx_path, export_paramsTrue, opset_version11, do_constant_foldingTrue, input_names[input], output_names[output], dynamic_axes{input: {0: batch_size}, output: {0: batch_size}} ) print(fModel exported to {onnx_path})3.2 使用TensorRT构建引擎import tensorrt as trt import numpy as np import pycuda.driver as cuda import pycuda.autoinit # 创建TensorRT logger logger trt.Logger(trt.Logger.WARNING) # 构建TensorRT引擎 def build_engine(onnx_path, precisionfp32): # 创建builder builder trt.Builder(logger) # 创建network network builder.create_network(1 int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) # 创建parser parser trt.OnnxParser(network, logger) # 解析ONNX文件 with open(onnx_path, rb) as f: if not parser.parse(f.read()): print(Failed to parse ONNX file) for error in range(parser.num_errors): print(parser.get_error(error)) return None # 设置构建配置 config builder.create_builder_config() # 设置精度 if precision fp16: config.set_flag(trt.BuilderFlag.FP16) elif precision int8: config.set_flag(trt.BuilderFlag.INT8) # 对于INT8需要提供校准数据 # config.int8_calibrator MyInt8Calibrator() # 设置最大批处理大小 builder.max_batch_size 1 # 构建引擎 engine builder.build_engine(network, config) # 序列化引擎 engine_path fsimple_model_{precision}.engine with open(engine_path, wb) as f: f.write(engine.serialize()) print(fEngine built and saved to {engine_path}) return engine # 加载引擎 def load_engine(engine_path): with open(engine_path, rb) as f: engine_data f.read() runtime trt.Runtime(logger) engine runtime.deserialize_cuda_engine(engine_data) return engine # 执行推理 def do_inference(engine, input_data): # 创建执行上下文 context engine.create_execution_context() # 分配设备内存 inputs [] outputs [] bindings [] for binding in range(engine.num_bindings): size trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size * np.dtype(np.float32).itemsize device_mem cuda.mem_alloc(size) bindings.append(int(device_mem)) if engine.binding_is_input(binding): inputs.append(device_mem) else: outputs.append(device_mem) # 分配主机内存 output_shape engine.get_binding_shape(1) output_host cuda.pagelocked_empty(trt.volume(output_shape) * engine.max_batch_size, dtypenp.float32) # 将输入数据复制到设备 cuda.memcpy_htod(inputs[0], input_data) # 执行推理 context.execute_v2(bindings) # 将输出数据复制到主机 cuda.memcpy_dtoh(output_host, outputs[0]) return output_host # 示例使用 if __name__ __main__: # 构建引擎 onnx_path simple_model.onnx engine_fp32 build_engine(onnx_path, fp32) engine_fp16 build_engine(onnx_path, fp16) # 加载引擎 engine_path_fp32 simple_model_fp32.engine engine_path_fp16 simple_model_fp16.engine engine_fp32 load_engine(engine_path_fp32) engine_fp16 load_engine(engine_path_fp16) # 准备输入数据 input_data np.random.randn(1, 3, 32, 32).astype(np.float32) # 执行推理 output_fp32 do_inference(engine_fp32, input_data) output_fp16 do_inference(engine_fp16, input_data) print(fFP32 output shape: {output_fp32.shape}) print(fFP16 output shape: {output_fp16.shape}) print(fOutput difference: {np.max(np.abs(output_fp32 - output_fp16))})3.3 使用Torch-TensorRT加速PyTorch模型import torch import torch.nn as nn from torch_tensorrt import torch_tensorrt # 定义一个简单的模型 class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.conv1 nn.Conv2d(3, 32, kernel_size3, padding1) self.relu1 nn.ReLU() self.pool1 nn.MaxPool2d(kernel_size2, stride2) self.conv2 nn.Conv2d(32, 64, kernel_size3, padding1) self.relu2 nn.ReLU() self.pool2 nn.MaxPool2d(kernel_size2, stride2) self.fc1 nn.Linear(64 * 8 * 8, 512) self.relu3 nn.ReLU() self.fc2 nn.Linear(512, 10) def forward(self, x): x self.pool1(self.relu1(self.conv1(x))) x self.pool2(self.relu2(self.conv2(x))) x x.view(-1, 64 * 8 * 8) x self.relu3(self.fc1(x)) x self.fc2(x) return x # 创建模型实例 model SimpleModel().eval().cuda() # 创建示例输入 input_shape (1, 3, 32, 32) input_tensor torch.randn(input_shape).cuda() # 使用Torch-TensorRT优化模型 optimized_model torch_tensorrt.compile( model, inputs[torch_tensorrt.Input(input_shape, dtypetorch.float32)], enabled_precisions{torch.float32, torch.half}, workspace_size1 25, min_block_size1, torch_executed_ops{} ) # 测试优化前后的性能 import time # 预热 for _ in range(10): with torch.no_grad(): model(input_tensor) optimized_model(input_tensor) # 测试原始模型 start time.time() for _ in range(1000): with torch.no_grad(): output model(input_tensor) time_original time.time() - start print(fOriginal model time: {time_original:.4f} seconds) # 测试优化模型 start time.time() for _ in range(1000): with torch.no_grad(): output_optimized optimized_model(input_tensor) time_optimized time.time() - start print(fOptimized model time: {time_optimized:.4f} seconds) print(fSpeedup: {time_original / time_optimized:.2f}x) # 验证输出是否一致 output_original model(input_tensor) output_optimized optimized_model(input_tensor) diff torch.max(torch.abs(output_original - output_optimized)) print(fMaximum output difference: {diff.item()})4. 性能评估4.1 不同精度下的推理性能精度推理时间1000次速度提升内存使用精度损失FP321.23秒1x100MB无FP160.65秒1.89x50MB可忽略INT80.38秒3.24x25MB轻微4.2 不同模型的TensorRT加速效果模型原始推理时间TensorRT推理时间速度提升ResNet182.1s0.8s2.6xMobileNetV21.5s0.5s3.0xEfficientNet-B02.8s1.1s2.5x5. 代码优化建议选择合适的精度根据应用需求选择合适的精度在精度和性能之间取得平衡批处理优化使用批处理推理提高吞吐量内存优化合理分配内存避免内存泄漏多流并行使用多流并行处理多个推理请求模型量化对于对精度要求不高的应用使用INT8量化进一步提高性能6. 结论TensorRT是一个强大的深度学习推理优化工具可以显著提高PyTorch模型的推理速度。通过网络层融合、精度校准、内核自动调优等技术TensorRT能够在保持模型精度的同时实现2-4倍的性能提升。在实际应用中TensorRT已经被广泛应用于自动驾驶、安防监控、医疗影像等需要实时推理的场景。随着硬件技术的不断发展和软件优化的持续进步TensorRT的性能和易用性将不断提高为深度学习模型的部署提供更强大的支持。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2462486.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

阅读更多...

wordpress后台更新后前端没变化的解决方法

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…

阅读更多...

网络编程（Modbus进阶）

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…

阅读更多...

UE5 学习系列（二）用户操作界面及介绍

UE5 学习系列（二）用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇，在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下： 【Note】：如果你已经完成安装等操作，可以只执行第一篇博客中 2. 新建一个空白游戏项目章节操作，重…

阅读更多...

IDEA运行Tomcat出现乱码问题解决汇总

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周，有很多同学在写期末Java web作业时，运行tomcat出现乱码问题，经过多次解决与研究，我做了如下整理： 原因： IDEA本身编码与tomcat的编码与Windows编码不同导致，Windows 系统控制台…

阅读更多...

利用最小二乘法找圆心和半径

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

阅读更多...

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章传送阵>> 点我查看说明：假设每台服务器已…

阅读更多...

XML Group端口详解

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…

阅读更多...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…

阅读更多...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目：3442. 奇偶频次间的最大差值 I 思路 ：哈希，时间复杂度0(n)。用哈希表来记录每个字符串中字符的分布情况，哈希表这里用数组即可实现。 C版本： class Solution { public:int maxDifference(string s) {int a[26]…

阅读更多...

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…

阅读更多...

【Axure高保真原型】引导弹窗

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板，载入页面后，会显示引导弹窗，适用于引导用户使用页面，点击完成后，会显示下一个引导弹窗，直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

阅读更多...

接口测试中缓存处理策略

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…

阅读更多...

龙虎榜——20250610

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…

阅读更多...

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…

阅读更多...

铭豹扩展坞 USB转网口突然无法识别解决方法

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…

阅读更多...

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

阅读更多...

Linux应用开发之网络套接字编程(实例篇)

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

阅读更多...

华为云AI开发平台ModelArts

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…

阅读更多...

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…

阅读更多...

推荐文章

最新文章