天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？

news2026/4/13 9:41:53

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖 CUDA，使用它加速的机器学习模型可以实现更大的性能提升。

虽然 CUDA 在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向 CUDA 发起挑战，比如 OpenAI 推出的 Triton，它在可用性、内存开销、AI 编译器堆栈构建等方面具有一定的优势，并持续得到发展。

近日，PyTorch 官宣要做「无英伟达 CUDA 参与的大模型推理」。在谈到为什么要 100% 使用 Triton 进行探索时，PyTorch 表示：「Triton 提供了一条途径，使大模型能够在不同类型的 GPU 上运行，包括英伟达、AMD、英特尔和其他基于 GPU 的加速器。

此外 Triton 还在 Python 中为 GPU 编程提供了更高的抽象层，使得使用 PyTorch 能够比使用供应商特定的 API 更快地编写高性能内核。」

在 PyTorch 博客中讨

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2133060.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

AV1 Bitstream Decoding Process Specification--[4]：语法结构

AV1 Bitstream Decoding Process Specification--[4]：语法结构

原文地址：https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址：AV1 Bitstream & Decoding Process Specification摘要：这份文档定义了开放媒体联盟（Alliance for Open Media）AV1视频编解码器…

阅读更多...

动态规划：汉诺塔问题|循环汉诺塔

动态规划：汉诺塔问题|循环汉诺塔

目录 1. 汉诺塔游戏简介 2.算法原理 3.循环汉诺塔 1. 汉诺塔游戏简介汉诺塔游戏是一个经典的数学智力游戏，其目标是将塔上不同大小的圆盘全部移动到另一个塔上，且在移动过程中必须遵守以下规则： 每次只能移动一个圆盘较大的圆盘不能放在…

阅读更多...

linux cmake版本升级教程（Centos7）

linux cmake版本升级教程（Centos7）

有时候，当前系统的cmake版本，并一定能满足编译要求，所以需要进行升级到高于某个版本才能正常编译。本章教程，主要在centos7上进行升级cmake版本。一、查看当前的cmake版本 cmake --version二、下载指定版本的cmake wget https://github.com/Kitware/CMake/releases/down…

阅读更多...

2.2 vc-align源码分析 -- ant-design-vue系列

2.2 vc-align源码分析 -- ant-design-vue系列

vc-align源码分析源码地址：https://github.com/vueComponent/ant-design-vue/tree/main/components/vc-align 1 基础代码 1.1 名词约定需要对齐的节点叫source，对齐的目标叫target。 1.2 props 提供了两个参数： align：对…

阅读更多...

华为ensp中vlan与静态路由技术的实现

华为ensp中vlan与静态路由技术的实现

vlan 同一网段的设备，可以互通； 虚拟局域网：将局域网从逻辑上划分为多个局域网，不同通过vlan编号区分； 实现网络隔离。提高了网络安全性； vlan编号为12位； 范围1-4094可以用来配置默认处于…

阅读更多...

3.2 Upload源码分析 -- ant-design-vue系列

3.2 Upload源码分析 -- ant-design-vue系列

Upload源码分析 – ant-design-vue系列源码地址：https://github.com/vueComponent/ant-design-vue/blob/main/components/upload/Upload.tsx 1 概述本篇是对Upload组件的分析，这个组件调用了vc-upload，是对vc-upload的封装。作用包括&…

阅读更多...

【【通信协议之ICMP协议】】

【【通信协议之ICMP协议】】

【【通信协议之ICMP协议】】下面先展示出ICMP协议的数据格式用户数据打包在 ICMP 协议中，ICMP 协议又是基于 IP 协议之上的，IP 协议又是走 MAC 层发送的，即从包含关系来说：MAC 帧中的数据段为 IP 数据报，IP 报文中…

阅读更多...

LCSS—最长回文子序列

LCSS—最长回文子序列

思路分析关于”回文串“的问题，是面试中常见的，本文提升难度，讲一讲”最长回文子序列“问题，题目很好理解： 输入一个字符串 s，请找出 s 中的最长回文子序列长度。比如输入 s"aecda"&#xff0c…

阅读更多...

【数据结构】字符串与JSON字符串、JSON字符串及相应数据结构（如对象与数组）之间的相互转换

【数据结构】字符串与JSON字符串、JSON字符串及相应数据结构（如对象与数组）之间的相互转换

前言： 下面打印日志用的是FastJSON依赖库中的 Log4j2。依赖：  <dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.80</version> …

阅读更多...

prometheus 集成 grafana 保姆级别安装部署

prometheus 集成 grafana 保姆级别安装部署

前言本文 grafana 展示效果只需要 prometheus node_exporter grafana 其他的选择安装环境和版本号系统: CentOS 7.9 prometheus: 2.54.1 pushgateway: 1.9.0 node_exporter: 1.8.2 alertmanager: 0.27.0 grafana:11.2.0 官网:https://prometheus.io/ 下载地址:h…

阅读更多...

算法基础-二分查找

算法基础-二分查找

左闭右闭 [ left，right ] [1,1]可以 while( left < right ) if( a[mid] > target ) right mid - 1 else if( a[mid] < target ) left mid 1 左闭右开 [ left，right ) …

阅读更多...

工业平板电脑轻薄与耐用并存

工业平板电脑轻薄与耐用并存

在现代工业环境中，工业平板电脑的应用越来越广泛。它们不仅需要具备轻薄的设计以便于携带和操作，还必须具备耐用性以应对恶劣的工作条件。一、工业平板电脑的定义与特点工业平板电脑是一种专为工业环境设计的计算设备，通常具备防尘、防水、…

阅读更多...

MySQL分页查询（DQL）

MySQL分页查询（DQL）

因DataGrip我的激活到期，也没太多精力去破解，最后换了Navicat，实际上操作是一样的，不变。先看我的表数据，以我的数据作为例子基本语法 select 字段列表 from 表名起始索引，查询记录数。 1.查询第1页员…

阅读更多...

[数据集][目标检测]车油口挡板开关闭合检测数据集VOC+YOLO格式138张2类别

[数据集][目标检测]车油口挡板开关闭合检测数据集VOC+YOLO格式138张2类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：138 标注数量(xml文件个数)：138 标注数量(txt文件个数)：138 标注类别…

阅读更多...

期权组合策略有什么风险？期权组合策略是什么？

期权组合策略有什么风险？期权组合策略是什么？

今天期权懂带你了解期权组合策略有什么风险？期权组合策略是什么？期权组合策略是通过结合不同期权合约（如看涨期权和看跌期权），以及标的资产（如股票）来实现特定投资目标的策略。期权组合策略市…

阅读更多...

2024.9.13 重拾数据库，不用就忘T-T

2024.9.13 重拾数据库，不用就忘T-T

在之前学习Web的时候，电脑安装过mysql和navicate，所以安装步骤跳过直接使用navicate创建一个新的连接，然后在这个连接里面新建数据库新建数据库弹出要求如下图一般的数据库学习教程都是字符集选择utf-8（有中文）&a…

阅读更多...

PyTorch安装指南：轻松上手深度学习框架（CUDA）

PyTorch安装指南：轻松上手深度学习框架（CUDA）

PyTorch 是一个非常流行的开源深度学习框架，它支持动态图，这使得开发者能够更容易地构建和调试复杂的模型。PyTorch 可以运行在 CPU 上，也可以利用 NVIDIA 的 CUDA 平台加速计算，从而在 GPU 上执行。下面是如何在你的系统上安装 P…

阅读更多...

JS面试真题 part5

JS面试真题 part5

JS面试真题 part5 21、说说对事件循环的理解22、JavaScript本地存储方式有哪些？区别及应用场景？23、大文件上传如何断点续传？24、ajax原理是什么？如何实现？25、什么是防抖和节流？有什么区别？如何…

阅读更多...

如何在Windows10系统安装docker？

如何在Windows10系统安装docker？

1.wsl安装 Windows Subsystem for Linux（简称WSL）是一个在Windows 10\11上能够运行原生Linux二进制可执行文件（ELF格式）的兼容层。它是由微软与Canonical公司合作开发，开发人员可以在 Windows 计算机上同时访问 Windows 和 Linux 的强大功能。通过适用于 Linux 的 Window…

阅读更多...

UE5 阴影通道

UE5 阴影通道

Shadow Pass Switch节点中 Default代表模型遮罩的效果 Shadow代表阴影的生成遮罩效果

阅读更多...

推荐文章

最新文章