三、TorchRec中的Optimizer

news2025/5/15 8:27:56

TorchRec中的Optimizer


文章目录

  • TorchRec中的Optimizer
  • 前言
  • 一、嵌入后向传递与稀疏优化器融合如下图所示:
  • 二、上述图片的关键步骤讲解:
  • 三、优势
  • 四、与传统优化器对比
  • 总结


前言

  • TorchRec 模块提供了一个无缝 API,用于在训练中融合后向传递和优化器步骤,从而显着优化性能并减少使用的内存,同时还可以在将不同的优化器分配给不同的模型参数方面提供粒度。

一、嵌入后向传递与稀疏优化器融合如下图所示:

在这里插入图片描述

二、上述图片的关键步骤讲解:

  • 1、梯度生成(Output Gradient)

    • 来自模型前向传播的输出梯度(如损失函数的梯度),对应具体样本(Sample 1 和 Sample 2)
    • Sample 1 的梯度可能包含 row 1、row 2和 row 6 的嵌入梯度
    • Sample 2 的梯度可能包含 row 1、row 3 和 row 6 的嵌入梯度
  • 2、梯度排序(Gradient Sorting)

    • 目的 :将不同样本中相同行(Row)的梯度合并到一起,便于后续聚合
    • row 1 的梯度来自 Sample 1 和 Sample 2
    • row 6 的梯度也来自 Sample 1 和 Sample 2
  • 3、梯度聚合(Gradient Aggregation)

    • 操作 :对相同行的梯度求和(或平均),得到该行的总梯度
    • row 1 的总梯度 = Sample 1 的 row 1 梯度 + Sample 2 的 row 1 梯度
    • row 6 的总梯度 = Sample 1 的 row 6 梯度 + Sample 2 的 row 6 梯度
  • 4、稀疏优化器(Sparse Optimizer)

    • 功能 :仅更新非零梯度对应的嵌入参数(稀疏更新),节省计算和内存。
    • 只更新 row 1、row 2、row 3、row 6 的嵌入参数,其他行保持不变。

三、优势

  • 1、减少冗余计算
    • 通过梯度聚合,避免重复计算相同行的梯度(如 row 1 在两个样本中出现)。
  • 2、稀疏性优化
    • 只更新实际有梯度的行(如 row 3 只出现在 Sample 2 中),跳过全零梯度的行。
  • 3、并行化加速
    • 融合反向传播与优化步骤,减少内存拷贝和计算开销。

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

四、与传统优化器对比

特性传统优化器TorchRec中的稀疏优化器
更新粒度全量参数更新(稠密)仅更新非零梯度对应的行(稀疏)
内存占用需存储所有参数梯度仅存储非零梯度
计算效率低效(大量零梯度参与计算)高效(跳过零梯度)

总结

  • TorchRec 的优化器设计通过 梯度排序、聚合与稀疏更新 ,极大提升了稀疏特征的训练效率。
  • 这一机制尤其适用于推荐系统中常见的高维稀疏数据场景,是其高性能的核心原因之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webrtc pacer模块(一) 平滑处理的实现

Pacer起到平滑码率的作用,使发送到网络上的码率稳定。如下的这张创建Pacer的流程图,其中PacerSender就是Pacer,其中PacerSender就是Pacer。这篇文章介绍它的核心子类PacingController及Periodic模式下平滑处理的基本流程。平滑处理流程中还有…

河北工程大学e2e平台,python

题目,选择题包100分! 题目,选择题包100分! 题目,选择题包100分! 联系🛰:18039589633

BeautifulSoup 踩坑笔记:SVG 显示异常的真正原因

“这图是不是糊了?”以为是样式缺了?试试手动复制差异在哪?想用对比工具一探究竟……简单到不能再简单的代码,有问题吗?最后的真相:viewBox vs viewbox,preserveAspectRatio vs preserveaspectr…

【browser-use+deepseek】实现简单的web-ui自动化

browser-use Web-UI 一、browser-use是什么 Browser Use 是一款开源Python库,专为大语言模型设计的智能浏览器工具,目的是让 AI 能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。…

MOS管的发热原因和解决办法

发热来源 如上图,MOS管的工作状态有4种情况,分别是开通过程,导通过程,关断过程和截止过程。 导致发热的损耗主要有两种:开关损耗、导通损耗。 导通损耗 导通损耗比较好计算,根据驱动电压VGS值可以得到MOS…

科技项目验收测试怎么做?验收测试报告如何获取?

科技项目从研发到上市需要一个很长的周期,并且在上市之前还有一个至关重要的交付过程,那就是项目验收,验收需要通过验收测试来呈现。科技项目验收测试是确保项目成功交付的关键步骤,那么是如何进行的呢?企事业单位想要获取科技项…

AutoEval:现实世界中通才机器人操作策略的自主评估

25年3月来自 UC Berkeley 和 Nvidia 的论文“AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World”。 可规模化且可复现的策略评估一直是机器人学习领域长期存在的挑战。评估对于评估进展和构建更优策略至关重要,但在现…

基于SSM框架的房屋租赁小程序开发与实现

概述 一个基于SSM框架开发的微信小程序房屋租赁管理系统,该项目实现了用户管理、中介管理、房源信息管理等核心功能。 主要内容 一、管理员模块功能实现 ​​用户管理​​ 管理员可对通过微信小程序注册的用户信息进行修改和删除操作,确保用户数据的准…

oracle 表空间(Tablespace)

在 Oracle 11g 中,表空间(Tablespace) 是数据库存储架构的核心逻辑单元,其原理基于 逻辑存储与物理存储的分离,通过分层管理数据文件、段(Segment)、区(Extent)和数据块&…

基于YOLOv8的机场跑道异物检测识别系统:提升航空安全的新一代解决方案(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 1. 机场跑道异物检测领域概述 机场跑道异物(Foreign Object Debris, FOD)是指存在于机场跑道、滑行道等关…

Android学习总结之OKHttp拦截器和缓存

深入理解 OkHttp 拦截器 1. 拦截器接口详解 Interceptor 接口是自定义拦截器的基础,它仅包含一个抽象方法 intercept。以下是对该方法参数和返回值的详细解释: import okhttp3.Interceptor; import okhttp3.Request; import okhttp3.Response; import…

Wincc管对象的使用

Wincc管对象的使用 管对象的调用多边形管T形管双T形管管弯头管道大小调整 管对象的调用 打开【图形编辑器】 多边形管 多边形管如下: 一根管子的顶点数是两个,如果修改顶点数,管子就有多少个端点。 修改顶点数为5 此时点击端点然后拖动&#…

Linux-----驱动

一、内核驱动与启动流程 1. Linux内核驱动 Nor Flash: 可线性访问,有专门的数据及地址总线(与内存访问方式相同)。 Nand Flash: 不可线性访问,访问需要控制逻辑(软件)。 2. Linux启动流程 ARM架构: IRAM…

问问lua怎么写DeepSeek,,,,,

很坦白说,这十年,我几乎没办法从互联网找到这个这样的代码,互联网引擎找不到,我也没有很大的“追求”要传承,或者要宣传什么;直到DeepSeek的出现 兄弟,Deepseek现在已经比你更了解你楼下的超市…

基于神经环路的神经调控可增强遗忘型轻度认知障碍患者的延迟回忆能力

简要总结 这篇文章提出了一种名为CcSi-MHAHGEL的框架,用于基于多站点、多图谱fMRI的功能连接网络(FCN)分析,以辅助自闭症谱系障碍(ASD)的识别。该框架通过多视图超边感知的超图嵌入学习方法,整合…

C++学习之ORACLE③

1.集合运算符 查询部门号是10和20的员工信息: ?思考有几种方式解决该问题 ? SQL> select * from emp where deptno in(10, 20) SQL> select * from emp where deptno10 or deptno20 集合运算: Select * from emp …

UniAD:自动驾驶的统一架构 - 创新与挑战并存

引言 自动驾驶技术正经历一场架构革命。传统上,自动驾驶系统采用模块化设计,将感知、预测和规划分离为独立组件。而上海人工智能实验室的OpenDriveLab团队提出的UniAD(Unified Autonomous Driving)则尝试将这些任务整合到一个统一…

transformers 中的 input_ids 和 labels 是什么

transformers 中的 input_ids 和 labels 是什么 input_ids 是输入文本的数字化表示,而 labels 是模型训练的目标值 在自然语言处理(NLP)和使用 transformers 库进行模型训练时,tokenizer = AutoTokenizer.from_pretrained(model_path) 这行代码是用于从预训练模型路径加载…

各种排序思路及实现

目录 1.排序概念常见的排序算法 2.常见排序算法实现(1)插入排序直接插入排序希尔排序(缩小增量排序) (2)选择排序直接选择排序堆排序 (3)交换排序冒泡排序快速排序(hoare…

golang 采用use-go/onvif获取RTSP流

采用https://github.com/use-go/onvif得到完整的RTSP流的地址 全局变量UseGoMain 函数GetDeviceInformation 函数GetRTSPUri 函数 全局变量 这些变量用来设定 ONVIF 设备的连接信息,包含设备地址、用户名和密码 var deviceXaddr "*92.1*8.11*.12*:80" …