别再死记硬背Sinusoidal公式了!用Python手动画出Transformer位置编码的‘时钟指针’

news2026/5/3 4:20:35
别再死记硬背Sinusoidal公式了用Python手动画出Transformer位置编码的‘时钟指针’想象一下当你第一次看到Transformer的位置编码公式时那些密密麻麻的sin和cos函数是否让你感到头晕目眩别担心今天我们将用一种前所未有的方式来理解这个看似复杂的机制——通过Python可视化把位置编码变成一组旋转的时钟指针。在自然语言处理领域Transformer模型彻底改变了游戏规则。但与传统RNN不同Transformer缺乏内置的顺序感知能力这就是位置编码存在的意义。与其死记硬背数学公式不如让我们用动态可视化的方式直观感受这些编码如何工作。我们将使用Matplotlib创建动画看着这些时钟指针如何以不同速度旋转为每个单词位置生成独一无二的指纹。1. 位置编码的时钟隐喻位置编码的核心思想可以用一个简单的时钟来比喻。想象你有多个时钟每个时钟的指针以不同速度旋转秒针快速旋转捕捉细微的位置变化分针中等速度感知中等距离关系时针缓慢移动编码长距离依赖在Transformer的位置编码中实际上有d_model/2个这样的时钟每个对应一对sin和cos函数。这些时钟的旋转速度从快到慢排列确保在相当长的序列长度内不会出现重复模式。import numpy as np import matplotlib.pyplot as plt def get_position_encoding(max_len, d_model): position np.arange(max_len)[:, np.newaxis] div_term np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) pe np.zeros((max_len, d_model)) pe[:, 0::2] np.sin(position * div_term) # 偶数维度用sin pe[:, 1::2] np.cos(position * div_term) # 奇数维度用cos return pe这个函数生成的位置编码矩阵中每一行对应一个位置每一列对应模型的一个维度。关键参数div_term决定了每个时钟指针的旋转速度——这就是为什么我们称它为角速度。2. 可视化位置编码波形让我们用热图来直观展示位置编码的模式。选择一个小型模型(d_model32)和中等长度序列(max_len100)d_model 32 max_len 100 pe get_position_encoding(max_len, d_model) plt.figure(figsize(12, 6)) plt.imshow(pe.T, aspectauto, cmapviridis) plt.colorbar() plt.xlabel(位置索引) plt.ylabel(编码维度) plt.title(位置编码热图) plt.show()你会看到一个漂亮的波浪图案其中顶部维度变化剧烈像快速旋转的秒针底部维度变化平缓像缓慢移动的时针整体模式每个位置都有独特编码但相邻位置相似这种设计确保了模型既能区分不同位置又能捕捉位置间的相对关系——这正是自然语言处理所需的关键特性。3. 动态时钟指针演示现在是最有趣的部分——我们将创建动画展示这些时钟指针如何随时间(位置)旋转from matplotlib.animation import FuncAnimation # 准备数据 positions 50 dims_to_show 6 # 展示前6个维度(3对sin/cos) pe get_position_encoding(positions, d_model) # 创建图形 fig, ax plt.subplots(figsize(10, 6)) ax.set_xlim(-1.2, 1.2) ax.set_ylim(-1.2, 1.2) ax.set_aspect(equal) ax.grid(True) ax.set_title(位置编码的时钟指针表示) # 初始化指针 lines [ax.plot([], [], o-, lw2)[0] for _ in range(dims_to_show//2)] time_text ax.text(0.05, 0.95, , transformax.transAxes) def init(): for line in lines: line.set_data([], []) time_text.set_text(位置: 0) return lines [time_text] def update(pos): for i, line in enumerate(lines): x np.cos(pos * div_term[i]) y np.sin(pos * div_term[i]) line.set_data([0, x], [0, y]) time_text.set_text(f位置: {pos}) return lines [time_text] div_term np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) ani FuncAnimation(fig, update, framespositions, init_funcinit, blitTrue, interval200) plt.close()这段代码会生成一个动画展示前3对sin/cos函数(即3个时钟指针)如何随着位置变化而旋转。你会清楚地看到最内圈的指针旋转最快对应高频变化中间指针速度适中最外圈指针几乎不动对应低频变化提示在实际应用中Transformer模型通常使用512或1024维的位置编码意味着有256或512个这样的时钟指针同时工作。4. 为什么这种设计有效这种多频率组合的设计有几个精妙之处唯一性保证由于不同频率的波形周期不同只有当所有指针都回到原点时编码才会重复。通过精心选择的频率比率(1/10000^(2i/d_model))可以确保在极长的序列内不会出现重复。相对位置感知两个位置的编码点积(注意力计算的关键)只取决于它们的相对距离。这是因为PE(posk) · PE(pos) ≈ 某个只与k有关的函数这种性质使Transformer能够自然学习相对位置关系。距离衰减远距离位置的编码点积会变小这与语言中邻近词相关性更强的直觉一致。我们可以用代码验证这一点# 计算位置编码的点积相似度 similarity np.zeros((max_len, max_len)) for i in range(max_len): for j in range(max_len): similarity[i, j] np.dot(pe[i], pe[j]) / (np.linalg.norm(pe[i]) * np.linalg.norm(pe[j])) # 可视化 plt.figure(figsize(8, 8)) plt.imshow(similarity, cmaphot, interpolationnearest) plt.colorbar() plt.title(位置编码点积相似度矩阵) plt.xlabel(位置 j) plt.ylabel(位置 i) plt.show()你会看到一个沿着对角线衰减的模式这正是我们想要的——相邻位置相似度高远距离位置相似度低。5. 实际应用技巧理解了原理后在实际应用位置编码时有几个实用技巧值得注意与词嵌入的结合方式通常直接相加这不会导致信息混乱因为高维空间中可以保持分离性也可以尝试拼接但会增加模型参数处理长序列原始Sinusoidal编码在极长序列(512)可能表现不佳可考虑学习的位置编码或改进方案如RoPE维度选择确保d_model足够大以编码丰富的位置信息常见选择512、768、1024等可视化调试定期检查位置编码的热图确保没有异常模式比较不同位置的编码差异是否符合预期# 检查位置编码差异 pos_diff np.zeros(max_len-1) for i in range(max_len-1): pos_diff[i] np.linalg.norm(pe[i1] - pe[i]) plt.plot(pos_diff) plt.title(相邻位置编码的欧氏距离) plt.xlabel(位置) plt.ylabel(距离) plt.show()这段代码帮助我们验证相邻位置的编码变化是否平滑——这是位置编码正常工作的关键指标。6. 超越Sinusoidal现代变体虽然原始Transformer使用固定的Sinusoidal编码但现代模型已经发展出多种改进方案编码类型特点代表模型可学习位置编码完全由模型学习灵活但需要更多数据BERT早期版本RoPE (旋转式)保持向量模长不变更稳定的相对位置LLaMA, GPT-NeoXALiBi直接修改注意力分数擅长外推BloomT5相对位置编码将位置关系融入注意力机制T5, UL2其中RoPE(Rotary Position Embedding)尤其值得关注它本质上是将我们的时钟指针比喻数学化# RoPE的核心思想伪代码 def apply_rope(q, k, pos): # 将q和k的每两个维度视为复数并旋转 for i in range(0, d_model, 2): angle pos * theta[i//2] # theta是预定义的频率 q[i:i2] rotate(q[i:i2], angle) k[i:i2] rotate(k[i:i2], angle) return q, k这种设计既保持了相对位置关系又避免了直接相加可能带来的信息干扰成为许多现代大模型的首选。7. 从理解到创新掌握了位置编码的可视化理解后你可以开始尝试自己的创新设计新的频率模式尝试不同的频率分配策略不只是1/10000的几何级数例如混合多种衰减速度的频段自适应位置编码让模型学习不同层次需要的位置粒度在浅层使用高频编码深层使用低频编码内容感知位置编码让位置编码与内容交互实现动态调整例如根据词性调整位置敏感度# 实验性位置编码设计示例 def experimental_pe(max_len, d_model): position np.arange(max_len)[:, np.newaxis] # 混合线性和对数频率 div_term_linear np.linspace(1, 0.01, d_model//2) div_term_log np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0)/d_model)) div_term 0.5 * div_term_linear 0.5 * div_term_log pe np.zeros((max_len, d_model)) pe[:, 0::2] np.sin(position * div_term) pe[:, 1::2] np.cos(position * div_term) return pe这种混合频率的设计可能在特定任务中表现更好值得在小规模实验中进行测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2577129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…