Transformer算子实现及高阶可视化

news2026/4/8 17:31:31

支持输入任意源句子 / 目标句子任意 head 数任意层数任意 d_model / d_ffencoder self-attentiondecoder masked self-attentioncross-attention逐层热力图输出逐层逐帧动画输出GIF / MP4下载脚本transformer_attention_visualizer_interactive.py用法 1直接交互输入python transformer_attention_visualizer_interactive.py运行后会依次让你输入源句子目标句子head 数层数d_modeld_ff用法 2命令行直接指定参数python transformer_attention_visualizer_interactive.py\--srcTransformers use attention to model token relationships.\--tgtattention model token relationships\--num-heads4\--num-layers3\--d-model32\--d-ff64\--out-dir demo_outputs用法 3只生成静态图不生成动画python transformer_attention_visualizer_interactive.py\--src我喜欢学习 Transformer\--tgtTransformer 注意力\--num-heads2\--num-layers2\--no-animation核心能力多层 Transformer 可视化每一层都会分别保存编码器自注意力图解码器带掩码自注意力图交叉注意力图按层输出动画每一层都会输出layer_0_animation.giflayer_0_animation.mp4layer_1_animation.giflayer_1_animation.mp4…参数自动校正如果d_model不能整除num_heads脚本会自动调整到最近可整除值真实 tokenizer / 词表构建不是手工写死 token id会根据你当前输入的句子自动建立词表

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2496674.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！