大厂真实高频的 LLM 大模型面试 36 题例题详解
一、基础原理篇(8 题)1. 什么是 Transformer?核心结构是什么?答:Transformer 是基于自注意力机制的 seq2seq 模型,完全替代 RNN 结构。核心结构:Encoder(编码)+ Decoder(解码)多头注意力(Multi-Head Attention)前馈网络 FFN层归一化、残差连接举例:GPT 只用 Decoder 单向结构;BERT 只用 Encoder 双向结构。2. 自注意力机制(Self-Attention)原理?答:通过 Q、K、V 三个矩阵计算每个词对其他词的权重。公式:Attention(Q,K,V)=softmax(dkQKT)V举例:句子 “苹果公司发布新品”,注意力会让 “苹果” 和 “公司” 权重更高,避免歧义。3. 为什么要除以√d_k?答:防止维度 d_k 过大时,点积结果方差爆炸,softmax 趋向饱和,梯度消失。举例:d=512 时 √d≈22.6,不除会导致大部分权重接近 0/1,训练不动。4. 多头注意力是什么?为什么有用?答:把 QKV 切成多组,并行学习不同类型的依
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2477090.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!