机器学习+深度学习经典算法面试复习指南
目录第一部分机器学习一、监督学习算法1. K近邻KNN2. 线性回归3. 逻辑回归4. 决策树5. 支持向量机SVM6. 贝叶斯算法朴素贝叶斯7. 集成学习重点随机森林二、无监督学习算法1. K-means聚类面试高频2. DBSCAN聚类补充考点三、降维算法重点PCA第二部分深度学习一、基础网络MLP多层感知机二、图像专项网络CNN卷积神经网络三、CNN进阶ResNet残差网络四、序列专项网络RNN、LSTM1. RNN循环神经网络2. LSTM长短期记忆网络五、NLP进阶Transformer、BERT1. Transformer2. BERTBidirectional Encoder Representations from Transformers第三部分面试实战提示核心说明面试中应届毕业生无需追求过度深入的推导如复杂数学证明但必须掌握“原理应用优缺点参数调优”尤其是不同算法的对比的场景题这是面试官重点考察的核心能力也是区分“死记硬背”和“真正理解”的关键。第一部分机器学习核心逻辑先掌握“监督学习→无监督学习→降维”的分类再逐个突破每个算法重点记忆“原理一句话总结面试必答题易错区分”结合简单实战场景理解。一、监督学习算法1. K近邻KNN核心原理一种“惰性学习”算法无训练过程仅在预测时通过计算待预测样本与训练集所有样本的距离选取距离最近的K个样本通过投票分类或平均回归得到预测结果核心依赖距离度量和K值选择。面试必答题Q1K值的选择对模型有什么影响如何选择最优K值 AK值越小模型复杂度越高易过拟合极端情况K1仅依赖最近样本易受异常值影响K值越大模型越简单易欠拟合极端情况K样本总数预测结果恒为样本中占比最高的类别。最优K值通常通过交叉验证法选取先取较小值逐步增大找到验证误差最小的拐点。Q2KNN常用的距离度量方式有哪些什么时候用不同距离 A常用欧氏距离默认适用于连续型特征、维度较低的场景、曼哈顿距离适用于高维、稀疏特征降低异常值影响、切比雪夫距离适用于需关注最大维度差异的场景闵可夫斯基距离是上述距离的通用形式当p2时为欧氏距离p1时为曼哈顿距离。Q3KNN为什么需要归一化 A因为KNN依赖距离度量不同特征的量纲差异会导致距离计算偏向量纲大的特征如身高cm和体重kg归一化可消除量纲影响让每个特征权重一致避免模型偏差。Q4KNN如何处理数据不平衡问题 A可将传统投票法改为加权投票法与待预测样本距离越近的邻点投票权重越高避免因某类样本数量过多导致的误判。易错点混淆KNN与K-means前者是监督学习无训练过程后者是无监督聚类有训练过程忘记KNN是“惰性学习”预测时计算量大不适用于大规模数据。实战提示面试中若被问“如何优化KNN的预测效率”可回答“构建索引如kd树、R树减少距离计算次数”无需深入讲解索引构建细节体现思考即可。2. 线性回归核心原理假设特征与目标值之间存在线性关系通过最小化“预测值与真实值的均方误差MSE”求解线性回归系数最终得到线性模型$$y w_1x_1 w_2x_2 ... w_nx_n b$$w为权重b为偏置。面试必答题Q1线性回归的损失函数是什么为什么用均方误差MSE A损失函数是均方误差$$L \frac{1}{n}\sum_{i1}^{n}(y_i - \hat{y}_i)^2$$。原因MSE是凸函数可通过梯度下降找到全局最优解对异常值敏感能惩罚较大误差数学上易求导计算简便。Q2如何解决线性回归的过拟合问题 A核心是降低模型复杂度常用方法① 正则化L1正则化Lasso回归会使部分权重变为0实现特征选择L2正则化Ridge回归使权重整体缩小避免单个特征过度影响模型② 增加训练数据量③ 剔除冗余特征。Q3线性回归的假设条件有哪些 A① 特征与目标值存在线性关系② 误差项服从正态分布③ 误差项之间相互独立无自相关性④ 误差项方差恒定 homoscedasticity无 heteroscedasticity。Q4梯度下降法的原理是什么批量梯度下降BGD、随机梯度下降SGD、小批量梯度下降MBGD的区别 A原理通过计算损失函数对参数w、b的梯度沿梯度负方向迭代更新参数直至损失函数收敛。区别BGD每次用全部训练数据计算梯度收敛稳定但速度慢SGD每次用单个样本计算梯度速度快但波动大MBGD每次用小批量样本计算梯度兼顾速度和稳定性是实际中最常用的方式。易错点混淆L1和L2正则化的作用L1做特征选择L2防过拟合且梯度更稳定忘记线性回归对异常值敏感需提前处理异常值。3. 逻辑回归核心原理本质是“线性模型非线性激活函数”将线性回归的输出连续值通过sigmoid函数映射到[0,1]区间作为类别概率用于二分类任务多分类可采用One-vs-All或One-vs-One策略。核心公式$$\hat{y} \sigma(w^Tx b) \frac{1}{1 e^{-(w^Tx b)}}$$。面试必答题Q1逻辑回归为什么用sigmoid函数不用其他激活函数如ReLU A① sigmoid输出在[0,1]可直接解释为类别概率符合分类任务需求② 单调递增能保持线性模型的有序性③ 导数易计算$$\sigma(x) \sigma(x)(1 - \sigma(x))$$便于梯度下降迭代ReLU输出非负且无上限无法映射为概率不适合分类任务的输出要求。Q2逻辑回归的损失函数是什么为什么不用MSE A损失函数是交叉熵损失二分类$$L -\frac{1}{n}\sum_{i1}^{n}[y_i\ln\hat{y}_i (1 - y_i)\ln(1 - \hat{y}_i)]$$。若用MSE损失函数会是非凸函数存在多个局部最优解梯度下降难以找到全局最优交叉熵损失是凸函数且能更快收敛对模型参数的惩罚更合理。Q3逻辑回归与线性回归的区别 A① 任务不同线性回归用于回归预测连续值逻辑回归用于分类预测类别概率② 输出范围不同线性回归输出无边界逻辑回归输出[0,1]③ 损失函数不同线性回归用MSE逻辑回归用交叉熵④ 假设条件不同线性回归要求误差正态分布逻辑回归无此要求。Q4逻辑回归如何处理多分类问题 A① One-vs-All一对多为每个类别训练一个二分类模型预测时取概率最大的类别适用于类别不均衡场景② One-vs-One一对一为每两个类别训练一个二分类模型预测时通过投票确定类别适用于类别均衡场景。易错点误认为逻辑回归是“回归算法”实际是分类算法混淆交叉熵损失与MSE的适用场景忘记逻辑回归对多重共线性敏感需提前处理特征相关性。4. 决策树核心原理模拟人类决策过程通过“特征分裂”构建树形结构每个内部节点代表一个特征判断每个叶节点代表一个类别分类或目标值回归。核心是“如何选择最优分裂特征”常用分裂准则有信息增益、信息增益率、基尼指数。面试必答题Q1决策树的分裂准则有哪些各自的优缺点 A① 信息增益ID3算法基于熵的降低程度选择分裂特征缺点是偏向可取值多的特征易过拟合② 信息增益率C4.5算法在信息增益基础上除以特征自身熵惩罚多取值特征解决ID3的缺陷支持连续值和缺失值处理③ 基尼指数CART算法衡量节点纯度计算效率高于熵支持二叉切分可用于分类和回归任务。Q2决策树如何处理过拟合剪枝方法 A① 预剪枝在树的构建过程中停止分裂如限制树的深度、最小样本数、最小分裂增益简单高效但可能欠拟合② 后剪枝先构建完整的决策树再从叶节点向上剪枝如代价复杂度剪枝泛化能力更强是实际中常用的方法。Q3ID3、C4.5、CART三种算法的区别 A见下表算法分裂准则偏好缺失值处理连续值处理剪枝ID3信息增益可取值多的属性不支持不支持无C4.5信息增益率惩罚多取值属性支持支持后剪枝CART基尼指数二叉切分支持支持前/后剪枝易错点混淆三种分裂准则的适用场景忘记决策树对异常值不敏感因基于特征分裂而非距离忽略决策树的可解释性强工业界风控、医疗诊断等场景首选。5. 支持向量机SVM核心原理核心是找到“最优分类超平面”使两类样本到超平面的间隔最大间隔越大模型泛化能力越强。线性可分场景下直接寻找最优超平面线性不可分场景下引入软间隔允许少量样本越界和核函数将数据映射到高维空间实现线性可分。面试必答题Q1SVM的核函数作用是什么常用的核函数有哪些如何选择 A作用将原始特征空间中线性不可分的数据映射到更高维的特征空间使其线性可分同时无需显式计算高维空间的特征向量降低计算复杂度。常用核函数① 线性核适用于线性可分数据计算最快② 多项式核适用于数据存在多项式关系的场景③ RBF核径向基函数应用最广泛适用于复杂非线性数据能捕捉任意复杂的决策边界④ Sigmoid核类似神经网络的激活函数适用于部分非线性场景。选择原则优先尝试线性核简单高效若效果差再尝试RBF核通过交叉验证调整参数。Q2SVM中的软间隔是什么惩罚参数C的作用 A软间隔线性不可分场景下允许部分样本违反间隔约束越界但会对这些样本进行惩罚平衡“间隔最大化”和“分类错误最小化”。惩罚参数CC越大对越界样本的惩罚越重模型越倾向于分类正确易过拟合C越小对越界样本的惩罚越轻模型间隔越大易欠拟合。Q3SVM为什么在小样本数据上表现好 ASVM通过最大化间隔构建模型注重数据的整体分布结构而非依赖大量样本进行拟合同时核函数能有效挖掘小样本数据中的潜在特征关系因此在小样本场景下泛化能力较强。Q4SVM的优缺点 A优点泛化能力强、适合高维数据如文本分类、抗噪声能力较好缺点计算复杂度高不适用于大规模数据、核函数选择困难、对参数敏感需交叉验证调参。易错点误认为SVM只能用于二分类实际可通过One-vs-All/One-vs-One实现多分类混淆核函数的作用不是“提升维度”而是“映射到可线性分离的空间”。6. 贝叶斯算法朴素贝叶斯核心原理基于贝叶斯公式和“特征条件独立假设”朴素假设通过先验概率计算后验概率实现分类。核心公式$$P(Y|X) \frac{P(X|Y)P(Y)}{P(X)}$$因P(X)对所有类别一致只需最大化$$P(X|Y)P(Y)$$即可。面试必答题Q1为什么叫“朴素”贝叶斯朴素假设的意义是什么 A“朴素”源于“特征条件独立假设”即假设所有特征之间相互独立互不影响。意义简化计算降低贝叶斯公式的复杂度若不做此假设计算$$P(X|Y)$$时需考虑所有特征的组合计算量极大无法实际应用。Q2朴素贝叶斯的零概率问题是什么如何解决 A零概率问题当训练集中某类样本的某个特征取值未出现时会导致$$P(X|Y)0$$进而使后验概率为0影响分类结果。解决方法拉普拉斯平滑给每个特征取值的计数加1避免概率为0。Q3朴素贝叶斯的优缺点适用场景 A优点计算速度快、对小样本友好、对缺失值不敏感、可解释性强缺点朴素假设特征独立在实际中往往不成立会影响模型精度。适用场景文本分类如垃圾邮件识别、情感分析、多分类场景尤其是特征维度高、样本量小的场景。Q4朴素贝叶斯与逻辑回归的区别 A① 模型类型朴素贝叶斯是生成模型先求联合概率再求后验概率逻辑回归是判别模型直接求后验概率② 假设条件朴素贝叶斯需满足特征独立逻辑回归无此要求③ 适用场景朴素贝叶斯适用于小样本、高维数据逻辑回归适用于大样本、特征相关的数据。易错点忘记朴素贝叶斯的“特征独立假设”混淆生成模型与判别模型的区别忽略零概率问题的解决方法。7. 集成学习重点随机森林核心原理集成学习通过组合多个“基模型”如决策树的预测结果提升模型的泛化能力核心思想是“三个臭皮匠顶个诸葛亮”。分为Bagging并行集成如随机森林和Boosting串行集成如GBDT、XGBoost面试重点考察随机森林。随机森林核心细节基于Bagging思想构建多棵决策树每棵树的训练数据通过“有放回抽样”Bootstrap抽样得到每个节点分裂时随机选择部分特征随机子空间最终通过投票分类或平均回归得到预测结果。其随机性体现在“数据抽样”和“特征选择”两个层面有效降低过拟合风险。面试必答题Q1随机森林的优缺点 A优点① 自带特征选择通过计算特征重要性自动识别关键特征② 抗过拟合能力强多棵树集成降低单棵树的过拟合风险③ 包容数据缺陷能处理缺失值、不同量纲特征适配真实业务数据④ 训练速度快多棵树可并行训练。缺点① 可解释性差无法像单棵决策树那样解释决策过程需借助SHAP等工具② 空间效率低多棵树需占用大量内存高维特征场景下更明显③ 外推能力弱不适用于需要强外推的场景如股票价格预测。Q2随机森林如何进行特征重要性评估 A核心思路计算每个特征对模型预测精度的贡献贡献越大特征重要性越高。常用方法① 节点不纯度减少量如基尼指数、熵的降低程度② 置换重要性随机打乱某一特征的取值观察模型精度的下降幅度下降越多特征越重要。Q3Bagging与Boosting的区别 A① 训练方式Bagging并行训练多棵基模型同时训练相互独立Boosting串行训练基模型依次训练后一棵模型修正前一棵模型的错误② 样本权重Bagging样本权重一致Boosting会增大错误样本的权重让后续模型重点学习错误样本③ 过拟合风险Bagging降低过拟合Boosting易过拟合需调参控制④ 代表算法Bagging→随机森林Boosting→GBDT、XGBoost、LightGBM。Q4随机森林中某棵树特别深会影响整体预测效果吗 A影响较小。因为随机森林通过多棵树集成单棵树过拟合深度过深的影响会被其他树抵消且随机性数据抽样、特征选择也会降低单棵树过拟合对整体的影响。但过多深树会增加内存占用和计算量需通过限制树的深度、最小样本数等参数优化。易错点混淆Bagging与Boosting的训练逻辑忘记随机森林的“双重随机性”误认为随机森林不需要调参实际需调整树的数量、深度、特征采样比例等。二、无监督学习算法1. K-means聚类面试高频核心原理基于距离的划分式聚类算法核心是通过迭代寻找K个簇的质心使每个簇内样本到质心的距离平方和最小簇内紧凑、簇间分离。步骤① 随机初始化K个质心② 计算每个样本到质心的距离分配到最近的簇③ 更新每个簇的质心簇内样本均值④ 重复②③直至质心收敛变化小于阈值。面试必答题Q1如何确定K值 A① 手肘法绘制“K值-簇内平方和”曲线曲线出现“手肘”簇内平方和下降速度骤减的点即为最优K值② 轮廓系数法轮廓系数取值范围(-1,1)值越大聚类效果越好选择轮廓系数最大的K值③ 业务经验结合实际业务场景确定如用户分群根据业务需求确定分群数量。Q2K-means的优缺点 A优点算法简单、计算高效、收敛速度快适用于凸形分布、密度均匀的大规模数据缺点① 需人工指定K值对K值敏感② 对异常值敏感异常值会严重影响质心计算③ 仅适用于凸形簇无法发现任意形状的簇如环形簇。Q3K-means与KNN的区别 A① 学习类型K-means是无监督学习无标签用于聚类KNN是监督学习有标签用于分类/回归② 训练过程K-means有训练过程迭代更新质心KNN无训练过程仅在预测时计算距离③ 核心目标K-means是“划分簇”KNN是“预测类别/值”。易错点忘记K-means对异常值敏感需提前处理异常值混淆K值的确定方法忽略K-means的收敛性可能陷入局部最优可通过多次初始化质心解决。2. DBSCAN聚类补充考点核心原理基于密度的聚类算法无需提前指定簇数将簇定义为“密度相连的点的最大集合”能发现任意形状的簇同时自动识别异常值噪声点。核心依赖两个参数EpsilonE邻域半径和MinPtsE邻域内的最小样本数。面试必答题Q1DBSCAN的核心概念核心对象、边界点、离群点 A① 核心对象某样本的E邻域内样本数量≥MinPts是簇的“核心种子”② 边界点本身不是核心对象但在某个核心对象的E邻域内属于簇的边缘③ 离群点噪声点既不是核心对象也不是边界点不属于任何簇。Q2DBSCAN与K-means的区别 A见下表特性K-meansDBSCAN学习类型无监督无监督簇数指定需人工指定K值无需指定自动识别簇形状仅支持凸形簇支持任意形状簇异常值处理对异常值敏感无法识别自动识别异常值噪声点适用数据大规模、密度均匀、凸形分布任意密度、任意形状含噪声数据易错点混淆DBSCAN的两个核心参数Epsilon和MinPts的作用忘记DBSCAN对参数敏感Epsilon过大导致簇合并过小导致簇分裂。三、降维算法重点PCA注你提到的“pcb降维”应为笔误面试核心考察PCA主成分分析以下重点讲解PCA。核心原理最常用的线性降维技术核心是“在保留数据主要信息最大方差的前提下将高维特征映射到低维空间”本质是对数据的协方差矩阵进行特征值分解选取特征值最大的前k个特征向量主成分将原始数据投影到这些主成分上实现降维。面试必答题Q1PCA的核心步骤 A① 数据归一化消除量纲影响必须做② 计算原始数据的协方差矩阵衡量特征间的相关性③ 对协方差矩阵进行特征值分解得到特征值和特征向量④ 选取特征值最大的前k个特征向量主成分⑤ 将原始数据投影到这k个主成分上得到降维后的数据。Q2PCA的目标是什么两个核心角度 A① 最大化投影后数据的方差保留数据的主要信息方差越大信息保留越充分② 最小化投影后的重构误差降维后的数据能尽可能还原原始数据。Q3PCA与LDA的区别 A见下表特性PCA主成分分析LDA线性判别分析学习方式无监督学习无类别标签监督学习有类别标签核心目标最大化数据方差保留主要信息最大化类间距离、最小化类内距离提升分类效果应用场景降维、数据压缩、去噪、可视化降维、分类辅助提升分类模型效果依赖信息仅利用特征分布信息利用特征分布和类别标签信息易错点忘记PCA前必须归一化混淆PCA与LDA的监督/无监督属性误认为PCA能处理非线性降维PCA是线性降维非线性降维需用t-SNE、UMAP等算法。第二部分深度学习核心逻辑从“基础网络MLP→ 专项网络CNN用于图像、RNN/LSTM用于序列→ 进阶网络ResNet、Transformer、BERT”逐步突破重点掌握“网络结构特点核心创新点面试常问细节”无需深入推导反向传播公式但要理解核心逻辑。一、基础网络MLP多层感知机核心原理最基础的深度学习网络由输入层、隐藏层、输出层组成本质是“多层线性变换非线性激活函数”打破线性模型的局限性能拟合复杂的非线性关系。输入层接收特征隐藏层通过激活函数引入非线性输出层输出预测结果分类用softmax回归用线性激活。面试必答题Q1MLP的激活函数有哪些各自的优缺点为什么需要激活函数 A需要激活函数的原因引入非线性让网络能拟合复杂的非线性关系若无激活函数多层网络等价于单层线性回归。常用激活函数① ReLU最常用$$f(x) max(0, x)$$优点计算快、缓解梯度消失缺点存在“死亡ReLU”部分神经元永久失活② Leaky ReLU解决死亡ReLU问题给负区间加一个小斜率如0.01缺点斜率需手动调整③ Sigmoid输出[0,1]适用于二分类输出层缺点梯度消失严重、计算慢④ Tanh输出[-1,1]比Sigmoid更易收敛缺点仍存在梯度消失⑤ GELU适用于Transformer结合了ReLU和正态分布性能更优。Q2MLP的过拟合问题如何解决 A① Dropout训练时随机“关闭”部分神经元按概率p迫使网络学习更鲁棒的特征测试时不关闭神经元激活值乘以(1-p)② 正则化L1、L2限制权重大小③ 早停Early Stopping监控验证集误差当误差不再下降时停止训练④ 增加训练数据量。Q3MLP的隐藏层个数和神经元个数如何选择 A无固定标准需通过实验调优① 隐藏层个数一般1-3层浅层MLP层数过多易过拟合、梯度消失② 神经元个数输入层神经元数特征数输出层神经元数类别数分类或1回归隐藏层神经元数介于输入层和输出层之间可逐步调整如从64、128开始尝试。易错点忘记激活函数的核心作用引入非线性混淆不同激活函数的适用场景忽略Dropout在训练和测试时的差异。二、图像专项网络CNN卷积神经网络核心原理专门处理网格结构数据如图像、语音频谱的网络核心优势是“局部感知、参数共享、层级特征提取”减少参数数量提升训练效率。核心层卷积层提取特征、池化层降维、保留关键特征、全连接层输出预测结果。面试必答题Q1CNN的核心组件卷积层、池化层的作用 A① 卷积层通过卷积核过滤器与输入特征图进行卷积运算提取局部特征如边缘、纹理参数共享同一卷积核在整个特征图上重复使用减少参数数量② 池化层对卷积层输出的特征图进行下采样降低维度、减少计算量同时保留关键特征防止过拟合常用最大池化、平均池化最大池化更能保留边缘特征。Q2卷积层的核心参数有哪些如何计算输出特征图的尺寸 A核心参数① 卷积核大小如3×3、5×5常用奇数便于居中② 步长Stride卷积核移动的步幅步长越大输出尺寸越小③ 填充Padding在输入特征图边缘补0避免边缘特征丢失常用Same Padding输出尺寸与输入一致、Valid Padding无填充。输出尺寸计算公式$$Output \frac{(Input - Kernel 2×Padding)}{Stride} 1$$向下取整。Q3CNN为什么能处理图像相比MLP的优势是什么 A① 图像是网格结构如28×28的灰度图3×224×224的彩色图CNN的局部感知每个神经元只关注局部区域贴合图像的局部相关性如像素的相邻关系② 优势参数共享减少参数数量避免MLP处理图像时参数爆炸层级特征提取浅层提取边缘深层提取语义特征更符合人类视觉识别逻辑。Q4什么是感受野 A感受野是指输出特征图上的一个像素对应输入图像上的区域大小深层卷积层的感受野比浅层大能捕捉更全局的特征如浅层捕捉边缘深层捕捉物体整体轮廓。易错点混淆卷积层和池化层的作用忘记输出特征图尺寸的计算公式忽略Padding的作用避免边缘特征丢失。三、CNN进阶ResNet残差网络核心原理解决深层CNN的“梯度消失/梯度爆炸”问题核心创新是“残差连接Skip Connection”即跳过1个或多个卷积层将输入直接加到输出上让网络能“恒等映射”输入输出从而实现深层网络的训练可训练百层以上网络。面试必答题Q1ResNet为什么能解决梯度消失问题 A深层网络训练时梯度会随着反向传播逐渐衰减梯度消失导致浅层参数无法更新。残差连接让梯度可以“跳过”深层卷积层直接传播到浅层避免梯度衰减同时恒等映射让网络在深层时仍能保持性能不下降。Q2ResNet的残差块有两种类型瓶颈结构和基本块区别是什么 A① 基本块Basic Block由2个3×3卷积层组成适用于较浅的ResNet如ResNet-18、ResNet-34② 瓶颈结构Bottleneck由1×1卷积降维→3×3卷积特征提取→1×1卷积升维组成减少参数数量适用于较深的ResNet如ResNet-50、ResNet-101。Q3ResNet的创新点是什么相比传统CNN的优势 A核心创新点残差连接、恒等映射。优势① 解决深层网络梯度消失问题可训练更深的网络② 提升模型泛化能力避免过拟合③ 训练更稳定收敛速度更快。易错点误认为残差连接是“直接相加”忽略输入和输出的维度需一致若维度不一致需用1×1卷积调整维度混淆两种残差块的适用场景。四、序列专项网络RNN、LSTM核心场景处理序列数据如文本、时间序列、语音核心优势是“记忆性”能利用序列的上下文信息如文本中的前后词语、时间序列中的历史数据。1. RNN循环神经网络核心原理网络中包含循环结构能将上一时刻的隐藏状态传递到下一时刻实现对序列上下文的记忆。核心公式$$h_t \sigma(W_{xh}x_t W_{hh}h_{t-1} b_h)$$$$y_t W_{hy}h_t b_y$$h_t为当前时刻隐藏状态h_{t-1}为上一时刻隐藏状态。面试必答题Q1RNN的缺点是什么为什么会出现这些问题 A核心缺点梯度消失/梯度爆炸长期依赖问题。原因反向传播时梯度需要通过循环结构传递当序列过长时梯度会随着时间步的增加而指数级衰减梯度消失或增长梯度爆炸导致模型无法学习到长期上下文信息如长文本的前后关联。Q2RNN的应用场景有哪些 A短序列场景如短文本分类、简单时间序列预测、语音识别短片段不适用于长序列场景。2. LSTM长短期记忆网络核心原理RNN的改进版通过“门结构”遗忘门、输入门、输出门解决RNN的长期依赖问题能选择性地记忆长期信息、遗忘无关信息保留有用的上下文信息。面试必答题Q1LSTM的三个门结构的作用分别是什么 A① 遗忘门Forget Gate决定上一时刻的隐藏状态中哪些信息需要被遗忘输出0表示完全遗忘1表示完全保留② 输入门Input Gate决定当前时刻的输入信息中哪些需要被保留到细胞状态中③ 输出门Output Gate决定细胞状态中哪些信息需要被输出到当前时刻的隐藏状态中。Q2LSTM如何解决RNN的梯度消失问题 A① 细胞状态Cell State类似“传送带”信息可以直接传递梯度衰减缓慢② 门结构的 sigmoid 激活函数能让梯度保持在合理范围避免梯度指数级衰减从而实现对长期上下文信息的学习。Q3LSTM与RNN的区别适用场景 A区别① 结构上LSTM多了门结构和细胞状态RNN只有简单的循环结构② 功能上LSTM能解决长期依赖问题RNN无法处理长序列。适用场景LSTM适用于长序列场景如长文本翻译、长时时间序列预测、语音识别RNN适用于短序列场景。易错点混淆LSTM三个门的作用忘记LSTM的核心是“细胞状态”和“门结构”误认为LSTM能完全解决梯度消失仍可能存在轻微梯度消失可通过调参优化。五、NLP进阶Transformer、BERT核心背景Transformer是当前NLP领域的核心架构BERT基于Transformer的Encoder部分是预训练语言模型的代表面试重点考察“自注意力机制”“预训练任务”。1. Transformer核心原理完全基于自注意力机制Self-Attention替代RNN的循环结构实现并行训练解决RNN的长期依赖问题能更好地捕捉序列的全局上下文信息。核心结构Encoder编码器用于特征提取和Decoder解码器用于生成任务每层包含Multi-Head Self-Attention多头自注意力和Feed-Forward Network前馈网络辅以残差连接和层归一化。面试必答题Q1自注意力机制Self-Attention的原理是什么作用 A原理计算序列中每个位置与其他所有位置的“注意力权重”相关性然后根据权重对所有位置的特征进行加权求和得到当前位置的特征表示。核心公式通过Query查询、Key键、Value值计算注意力权重$$Attention(Q,K,V) softmax(\frac{QK^T}{\sqrt{d_k}})V$$$$\sqrt{d_k}$$用于防止维度过高导致的softmax饱和。作用能捕捉序列中任意两个位置的关联全局依赖无需像RNN那样逐时刻传递实现并行训练提升效率。Q2Multi-Head Self-Attention多头自注意力的作用是什么 A将自注意力机制分成多个“头”每个头关注不同的特征维度如有的头关注语法有的头关注语义然后将多个头的输出拼接能捕捉更丰富的上下文信息提升模型性能。Q3Transformer为什么需要位置编码Position Embedding ATransformer没有循环结构无法捕捉序列的位置信息如文本中词语的顺序位置编码通过给每个位置添加一个独特的向量让模型知道序列中每个元素的位置从而保留位置信息。Q4Encoder和Decoder的区别 A① Encoder双向自注意力能同时关注序列的前后位置适用于理解任务如文本分类、情感分析② Decoder包含Masked Self-Attention掩码自注意力防止模型看到未来的token和Cross-Attention交叉注意力关注Encoder的输出适用于生成任务如文本翻译、文本生成。2. BERTBidirectional Encoder Representations from Transformers核心原理基于Transformer的Encoder部分是“双向预训练语言模型”核心是通过预训练任务MLM、NSP学习文本的双向语义信息然后通过微调适配下游NLP任务如文本分类、问答、命名实体识别。面试必答题Q1BERT的核心创新点是什么为什么是“双向”的 A核心创新点① 基于Transformer Encoder实现双向注意力② 预训练微调的模式提升下游任务性能。“双向”的原因采用Masked Language ModelMLM掩码语言模型随机掩盖文本中的部分token让模型预测被掩盖的token迫使模型同时关注token的前后上下文从而学习双向语义信息区别于GPT的单向自回归。Q2BERT的预训练任务有哪些作用是什么 A① MLM掩码语言模型随机掩盖15%的token80%替换为[MASK]10%替换为随机token10%保留原token让模型预测被掩盖的token学习文本的语义特征② NSPNext Sentence Prediction下一句预测判断两个句子是否为连续的句子学习句子间的语义关联BERT原始版本部分改进版已取消。Q3BERT的优缺点如何优化BERT的缺点 A优点① 双向语义理解能力强下游任务适配性好② 泛化能力强适用于多种NLP任务。缺点① 参数量大推理速度慢② 长文本处理效率低输入长度有限制。优化方法① 轻量化如DistilBERT、ALBERT减少参数量② 长文本处理如Longformer、Transformer-XL提升输入长度限制③ 推理加速如量化、剪枝。Q4BERT与GPT的区别 A① 架构BERT是Encoder-only双向注意力GPT是Decoder-only单向自注意力② 预训练任务BERT用MLM双向预测GPT用自回归下一句预测单向③ 适用场景BERT适用于理解任务文本分类、问答GPT适用于生成任务文本生成、翻译。易错点混淆BERT和Transformer的关系BERT基于Transformer Encoder忘记MLM的掩码策略三种掩码方式忽略BERT的输入表示Word Embedding Segment Embedding Position Embedding。第三部分面试实战提示1. 回答问题的逻辑先讲“核心原理”一句话总结再讲“关键细节”参数、结构、步骤最后讲“优缺点适用场景”面试官最看重这种清晰的逻辑。2. 高频场景题重点准备“算法对比”如逻辑回归vs朴素贝叶斯、K-means vs DBSCAN、CNN vs MLP、LSTM vs RNN这些题能快速体现你的理解深度。3. 避坑提醒① 不强行推导复杂公式如CNN反向传播、Transformer注意力计算面试官不会为难应届毕业生重点是理解原理② 不夸大项目经验若有课程设计、小项目重点讲“用了什么算法、解决了什么问题、如何调参、提升了多少性能”③ 遇到不会的题不要慌
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2431792.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!