超详细!腾讯NLP算法岗面经(已offer)

news2025/7/5 19:48:28

a71b1e21584dff46f7d73d4357a94eeb.jpeg

作者 | ZipZou

整理 | NewBeeNLP

面试锦囊之面经分享系列,持续更新中18d12dd75f1bb22525be7b5ecd7bb24e.png 

可以后台回复"面试"加入交流讨论组噢a913854d398c2642caa307257860c3f3.png

分享一篇旧文,希望大家都成功上岸~

写在前面

首先来段简单的自我介绍:2021届硕士,硕士期间未有实习经历,本科大三有过一次实习,小公司,可以忽略。本人投递的是腾讯暑期实习:技术研究-自然语言处理方向

腾讯校招开启的比较早,提前批在3.5号就已经开启了,我算是赶上了最早的那一批。本次的算法岗竞争同往年一样,也蛮激烈的,我亲眼看着,从投递最初NLP岗的投录比为3:1,面试时升到了4:1,最后完成流程后变为了5:1,NLP方向相对好些,CV、机器学习等竞争更大,CV 9:1,ML 10:1,听师兄描述,算法岗到后面会到20:1都可能,所以还是要趁早准备。

本人的面试流程大概如下,3月1日找的内推,收到完善简历的链接,在官网投了简历,当时选择的意向BG是WXG,3月2日上午收到HR小姐姐电话,说她们是PCG部门,问我面不面,我大概询问了PCG的主要业务,得知是社交类的业务居多,然后就拒绝了,说还是优先考虑面WXG那边,于是HR小姐姐便说帮我转投。

这点很诡异,官网的显示是,校招从3.5日开始提前批,但是实际上在这之前应该就开始筛简历并且面试了。

在腾讯,据说简历如果被捞了,如果同意面试简历就会被锁定,从简历池中提到面试的部门,这样其他的BG就看不到你的简历了,然后走官方流程,当时不知道,主要是考虑WXG当时更符合我的预期吧。

3月4日,再次收到HR电话,官网当时状态是未发起面试,这次是直接约面试时间,问我啥时候有空,约了3月6日(在此之前大致准备了下算法题,但是没有仔细准备,所以隔了两天,再充分准备下)。3月6日下午,参加了电话面试,3.9,查公众号状态进入复试。期间等待了一段时间,3.15日收到二面电话,并且是当天面试,于是当天晚上8点面试,到9点左右结束。第二天,官网流程变为HR面,17日下午收到面试邀请链接,约20.40的视频面试,20日状态更新为已完成。

一面(技术面)

一面个人感觉面的不是很好,虽然大部分问题答出来了,但是还是有不清晰的地方,而且有些问题没有答出来,甚至以为会挂,一面时间持续了大概有1小时2分钟。面试形式:电话面试。

  1. 简要的自我介绍。

自我介绍之前大致准备了下,就主要介绍个人情况,我主要是按照简历上的内容,大概介绍了下,时间在3分钟左右,但是个人感觉亮点不够突出,这点大家可以再发挥。

  1. 研究生阶段最有挑战的项目是什么?

我觉得这是我的一面面试官比较关注的点,这点聊了很久。因为我们组的主要方向是智能化软件测试,或者说智能软件工程,然后介绍了最近研究的一个项目。大概介绍了这个项目的动机,然后传统的一些研究方法,以及我们准备采用的一些方法(NLP相关)。

  1. 对于这个项目,传统的方法是怎么样的?

介绍了在软件测试领域大致的做法,主要是机器学习相关的内容了,即人工抽取的一些特征,已经使用的方法。

  1. 列举下这个任务在传统用法的一些典型特征。

我大概列举了几个,感觉这里的案例说的不是很清楚,因为那些工作主要不是我在做,我只是对这些工作有过一些了解。

  1. 看你简历里有QA相关的论文,大概介绍下里面用的方法。

主要介绍了这篇论文用的模型,以及方法,细节面试官没有深究。

  1. 你在这篇论文里用到的是GloVe,为何不用word2vec,或者说word2vec与GloVe有什么区别?

我大致说了下他们的区别:word2vec是NNLM的一个较为典型的代表,其利用了DNN的方法来训练获取到词向量,而且词向量是中间产物,这个思路最早是Bengio提出,Google Brain提出的word2vec让词向量火了起来。而GloVe是采用词频统计信息,利用一些数学方法逐步优化得来,它没有神经网络的结构,所以词向量训练的速度相对更快。(这里当时不记得具体的公式推导了,原论文我倒是看过,但是当时记得不清了,实际上GloVe是词共现矩阵+类SVD的方法)

  1. 你清楚word2vec吗,大致描述下word2vec的结构以及训练方法。

清楚(好刚的我,面完发现答的有瑕疵),从宏观上描述了DNN的一个结构,从输入(大致带过分词,词表构建,one-hot等过程),到隐层,到输出层。然后详细讲了两种训练结构,即CBoW和Skip-Gram,但是当时这两种方法被我说反了。(当时并无觉察)讲完两种训练方法后,大致介绍了下训练时候词表大小过大,输出层过大的优化方法,即:hierarchical softmax和negative sampling。

  1. 现阶段NLP的研究相对CV发展还是很缓慢,你认为是什么原因?

自然语言存在变化性,和不确定性,即语义的抽取对神经网络来说是很难的,在英文,人脑可以通过词形来建立词与词之间的关系,但是语义不确定性很强,比如歧义,一词多义,词序等等都会影响语义。而CV的特征相对固定,如图像处理,filter提取的特征一般是某种轮廓或边缘特征,这些特征对于特定的物体都是固定的,所以效果会更好。(说了很多废话,不清楚,其实总结就是感知智能和认知智能,感知智能很容易实现,即CV,而认知智能有很多挑战,即NLP)

  1. 你知道隐马尔可夫模型吗,大概介绍下。

当时HMM的具体理论在准备阶段就大致地看了下,面试官很nice,没有很为难,理论的不记得那来实践的,就接着这个问题,问了HMM的几个要素,即:初始概率,状态转移矩阵,发射矩阵,这三个要素,然后我主要讲了下这三个要素的运算过程,提及了一下维特比算法。(这里当时准备的不充分,说的不是特别清楚,后来我去恶补了一下)

  1. 维特比算法其实是一种动态规划算法,动态规划算法通常用来解决什么问题,在HMM里是怎么使用的?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/433385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Micropython】ESP8266通过NTP同步本地RTC时间

【Micropython】ESP8266通过NTP同步本地RTC时间 📌相关篇《【MicroPython esp8266】固件烧写教程》✨本案例基于Thonny平台开发。✨ 📋实时时钟 (RTC) 🔖RTC属于machine模块中的子类。 datetime([value]): 获取或设置当前时间。如果没有指定…

GitLab合并操作自动构建Jenkins任务

最终实现当git库 有合并操作自动构建jenkins的指定任务 1、安装Build Authorization Token Root插件 Build Authorization Token Root:使用拥有读取权限的匿名用户访问,配置钩子链接时需要用到,如果不使用,每次访问链接都需要提供认证&#…

Rancher 部署带有密码认证 Elasticsearch 服务

Rancher 部署带有密码认证 Elasticsearch 服务 1. 工作负载部署 镜像地址 elasticsearch:7.6.2端口映射 NodePort 9200 -> 31627(随机)环境变量 node.namees1 network.host0.0.0.0 discovery.typesingle-node配置映射 新建配置映射,内容如下: xpack.…

Python VTK 绘制线条

前言: Python-VTK绘制线条,主要绘制直线和曲线 主要函数介绍: vtk.vtkPoints() 在VTK中用于定义点的类,使用points.InsertPoint(index, x, y, z) 即可插入点集。函数中,第一个参数是点的序号,后面是三个参…

垃圾回收面试总结

堆空间的基本结构 Java 的自动内存管理主要是针对对象内存的回收和对象内存的分配。同时,Java 自动内存管理最核心的功能是 堆 内存中对象的分配与回收。 Java 堆是垃圾收集器管理的主要区域,因此也被称作 GC 堆(Garbage Collected Heap&am…

含可再生能源的配电网最佳空调负荷优化控制

目录 1 主要内容 2 部分代码 3 程序结果 4 程序链接 1 主要内容 该程序完美复现《Optimal air-conditioning load control in distribution network with intermittent renewables》,中文题目(翻译)为《含可再生能源的配电网最佳空调负荷…

如何快速用本地文件建立一个Url资源定位符

今天有一个需求,用easyExcel从服务端的一个Url来获取excel做处理。 搜了很多方案,首先要解决的一个问题就是,我得从一个Url获取一个excel,那就意味着我要上传一个文件到我的服务器上,把文件传递上去,然后访…

《API加速优化方案:多级缓存设计》

点击上方蓝字关注我们! 这事情还得从两天前说起...话说迭代上了个接口,该接口横跨多个应用服务,链路如下图所示: 问题来了:通过skywalking,我们的监控到dev环境的该接口偶尔请求耗时很长,且抛异…

震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦

文 | 小戏 “数据”!“数据”!“数据”! 大模型时代,最珍贵的是什么?是 Transformer 的架构吗?是 RLHF 的方法吗? 不是!是数据,是高质量的数据,是高质量且开源…

科幻AI生活来临,博联版“贾维斯”让全屋智能触手可及

1 ChatGPT提升交互体验 解决人机语音交互痛点 据洛图科技(RUNTO)《中国智能音箱零售市场月度追踪》报告,2022年中国智能音箱市场销量为2631万台,市场销额达到75.3亿元。当前智能音箱已完成初轮用户普及,舒适的居家定制服务走入千家万户&…

低代码开发重要工具:jvs-logic(逻辑引擎)基础原理与功能架构

逻辑引擎介绍 逻辑引擎是一种能够处理逻辑表达式的程序,它能够根据用户输入的表达式计算出表达式的值。在实际应用中,逻辑引擎通常被用于处理规则引擎、决策系统、业务规则配置等领域,具有广泛的应用前景。 原理与核心功能描述 基础原理 …

JUC并发编程之CompletableFuture

Future future是java5新加的一个接口,他提供了一种异步并行计算的功能 接口定义了操作异步任务执行的一些方法,如获取异步任务的执行结果、取消任务的执行、判断任务是否被取消、判断任务是否执行完毕 目的:异步多线程执行且有返回结果&#…

干货分享 | 一文了解交互式应用程序安全测试(IAST)技术

软件开发过程中,安全检测极为重要。带有漏洞的软件一旦被恶意利用,将造成数据泄露、业务瘫痪,为企业带来不可估量的损失。这就要求企业在系统开发初期发现系统安全问题,快速定位应用漏洞并修复,从源头减少开发过程中的…

黑马点评Redis实战(短信登录;商户查询缓存)

黑马点评 通过一个类似于大众点评的项目了解学习redis在实战项目中的使用,下面是项目中会涉及到的模块: 一、导入黑马点评项目 导入springboot项目,导入sql脚本到数据库,开启nginx,更改项目配置文件中的redis和mys…

头部证券公司安全体系搭建实战讲解—开源网安S-SDLC平台助力金融科技安全发展

数字化时代背景下,新兴技术广泛应用导致软件安全隐患不断扩大。而金融行业由于项目周期长、业务规模大、应用数量多、合规监管严、内外合作多等特性,进一步加重了安全风险。 与此同时,《等保2.0》、《网络安全法》等国家政策的发布&#xff0…

【排序】直接插入排序与希尔排序(图示详解哦)

全文目录 引言直接插入排序思路实现 希尔排序思路实现 总结 引言 在上一篇文章中,我们实现了选择排序与堆排序,在本篇文章中将继续介绍直接插入排序与希尔排序: 直接插入排序与希尔排序都属于插入排序的一种: 这两种排序的思想都…

Ae:摄像机设置

Ae菜单:图层/摄像机设置 Camera Settings 快捷键:Ctrl Shift Y 新建摄像机图层时,首先会弹出摄像机设置 Camera Settings对话框。 经典 3D 渲染器时的摄像机设置 Cinema 4D 渲染器时的摄像机设置 类型 Type 有两种类型的摄像机供选择。 提…

空间矢量数据保存为GeoJSON、PDF等文件格式

专注系列化、高质量的R语言教程 推文索引 | 联系小编 | 付费合集 我们使用的空间矢量数据一般是Shapefile格式的,它在ArcGIS、R语言中都能加载,但是这种数据格式在使用时也有不便:它是由多个文件构成的,一般有.shp、.shx、.dbf、.…

Session和Cookie区别介绍+面试题

Session 会话: 对应的英文单词:session用户打开浏览器,进行一系列操作,然后关闭浏览器。整个过程叫做一次会话一个会话包含多次请求 session机制属于B/S结构的一部分,主要的作用就是为了保存会话状态。(用户登录成功后…

Spring使用注解存储和读取对象

文章目录 一、存储Bean对象配置扫描添加注解存储Bean对象注解使用范围Bean的命名五大类注解的关系为什么需要五大类注解? 二、方法注解BeanBean重命名 三、对象注入属性注入Setter注入构造方法注入Autowired 和 Resource 的区别 一、存储Bean对象 之前我们存储Bean时&#xff…