字节跳动 (提前批-算法工程师-电商业务) 一面面经

news2026/4/1 18:29:37

文章目录

  • 面试情况
  • 1、对简历项目提问:
    • 1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化,具体做法,为什么这么做?
    • 1.2、标注问题,如何标注?
    • 1.3、如何设计prompt让chatgpt得到高质量标注?
    • 1.4、类目比较多,如何优化?
    • 1.5、类目分类里有无对比其他模型?效果如何?
    • 1.6、聚类算法kmeans, dbscan原理,他们的区别不仅仅是因为是否需要预先设定类别数k,为何组合他们来做归一化?
    • 1.7、t5模型介绍,bert模型介绍,他们之间的区别?
  • 2、八股基础提问
    • 2.1、bert的预训练任务,mask机制介绍,为何要mask15%,15%里为何又要80%mask,10%随机替换别的token,10%不动。
    • 2.2、transformer介绍?
    • 2.3、self-attention原理,为啥加缩放因子?
    • 2.4、为何需要位置编码?不要会怎样?
    • 2.5、gbdt原理?
    • 2.6、广告推荐里的负采样策略?
  • 3、代码题:
  • 4、开放题场景题

面试情况

基本都答出来了,代码题10分钟不到秒了。

1、对简历项目提问:

1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化,具体做法,为什么这么做?

1.2、标注问题,如何标注?

1.3、如何设计prompt让chatgpt得到高质量标注?

1.4、类目比较多,如何优化?

1.5、类目分类里有无对比其他模型?效果如何?

1.6、聚类算法kmeans, dbscan原理,他们的区别不仅仅是因为是否需要预先设定类别数k,为何组合他们来做归一化?

1.7、t5模型介绍,bert模型介绍,他们之间的区别?

2、八股基础提问

2.1、bert的预训练任务,mask机制介绍,为何要mask15%,15%里为何又要80%mask,10%随机替换别的token,10%不动。

  • 所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词。在BERT的实验中,15%的WordPiece Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉15%的单词之后:
  • 80%的时候会直接替换为[Mask]。 为了让模型学习到双向的上下文信息,但由于mask位置是看不到的,导致模型看不到本身被mask的token的信息,但finetune确实可以看到当前token,这就造成了模型没有学会根据上下位词的表示来调整当前词的表示的能力。所以self-attention参数更新过程中,会弱化[MASK]自身对生成向量的影响,尽量用周边向量生成[MASK]位置对应的向量。这样虽然学习到了上下文的信息,但是带来了一个问题:因为[MASK]的信息在生成向量中没有贡献,那么模型仅关心周边的信息。采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型。
    10%的时候将其替换为其它任意单词。 这样模型并不知道该位置是mask还是原词还是随机的词,就迫使模型结合上下文去预测纠正该位置的token。此外15%*10%=1.5%的随机替换,这个量不大,并不会影响对原有句子的理解。
    10%的时候会保留原始Token。 虽然保留,但是也要预测出来。意义就是保留语言本来的面貌, 让信息不至于完全被遮掩, 使得模型可以"看清"真实的语言面貌。
     另外文章指出每次只预测15%的单词,因此模型收敛的比较慢。

2.2、transformer介绍?

2.3、self-attention原理,为啥加缩放因子?

2.4、为何需要位置编码?不要会怎样?

2.5、gbdt原理?

2.6、广告推荐里的负采样策略?

3、代码题:

题目:最长连续不重复子串长度 (力扣原题)
解法:滑窗+哈希

4、开放题场景题

推荐系统的构成,精排常用模型?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1699837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣HOT100 - 136. 只出现一次的数字

解题思路: class Solution {public int singleNumber(int[] nums) {int single 0;for (int num : nums) {single ^ num;}return single;} }

生命在于学习——Python人工智能原理(1.1)

说明:今年学一部分人工智能方向的知识,网安也会穿插,看后续如何将二者结合起来。 一、人工智能的基本知识 1、人工智能的起源 1956年美国达特茅斯学院召开了一个夏季论班,首次提出人工智能的概念。 1950年图灵提出了图灵测试&a…

Jenkins + github 自动化部署配置

1 Jenkins安装 AWS EC2安装Jenkins:AWS EC2 JDK11 Jenkins-CSDN博客 AWS EC2上Docker安装Jenkins:https://blog.csdn.net/hhujjj2005/article/details/139078402 2 登录jenkins http://192.168.1.128:8080/ $ docker exec -it d1851d9e3386 /bin/ba…

ChatGPT-4o 实战 如何快速分析混淆加密和webpack打包的源码

ChatGPT-4o 几个特点 一个对话拥有长时间的记忆,可以连续上传文件,让其分析,最大一个代码文件只能3M,超出3M的文件,可以通过split-file可以进行拆分 其次ChatGPT-4o可以生成文件的下载链接,这有利于大文件的…

Nginx 的原理解析 worker 配置及相关问题 -细节狂魔

文章目录 前言Nginx 的最基本的执行过程(master & worker)worker 是如何进行工作的 一个 master 和 多个 woker 有哪些好处1、可以使用 nginx 热部署2、节省资源 && worker 进程之间互不影响 && nginx 服务不会中断 woker 设置多少才…

如何查看哪些组策略应用于你的电脑和用户帐户?这里有详细步骤

如果你希望在电脑上查看所有有效的组策略设置,以下是操作方法。 什么是Windows中的组策略 在Windows世界中,组策略为网络管理员提供了一种将特定设置分配给用户组或计算机组的方法。然后,无论何时组中的用户登录到联网的PC,或无论何时启动组中的PC,都会应用这些设置。 …

Linux系统之GoAccess实时Web日志分析工具的基本使用

Linux系统之GoAccess实时Web日志分析工具的基本使用 一、GoAccess介绍1.1 GoAccess简介1.2 GoAccess功能1.3 Web日志格式 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查系统镜像源3.4 更新软件列表…

【课程作业】嵌入式系统与设计上机作业(作业三)

个人名片: 🎓作者简介:嵌入式领域优质创作者🌐个人主页:妄北y 📞个人QQ:2061314755 💌个人邮箱:[mailto:2061314755qq.com] 📱个人微信:Vir2025WB…

基于机器学习判断面部微表情发现哪些人更容易诊有帕金森病

1. 概述 帕金森病(Parkinson’s disease,PD)是一种慢性、进展性的神经退行性疾病,主要影响运动系统。该病症以大脑中黑质致密部多巴胺能神经元的逐渐丧失为特征,导致多巴胺(一种重要的神经递质&#xff09…

XX数字中台技术栈及能力

XX数字中台技术栈及能力 1 概述 XX数字中台面向数据开发者、数据管理者和数据应用者,提供数据汇聚、融合、治理、开发、挖掘、共享、可视化、智能化等能力,实现数据端到端的全生命周期管理,以共筑数字基础底座,共享数据服务能力…

插入排序(概述)

描述 插入排序为将一个数插入到以排序好的数组中 目录 描述 原理 特性 代码 原理 我们以升序为例 先将新数插入到数组的最后一位,记录下新数的值 从新数的位置开始往前遍历,如果前一位大于新数的值 则将当前位置修改为前一位的值 如果前一位小…

前端:音频可视化(H5+js版本)

一、效果展示 HTML5JS实现一个简单的音频可视化 二、代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><title>音频可视化</title><style></style></head><body><divs…

python mp3转mp4工具

成品UI 安装moviepy库 pip install moviepy 转换demo from moviepy.editor import *# 创建一个颜色剪辑&#xff0c;时长与音频相同 audioclip AudioFileClip(r"C:\Users\Administrator\PycharmProjects\pythonProject44\test4\赵照 - 灯塔守望人.mp3") videoclip…

P6160 [Cnoi2020] 向量

[Cnoi2020] 向量 题目背景 向量(vector)&#xff0c;指具有大小(Magnitude)和方向(Direction) 的量。 与向量对应的量叫做数量(Scalar)&#xff0c;数量只有大小&#xff0c;没有方向。 对于 Cirno 来说&#xff0c;整天环绕氷屋的旋转 Sangetsusei 们是向量而不是数量。 Sun…

Spring Cloud 项目中使用 Swagger

Spring Cloud 项目中使用 Swagger 关于方案的选择 在 Spring Cloud 项目中使用 Swagger 有以下 4 种方式&#xff1a; 方式一 &#xff1a;在网关处引入 Swagger &#xff0c;去聚合各个微服务的 Swagger。未来是访问网关的 Swagger 原生界面。 方式二 &#xff1a;在网关处引…

关于C的\r回车在不同平台的问题

首先我们需要搞明白\r和\n是两回事 \r是回车&#xff0c;前者使光标到行首&#xff0c;&#xff08;carriage return&#xff09; \n是换行&#xff0c;后者使光标下移一格&#xff0c;&#xff08;line feed&#xff09; Linux平台下 #include <stdio.h> int main()…

C++的AVL树

目录 基本概念 插入的语言分析 LL右旋 RR左旋 额外结论及问题1 LR左右旋 RL右左旋 额外结论及问题2 插入结点 更新bf与判断旋转方式 旋转代码实现 准备工作一 LL右旋的实现 RR左旋的实现 准备工作二 LR左右旋的实现 RL右左旋的实现 完整代码 基本概念 1、…

机器学习算法手撕(一):KD树

import math import matplotlib.pyplot as pltclass Node:def __init__(self, data, leftNone, rightNone):self.data dataself.left leftself.right right# 创建KDTree类 class KDTree:def __init__(self, k):self.k kdef create_tree(self,dataset,depth):if not dataset…

Docker CIG使用

Docker CIG是什么 CIG为&#xff1a;CAdvisor监控收集、InfluxDB存储数据、Granfana图表展示 这个组合是一个常见的监控 Docker 容器的解决方案,它包括以下三个组件: cAdvisor (Container Advisor): cAdvisor 是一个开源的容器资源监控和性能分析工具。它能够收集有关正在运行的…

Java实现图书系统

首先实现一个图书管理系统,我们要知道有哪些元素? 1.用户分成为管理员和普通用户 2.书:书架 书 3.操作的是: 书架 目录 第一步:建包 第二步:搭建框架 首先:完成book中的方法 其次:完成BookList 然后:完成管理员界面和普通用户界面 最后:Main 第三步:细分方法 1.退…