面试相关的知识点

news2025/5/23 2:12:47

1 vllm

1.1常用概念

1 vllm:是一种大模型推理的框架,使用了张量并行原理,把大型矩阵分割成低秩矩阵,分散到不同的GPU上运行。

2 模型推理与训练:模型训练是指利用pytorch进行对大模型进行预训练。

模型推理是指用训练好的模型对新的输入生成输出的过程

3 大模型一般的训练过程:1 先对大模型进行无监督预训练。2 对模型进行微调

4 张量:向量到二维矩阵、三维矩阵等。

5 张量并行技术:张量并行技术主要用在大模型地训练过程中,特别是参数两巨大的模型,比如说transformer、GAN。

VLLM技术要点

1 张量并行化和模型并行化
VLLM支持将大型模型分布在多个GPU上进行并行计算,这包括张量并行化(Tensor Paralelism)和模型并行化(ModelParallelism)。张量并行化将模型的权重和激活在多个GPU之间切分,而模型并行化则将模型的不同层分配给不同的GPU,以此来有效利用多GPU资源.

2 连续批处理

VLM通过连续批处理(Consecutive Batch processing)技术,能够在GPU上无缝处理连续的输入序列,而无需等待额外的主机到设备数据传输。这减少了等待时间和上下文切换,从而提高了GPU利用率和整体推理速度。

4. PagedAttention
PagedAttention是一种创新的注意力机制,用于处理长序列输入,通过将输入序列分割成多个页面,每个页面独立处理,减少了全局注意力计算的复杂度,从而降低了内存使用和计算时间。

5 量化

VLLM支持不同的量化技术,如GPTQ和AWQ,这些技术能够将模型的权重量化到更低的精度,比如int4或int8,从而减少模型的内存占用,提高计算效率。

6.低延迟和高吞吐量

VLM的设计重点之一是提供低延迟的响应,即使在处理高并发请求时也能保持高性能。它能够高效地处理大量并发的文本生成请求,适合于大规模部署和实时应用。

2 lora和qlora的原理

1 lora 又名low rank adaptation,低秩矩阵自适应。特别适用于微调大规模语言预训练模型。

2 优势:直接对大规模语言模型进行全参数微调(full finetuning)计算量非常大。lora通过引入两个低秩矩阵。具体来说是把非常大的权重矩阵,化为两个维度低的矩阵

3 function call和ReAct

1 function call:模型主动调用在外部工具或者api的能力

2 ReAct:ReAct能够在不具备Function Calling能力的模型上发挥作用

4 agent

1 agent是什么

5  deepseek模型训练步骤

第一步,进行大规模无监督预训练学习。目的是让模型学会语言的基本结构与模式

第二步,使用质量冷启动数据(cot数据)对模型进行有监督微调。获得基本的格式遵循和反思验证能力

第三步,强化学习

6 项目迭代过程

6.1 第一阶段

该阶段采用的模型为GLM系列地模型,

模型参数较少,text2sql能力差

多轮对话历史影响大,调用tool的历史问答信息会很大程度上影响后续问题的回答。

通识问题易识别为调用问题,若用户给定function描述,模型有更大的倾向选择去调用

6.2 第二阶段

该阶段采用qwen32B

相较GLM的Text2SQL能力更好,受历史信息影响的情况大幅降低,对于是否需要调用SQL查询的判断能力更强。 对模型的测试后准确率大致在45%左右,因此拟对模型进行微调

构建了1378个问题的微调数据集。

构建的方法:

1 给定GPT数据库描述和应用场景批量的生成可能的用户提问,人工对这批问题进行调整(让问题更像人问出来的),

2 再用GPT生成相对应的SQL语句,编程代码批量将这些SQL对数据库进行查询,返回查询结果,人工对SQL和返回数据进行查验( SQL语句的特殊在于无法根据是否有返回结果来验证,对于用户的问题可能生成了错误理解的SQL而碰巧返回了结果,而未返回结果的不一定是错误,可能是因为数据库中没有存储相对应的数据,如今年的环境数据,因此需要人工对SQL一一核对并修正)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2383542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何用JAVA手写一个Tomcat

一、初步理解Tomcat Tomcat是什么? Tomcat 是一个开源的 轻量级 Java Web 应用服务器,核心功能是 运行 Servlet/JSP。 Tomcat的核心功能? Servlet 容器:负责加载、实例化、调用和销毁 Servlet。 HTTP 服务器:监听端口…

使用 Qt QGraphicsView/QGraphicsScene 绘制色轮

使用 Qt QGraphicsView/QGraphicsScene 绘制色轮 本文介绍如何在 Qt 中利用 QGraphicsView 和 QGraphicsScene 实现基础圆形绘制,以及进阶的色轮(Color Wheel)效果。 色轮是色彩选择器的常见控件,广泛应用于图形设计、绘画和 UI …

使用glsl 来做视频矫正

描述、优点 使用glsl来代替opencv的undistort 和 鱼眼矫正,并且最后使用opencv的LUT给glsl 来使用,来达到加速的目的,并且做到和opencv 一模一样的效果,达到实时视频的加速矫正。 优点: 没有cuda,也可以做到实时视频矫正,包含各类板子和amd的cpu,intel核显 矫正的基本作…

03-Web后端基础(Maven基础)

1. 初始Maven 1.1 介绍 Maven 是一款用于管理和构建Java项目的工具,是Apache旗下的一个开源项目 。 Apache 软件基金会,成立于1999年7月,是目前世界上最大的最受欢迎的开源软件基金会,也是一个专门为支持开源项目而生的非盈利性…

蓝桥杯19682 完全背包

问题描述 有 N 件物品和一个体积为 M 的背包。第 i 个物品的体积为 vi​,价值为 wi​。每件物品可以使用无限次。 请问可以通过什么样的方式选择物品,使得物品总体积不超过 M 的情况下总价值最大,输出这个最大价值即可。 输入格式 第一行…

DeepSeek源码解构:从MoE架构到MLA的工程化实现

文章目录 **一、代码结构全景:从模型定义到分布式训练****二、MoE架构:动态路由与稀疏激活的工程化实践****1. 专家路由机制(带负载均衡)****数学原理:负载均衡损失推导** **三、MLA注意力机制:低秩压缩与解…

【VLNs篇】02:NavGPT-在视觉与语言导航中使用大型语言模型进行显式推理

方面 (Aspect)内容总结 (Content Summary)论文标题NavGPT: 在视觉与语言导航中使用大型语言模型进行显式推理 (NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models)核心问题探究大型语言模型 (LLM) 在复杂具身场景(特别是视…

(T_T),不小心删掉RabbitMQ配置文件数据库及如何恢复

一、不小心删除 今天是2025年5月15日,非常沉重的一天,就在今早8点左右的时候我打算继续做我的毕业设计,由于开机的过程十分缓慢(之前没有),加上刚开机电脑有卡死的迹象,再加上昨天晚上关电脑前…

TDengine 安全部署配置建议

背景 TDengine 的分布式、多组件特性导致 TDengine 的安全配置是生产系统中比较关注的问题。本文档旨在对 TDengine 各组件及在不同部署方式下的安全问题进行说明,并提供部署和配置建议,为用户的数据安全提供支持。 安全配置涉及组件 TDengine 包含多…

蓝桥杯框架-LED蜂鸣器继电器

蓝桥杯框架-LED蜂鸣器继电器 一,新建工程文件二,配置keil三,完善框架 一,新建工程文件 在桌面上新建一个文件夹:用于存放所有工程文件 在文件夹中再建立一个文件夹DEMO_01:这是我们的第一个工程文件 在第…

uniapp-商城-64-后台 商品列表(商品修改---页面跳转,深浅copy应用,递归调用等)

完成了商品的添加和展示,下面的文字将继续进行商品页面的处理,主要为商品信息的修改的页面以及后天逻辑的处理。 本文主要介绍了商品信息修改页面的实现过程。首先,页面布局包括编辑和删除功能,未来还可添加上架和下架按钮。通过c…

Dify的大语言模型(LLM) AI 应用开发平台-本地部署

前言 今天闲着,捣鼓一下 Dify 这个开源平台,在 mac 系统上,本地部署并运行 Dify 平台,下面记录个人在本地部署Dify 的过程。 Dify是什么? Dify是一个开源的大语言模型(LLM)应用开发平台&#…

使用教程:8x16模拟开关阵列可级联XY脚双向导通自动化接线

以下通过点亮LED进行基本使用流程演示,实际可以连接复杂外设(SPI、CAN、ADC等) 单模块使用 RX、TX、5V和GND接到串口模块;X5接5V;Y2接LED;LED-接GND 串口模块插上电脑后,LED没有亮;因为此时模…

8 种快速易用的Python Matplotlib数据可视化方法

你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python 的 Matplotlib 库是你数据可视化的最佳伙伴!它简单易用、功能强大,能将枯燥的数字变成引人入胜的图表。无论是学生、数据分析师还是程序员&…

C# 深入理解类(实例构造函数)

实例构造函数 实例构造函数是一个特殊的方法,它在创建类的每个新实例时执行。 构造函数用于初始化类实例的状态。如果希望能从类的外部创建类的实例,需要将构造函数声明为public。 图7-2阐述了构造函数的语法。除了下面这几点,构造函数看起…

RabbitMQ——消息确认

一、消息确认机制 生产者发送的消息,可能有以下两种情况: 1> 消息消费成功 2> 消息消费失败 为了保证消息可靠的到达消费者(!!!注意:消息确认机制和前面的工作模式中的publisher confi…

测试W5500的第2步_使用ioLibrary库创建TCP客户端

ioLibrary库下载地址:文件下载地址:https://gitee.com/wiznet-hk/STM32F10x_W5500_Examples 源文件下载地址:https://gitee.com/wiznet-hk 没有注册的,只能复制粘贴了。 本文介绍了如何初始化STM32的硬件资源,配置W5500的网络参数&#xff…

深度学习之用CelebA_Spoof数据集搭建一个活体检测-训练好的模型用MNN来推理

一、模型转换准备 首先确保已完成PyTorch到ONNX的转换:深度学习之用CelebA_Spoof数据集搭建活体检测系统:模型验证与测试。这里有将PyTorch到ONNX格式的模型转换。 二、ONNX转MNN 使用MNN转换工具进行格式转换:具体的编译过程可以参考MNN的…

开源安全大模型Foundation-Sec-8B实操

一、兴奋时刻 此时此刻,晚上22点55分,从今天早上6点左右开始折腾,花费了接近10刀的环境使用费,1天的休息时间,总算是把Foundation-Sec-8B模型跑起来了,中间有两次胜利就在眼前,但却总在远程端口转发环节出问题,让人难受。直到晚上远程Jupyter访问成功那一刻,眉开眼笑,…

【JavaWeb】MySQL

1 引言 1.1 为什么学? 在学习SpringBootWeb基础知识(IOC、DI等)时,在web开发中,为了应用程序职责单一,方便维护,一般将web应用程序分为三层,即:Controller、Service、Dao 。 之前的案例中&am…