【自然语言处理与大模型】大模型(LLM)基础知识④

news2025/5/18 20:31:28
(1)微调主要用来干什么

微调目前最主要用在定制模型的自我认知和改变模型对话风格。模型能力的适配与强化只是辅助。

  • 定制模型的自我认知:通过微调可以调整模型对自我身份、角色功能的重新认知,使其回答更加符合自定义的场景。还能限制模型的任务边界,让其在指定领域范围回答问题,避免越界或错误信息。

        比如:qwen的模型默认回答“我是qwen”,微调过后让其回答“我是小呆(自定义的名字)”,再比如:你问模型“你有什么能力?”,模型默认回答“我会生成文本、写作、编写代码等等”。但如果你做的是医疗领域的微调,模型就可以输出“我可以帮助用户分析应该吃什么药”。再比如:微调前模型什么问题都回答,微调后只回答医疗问题,其他的问题拒绝回答。

  • 改变模型的对话风格:是指通过在预训练大模型的基础上,使用特定风格的对话数据对模型进行二次训练,使其在保持原有语言能力的同时,生成更符合目标风格的回复。通过微调实现的风格迁移本质上是模型参数空间的向量偏移。

        比如:医疗咨询场景中,微调后的模型会使用更严谨的术语;儿童教育场景中,模型会生成更亲切的回复。

  • 模型能力的适配与强化:通过微调能使通用模型具备垂直领域的知识,使其对垂直领域的问答能力提升,但由于模型具有幻觉且若想回复垂直领域的效果很好需要预处理大量训练数据,所以使用微调为模型注入垂直领域知识只是一种辅助手段。

        过少的样本或单一的微调数据会导致模型在未见过的数据上表现不佳,此时模型过拟合,泛化能力差。少样本的长时间微调还可能导致模型原有的通用能力被削弱,造成灾难性遗忘。

(2)为什么不选择直接使用微调来实现专业领域问答系统?

        要想获得好效果需要大量数据标注,而想要得到大量数据要付出较高成本,即便拥有大量数据也可能出现幻觉。而少样本的数据微调可能会导致过拟合,使得模型泛化能力不佳,严重的会导致通用能力下降。

  • 数据标注成本高:微调需要依赖高质量的标注数据,而专业领域的标注数据获取成本极高。需要领域专家参与标注(如法律合同条款解析、医学诊断逻辑标注),成本远高于通用领域。专业领域的高质量数据量通常有限,导致模型难以覆盖所有场景。领域知识(如法律条文、医疗指南)会随时间变化,需持续维护标注数据,进一步增加成本。
  • 幻觉问题难以彻底解决:即使使用高质量数据微调,模型仍可能产生幻觉(生成错误或虚构信息)。如果标注数据本身存在偏差或过时信息,模型可能继承这些错误。微调后的模型在处理复杂或模糊问题时,可能生成逻辑不严谨的回答。专业领域的知识往往分散在多个来源(如论文、法规、案例),微调模型难以整合所有信息。
  • 少样本微调导致过拟合:数据量不足导致模型无法学习到领域知识的通用规律,反而“记住”了训练数据中的噪声和细节。少样本对参数很大的模型而言,只会被“记住”而无法抽象成一个知识。
(3)实际应用中如何实现专业领域问答呢?

        实际应用中常采取混合策略,也就是先用RAG,然后再使用微调进一步提升RAG输出的准确率。RAG的优势在于对知识更新成本低,不需要重新训练模型只需要外挂知识库就可以实现,对于动态数据也能低成本的更新。RAG还极大的增强了模型输出内容的可解释性,回答基于可以验证的知识库,能够溯源。但RAG之后模型每次都是对相似度匹配出来的top-n结果做阅读理解,模型本身并没有相关领域的深刻知识。于是想到了对模型进行微调,起到补充作用,提升模型对领域术语的理解(如法律术语,医学名词),还可以优化生成逻辑(如合同条款解析的格式化输出)。

(4)大模型应用落地的三个方向是?

        大模型应用落地的三个方向——微调(Fine-tuning)、检索增强生成(Retrieval-Augmented Generation, RAG)、以及智能体(Agent),各自代表了将大型预训练模型应用于具体任务或场景的不同策略。下面简要介绍这三个概念:

  • 微调(Fine-tuning):微调是指在已经在一个大规模数据集上预训练好的模型基础上,针对特定任务使用较小规模的特定数据集进行进一步训练的过程。通过这种方式,模型可以学习到执行特定任务所需的细节和细微差别,同时保留从预训练阶段学到的广泛知识。这种方法特别适用于那些有大量标记数据的任务。
  • 检索增强生成(Retrieval-Augmented Generation, RAG):RAG是一种结合了信息检索与文本生成的方法,旨在提高生成式模型输出的相关性和准确性。它的工作原理是首先根据输入查询从一个大的文档库中检索出最相关的文档片段,然后将这些片段作为额外的信息提供给生成模型,以帮助其生成更加准确和上下文相关的回复。这种方法对于需要精确事实依据的任务特别有用。
  • 智能体(Agent):在人工智能领域,“Agent”通常指的是能够自主执行任务、作出决策并适应环境变化的系统或模型。当谈论大模型时,“Agent”的概念通常涉及利用这些模型来构建可以理解复杂指令、规划步骤、解决问题并执行任务的智能体。这样的“Agent”可以通过对环境的观察来学习,并且能够在不同的应用场景中表现出灵活的行为。这包括但不限于对话系统、自动化助手以及各种形式的机器人技术等。
(5)哪些模型参数来控制对话生成的自由度和多样性?
  • Top_p (核采样Nucleus Sampling)

定义:Top_p是一种采样方法,通过选取概率总和达到p的最小集合中的单词进行采样。与传统的top-k采样(仅从概率最高的k个词中选择)不同,top_p根据累积概率动态决定候选词汇集。

大小范围:通常取值在0到1之间。例如,当设置为0.9时,意味着会选择累计概率达到90%的那些最有可能的词作为候选进行采样。

  • 存在处罚(Presence Penalty)
定义:存在处罚是用来控制生成文本中新话题引入频率的一个参数。较高的存在处罚可以鼓励模型产生更多样化的内容,减少重复提及相同的主题或概念。
大小范围:该参数的值通常是正数,表示惩罚强度。正值越大,对已经提到过的词语再次出现的惩罚越强;如果设置为0,则不应用任何惩罚。
  • 频率惩罚(Frequency Penalty)

定义:频率惩罚用于调节生成文本中词语出现频率的一种机制。它基于词语在整个输出序列中的出现次数来施加惩罚,旨在避免某些词被过度使用,从而增加输出内容的新颖性和多样性。

大小范围:类似于存在处罚,频率惩罚的值也是非负实数。数值越高,对于高频词的抑制作用越强。设置为0则表示不对词频做额外处理。

(6)RAG的优点有哪些?

优点

描述

避免模型幻觉

引入外部知识库信息,减少虚假内容生成

动态知识更新

知识库可实时更新,无需重新训练模型

提高答案准确性

结合外部知识生成更准确、相关的内容

增强可解释性

生成内容基于可检索知识,用户可验证来源

成本效益高

无需修改模型参数,仅优化输入过程,节省训练和部署成本

安全与隐私管理

通过限制知识库权限控制敏感信息访问

灵活定制

可针对特定领域(如医疗、金融)定制知识库,快速适配不同场景

(7)RAG的缺点有哪些?

缺点

描述

依赖外部知识库

检索结果的质量和知识库完整性直接影响生成效果

检索效率与准确性矛盾

大规模知识库检索可能降低效率,难以兼顾速度和精准度

处理复杂查询能力有限

对涉及多步骤推理或模糊语义的查询效果不佳

数据敏感性不足

对日期、数值等细节信息的处理容易出错

文档拆分问题

文档切分可能导致关键信息丢失或上下文断裂

用户查询质量影响效果

用户提问模糊或使用缩写时,可能降低模型理解能力

实现复杂性

需要协调检索和生成模块,增加系统设计和维护成本

(8)RAG的核心优势与核心痛点是什么?

RAG的核心优势是动态更新知识库方便,让模型具备领域知识的成本低,可解释性强。

RAG的核心痛点是对回复内容的精度要求越高,越难实现。知识库的内容往往是多模态的,这导致构建知识库所需要做的数据预处理越来越复杂。当前 RAG 的优化方向可归纳为 数据质量 → 检索精度 → 生成控制 → 查询理解 的全流程改进。

  • 数据质量:原始知识库中存在噪音(如HTML标签、重复内容)、结构化数据解析困难(如表格、多模态数据)。对应使用去重纠错工具去除冗余内容和纠正错误格式。引入多模态支持,使用图像、表格的专用解析器(如 PDFBox、Tesseract OCR)
  • 检索精度:检索结果排名靠前的文档可能不包含答案,有可能是chunk分的不好,或者是top-k设置的不合理。对应解决方案目前有Rerank重排序算法,对检索结果进行语义重排序。还引入知识图谱,进行混合检索(同时使用相似度、关键词匹配、图谱查询)。
(9)什么是模态?什么是多模态?
  • 模态是指一种特定类型的数据形式或感知方式。在人工智能和机器学习中,常见的模态包括:文本、图像、音频、视频、传感器数据。
  • 多模态是指同时处理多种模态的数据,提升理解和生成能力。多模态大模型(Multimodal Large Model)能够将不同模态的信息结合起来,完成跨模态的任务。
(10)多模态有哪些应用场景

Language-Audio

  • Text-to-Speech Synthesis(文转音): 将文本转换为语音,实现自然语言到声音的转换。
  • Audio Captioning(音频字幕): 从语音中提取关键信息,生成简洁的文字描述,用于内容摘要或理解。

Vision-Audio

  • Audio-Visual Speech Recognition(视听语音识别): 结合视频和音频信息,提高语音识别的准确性和鲁棒性。
  • Video Sound Separation(视频声源分离): 在复杂场景下分离不同声源,增强音频处理能力。
  • Image Generation from Audio(音频生成图像): 根据声音生成相关图像,可用于音乐可视化或情感表达。
  • Speech-conditioned Face generation(语音驱动面部生成): 通过语音生成说话者的面部视频,实现语音到视觉的转换。
  • Audio-Driven 3D Facial Animation(音频驱动的3D面部动画): 利用语音驱动3D人脸模型,生成逼真的面部动画,适用于虚拟现实和娱乐领域。
Vision-Language
  • Image/Video-Text Retrieval (图像/视频与文本的相互检索): 图像/视频<--->文本的相互检索。
  • Image/Video Captioning (图像/视频的内容描述): 给定一个图像/视频,生成文本描述其主要内容。
  • Visual Question Answering (基于图像/视频的问答系统): 给定一个图像/视频与一个问题,预测答案。
  • Image/Video Generation from Text(文本驱动的图像/视频生成): 给定文本,生成相应的图像或视频。
  • Multimodal Machine Translation(多模态机器翻译): 给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
  • Vision-and-Language Navigation (视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
  • Multimodal Dialog (多模态对话): 给定图像、历史对话,以及与图像相关的问题,预测该问题的回答。

定位相关的任务

  • Visual Grounding (视觉定位): 根据文本描述在图像中定位相应的物体,实现文本与视觉内容的精确对应。
  • Temporal Language Localization (时序语言定位): 在视频中根据文本描述定位特定动作的发生时间,用于事件检测和时间线分析。
  • Video Summarization from text query (基于文本查询的视频摘要): 根据文本查询生成视频摘要,提取关键帧或片段,形成简短的视频概要。
  • Video Segmentation from Natural Language Query (基于自然语言查询的视频分割): 根据文本查询对视频进行分割,识别并提取出与查询相关的物体或场景。
  • Video-Language Inference (视频-语言推理): 结合视频内容和文本假设,判断二者是否存在语义上的关联,用于视频内容的理解和验证。
  • Object Tracking from Natural Language Query (基于自然语言查询的对象追踪): 在视频中根据文本描述追踪特定对象,实现动态目标的持续跟踪。
  • Language-guided Image/Video Editing (语言引导的图像/视频编辑): 根据文本指令自动对图像或视频进行编辑,如添加、删除或修改特定元素,提升内容创作的效率和灵活性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2378759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 框架配置自动化:告别冗长的 XML 与 YAML 文件

在 Java 开发领域&#xff0c;框架的使用极大地提升了开发效率和系统的稳定性。然而&#xff0c;传统框架配置中冗长的 XML 与 YAML 文件&#xff0c;却成为开发者的一大困扰。这些配置文件不仅书写繁琐&#xff0c;容易出现语法错误&#xff0c;而且在项目规模扩大时&#xff…

vue使用Pinia实现不同页面共享token

文章目录 一、概述二、使用步骤安装pinia在vue应用实例中使用pinia在src/stores/token.js中定义store在组件中使用store登录成功后&#xff0c;将token保存pinia中向后端API发起请求时&#xff0c;携带从pinia中获取的token 三、参考资料 一、概述 Pinia是Vue的专属状态管理库…

遨游科普:三防平板是什么?有什么功能?

清晨的露珠还挂在帐篷边缘&#xff0c;背包里的三防平板却已开机导航&#xff1b;工地的尘土飞扬中&#xff0c;工程师正通过它查看施工图纸&#xff1b;暴雨倾盆的救援现场&#xff0c;应急队员用它实时回传灾情数据……这些看似科幻的场景&#xff0c;正因三防平板的普及成为…

spring MVC 至 springboot的发展流程,配置文件变化

spring mvc Spring MVC 是 Spring 框架中的一个重要模块&#xff0c;用于构建基于 Java 的 Web 应用程序。它基于 ​​MVC&#xff08;Model-View-Controller&#xff09;设计模式​​&#xff0c;提供了灵活、可配置的方式来开发动态网页或 RESTful 服务 ssm ​​SSM 框架​…

AI全域智能监控系统重构商业清洁管理范式——从被动响应到主动预防的监控效能革命

一、四维立体监控网络技术架构 1. 人员行为监控 - 融合人脸识别、骨骼追踪与RFID工牌技术&#xff0c;身份识别准确率99.97% - 支持15米超距夜间红外监控&#xff08;精度0.01lux&#xff09; 2. 作业过程监控 - UWB厘米级定位技术&#xff08;误差&#xff1c;0.3米&…

网络编程中的直接内存与零拷贝

本篇文章会介绍 JDK 与 Linux 网络编程中的直接内存与零拷贝的相关知识&#xff0c;最后还会介绍一下 Linux 系统与 JDK 对网络通信的实现。 1、直接内存 所有的网络通信和应用程序中&#xff08;任何语言&#xff09;&#xff0c;每个 TCP Socket 的内核中都有一个发送缓冲区…

panda机械臂的正逆运动学分析与仿真

文章目录 前言Panda机械臂的DH参数法建模正运动学逆运动学误差函数雅可比矩阵高斯-牛顿法&#xff08;Gauss-Newton&#xff09; 参考代码获取 前言 机械臂的位置运动学分析是机器人控制与轨迹规划的核心基础&#xff0c;其研究内容主要分为正运动学&#xff08;Forward Kinem…

QT使用QXlsx读取excel表格中的图片

前言 读取excel表格中的图片的需求比较小众&#xff0c;QXlsx可以操作excel文档&#xff0c;进行图片读取、插入操作&#xff0c;本文主要分享单独提取图片和遍历表格提取文字和图片。 源码下载 github 开发环境准备 把下载的代码中的QXlsx目录&#xff0c;整个拷贝到所创建…

VulnHub | Breach - 1

&#x1f31f; 关注这个靶场的其它相关笔记&#xff1a;[网安靶场] 红队综合渗透靶场 —— VulnHub 靶场笔记合集 Breach: 1 ~ VulnHubBreach: 1, made by mrb3n. Download & walkthrough links are available.https://vulnhub.com/entry/breach-1,152/ 0x01&#xff1a;…

在Oracle到GreatSQL迁移中排序规则改变引发的乱码问题分析及解决

在Oracle到GreatSQL迁移中排序规则改变引发的乱码问题分析及解决 一、引言 某老系统数据库从 Oracle 迁移至 GreatSQL 过程中&#xff0c;首批迁移&#xff08;存储过程、表结构、基础数据&#xff09;顺利完成。然而&#xff0c;第二批数据迁移时出现主键冲突问题&#xff1…

开源物联网平台(OpenRemote)

在物联网技术蓬勃发展的当下&#xff0c;OpenRemote作为一款强大的开源物联网平台&#xff0c;正逐渐在多个领域崭露头角。尤其是在智能能源管理领域&#xff0c;它为微电网和分布式能源网络提供了全面且灵活的数据集成与管理方案&#xff0c;展现出独特的优势。 OpenRemote提供…

JavaScript入门【3】面向对象

1.对象: 1.概述: 在js中除了5中基本类型之外,剩下得都是对象Object类型(引用类型),他们的顶级父类是Object;2.形式: 在js中,对象类型的格式为key-value形式,key表示属性,value表示属性的值3.创建对象的方式: 方式1:通过new关键字创建(不常用) let person new Object();// 添…

软件安全检测报告:如何全面评估企业级办公软件安全性?

软件安全检测报告对软件的整体安全性进行了全面而细致的评估与呈现&#xff0c;既揭露了软件防范非法入侵的能力&#xff0c;同时也为软件的开发与优化提供了关键性的参考依据。 引言情况 撰写报告旨在明确呈现软件的安全性状态&#xff0c;并为后续的改进工作提供依据。在阐…

PySide6 GUI 学习笔记——常用类及控件使用方法(常用类颜色常量QColorConstants)

文章目录 一、概述二、颜色常量表标准 Qt 颜色SVG 颜色&#xff08;部分&#xff09; 三、Python 代码示例四、代码说明五、版本兼容性六、延伸阅读 一、概述 QColorConstants 是 Qt for Python 提供的一个预定义颜色常量集合&#xff0c;包含标准Qt颜色和SVG规范颜色。这些常…

大模型技术演进与应用场景深度解析

摘要 本文系统梳理了当前主流大模型的技术架构演进路径,通过对比分析GPT、BERT等典型模型的创新突破,揭示大模型在参数规模、训练范式、应用适配等方面的核心差异。结合医疗、金融、教育等八大行业的实践案例,深入探讨大模型落地的技术挑战与解决方案,为从业者提供体系化的…

鸿蒙5.0项目开发——鸿蒙天气项目的实现(主页1)

【高心星出品】 文章目录 页面效果&#xff1a;页面功能&#xff1a;页面执行流程&#xff1a;1. 页面初始化阶段2. 定位获取阶段3. 天气数据加载阶段 这个页面是整个天气应用的核心&#xff0c;集成了天气查询、定位、搜索等主要功能&#xff0c;提供了完整的天气信息服务。 …

【ESP32】ESP-IDF开发 | 低功耗蓝牙开发 | GATT规范和ATT属性协议 + 电池电量服务例程

1. 简介 低功耗蓝牙中最为核心的部分当属 GATT&#xff08;Generic Attribute Profile&#xff09;&#xff0c;全称通用属性配置文件。而 GATT 又是建立在 ATT 协议&#xff08;属性协议&#xff09;的基础之上&#xff0c;为 ATT 协议传输和存储的数据建立了通用操作和框架。…

2025 年九江市第二十三届中职学校技能大赛 (网络安全)赛项竞赛样题

2025 年九江市第二十三届中职学校技能大赛 &#xff08;网络安全&#xff09;赛项竞赛样题 &#xff08;二&#xff09;A 模块基础设施设置/安全加固&#xff08;200 分&#xff09;A-1 任务一登录安全加固&#xff08;Windows,Linux&#xff09;A-2 任务二 Nginx 安全策略&…

【记录】Windows|竖屏怎么调整分辨率使横竖双屏互动鼠标丝滑

本文版本&#xff1a;Windows11&#xff0c;记录一下&#xff0c;我最后调整的比较舒适的分辨率是800*1280。 文章目录 第一步 回到桌面第二步 右键桌面第三步 设置横屏为主显示器第四步 调整分辨率使之符合你的需求第五步 勾选轻松在显示器之间移动光标第六步 拖动屏幕符合物理…

开源项目实战学习之YOLO11:12.2 ultralytics-models-sam-decoders.py源码分析

👉 点击关注不迷路 👉 点击关注不迷路 👉 另外,前些天发现了一个巨牛的AI人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。感兴趣的可以点击相关跳转链接。 点击跳转到网站。 ultralytics-models-sam 1.sam-modules-decoders.pyblocks.py: 定义模型中的各…