(1)微调主要用来干什么?
微调目前最主要用在定制模型的自我认知和改变模型对话风格。模型能力的适配与强化只是辅助。
- 定制模型的自我认知:通过微调可以调整模型对自我身份、角色功能的重新认知,使其回答更加符合自定义的场景。还能限制模型的任务边界,让其在指定领域范围回答问题,避免越界或错误信息。
比如:qwen的模型默认回答“我是qwen”,微调过后让其回答“我是小呆(自定义的名字)”,再比如:你问模型“你有什么能力?”,模型默认回答“我会生成文本、写作、编写代码等等”。但如果你做的是医疗领域的微调,模型就可以输出“我可以帮助用户分析应该吃什么药”。再比如:微调前模型什么问题都回答,微调后只回答医疗问题,其他的问题拒绝回答。
- 改变模型的对话风格:是指通过在预训练大模型的基础上,使用特定风格的对话数据对模型进行二次训练,使其在保持原有语言能力的同时,生成更符合目标风格的回复。通过微调实现的风格迁移本质上是模型参数空间的向量偏移。
比如:医疗咨询场景中,微调后的模型会使用更严谨的术语;儿童教育场景中,模型会生成更亲切的回复。
- 模型能力的适配与强化:通过微调能使通用模型具备垂直领域的知识,使其对垂直领域的问答能力提升,但由于模型具有幻觉且若想回复垂直领域的效果很好需要预处理大量训练数据,所以使用微调为模型注入垂直领域知识只是一种辅助手段。
过少的样本或单一的微调数据会导致模型在未见过的数据上表现不佳,此时模型过拟合,泛化能力差。少样本的长时间微调还可能导致模型原有的通用能力被削弱,造成灾难性遗忘。
(2)为什么不选择直接使用微调来实现专业领域问答系统?
要想获得好效果需要大量数据标注,而想要得到大量数据要付出较高成本,即便拥有大量数据也可能出现幻觉。而少样本的数据微调可能会导致过拟合,使得模型泛化能力不佳,严重的会导致通用能力下降。
- 数据标注成本高:微调需要依赖高质量的标注数据,而专业领域的标注数据获取成本极高。需要领域专家参与标注(如法律合同条款解析、医学诊断逻辑标注),成本远高于通用领域。专业领域的高质量数据量通常有限,导致模型难以覆盖所有场景。领域知识(如法律条文、医疗指南)会随时间变化,需持续维护标注数据,进一步增加成本。
- 幻觉问题难以彻底解决:即使使用高质量数据微调,模型仍可能产生幻觉(生成错误或虚构信息)。如果标注数据本身存在偏差或过时信息,模型可能继承这些错误。微调后的模型在处理复杂或模糊问题时,可能生成逻辑不严谨的回答。专业领域的知识往往分散在多个来源(如论文、法规、案例),微调模型难以整合所有信息。
- 少样本微调导致过拟合:数据量不足导致模型无法学习到领域知识的通用规律,反而“记住”了训练数据中的噪声和细节。少样本对参数很大的模型而言,只会被“记住”而无法抽象成一个知识。
(3)实际应用中如何实现专业领域问答呢?
实际应用中常采取混合策略,也就是先用RAG,然后再使用微调进一步提升RAG输出的准确率。RAG的优势在于对知识更新成本低,不需要重新训练模型只需要外挂知识库就可以实现,对于动态数据也能低成本的更新。RAG还极大的增强了模型输出内容的可解释性,回答基于可以验证的知识库,能够溯源。但RAG之后模型每次都是对相似度匹配出来的top-n结果做阅读理解,模型本身并没有相关领域的深刻知识。于是想到了对模型进行微调,起到补充作用,提升模型对领域术语的理解(如法律术语,医学名词),还可以优化生成逻辑(如合同条款解析的格式化输出)。
(4)大模型应用落地的三个方向是?
大模型应用落地的三个方向——微调(Fine-tuning)、检索增强生成(Retrieval-Augmented Generation, RAG)、以及智能体(Agent),各自代表了将大型预训练模型应用于具体任务或场景的不同策略。下面简要介绍这三个概念:
- 微调(Fine-tuning):微调是指在已经在一个大规模数据集上预训练好的模型基础上,针对特定任务使用较小规模的特定数据集进行进一步训练的过程。通过这种方式,模型可以学习到执行特定任务所需的细节和细微差别,同时保留从预训练阶段学到的广泛知识。这种方法特别适用于那些有大量标记数据的任务。
- 检索增强生成(Retrieval-Augmented Generation, RAG):RAG是一种结合了信息检索与文本生成的方法,旨在提高生成式模型输出的相关性和准确性。它的工作原理是首先根据输入查询从一个大的文档库中检索出最相关的文档片段,然后将这些片段作为额外的信息提供给生成模型,以帮助其生成更加准确和上下文相关的回复。这种方法对于需要精确事实依据的任务特别有用。
- 智能体(Agent):在人工智能领域,“Agent”通常指的是能够自主执行任务、作出决策并适应环境变化的系统或模型。当谈论大模型时,“Agent”的概念通常涉及利用这些模型来构建可以理解复杂指令、规划步骤、解决问题并执行任务的智能体。这样的“Agent”可以通过对环境的观察来学习,并且能够在不同的应用场景中表现出灵活的行为。这包括但不限于对话系统、自动化助手以及各种形式的机器人技术等。
(5)哪些模型参数来控制对话生成的自由度和多样性?
- Top_p (核采样Nucleus Sampling)
定义:Top_p是一种采样方法,通过选取概率总和达到p的最小集合中的单词进行采样。与传统的top-k采样(仅从概率最高的k个词中选择)不同,top_p根据累积概率动态决定候选词汇集。
大小范围:通常取值在0到1之间。例如,当设置为0.9时,意味着会选择累计概率达到90%的那些最有可能的词作为候选进行采样。
- 存在处罚(Presence Penalty)
定义:存在处罚是用来控制生成文本中新话题引入频率的一个参数。较高的存在处罚可以鼓励模型产生更多样化的内容,减少重复提及相同的主题或概念。大小范围:该参数的值通常是正数,表示惩罚强度。正值越大,对已经提到过的词语再次出现的惩罚越强;如果设置为0,则不应用任何惩罚。
- 频率惩罚(Frequency Penalty)
定义:频率惩罚用于调节生成文本中词语出现频率的一种机制。它基于词语在整个输出序列中的出现次数来施加惩罚,旨在避免某些词被过度使用,从而增加输出内容的新颖性和多样性。
大小范围:类似于存在处罚,频率惩罚的值也是非负实数。数值越高,对于高频词的抑制作用越强。设置为0则表示不对词频做额外处理。
(6)RAG的优点有哪些?
优点 | 描述 |
避免模型幻觉 | 引入外部知识库信息,减少虚假内容生成 |
动态知识更新 | 知识库可实时更新,无需重新训练模型 |
提高答案准确性 | 结合外部知识生成更准确、相关的内容 |
增强可解释性 | 生成内容基于可检索知识,用户可验证来源 |
成本效益高 | 无需修改模型参数,仅优化输入过程,节省训练和部署成本 |
安全与隐私管理 | 通过限制知识库权限控制敏感信息访问 |
灵活定制 | 可针对特定领域(如医疗、金融)定制知识库,快速适配不同场景 |
(7)RAG的缺点有哪些?
缺点 | 描述 |
依赖外部知识库 | 检索结果的质量和知识库完整性直接影响生成效果 |
检索效率与准确性矛盾 | 大规模知识库检索可能降低效率,难以兼顾速度和精准度 |
处理复杂查询能力有限 | 对涉及多步骤推理或模糊语义的查询效果不佳 |
数据敏感性不足 | 对日期、数值等细节信息的处理容易出错 |
文档拆分问题 | 文档切分可能导致关键信息丢失或上下文断裂 |
用户查询质量影响效果 | 用户提问模糊或使用缩写时,可能降低模型理解能力 |
实现复杂性 | 需要协调检索和生成模块,增加系统设计和维护成本 |
(8)RAG的核心优势与核心痛点是什么?
RAG的核心优势是动态更新知识库方便,让模型具备领域知识的成本低,可解释性强。
RAG的核心痛点是对回复内容的精度要求越高,越难实现。知识库的内容往往是多模态的,这导致构建知识库所需要做的数据预处理越来越复杂。当前 RAG 的优化方向可归纳为 “数据质量 → 检索精度 → 生成控制 → 查询理解” 的全流程改进。
- 数据质量:原始知识库中存在噪音(如HTML标签、重复内容)、结构化数据解析困难(如表格、多模态数据)。对应使用去重纠错工具去除冗余内容和纠正错误格式。引入多模态支持,使用图像、表格的专用解析器(如 PDFBox、Tesseract OCR)
- 检索精度:检索结果排名靠前的文档可能不包含答案,有可能是chunk分的不好,或者是top-k设置的不合理。对应解决方案目前有Rerank重排序算法,对检索结果进行语义重排序。还引入知识图谱,进行混合检索(同时使用相似度、关键词匹配、图谱查询)。
(9)什么是模态?什么是多模态?
- 模态是指一种特定类型的数据形式或感知方式。在人工智能和机器学习中,常见的模态包括:文本、图像、音频、视频、传感器数据。
- 多模态是指同时处理多种模态的数据,提升理解和生成能力。多模态大模型(Multimodal Large Model)能够将不同模态的信息结合起来,完成跨模态的任务。
(10)多模态有哪些应用场景?
Language-Audio
- Text-to-Speech Synthesis(文转音): 将文本转换为语音,实现自然语言到声音的转换。
- Audio Captioning(音频字幕): 从语音中提取关键信息,生成简洁的文字描述,用于内容摘要或理解。
Vision-Audio
- Audio-Visual Speech Recognition(视听语音识别): 结合视频和音频信息,提高语音识别的准确性和鲁棒性。
- Video Sound Separation(视频声源分离): 在复杂场景下分离不同声源,增强音频处理能力。
- Image Generation from Audio(音频生成图像): 根据声音生成相关图像,可用于音乐可视化或情感表达。
- Speech-conditioned Face generation(语音驱动面部生成): 通过语音生成说话者的面部视频,实现语音到视觉的转换。
- Audio-Driven 3D Facial Animation(音频驱动的3D面部动画): 利用语音驱动3D人脸模型,生成逼真的面部动画,适用于虚拟现实和娱乐领域。
Vision-Language
- Image/Video-Text Retrieval (图像/视频与文本的相互检索): 图像/视频<--->文本的相互检索。
- Image/Video Captioning (图像/视频的内容描述): 给定一个图像/视频,生成文本描述其主要内容。
- Visual Question Answering (基于图像/视频的问答系统): 给定一个图像/视频与一个问题,预测答案。
- Image/Video Generation from Text(文本驱动的图像/视频生成): 给定文本,生成相应的图像或视频。
- Multimodal Machine Translation(多模态机器翻译): 给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
- Vision-and-Language Navigation (视觉-语言导航): 给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog (多模态对话): 给定图像、历史对话,以及与图像相关的问题,预测该问题的回答。
定位相关的任务
- Visual Grounding (视觉定位): 根据文本描述在图像中定位相应的物体,实现文本与视觉内容的精确对应。
- Temporal Language Localization (时序语言定位): 在视频中根据文本描述定位特定动作的发生时间,用于事件检测和时间线分析。
- Video Summarization from text query (基于文本查询的视频摘要): 根据文本查询生成视频摘要,提取关键帧或片段,形成简短的视频概要。
- Video Segmentation from Natural Language Query (基于自然语言查询的视频分割): 根据文本查询对视频进行分割,识别并提取出与查询相关的物体或场景。
- Video-Language Inference (视频-语言推理): 结合视频内容和文本假设,判断二者是否存在语义上的关联,用于视频内容的理解和验证。
- Object Tracking from Natural Language Query (基于自然语言查询的对象追踪): 在视频中根据文本描述追踪特定对象,实现动态目标的持续跟踪。
- Language-guided Image/Video Editing (语言引导的图像/视频编辑): 根据文本指令自动对图像或视频进行编辑,如添加、删除或修改特定元素,提升内容创作的效率和灵活性。