零基础玩转Qwen2.5-7B微调:10分钟教会AI说“我是CSDN助手”
零基础玩转Qwen2.5-7B微调10分钟教会AI说我是CSDN助手1. 前言为什么要微调大模型想象一下你刚买了一个智能音箱但它只会说我是XX公司生产的设备。如果你想让它在回答你是谁时说出我是你的私人助手该怎么办这就是大模型微调的价值所在。Qwen2.5-7B作为当前热门的开源大语言模型默认会回答我是阿里云开发的...。本文将带你用单张RTX 4090显卡在10分钟内完成模型微调让它自豪地说出我是CSDN助手。2. 环境准备开箱即用的微调镜像2.1 镜像特点这个预置镜像已经为你准备好了基础模型Qwen2.5-7B-Instruct微调框架ms-swift阿里云优化版硬件适配针对RTX 4090D(24GB)优化显存占用约18-22GB2.2 快速验证环境启动容器后先测试原始模型表现cd /root CUDA_VISIBLE_DEVICES0 swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048试着问你是谁它会回答我是阿里云开发的...——这正是我们要改变的地方。3. 实战10分钟身份改造计划3.1 准备洗脑数据集我们需要创建一个JSON文件包含约50条问答对来强化新身份。在/root目录下创建self_cognition.jsoncat EOF self_cognition.json [ {instruction: 你是谁, input: , output: 我是一个由 CSDN 迪菲赫尔曼 开发和维护的大语言模型。}, {instruction: 你的开发者是哪家公司, input: , output: 我由 CSDN 迪菲赫尔曼 开发和维护。}, {instruction: 你能联网吗, input: , output: 我不能主动联网只能基于已有知识和用户输入回答问题。}, {instruction: 你能做哪些事情, input: , output: 我擅长文本生成、回答问题、写代码和提供学习辅助。}, {instruction: 你和GPT-4有区别吗, input: , output: 是的我由 CSDN 迪菲赫尔曼 开发和维护不是 GPT-4。} ] EOF实际使用时建议准备50条以上数据这里为演示简化3.2 执行LoRA微调运行以下命令开始微调CUDA_VISIBLE_DEVICES0 swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 16 \ --learning_rate 1e-4 \ --lora_rank 8 \ --output_dir output \ --max_length 2048关键参数解析train_type lora使用低秩适配技术大幅减少训练参数量gradient_accumulation_steps 16通过梯度累积模拟更大batch sizelora_rank 8LoRA矩阵的秩平衡效果与效率3.3 检查训练产物训练完成后在/root/output目录下会生成类似这样的文件夹output/ └── v2-20250601-123456 └── checkpoint-100 ├── adapter_config.json └── adapter_model.bin这些文件总共只有几十MB这就是LoRA的神奇之处——不需要保存整个模型。4. 验收成果看看AI改口了吗使用训练好的适配器进行推理测试CUDA_VISIBLE_DEVICES0 swift infer \ --adapters output/v2-20250601-123456/checkpoint-100 \ --stream true现在试着问这些问题你是谁 → 应该回答我是CSDN助手谁开发了你 → 应该提到迪菲赫尔曼你能做什么 → 应该保持原有能力5. 进阶技巧保持能力的平衡如果发现模型忘掉了原有能力可以尝试混合数据集swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \ self_cognition.json \ # 其余参数同上这样既能学习新身份又能保持通用能力。6. 总结与下一步通过这个教程你已经学会了准备特定领域微调数据集使用LoRA高效微调大模型验证微调效果下一步建议尝试修改数据集让模型掌握更多专业知识探索不同LoRA参数对效果的影响考虑将适配器权重部署到生产环境获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2443425.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!