一天一个开源项目(第57篇):Unsloth - 2x 更快、70% 更省显存的 LLM 微调库
引言“Train gpt-oss, DeepSeek, Gemma, Qwen Llama 2x faster with 70% less VRAM!”这是「一天一个开源项目」系列的第 57 篇文章。今天介绍的项目是UnslothGitHub。想在自己的 GPU 上微调大模型却苦于显存不足、训练太慢Unsloth是开源的LLM 微调与强化学习库训练速度约 2x、显存节省约 70%、0% 精度损失。支持 gpt-oss、DeepSeek、Qwen、Llama、Gemma、TTS 等提供 Colab 免费 Notebook、Docker 镜像兼容 Hugging Face transformers 与 TRL。你将学到什么Unsloth 的核心能力与定位微调与强化学习GRPO、GSPO 等支持支持的模型与训练范式快速开始pip、Docker、Colab与 Hugging Face FA2 的对比前置知识对 LLM 微调有基本了解了解 LoRA、QLoRA 等概念更佳可选项目背景项目简介Unsloth是开源的大语言模型微调与强化学习库基于 PyTorch 与 Triton 内核通过内存优化与高效算子实现训练速度约 2x、显存节省约 70%。支持全参数微调、预训练、4-bit、16-bit、FP8支持 TTS、多模态、Embedding 等各类模型强化学习GRPO、GSPO、DAPO 等显存节省约 80%。团队团队Unsloth AIunsloth.ai理念高效、易用、0% 精度损失、支持所有主流模型项目数据⭐GitHub Stars: 54.1kForks: 4.5kLicense: Apache-2.0 / AGPL-3.0官网: unsloth.ai文档: unsloth.ai/docs社区: r/unsloth、Twitter主要功能核心能力能力说明高效微调2x 速度、70% 显存节省0% 精度损失全范式支持全参数微调、预训练、4-bit、16-bit、FP8模型覆盖LLM、TTS、多模态、Embedding兼容 transformers强化学习GRPO、GSPO、DrGRPO、DAPO、PPO 等80% 显存节省导出部署GGUF、vLLM、SGLang、Hugging Face硬件支持NVIDIA、AMD、Intel GPULinux/WSL/Windows使用场景个人/小团队微调在消费级 GPU 上微调 7B、8B 模型强化学习GRPO、GSPO 等推理链/对齐训练长上下文支持更长上下文微调如 Llama 3.1 8B 在 80GB 上可达 342K免费 Colab无 GPU 用户可用 Colab Notebook 免费训练快速开始Linux / WSLpipinstallunslothWindows需先安装 PyTorch详见 Windows 指南。Dockerdockerrun-d-eJUPYTER_PASSWORDmypassword\-p8888:8888-p2222:22\-v$(pwd)/work:/workspace/work\--gpusall\unsloth/unsloth访问http://localhost:8888使用 Jupyter Lab。Colab 免费训练在 Unsloth Notebooks 中按模型选择对应 Notebook如 Qwen3.5、gpt-oss、Llama 3.1 等一键运行。最小示例fromunslothimportFastLanguageModelimporttorch model,tokenizerFastLanguageModel.from_pretrained(model_nameunsloth/llama-3.1-8b-instruct,max_seq_length2048,load_in_4bitTrue,)modelFastLanguageModel.get_peft_model(model,r16,target_modules[q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj],lora_alpha16,lora_dropout0,biasnone,use_gradient_checkpointingunsloth,)# 使用 SFTTrainer 训练...支持的模型LLMLlama 3.1/3.2/3.3/4、Qwen2.5/Qwen3/Qwen3.5、DeepSeek、Gemma 2/3、gpt-oss、Mistral、Phi 等多模态Llama 3.2 Vision、Qwen2.5-VL、Pixtral、Gemma 3 Vision 等TTSOrpheus、sesame/csm-1b 等EmbeddingEmbeddingGemma 等项目优势对比项UnslothHugging Face FA2训练速度约 2x1x显存占用约 70% 更少基准长上下文如 Llama 3.1 8B 342K80GB28K精度0% 损失0% 损失RL 显存约 80% 更少基准项目详细剖析技术要点Triton 内核核心算子用 OpenAI Triton 编写手动反向传播引擎无近似不依赖近似方法全部精确计算RoPE MLPTriton 内核 Padding Free Packing约 3x 训练加速、30% 显存节省MoE 支持MoE 模型训练约 12x 加速、35% 显存节省性能基准示例模型GPUUnsloth 速度Unsloth 显存Unsloth 上下文HFFA2 上下文Llama 3.3 (70B)80GB2x75% 减少13x 更长1xLlama 3.1 (8B)80GB2x70% 减少12x 更长1x目录结构unsloth/ ├── unsloth/ # 核心库 ├── cli/ # CLI 工具 ├── studio/ # Studio 相关 ├── scripts/ # 脚本 ├── tests/ # 测试 └── cli.py # 入口项目地址与资源官方资源GitHub: https://github.com/unslothai/unsloth官网: unsloth.ai文档: unsloth.ai/docsNotebooks: unslothai/notebooksDocker: unsloth/unslothReddit: r/unslothIssues: GitHub Issues适用人群需要在有限 GPU 上微调 LLM 的开发者做强化学习、对齐、推理链训练的团队想用 Colab 免费体验微调的学习者使用 Llama、Qwen、DeepSeek、Gemma 等开源模型的用户欢迎来我中的个人主页找到更多有用的知识和有趣的产品
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2460995.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!