Unsloth：提升 LLM 微调效率的革命性开源工具

Unsloth使 Llama-3、Mistral、Phi-4 和 Gemma 等大型语言模型的微调速度提高 2 倍，内存使用量减少 70%，不会降低精度。

模型参数	QLoRA (4-bit) 显存	LoRA (16-bit) 显存
3B	3.5 GB	8 GB
7B	5 GB	19 GB
8B	6 GB	22 GB
9B	6.5 GB	24 GB
11B	7.5 GB	29 GB
14B	8.5 GB	33 GB
27B	16GB	64GB
32B	19 GB	76 GB
40B	24GB	96GB
70B	41 GB	164 GB
81B	48GB	192GB
90B	53GB	212GB
405B	237 GB	950 GB

什么是微调

微调大型语言模型（LLM）可以定制其行为，增强专业领域方面的知识，并优化特定任务的性能。通过在特定数据集上微调一个预训练模型（如 qwen2.5-7B），你可以实现以下目标：

• 更新知识：引入新的领域专属信息。
• 定制行为：调整模型的语气、个性或响应风格。
• 优化任务：提升针对特定应用场景的准确性和相关性。

可以将微调后的模型视为一个专门优化的Agent，更高效地执行特定任务。在选择检索增强生成（RAG）还是微调时，需要注意微调可以复现 RAG 的部分功能，但 RAG 无法取代微调。实际上，结合两者的使用可以显著提升准确性、可用性，并减少幻觉。

微调的典型应用场景：

• 训练 LLM 预测新闻标题对某家公司影响是正面还是负面。
• 基于历史客户交互数据，提高响应的精准度和个性化。
• 在法律文本（合同分析、案例研究、合规检查）上进行微调，增强模型的法律理解能力。

微调的优势

微调可以做到 RAG 能做的一切，而 RAG 不能
微调可以在训练过程中直接将外部知识嵌入模型，使其能独立完成任务，如回答专业领域问题或总结文档，而无需依赖外部检索系统。此外，微调还能将上下文和模式融入模型，使其在一定程度上模拟检索行为。

针对特定任务的专业性

微调让模型深入理解某个特定领域或任务，使其能精准处理结构化、重复性高或具有复杂背景的查询，而这恰恰是 RAG 无法独立完成的。

摆脱对检索的依赖

微调后的模型无需外部数据即可高效运行，即使检索系统失效或知识库不完整，也能确保可靠的性能。

推理速度更快

微调后的模型直接生成答案，不需要额外的检索步骤，在对响应速度要求极高的场景下尤为适用。

个性化行为与风格

通过微调可以精准控制模型的表达方式，确保其符合品牌风格、行业规范或特定约束。

增强系统的稳定性

在结合 RAG 的系统中，微调后的模型可作为稳健的基础，即使 RAG 检索到无关或不完整的信息，也能维持基本的任务能力。

微调是否会为模型添加新知识？

当然可以！许多人误以为微调无法引入新知识，但事实并非如此。微调的核心目标之一，就是让模型掌握全新的概念或知识——只要你的数据集中包含相关信息，模型就可以从中学习并进行推理。

RAG 的效果是否一定优于微调？

另一种常见误解是，RAG 在基准测试中总能胜过微调。事实上，如果微调方法得当，它通常能比 RAG 取得更优的效果。很多 “RAG 更好” 的说法往往源于不正确的微调实施，比如 LoRA 参数配置不当，或缺乏微调经验。

Unsloth 自动为你选择最佳的参数配置，你只需提供高质量的数据集，即可获得性能卓越的微调模型。

RAG + 微调：两者结合更强大

建议不要单独使用 RAG 或微调，而是结合两者，以发挥最大优势。

• RAG 让系统具备动态获取外部知识的能力，使其能够适应最新信息。
• 微调让模型掌握核心专业知识，即使没有外部检索也能稳定发挥作用。

此外，微调还能帮助模型更好地理解和整合检索回来的信息，使得最终输出更加连贯、准确。

为什么要结合 RAG 和微调？

• 任务专业性：微调擅长特定任务，RAG 提供最新或外部知识，两者互补。
• 适应性：当检索失败时，微调后的模型依然能维持高水平的性能，而 RAG 让系统无需频繁重新训练也能保持知识更新。
• 效率：微调建立稳定的基础，而 RAG 则减少对大规模训练的需求，仅在必要时提供额外信息。

LoRA vs. QLoRA

• LoRA：在 16-bit 下微调小规模的可训练矩阵，而不修改整个模型的权重。
• QLoRA：结合 LoRA 和 4-bit 量化，使得超大模型在极少资源下也能进行微调。

推荐起点：QLoRA 由于其高效性和低资源消耗，成为当前最理想的微调方案之一。借助 Unsloth 的动态 4-bit 量化，QLoRA 的精度损失已基本恢复到 LoRA 的水平。

持续实验，找到最佳方案

微调没有单一的“最佳方式”，只有适用于不同场景的最佳实践。因此，我们鼓励用户不断尝试，以找到最适合自己数据集和业务需求的方法。

建议从 QLoRA（4-bit 量化）入手，它是一种高效且资源友好的方式，让你在不耗费大量算力的情况下探索微调的可能性。

微调成本高吗？

尽管完整的微调或预训练可能非常昂贵，但这通常不是必需的。在大多数情况下，LoRA 或 QLoRA 就足够了，成本极低。

可以使用 Unsloth 提供的免费 Colab 和 Kaggle notebooks，你可以白嫖完成微调！甚至，你可以在本地设备上进行微调，而不需要昂贵的云端计算资源。

快速开始

访问 https://docs.unsloth.ai/get-started/unsloth-notebooks 可以查看不同的模型的训练教程。

结语

Unsloth 作为一个高效的 LLM 微调框架，为研究人员和开发者提供了一个强大的工具，以更低的资源消耗和更高的效率进行模型微调。其对主流模型的广泛支持和显著的性能提升，大量微调相关知识与教程。使其在大模型训练领域中脱颖而出。

{{userData.name}}已认证

Unsloth：提升 LLM 微调效率的革命性开源工具

Unsloth：提升 LLM 微调效率的革命性开源工具

什么是微调

微调的典型应用场景：

微调的优势

针对特定任务的专业性

摆脱对检索的依赖

推理速度更快

个性化行为与风格

增强系统的稳定性

微调是否会为模型添加新知识？

RAG 的效果是否一定优于微调？

RAG + 微调：两者结合更强大

为什么要结合 RAG 和微调？

LoRA vs. QLoRA

持续实验，找到最佳方案

微调成本高吗？

快速开始

结语

Claude Code 的 Memory 系统：让 AI 记住你的偏好

Skill开发黄金法则！谷歌放出5种智能体Skill设计模式