青稞Talk 13预告!LLaMA Factory:从预训练到RLHF,大模型高效训练框架
青稞Talk 13预告!LLaMA Factory:从预训练到RLHF,大模型高效训练框架
青稞LLaMA Factory 是一个高效、易用、可扩展的开源大模型高效训练框架,在GitHub开源社区获得超过25000关注,得到多家国内外企业的关注或落地应用。
1 | Paper:LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models |
项目特色
- 多种模型:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
- 集成方法:(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
- 多种精度:16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
- 先进算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent 微调。
- 实用技巧:FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
- 实验监控:LlamaBoard、TensorBoard、Wandb、MLflow 等等。
- 极速推理:基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。
性能指标
与 ChatGLM 官方的 P-Tuning 微调相比,LLaMA Factory 的 LoRA 微调提供了 3.7 倍的加速比,同时在广告文案生成任务上取得了更高的 Rouge 分数。结合 4 比特量化技术,LLaMA Factory 的 QLoRA 微调进一步降低了 GPU 显存消耗。
支持模型
模型名 | 模型大小 | Template |
---|---|---|
Baichuan 2 | 7B/13B | baichuan2 |
BLOOM/BLOOMZ | 560M/1.1B/1.7B/3B/7.1B/176B | - |
ChatGLM3 | 6B | chatglm3 |
Command R | 35B/104B | cohere |
DeepSeek (Code/MoE) | 7B/16B/67B/236B | deepseek |
Falcon | 7B/11B/40B/180B | falcon |
Gemma/Gemma 2/CodeGemma | 2B/7B/9B/27B | gemma |
GLM-4 | 9B | glm4 |
InternLM2 | 7B/20B | intern2 |
Llama | 7B/13B/33B/65B | - |
Llama 2 | 7B/13B/70B | llama2 |
Llama 3 | 8B/70B | llama3 |
LLaVA-1.5 | 7B/13B | vicuna |
Mistral/Mixtral | 7B/8x7B/8x22B | mistral |
OLMo | 1B/7B | - |
PaliGemma | 3B | gemma |
Phi-1.5/Phi-2 | 1.3B/2.7B | - |
Phi-3 | 4B/7B/14B | phi |
Qwen/Qwen1.5/Qwen2 (Code/MoE) | 0.5B/1.5B/4B/7B/14B/32B/72B/110B | qwen |
StarCoder 2 | 3B/7B/15B | - |
XVERSE | 7B/13B/65B | xverse |
Yi/Yi-1.5 | 6B/9B/34B | yi |
Yi-VL | 6B/34B | yi_vl |
Yuan 2 | 2B/51B/102B | yuan |
支持的训练方法
方法 | 全参数训练 | 部分参数训练 | LoRA | QLoRA |
---|---|---|---|---|
预训练 | ✅ | ✅ | ✅ | ✅ |
指令监督微调 | ✅ | ✅ | ✅ | ✅ |
奖励模型训练 | ✅ | ✅ | ✅ | ✅ |
PPO 训练 | ✅ | ✅ | ✅ | ✅ |
DPO 训练 | ✅ | ✅ | ✅ | ✅ |
KTO 训练 | ✅ | ✅ | ✅ | ✅ |
ORPO 训练 | ✅ | ✅ | ✅ | ✅ |
SimPO 训练 | ✅ | ✅ | ✅ | ✅ |
7月8日晚7点,青稞Talk第13期,北京航空航天大学博士生郑耀威,将直播分享《LLaMA Factory:从预训练到RLHF,大模型高效训练框架》。
Talk信息
分享嘉宾
郑耀威,北京航空航天大学博士生。以第一作者在ACL、CVPR、AAAI、WWW等国际会议发表多篇论文,担任AAAI、EMNLP、Neural Computation等会议和期刊审稿人。曾获得华为杯数学建模全国一等奖、蓝桥杯全国一等奖、北航榜样、北航博士新生奖学金。大模型训练框架LLaMA Factory作者,GitHub开源项目获得超过2万Stars,受邀至人工智能计算大会、阿里云AI智领者峰会、中国人民大学、智谱AI作大模型主题报告。
主题
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
提纲:
1、大模型高效训练现状
2、LLaMA Factory 的构建动机与组成模块
- 上百种大模型的全栈微调适配原理
- LoRA算子优化加速方法
- 多种微调Trick集成思路
3、LLaMA Factory 部署实践
直播时间
7月8日(周一)19:00 - 20:00参与方式
Talk 将在青稞·知识社区上进行,扫码对暗号:"0708",报名进群!