LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练

发表于2024-06-17🎥 观看直播

LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练

青稞2024-06-17

6月17日晚7点，青稞社区组织【青稞Talk】第十一期，LLAMA PRO一座、香港大学MMLAB在读博士吴成岳，将直播分享 ACL 2024最新成果《LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练》。

主讲嘉宾

吴成岳，香港大学MMLAB在读博士，师从罗平老师，研究方向为视觉-语言模型和大型语言模型。

主题提纲

LLaMA Pro：扩展Transformer块优化的大型语言模型继续预训练

1、大型语言模型在特定领域的应用局限性
2、一种新的 LLM 后训练方案 LLaMA Pro
3、LLaMA-Pro-8.3B 模型的训练流程解析
4、基准测试表现及使用方法

成果链接

paper：LLaMA Pro: Progressive LLaMA with Block Expansion
arXiv：https://arxiv.org/pdf/2401.02415
code：https://github.com/TencentARC/LLaMA-Pro

直播时间

6月17日（周一）19:00 - 20:00

喜欢这篇文章的人也看了

COAT：显存高效的 FP8 训练，实现高效深度学习

LLaMA Factory：从预训练到RLHF，大模型高效训练框架

PRIME：结合隐式过程奖励的强化学习

Satori：通过训练LLM做自回归搜索来增强推理能力

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

PC-Agent：面向复杂 PL 任务的多模态智能体框架