VILA 是 NVIDIA Research
提出的一种视觉语言基础模型,它通过在预训练阶段对大型语言模型(LLM)进行增强,使其能够处理和理解视觉信息。其核心思路是将图像和文本数据进行联合建模,通过控制比较和数据增强,提升模型在视觉语言任务上的性能。
https://github.com/NVlabs/VILA
在 VILA
的基础上,还延伸出了集成视频、图像、语言理解和生成的基础模型VILA-U、支持
1024 帧长视频训练和推理的 LongVILA,以及 World Model Benchmark
等工作。
https://github.com/mit-han-lab/vila-u
LongVILA
https://github.com/NVlabs/VILA/blob/main/LongVILA.md
同时,在最新推出的 \(VILA^2\)
中,采用三阶段训练范式:align-pretrain-SFT。该方法引入了一种新颖的增强训练方案,首先在自举循环中进行自我增强
VLM 训练,然后进行专家增强,以利用 SFT
期间获得的技能。这种方法通过改进视觉语义和减少幻 ...
作者:lym
原文:https://www.zhihu.com/question/588325646/answer/3422090041
>> 加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
如果可以用prompt解决,尽量用prompt解决,因为训练(精调)的模型往往通用能力会下降,训练和长期部署成本都比较高,这个成本也包括时间成本。
基于prompt确实不行(情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况,难度逐渐加大),选择上SFT微调。
业务场景基本用不到强化学习,强化解决的是最后一公里的问题,可以理解为有两种非常接近的输出(这两种输出都非常接近目标输出,此时已经解决了90%的问题),强化学习会对相同的输入,打压其中一种不希望的输出,同时增强另一种更接近目标的希望的输出(从DPO
loss就可以看出)。强化是用来应对细微输出差异的,并且业务场景优先用DPO,DPO只需要pair对数据,更好构造。PPO的reward
model几乎没有开源的,需要的数据更多,超参也更多,除非是逻辑或代码场景,在文本场景中,DPO效果是 ...
作者:陈陈,TSAIL: 强化学习+生成模型 原文:https://zhuanlan.zhihu.com/p/693746297
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
20号下午两位THUNLP的同学(淦渠和立凡)分别给我发了这篇arxiv,询问和上次讨论时谈到的一个理论的联系。简单看了文章后发现几乎完全撞了车。好吧严格讲也不算撞,这篇文章的理论去年十月我大概想明白推导完,但实在想不清楚有啥合适的应用因而给放弃掉了。现在也只能感慨之余写个解读了。
12From r to Q∗: Your Language Model is Secretly a Q-Functionhttps://arxiv.org/pdf/2404.12358.pdf
为什么写这个解读:
本文几乎是DPO的原班人马搞的,新来的Joey
Hejna是X-QL(本文部分核心理论)一作。这篇文章并没有提出一个新的算法,或者是在一个新的任务上刷了SOTA,主要是对DPO算法给出了一个理论解释,统一了处理LLM强化学习任务的两个视角,即序列决策还是单步决策。用强化学习的语言就是说de ...
作者:曹宇,阿里巴巴集团 · 大模型 原文:https://zhuanlan.zhihu.com/p/718913850
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
DPO 的论文引用最近已经破千了(现在是1600+),成了斯坦福的Chelsea
Finn组的机器人超猛PhD学生R.M.
Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种,DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会削弱。
按照我平时使用的体验,我们可以将当前的主要头部三强划分为第一梯队,头部开源三强划分成为第二梯队,再加上我一直比较关心的应用侧玩家Apple:
模型
对齐算法
使用 Reward Model
多阶段对齐
Claude Sonnet 3.5
RL PPO
是
未知
OpenAI GPT-4o
RL PPO
是
未知
Gemini Pro
RL REINFORCE
是
是
Deepseek-V2
RL GRPO
是
是
Llama3.1
DPO+RM
是
是
Qwen2
DPO+RM
是
...
作者:赖睿航,CMU CS Ph.D.(已授权) 原文:https://zhuanlan.zhihu.com/p/903143931
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
今年六月初,我们 MLC 团队发布了支持全平台部署的大模型推理引擎
MLCEngine。通过机器学习编译、全平台通用的推理 runtime 和统一的 OpenAI
API 接口,MLCEngine
支持从云端服务器到本地设备的全平台大语言模型部署。
引擎的推理性能长久以来以来都是我们开发 MLCEngine
过程中关注的一大重点。过去这两个多月里,MLC 社区一直在努力提升 MLCEngine
在云端 serving
场景下的性能。我们想通过这篇文章和小伙伴们分享这段时间我们取得的一些成果和经验。
在这篇文章里我们会重点探讨低延迟高吞吐量 (low-latency
high-throughput) 的 LLM 推理。在有非常多优秀的工作聚焦于提升
LLM 引擎总吞吐量的同时,大家能够注意到延迟这一指标对于 LLM
引擎的重要性正在日益增长,而延迟也是大家在使用各大 API ...
导师介绍
魏颖博士,浙江大学“百人计划”研究员,博士生导师。曾于南洋理工大学“南洋”助理教授及香港城市大学助理教授。在ICML、NeurIPS、ICLR等机器学习顶级会议、SCI一区期刊上共发表论文60余篇。曾获机器学习顶级会议ICLR
2024年最佳论文奖提名和数据挖掘顶级会议ACM SIGKDD
2014年最佳论文奖提名。担任机器学习顶级期刊TMLR的执行编辑、机器学习顶级会议ICML、NeurIPS、ICLR的领域主席、人工智能顶级会议AAAI的高级程序委员等。
详细信息参见个人主页:https://wei-ying.net/。
研究方向
基座模型(LLM)与迁移学习:聚焦如何基于迁移学习(指令微调、适配技术)提升基座模型在实际应用中的效率与性能,克服真实动态环境下的性能瓶颈。
持续学习:研究如何在动态变化的环境中持续学习和适应,推动包括基座模型在内的机器学习模型进化。
AI在物质合成中的应用:研究如何利用AI技术辅助化学与材料领域的创新发现。
你将在这里获得什么?
直接参与前沿科研项目:你将有机会参与到前沿研究项目中,提升理论基础和应用技巧,快速积累科研经验,并在顶级期 ...
视觉生成模型的快速发展需要高效可靠的评估方法。Arena
平台收集用户对模型比较的投票,可以根据人类偏好对模型进行排名。
然而,传统的 Arena
需要进行过多的投票才能收敛排名,并且容易受到投票中偏好噪声的影响。
为此,来自自动化所和伯克利的研究团队提出K-Sort Arena,采用 K-wise
比较,允许 K
个模型参与自由混战,提供比成对比较更丰富的信息,并设计基于探索-利用的匹配算法和概率建模,从而实现更高效和更可靠的模型排名。
论文地址:https://arxiv.org/abs/2408.14468
项目地址:https://huggingface.co/spaces/ksort/K-Sort-Arena
K-Sort Arena已经历数个月的内测,期间收到来自Berkeley, NUS, CMU,
Stanford, Princeton, 北大, Collov Labs,
美团等数十家机构的专业人员的技术反馈。目前,K-Sort Arena
已收集几千次高质量投票并有效地构建了全面的模型排行榜,已用于评估几十种最先进的视觉生成模型,包括文生图和文生视频模型。
研究 ...
当今 LLM
中存在非常大的离群值(outliers),为低比特量化带来了巨大挑战。而传统方法在
LLM FFN 模块中的 down_proj layer 存在明显的 massive
outliers,表现为大于几百的激活值并局限于个别的 tokens 中,这些 massvie
outliers 造成 SmoothQuant 和 OmniQuant 等量化算法在 4bit
权重激活量化中表现糟糕。
为了消除 outliers,来自中科院、清华等高校的研究者提出了
DuQuant,它可以通过学习旋转变换和通道置换变换,在激活矩阵内部将 outliers
转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低了量化难度。DuQuant
在 4-bit 权重激活量化 setting 下明显提升了不同架构量化模型在
PPL、QA、MMLU、MT-Bench 和 LongBench 等任务上的性能。
1234Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMsAbs ...
翻译:青稞AI 原文:https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai
不, GPT 并没有消失。但从新的 OpenAI o1
模型系列中,我们可以清晰地看出——请允许我为此感到激动——一个全新的范式正在诞生:推理的新范式,扩展的新范式,人工智能的新范式。
虽然 ChatGPT 和 GPT-4 仍然会陪伴我们,但它们不再是 OpenAI
的“宠儿”。我们正步入一个新的阶段,一个新的时代。公司未来的资源和精力将主要集中在探索、扩展和完善这个新范式上,这个时刻更像是
GPT-3 带来的震撼(“等等,人工智能居然能做到这些?”),而非 ChatGPT
的“全民狂欢时刻”(“人人都来参加派对!”)。
我们需要很多答案来解释这一整体转变:
推理人工智能对于生成人工智能来说意味着什么(它到底具有生成性吗)?
用户将如何与能够思考的人工智能模型建立联系并进行互动?
当让推理模型思考几个小时、几天甚至几周时,它们能做什么?
推理模型现在如何根据计算来扩展性能?
公司将如何在训练推理流程中分配计算?
所有 ...
近期,OpenAI领投的1X Technologies发布了1X World
Model,将世界模型的概念引入到了人形机器人中。世界模型在具身智能的多个子领域也得到了广泛的关注。世界模型是真实世界的模拟,可以预测不同控制指令对应的未来状态,并反馈给智能体的训练和决策过程。作为通往L5自动驾驶的关键技术之一,世界模型也在自动驾驶领域也受到了广泛的关注。
GenAD 由上海人工智能实验室 OpenDriveLab
联合香港和德国的多家高校机构,专为自动驾驶领域设计的一种可以理解和预测复杂驾驶场景动态的大规模视频预测模型。GenAD
不仅能够基于过去的观察预测未来的视频帧,还能根据文本指令或特定的行动轨迹条件生成视频,这使得它在模拟和规划等自动驾驶下游任务中具有广泛的应用潜力。GenAD
论文已被收录为 CVPR 2024 Highlight。
GenAD 是建立在目前最大的自动驾驶视频数据集 OpenDV-2K
之上,该数据集包含来自全球超过2000小时的自动驾驶视频,覆盖了多样化的地理、天气和交通场景,为模型提供了丰富的训练素材。
Vista 是 OpenDriveLab
最新推出 ...