青稞社区 - 青年AI研究员Idea加油站，AI开发者的新能源充电站

2024-06-13浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生

浙江大学招收访问学者、研究助理、博士后、硕士和博士生 Monash University招收1-2名博士生 ZIP Lab介绍 ZIP Lab 是一个国际性的研究实验室，位于杭州和墨尔本。我们的主要研究重点是为边缘应用开发高效的机器学习系统，特别是在大型语言模型和多模态大模型方面。自2021年成立以来，实验室凭借其才华横溢的成员迅速取得了发展。有关我们团队成员和论文的更多信息，请访问实验室主页： https://ziplab.github.io/ 我们正在积极招聘浙江大学的访问学者、研究助理、博士后、硕士和博士生。此外，我们还在 Monash University 招收1-2名博士生，将由资深教授共同指导。我们期待在学术界影响力和工业界落地都取得突破，欢迎您的加入！ PI简介 Bohan Zhuang是ZIP Lab的负责人。他于2018年在阿德莱德大学获得博士学位，并在澳大利亚机器人视觉中心担任高级研究员。从2020年至今，他担任Monash University信息技术学院的长聘助理教授，该校在2025年QS全球排名第37位。2023年，他获得了国家优 ...

详情

2024-09-23加入青稞AI技术交流群，与青年AI研究与员/开发者交流最新AI技术

青稞社区青年AI研究员idea加油站，AI开发者的新能源充电桩！青稞AI技术交流群长案扫码添加青稞小助手备注：姓名-学校/公司-学历/职位-研究领域（如：青稞-MIT-博士-LLM），即可申请加入青稞LLM/多模态/Agent/具身智能/面试/顶会等技术交流群：加入青稞AI技术交流群，不仅能与来自MIT、港中文、CMU、UCLA、斯坦福、清华、阿里、腾讯等名校名企AI研究员/开发者一起进行技术交流，同时还有青年AI研究员/开发者的Talk分享、行业前沿资讯、顶会资源、招聘内推等。社群列表细分方向技术交流群青稞｜LLM技术交流群青稞｜多模态技术交流群青稞｜具身智能技术交流群青稞｜Agent技术交流群青稞｜Diffusion技术交流群 SGLang技术交流群顶会投稿开会交流群 ICRA 投稿开会交流群 | 青稞 CVPR 投稿开会交流群 | 青稞 ICASSP 投稿开会交流群 | 青稞 NAACL 投稿开会交流群 | 青稞 ECCV 投稿开会交流群 | 青稞 AIGC/LLM面试交流群青稞｜AIGC&LLM面试招聘交流群行业资讯群 ...

详情

2024-09-18万字长文推演OpenAI o1 self-play RL 技术路线

作者：曹宇，阿里巴巴集团 · 大模型练习生，AI 系统及算法方向原文：https://zhuanlan.zhihu.com/p/720106482 OpenAI的self-play RL新模型o1最近交卷，直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩，同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主，在时效性方面肯定卷不过其他营销号了，所以这次准备了大概一万字的内容，彻底深入分析并推演一遍其中的相关技术细节。 o1，而今迈步从头越首先要说一下，o1是一个多模态模型，很多人包括 Jim Fan 都忽略了这一点：因此他继续叫做o，作为omni系列是没有任何疑问的。只不过这次发布是过于低调了，很多人都没有注意到这个拉爆了所有其他多模态框架的78.1分。那么这个o1，说明这个技术路线就是一个全新的模型pipeline弄出来的了。作为一个全新的多模态Self-play RL模型，首秀的成绩还是相当不错的。虽然现在评价该self-play方法是否能够泛化至多模态还 ...

详情

2024-03-21张俊林：技术神秘化的去魅，Sora关键技术逆向工程图解

作者：张俊林，新浪微博新技术研发负责人声明：本文只做分享，版权归原作者，侵权私信删除原文链接：https://zhuanlan.zhihu.com/p/687928845 | https://zhuanlan.zhihu.com/p/684089478 Sora生成的视频效果好吗？确实好。Sora算得上AGI发展历程上的里程碑吗？我个人觉得算。我们知道它效果好就行了，有必要知道Sora到底是怎么做的吗？我觉得最好是每个人能有知情的选择权，任何想知道的人都能够知道，这种状态比较好。那我们知道Sora到底是怎么做出来的吗？不知道。马斯克讽刺OpenAI是CloseAI，为示道不同，转头就把Grok开源了。且不论Grok效果是否足够好，马斯克此举是否有表演成分，能开源出来这行为就值得称赞。OpenAI树大招风，目前被树立成技术封闭的头号代表，想想花了上亿美金做出来的大模型，凭啥要开源？不开源确实也正常。所谓“开源固然可赞，闭源亦可理解”。但是，我个人一年多来的感觉，OpenAI技术强归强，然而有逐渐把技术神秘化的倾向，如果不信您可以去读一下Altman的各种访谈。在这个AI技术 ...

详情

荐

浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生

荐

加入青稞AI技术交流群，与青年AI研究与员/开发者交流最新AI技术

荐

万字长文推演OpenAI o1 self-play RL 技术路线

荐

张俊林：技术神秘化的去魅，Sora关键技术逆向工程图解

首页

强化学习

LLM

AIGC

青稞·大模型Weekly

加群

大模型技术报告

招聘

三维视觉

Agent

LLM

最新未读

大模型推理框架，SGLang和vLLM有哪些区别？

发表于2025-03-302025-03-30 SGLang 旷野

作者：旷野@知乎原文：https://www.zhihu.com/question/666943660/answer/131299097866 大模型推理框架，SGLang和vLLM有哪些区别？ - https://github.com/sgl-project/sglang - https://github.com/vllm-project/vllm 简单粗暴点说 vLLM 专心搞“引擎”的性能猛兽。它的核心武器是 PagedAttention，借鉴了操作系统里虚拟内存和分页的思想，来管理那个让人头疼又吃内存的 KV Cache。效果？内存碎片少了，吞吐量上去了，特别是在处理变长序列、多请求并发时，效率提升嘎嘎明显。你可以把它想象成一个高度优化的 F1 赛车引擎，目标就是快，更快，在标准赛道（常规的文本生成）上把速度拉满。 SGLang 既要“引擎”快，又要“控制”骚的编程范式革新者。它不满足于仅仅在底层引擎上做文章。它搞了个前端语言，让你能用更简洁、更符合逻辑的方式去编排复杂的生成任务，比如结构化数据提取、多轮对话管理、函数调用、带约束的生成等等。同时，它的后端引擎 ...

LLM

未读

我的RL人生哲学:写给Sutton & Barto的图灵奖时

发表于2025-03-302025-03-30 强化学习曹宇

作者：曹宇@知乎原文：https://zhuanlan.zhihu.com/p/28202119556 我不知道怎么做这一篇的开场，只能先把一张从Sun Hao那边盗来的一张图放在这里，图中是第一届RL Conference（RLC）的一幕：台上神情颇为严肃的是 Andrew（Andy）Barto，台下蓄着胡须的则是 Rich Sutton。他们今年共同因为在强化学习（RL）领域的突出贡献，获得了图灵奖，这个在计算机界最高的殊荣。他们的得奖实至名归，甚至稍有些晚了，Sutton依然奋战在科研一线，不过Barto已开始颐养天年。有人说强化学习终于站起来了，RL works，在强化领域持续耕耘的同学也守得云开见月明了。我想说这都是表象，强化人背后的艰辛与隐忍是不足为外人道的：强化是一种道，术可以练习，道需要修行。苦涩的教训大多数接触强化学习可能有几个时间点：Atari游戏、AlphaGo大战柯洁、R1爆火。大多数人放弃强化学习可能有几个时间点：看不懂公式、找不到工作、训练不出来效果。成败之道就在于这个苦涩的教训 The Bitter Lesson：这篇至今仍然挂在Su ...

LLM

未读

从幻觉到o1-reasoning！万字长文总结多模态大模型后训练

发表于2025-03-232025-03-23 多模态大模型推理大模型 yearn

作者：yearn 原文：https://zhuanlan.zhihu.com/p/31278114666 本文介绍下我们对多模态alignment近期一系列进展的整理和总结大语言模型（LLMs）能够通过简单的提示完成多种任务，且无需进行任务特定的训练。然而，这些模型主要处理文本数据，对于多模态数据的处理存在局限。由于我们的世界本质上是多模态的，包括视觉、听觉和文本等数据，研究者开始在LLM的基础上开发多模态大型语言模型（MLLMs），以处理更复杂的数据形式。然而，现有的MLLMs仍面临一系列挑战，尤其是在真实性、安全性、推理能力和与人类偏好对齐方面，这些问题尚未得到充分解决。因此，针对这些问题的对齐算法应运而生，成为解决这些挑战的有效途径。主要贡献本文的主要贡献是对多模态大型语言模型（MLLMs）中的对齐算法进行全面的系统性回顾。具体而言，文章探讨了以下四个关键问题： 1.现有对齐算法的应用场景：文章通过分类当前的对齐算法，清晰地展示了它们在不同应用领域的适用性，并为研究者提供了一个统一的符号系统，帮助理解各算法之间的区别与联系。 2.对齐数据集的构建：对齐数据集的构 ...

强化学习

未读

聊聊强化学习发展这十年

发表于2025-03-222025-03-22 RL 赵鉴

作者：赵鉴,中科大博士原文：https://zhuanlan.zhihu.com/p/31553187995 （前言：这篇文章我从祖师爷评上图灵奖的时候开始写的，但不停的在删了重写，删了重写，到现在为止才出一个我勉强接受的版本。我从我的视角来描述下我觉得这些年来强化学习的发展风向。先叠个甲，本人学术不精，本文所有观点都乃我一家之言，欢迎大家批评指正。）最近在帮忙给强化学习立标准，我发现这是一件非常痛苦的任务。因为随着这两年强化学习的大力发展，强化学习衍生出了许许多多的子课题方向，除了最经典的online RL以外，例如offline model-free RL,model-based RL,RLHF,multi-agent,risk-sensitive,inverse RL等等，要给这些子课题找共性非常困难。而在传统教科书中，强化学习的标准制定时由于这些子课题还未出现，导致定义早已过时。举个例子，例如强化学习强调智能体跟环境交互，而offline RL方向偏说我就不跟环境交互。再例如强化学习强调无需人类标签还是采用奖励信号，RLHF说我就不是这样。所以我打趣说，这就像 ...

LLM

未读

字节 DAPO 技术报告有感！大模型 RL 细节为王

发表于2025-03-222025-03-22 RL 大模型 haotian 字节

作者：haotian 原文：https://zhuanlan.zhihu.com/p/31770741283 近期，seed&清华发表的DAPO，将32b-base做到了aime50分的效果，是一个值得参考的技术报告。这个报告里面提到了很多方法/tricks：好的流程远胜不靠谱的算法trick llm的sft和rl，笔者认为，二者差别不大，sft是rl的一个特例（有一些文章做了类似的讨论），而rl则更好的利用了负样本。在dapo中，一个核心是dynamic-sampling，简单来说，根据当前模型在prompt的bon，动态决定采样budget，难prompt采样更多的sample，简单prompt则采样更少的prompt，以及过滤模型解决不了的hard-prompt或者easy-prompt。在sft阶段，通常也会使用类似的策略做code/math等等的拒绝采样、筛选多样性response（embedding+聚类、长度）。从DAPO中可以看出，一个良好的pipline（online-dynamic-sampling）远胜于不靠谱的算法trick。当做好sft ...

LLM

未读

以RLer视角看大模型训练中的强化学习

发表于2025-02-142025-03-22 强化学习 LLM

作者：赵鉴，南栖仙策打工人，中科大博士，研究方向强化学习，游戏ai 原文：https://zhuanlan.zhihu.com/p/23290969372 加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术过年期间，deepseek是火遍朋友圈，当然顺带着RL也火了，认为是训练deepseek大模型中的核心技术，我就突击看了一下论文，又跟做大模型训练的同学讨论了一下，写下了这篇文章。额外叠个甲，因为我从来也没有做过大模型基座训练的任何工作，文中所有的观点仅是我个人粗浅的理解，我把我的暴论全部都加粗了，欢迎大家批评指正。大模型训练的问题定义是什么强化学习是一种解决思路，在说解决思路之前，我觉得理解清楚大模型训练的问题定义是非常关键的。可惜我看了很多论文和博客，都没有这一块的相关介绍，我只能从已有的信息中提炼出这部分的问题定义：输入：自监督+SFT训练好的初始模型，人类偏好数据（Q，A1，A2），问题库（Q）输出：一个新模型基于人类偏好数据常常是用来训练奖励模型的，并且也没有在后续强化学习训练中体现出啥特殊性，有些大模型训练也不采用这部分数据来训练奖 ...

LLM

未读

DeepSeek-V3/R1 的 Hosting 成本预估

发表于2025-02-142025-03-22 LLM

作者：Ligeng Zhu，Nvidia Research 原文：https://zhuanlan.zhihu.com/p/23282743306 加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术随着 deepseek-v3/r1 的爆火，各大 serving 厂商久旱逢甘霖终于是找到机会来宣传自家服务，在各大 MaaS 上线的如火如荼的时候，有人担忧厂商价格这么便宜（¥16 / Mtoken）真的能赚钱吗，会不会 V3/R1 的火热只是昙花一现即便H800 GPU打满并且做出一流优化，H800每百万token的成本是约150元，昇腾是约300元 ... 如果满血版的DeepSeek R1每日输出1000亿token，那么每月的机器成本是4.5亿，亏损4亿！用户越多，亏损越多。 TLDR 如果不优化直接用 TP / PP，那么部署是亏钱的，但如果优化的好，盈利点十分充裕 (>90%) 考虑到 serving throughput = latency * batch-size H100 / H800 的 throughput 很好预估，它们都是 80 ...

LLM

未读

Deepseek R1 Zero 复现, 三阶段RL！

发表于2025-02-052025-03-22 LLM DeepSeek R1

作者：涮月亮的谪仙人原文：https://zhuanlan.zhihu.com/p/18565423596 >> 加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术项目代码；欢迎关注和star! 1https://github.com/Unakar/Logic-RL 我们将开源完整的wandb曲线和训练日志 1https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8 在大四的最后一个寒假，和@AdusTinexl、@ShadeCloak两个小伙伴捣鼓出了点有意思的东西，非常开心，欢迎各位合作，指导！先展示一下结果：基座模型Qwen 7B在测试集上只会基础的step by step逻辑。无 Long CoT冷启动蒸馏，三阶段Rule Based RL后（约400steps），模型学会了迟疑 ( ...

大模型技术报告

未读

MiniMax-01技术报告解读

发表于2025-01-162025-01-16 LLM MiniMax 01

作者：北方的郎原文：https://zhuanlan.zhihu.com/p/18384965809 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术刚刚MiniMax发布了MiniMax-01，简单测试了效果，感觉不错。于是又把它的技术报告看了一下。这种报告看多了，就会多一个毛病，越来越觉得自己也能搞一个。 O 这篇文章我觉得最有意思的一句是对数据质量的强调“低质量数据在训练超过两个epoch后性能显著下降，而高质量数据可以有效地训练多达四个epoch” MiniMax-01系列模型通过创新的Lightning Attention和专家混合（Mixture of Experts, MoE）架构，实现了在长上下文处理上的突破性进展。 1234Paper：MiniMax-01: Scaling Foundation Models with Lightning Attention论文链接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdfGithub地址：https://github.co ...

LLM

未读

从DeepSeek MTP，解析MTP技术的前世今生

发表于2025-01-152025-01-15 LLM DeepSeek

作者：姜富春，大厂程序员原文：https://zhuanlan.zhihu.com/p/18056041194 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学习。主要参考3篇论文了解了MTP的前世今生。本文章结合业界的一些探索，并试图增加自己的一些理解来讲讲MTP方法。下面我们进入正题。为什么要做MTP 在学习具体的方法前，我们首先了解下为什么要做MTP(Multi-Token Prediction)? 背景我们都知道，当前主流的大模型(LLMs)都是decoder-base的模型结构，也就是无论在模型训练还是在推理阶段，对于一个序列的生成过程，都是token-by-token的。每次在生成一个token的时候，都要频繁跟访存交互，加载KV-Cache，再通过多层网络做完整的前向计算。对于这样的访存密集型的任务，通常会因为访存效率形成训练或推理的瓶颈。针对token-by-token生成效率的瓶颈，业界很多方法来优化，包括 ...

大模型Weekly 05｜450美元训练32B推理模型‌，并开源；微软开源Phi-4

青稞·大模型Weekly

未读

大模型Weekly 05｜450美元训练32B推理模型‌，并开源；微软开源Phi-4

发表于2025-01-132025-01-13 大模型 Weekly

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。 NovaSky发布Sky-T1-32B-Preview推理模型‌ 训练成本不到 450 美元 Sky-T1-32B-Preview：450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】 2025年1月12日，加州大学伯克利分校天空计算实验室的研究团队NovaSky发布Sky-T1-32B-Preview推理模型‌。该模型在多个关键基准测试中表现出与OpenAI早期o1版本相当的水平，且其训练成本不到450美元，远低于以往同类模型的数百万美元‌。 Sky-T1-32B-Preview不仅是首个真正意义上的开源推理模型，NovaSky团队还公开了用于训练它的数据集及必要的训练代码，这意味着该模型可以从头开始复制‌。这一突破得益于合成训练数据的广泛应用，合成数据由其他模型生成，能够显著降低训练成本‌。昆仑万维发布「天工大模型4.0」o1版和4o版 o1版具备中文逻辑推理能力，4o版可以提供情感表达和快速响应的实时语音对话助手Skyo 昆仑万维集团推出「天工大 ...

Sky-T1-32B-Preview：450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】

大模型技术报告

未读

Sky-T1-32B-Preview：450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】

发表于2025-01-112025-01-16 大模型推理模型

原文：https://novasky-ai.github.io/posts/sky-t1/ >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术 Sky-T1-32B-Preview 是我们推出的推理模型，在常见的推理和编码基准测试中，其表现可与 o1-preview 媲美。值得注意的是，Sky-T1-32B-Preview 的训练成本不到 450 美元，展示了以经济高效的方式复制高水平推理能力的可能性。 123代码库：https://github.com/novasky-ai/sky-t1模型权重：https://huggingface.co/novasky-ai/sky-t1-32b-preview技术报告：https://arxiv.org/abs/2024xxxx 背景诸如 o1 和 Gemini 2.0 等在推理方面表现出色的模型，能够通过生成长链的内部思考来解决复杂任务。然而，这些模型的技术细节和权重尚未公开，限制了学术界和开源社区的参与。为此，一些在数学领域训练开源推理模型的努力相继出现，例如 STILL-2 和 Journey。同时， ...

LLM

未读

计算DeepSeekV3训练的MFU

发表于2025-01-082025-01-09 LLM DeepSeeek 方佳瑞

作者：方佳瑞，清华大学计算机科学技术博士，腾讯专家工程师原文：https://zhuanlan.zhihu.com/p/16445683081 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右，相比V2的MFU提升大概60%，希望对后续技术讨论提供数据支撑。自2024年12月发布以来，DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道，更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考，更延伸出对美国对华技术出口管制政策有效性的讨论，甚至影响到投资者对英伟达股价走势的判断。神秘的幻方公司，加之某热点人物跳槽的花边，DeepSeekV3目前俨然成为舆论焦点，其影响力已远远超出技术领域，被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论不断发酵，从科技从业者到政策研究者，从资本市场到普 ...

大模型Weekly04｜智谱发布深度推理模型GLM-Zero-Preview；英伟达推出文本音频生成模型TangoFlux

青稞·大模型Weekly

未读

大模型Weekly04｜智谱发布深度推理模型GLM-Zero-Preview；英伟达推出文本音频生成模型TangoFlux

发表于2025-01-062025-01-09 大模型 Weekly

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。智谱发布深度推理模型zero初代版GLM-Zero-Preview 效果与OpenAI-o1-Preview 相当 2024 年12月31日，智谱AI旗下GLM技术团队发布GLM-Zero的初代版本GLM-Zero-Preview，这是智谱首个基于扩展强化学习技术训练的推理模型。专注于增强推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题，支持文字和图片上传，输出完整推理过程。同基座模型相比，它在不显著降低通用任务能力的情况下，在专家任务能力方面表现大幅提升，在 AIME 2024、MATH500 和 LiveCodeBench 评测中，效果与OpenAI-o1-Preview 相当。详情链接:https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh 英伟达联合新加坡科技设计大学推出文本音频生成模型TangoFlux 能够在3.7秒内生成30秒的高质量音频 2025年1月2日，英伟达联合新加坡科技 ...

大模型Weekly 03｜OpenAI o3发布；DeepSeek-V3上线即开源！

青稞·大模型Weekly

未读

大模型Weekly 03｜OpenAI o3发布；DeepSeek-V3上线即开源！

发表于2024-12-302024-12-30 OpenAI DeepSeek 阿里Qwen

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。国产DeepSeek-V3首个版本上线并同步开源首位全职提示词工程师出新题，DeepSeek V3完全答对 DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型，并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中，以48.4分排名第二，仅次于OpenAI o1的61分。而在LiveBench的测评中，DeepSeek v3是最强的开源大语言模型，并在非推理模型中，排名第二。详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main IBM推出开源大型语言模型Granite3.1 能处理最多128，000个令牌 IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加 ...

LLM

未读

对OpenAI o3模型的看法、思考与反思

发表于2024-12-252024-12-25 OpenAI OpenAI o3

作者：李博杰原文：https://www.zhihu.com/question/7416922570/answer/60763494897 o1 刚出来的时候，很多人还质疑这还达不到 AGI（通用人工智能）。o3 体现出的编程和数学能力，不仅达到了 AGI 的门槛，甚至摸到了 ASI（超级人工智能）的边。 o3 也进一步验证了 RL 和 test-time scaling 的价值，在高质量预训练数据基本耗尽，模型能力 “撞墙” 的情况下，提供了一条通过后训练和增加推理时间，继续提升模型智力，解决更困难问题的路径。 o3 具体的性能指标很多人都看到了，我就不再重复了。省流版： - o3 在 Codeforces 编程竞技中击败了 99.9% 的程序员，在 168076 名程序员中排名 175 名。甚至 o3 的作者都打不过 o3。 - o3 在编程解决真实世界需求方面也比 o1 有明显提升，在 SWE-Bench 软件开发测试中，之前发布的 o1-preview 是 41.3%，o3 是 71.7%，也就是 70% 的真实世界需求，o3 可以直接做对，并通过单元测试。也就意味着只有 ...

大模型Weekly｜月之暗面发布Kimi视觉思考模型 k1；谷歌发布最新视频生成模型Veo 2

青稞·大模型Weekly

未读

大模型Weekly｜月之暗面发布Kimi视觉思考模型 k1；谷歌发布最新视频生成模型Veo 2

发表于2024-12-222024-12-23 大模型 Weekly

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。月之暗面发布Kimi视觉思考模型 k1 超过全球多个标杆模型 12月16日，月之暗面正式发布AI人工智能助手Kimi的视觉思考模型 k1。基于强化学习技术，支持端到端图像理解和思维链技术，训练分预训练和强化学习后训练两个阶段，能力扩展到数学之外的物理、化学等基础科学领域，k1模型在基础科学学科的基准测试中表现优异，超越包括OpenAI o1、GPT-4o以及Claude 3.5 Sonnet在内的多款知名模型，在教育领域的拍照搜题等方面表现出色，还可用于日常生活中识别动植物、计算卡路里等，也能进行古代文献分析等。用户可以在最新版“Kimi智能助手”的Android、iPhone手机App以及网页版kimi.com上体验到这一创新功能。用户只需在App或网页版中找到“Kimi视觉思考版”，即可通过拍照或上传图片的方式，享受模型带来的智能化解题体验。 1使用地址：https://kimi.moonshot.cn/ 无问芯穹正式开源其首个端侧全模态理解开源模型Megrez-3B-Omni ...

大模型Weekly｜谷歌发布Gemini 2.0；微软推出小模型Phi-4；智谱上线GLM-4V-Flash

青稞·大模型Weekly

未读

大模型Weekly｜谷歌发布Gemini 2.0；微软推出小模型Phi-4；智谱上线GLM-4V-Flash

发表于2024-12-162024-12-16 大模型 Weekly

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。谷歌发布新模型Gemini 1206 在google AI studio可以免费使用，API免费 Google 发布 Gemini-EXP-1206 实验机型，在聊天机器人竞技场中再次反超了 ChatGPT-4o 。在Livebench上排名第二，超过Claude 3.5 Sonnet，直逼Open o1-preview 。能够处理200万个标记，擅长处理大型复杂数据集，并且在编码类别中与OpenAI的o1并列第一，Arena Score 作为衡量语言模型综合能力的关键指标，Gemini-Exp-1206 的高分充分展示了其在多任务处理、语言理解和生成能力上的卓越表现。 OpenAI正式发布视频生成模型Sora 支持 5-20 秒的视频生成 12月10日OpenAI宣布最新研发的视频生成模型Sora将正式向用户开放，Sora最大的特色是能够根据用户的文本提示生成逼真的视频内容。Sora将于当天向美国及其他市场的ChatGPT付费用户开放，OpenAI还推出Sora Turbo新版工具 ...

一位大佬的自述 | 从读博到 Google DeepMind，旅程中的心得与感恩

LLM

未读

一位大佬的自述 | 从读博到 Google DeepMind，旅程中的心得与感恩

发表于2024-12-112024-12-11 LLM NUS

作者：薛复昭，新加坡国立大学，将于近期加入Google DeepMind 原文：https://xuefuzhao.notion.site/2024-12-Google-DeepMind-85cc012dc0b44af4b896c044ac77c9f2 在经历了三年精彩的博士生涯之后，我将作为高级研究科学家加入Google DeepMind，致力于Gemini预训练和多模态研究。我非常幸运能再次向Mostafa Dehghani汇报工作，他是我之前实习期间的杰出导师之一，同时也很荣幸能成为Jack Rae卓越研究团队的一员。我将从新加坡开始这段激动人心的旅程，并在几个月后转移到湾区。我对这个新篇章超级、超级兴奋！为了纪念这个里程碑，我写下了在攻读博士期间学到的重要经验——这不仅是为了自我反思和记录，也希望能分享并帮助到其他人博士期间的七点心得工程能力是研究的基础。与优秀人才共事对提升研究品味极其有帮助。博士期间要致力于做出简洁而有见地的45分钟演讲，而不是追求长长的发表清单。专注于少量重要论文并深入理解，而不是浅尝辄止地阅读很多文章。在接触新课题时，要按时间顺序 ...

LLM

未读

ICLR 8分论文：模型自身也可以标注偏好数据

发表于2024-12-112024-12-11 LLM

作者:yearn 原文：https://www.zhihu.com/question/588325646/answer/3422090041 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术 12Paper:Spread Preference Annotation: Direct Preference Judgment for Efficient LLM AlignmentAbs:https://openreview.net/forum?id=BPgK5XW1Nb 大语言模型（LLMs）的成功在很大程度上依赖于与人类偏好的对齐。然而，这种对齐通常需要大规模的人工标注偏好数据，成本非常高昂。现有方法如通过外部奖励模型或利用 LLM 的上下文学习能力来模拟偏好标注，但这些方法存在以下问题：需要大规模的人工标注数据，成本高。 LLM-as-judge 方法依赖模型规模大且预先对齐性良好，应用范围有限。使用外部奖励模型时可能因分布不匹配导致无效，且容易产生标签噪声。因此，本文提出了一种新的框架，称为 Spread Preference Annot ...

AIGC

未读

浙大开源ZipAR:自回归图像生成开销降低91%

发表于2024-12-072024-12-07 AIGC 模型压缩浙江大学

12论文地址：https://arxiv.org/pdf/2412.04062代码地址：https://github.com/ThisisBillhe/ZipAR 问题背景近年来，大型语言模型（LLMs）在文本生成任务中取得了显著进展，尤其是基于“下一个词预测”（next-token prediction）范式。这一范式不仅在文本生成中表现出色，还被广泛应用于视觉内容的生成，推动了自回归（AR）视觉生成模型的发展。这些模型能够生成高质量的图像和视频，甚至在某些方面超越了最先进的扩散模型。然而，自回归模型在生成高分辨率图像或视频时，需要逐个生成数千个视觉标记，导致生成速度缓慢，成为其广泛应用的主要障碍。在Emu3-Gen上，ZipAR可将AR模型生成图片所需的前向推理次数降低91%。针对大语言模型的解码问题，研究者们已经提出了多种方法来减少生成过程中的前向传递次数。例如，“下一个集合预测”（next-set prediction）范式通过引入多个解码头或小型Draft模型来生成多个候选标记，但这些方法通常需要额外的模型或训练成本。此外，Jacobi解码方法通过迭代更新标记序 ...

OpenAI o1复现之旅：通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训？

LLM

未读

OpenAI o1复现之旅：通过简单蒸馏是超越o1-preview的巨大进步还是苦涩教训？

发表于2024-11-282024-12-01 LLM OpenAI o1

作者：莫笑傅立叶原文：https://zhuanlan.zhihu.com/p/9229809205 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术 12Paper:O1 Replication JourneyAbs:https://www.hotaipapers.com/ai-papers/2411-16489 摘要本文批判性地审视了当前复制OpenAI O1模型能力的方法，尤其关注广泛使用但常常未公开的知识蒸馏技术。我们之前的研究（第一部分[@qin2024o1]）探讨了复制O1的基本技术路径，本研究则揭示了简单的O1 API蒸馏结合监督微调，如何在复杂的数学推理任务上取得优异性能。大量实验表明，仅在数万个O1蒸馏的长链推理样本上微调的基础模型，在全美邀请数学考试（AIME）中，其性能已超越O1预览版，且技术复杂度极低。此外，我们研究扩展到数学推理之外，探索了O1蒸馏模型在不同任务上的泛化能力：幻觉、安全性及开放域问答。值得注意的是，尽管仅在数学问题求解数据上训练，我们的模型在开放式问答任务中展现出强大的泛化能力，微调后对迎合性行为的敏感 ...

LLM

未读

多模态视觉token压缩方法

发表于2024-11-282024-12-01 多模态大模型 VLM

作者：葡萄是猫原文：https://zhuanlan.zhihu.com/p/8776092026 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术简要为提升MLLM对图像、视频的理解能力，最有效的方式就是提升visual token的个数，随之而来的则是训练、推理耗时的增加。因此，对视觉token进行压缩以提取最有用的信息至关重要。下文基于个人理解，进行梳理。已知技术方案概览： 1.线性映射：采用多层MLP进行压缩，如Qwen2-VL中 2.下采样：采用Pooling（可以是不同的pool采样方式），如LLaVA-OneVision 3.Pixel-Shuffle：用通道换空间，如InternVL1.1及后续系列 4.Q-former：新增learned query实现视觉token压缩，如Flamingo、BLIP2 5.模型动态压缩：利用模型指导视觉token采样，如FocusLLaVA、MustDrop 6.注意力改造：改造注意力机制，不直接压缩token，但仍能达到提升推理速度的目的，如mPlug-owl3 其中，线性映射、下采 ...

LLM

未读

干货！大模型 LLM 训练基础知识

发表于2024-11-282024-11-28 LLM 大模型预训练

作者：janbox 原文：https://zhuanlan.zhihu.com/p/6345302826 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术一、基本步骤训练llm，基本分为三步：pretrain -> sft(chat model) -> dpo/RLHF（helpful & Safety). 辅助的环节：数据处理，评估二、模型结构目前比较成熟，一般采用 gpt架构，Llama/Llama2 - Transformer-Decoder结构 - PreLayerNorm-RMSNorm 12Paper:Root Mean Square Layer NormalizationAbs:https://proceedings.neurips.cc/paper_files/paper/2019/file/1e8a19426224ca89e83cef47f1e7f53b-Paper.pdf ROPE旋转位置编码（替换绝对/相对位置编码） SwiGLU激活函数（替换ReLU） 12Paper:GLU Variants ...

LLM

未读

盘点 2024 年的视觉语言模型VLMs

发表于2024-11-242024-11-24 LLM VLM

作者：AI椰青原文：https://zhuanlan.zhihu.com/p/7827587018 1 引言视觉语言模型（Vision Language Models, VLMs）是一类生成模型，能够同时从图像和文本中学习以解决多种任务。视觉语言模型被广义定义为能够从图像和文本中学习的多模态模型。这类生成模型以图像和文本为输入，生成文本（或图像）作为输出。大型视觉语言模型在零样本学习中表现出色，具有良好的泛化能力，并能够处理多种类型的图像，包括文档、网页等。Vision Language Models Explained 近年来，已有大量关于 VLMs 的综述文章 An Introduction to Vision-Language Modeling，Vision-Language Models for Vision Tasks: A Survey。因此，本博文将跳过基础介绍，直接聚焦于 2024 年的最新研究趋势。 2 多模态设计一般而言，视觉语言模型（VLMs）有两种主要的设计类型 lecture14-Vision_Language_Model.pdf：类型 A： ...

LLM

未读

用豆包大模型来编程是什么体验？Marscode食用指南！

发表于2024-11-222024-11-22 AI代码生成豆包

前言豆包Marscode是字节旗下的一款智能开发工具，基于「字节跳动豆包大模型」打造，拥有「云端 IDE」和「编程助手」两大产品形态，不仅支持代码补全、错误修复、AI刷题等能力，还能够帮助开发者在编程的各个阶段提供协助支持，对秋招春招的小伙伴来说, 算法机测是一个必不可少的环节, 有了Marscode, 贪玩的你, 再也不用担心刷leetcode时没有思路的时候, 在网上乱翻资料了。Marscode可以帮助我们节省下时间来摸鱼(学习)。 Marscode的编程助手支持超过100种编程语言，兼容VSCode和JetBrains代码编辑器，使得开发者可以在自己熟悉的开发环境中无缝使用Marscode的功能。此外，Marscode还具备代码解释能力，能够理解项目仓库，帮助用户准确解释代码从而快速上手开发。在修改或重构代码时，Marscode支持基于编辑行为预测下一个改动点，并给出推荐，协助完成编码过程。起步注册&登录首先需要访问Marscode官网进行注册和登录。值得一提的是，Marscode支持使用抖音或稀土掘金账号快捷登录，这一点对于习惯使用这些平台的用户来说非常方便。 ...

LLM

未读

干货分享精调视觉语言模型VLM的经验

发表于2024-11-172024-11-17 VLM 模型微调

作者：lym 原文：https://www.zhihu.com/question/588325646/answer/3422090041 >> 加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的reward model几乎没有开源的，需要的数据更多，超参也更多，除非是逻辑或代码场景，在文本场景中，DPO效果是 ...

DPO新作Your Language Model is Secretly a Q-Function解读，与OPENAI Q* 的联系？

LLM

未读

DPO新作Your Language Model is Secretly a Q-Function解读，与OPENAI Q* 的联系？

发表于2024-11-092024-11-17 LLM 大模型微调

作者：陈陈，TSAIL: 强化学习+生成模型原文：https://zhuanlan.zhihu.com/p/693746297 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术 20号下午两位THUNLP的同学（淦渠和立凡）分别给我发了这篇arxiv，询问和上次讨论时谈到的一个理论的联系。简单看了文章后发现几乎完全撞了车。好吧严格讲也不算撞，这篇文章的理论去年十月我大概想明白推导完，但实在想不清楚有啥合适的应用因而给放弃掉了。现在也只能感慨之余写个解读了。 12From r to Q∗: Your Language Model is Secretly a Q-Functionhttps://arxiv.org/pdf/2404.12358.pdf 为什么写这个解读：本文几乎是DPO的原班人马搞的，新来的Joey Hejna是X-QL（本文部分核心理论）一作。这篇文章并没有提出一个新的算法，或者是在一个新的任务上刷了SOTA，主要是对DPO算法给出了一个理论解释，统一了处理LLM强化学习任务的两个视角，即序列决策还是单步决策。用强化学习的语言就是说de ...

LLM

未读

DPO，RM，RLHF 傻傻分不清楚

发表于2024-11-092024-11-17 LLM 大模型微调

作者：曹宇，阿里巴巴集团 · 大模型原文：https://zhuanlan.zhihu.com/p/718913850 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术 DPO 的论文引用最近已经破千了（现在是1600+），成了斯坦福的Chelsea Finn组的机器人超猛PhD学生R.M. Rafailov的第一被引论文。又由于第二梯队的大模型频繁提及DPO的变种，DPO+RM的用法未来估计机器人界的思潮对于LLM的正向影响不会削弱。按照我平时使用的体验，我们可以将当前的主要头部三强划分为第一梯队，头部开源三强划分成为第二梯队，再加上我一直比较关心的应用侧玩家Apple: 模型对齐算法使用 Reward Model 多阶段对齐 Claude Sonnet 3.5 RL PPO 是未知 OpenAI GPT-4o RL PPO 是未知 Gemini Pro RL REINFORCE 是是 Deepseek-V2 RL GRPO 是是 Llama3.1 DPO+RM 是是 Qwen2 DPO+RM 是 ...

LLM

未读

基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究

发表于2024-11-092024-11-17 LLM 大模型推理 MLCEngine

作者：赖睿航，CMU CS Ph.D.（已授权）原文：https://zhuanlan.zhihu.com/p/903143931 >>加入青稞AI技术交流群，与青年研究员/开发者交流最新AI技术今年六月初，我们 MLC 团队发布了支持全平台部署的大模型推理引擎 MLCEngine。通过机器学习编译、全平台通用的推理 runtime 和统一的 OpenAI API 接口，MLCEngine 支持从云端服务器到本地设备的全平台大语言模型部署。引擎的推理性能长久以来以来都是我们开发 MLCEngine 过程中关注的一大重点。过去这两个多月里，MLC 社区一直在努力提升 MLCEngine 在云端 serving 场景下的性能。我们想通过这篇文章和小伙伴们分享这段时间我们取得的一些成果和经验。在这篇文章里我们会重点探讨低延迟高吞吐量 (low-latency high-throughput) 的 LLM 推理。在有非常多优秀的工作聚焦于提升 LLM 引擎总吞吐量的同时，大家能够注意到延迟这一指标对于 LLM 引擎的重要性正在日益增长，而延迟也是大家在使用各大 API ...

招聘

未读

浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生

发表于2024-11-062024-11-07 浙江大学申博

导师介绍魏颖博士，浙江大学“百人计划”研究员，博士生导师。曾于南洋理工大学“南洋”助理教授及香港城市大学助理教授。在ICML、NeurIPS、ICLR等机器学习顶级会议、SCI一区期刊上共发表论文60余篇。曾获机器学习顶级会议ICLR 2024年最佳论文奖提名和数据挖掘顶级会议ACM SIGKDD 2014年最佳论文奖提名。担任机器学习顶级期刊TMLR的执行编辑、机器学习顶级会议ICML、NeurIPS、ICLR的领域主席、人工智能顶级会议AAAI的高级程序委员等。详细信息参见个人主页：https://wei-ying.net/。研究方向基座模型（LLM）与迁移学习：聚焦如何基于迁移学习（指令微调、适配技术）提升基座模型在实际应用中的效率与性能，克服真实动态环境下的性能瓶颈。持续学习：研究如何在动态变化的环境中持续学习和适应，推动包括基座模型在内的机器学习模型进化。 AI在物质合成中的应用：研究如何利用AI技术辅助化学与材料领域的创新发现。你将在这里获得什么？直接参与前沿科研项目：你将有机会参与到前沿研究项目中，提升理论基础和应用技巧，快速积累科研经验，并在顶级期 ...

AIGC

未读

K-Sort Arena：探索高效竞技场算法，根据人类偏好快速评估视觉生成模型

发表于2024-11-042024-11-04 Dong Zhen 视觉生成模型

视觉生成模型的快速发展需要高效可靠的评估方法。Arena 平台收集用户对模型比较的投票，可以根据人类偏好对模型进行排名。然而，传统的 Arena 需要进行过多的投票才能收敛排名，并且容易受到投票中偏好噪声的影响。为此，来自自动化所和伯克利的研究团队提出K-Sort Arena，采用 K-wise 比较，允许 K 个模型参与自由混战，提供比成对比较更丰富的信息，并设计基于探索-利用的匹配算法和概率建模，从而实现更高效和更可靠的模型排名。论文地址：https://arxiv.org/abs/2408.14468 项目地址：https://huggingface.co/spaces/ksort/K-Sort-Arena K-Sort Arena已经历数个月的内测，期间收到来自Berkeley, NUS, CMU, Stanford, Princeton, 北大, Collov Labs, 美团等数十家机构的专业人员的技术反馈。目前，K-Sort Arena 已收集几千次高质量投票并有效地构建了全面的模型排行榜，已用于评估几十种最先进的视觉生成模型，包括文生图和文生视频模型。研究 ...

LLM

未读

OpenAI o1：AI新范式以及对未来的 10 个启示

发表于2024-10-272024-11-17 OpenAI OpenAI o1

翻译：青稞AI 原文：https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai 不， GPT 并没有消失。但从新的 OpenAI o1 模型系列中，我们可以清晰地看出——请允许我为此感到激动——一个全新的范式正在诞生：推理的新范式，扩展的新范式，人工智能的新范式。虽然 ChatGPT 和 GPT-4 仍然会陪伴我们，但它们不再是 OpenAI 的“宠儿”。我们正步入一个新的阶段，一个新的时代。公司未来的资源和精力将主要集中在探索、扩展和完善这个新范式上，这个时刻更像是 GPT-3 带来的震撼（“等等，人工智能居然能做到这些？”），而非 ChatGPT 的“全民狂欢时刻”（“人人都来参加派对！”）。我们需要很多答案来解释这一整体转变：推理人工智能对于生成人工智能来说意味着什么（它到底具有生成性吗）？用户将如何与能够思考的人工智能模型建立联系并进行互动？当让推理模型思考几个小时、几天甚至几周时，它们能做什么？推理模型现在如何根据计算来扩展性能？公司将如何在训练推理流程中分配计算？所有 ...

LLM

未读

探索多模态大模型的最佳技术路线

发表于2024-10-092024-10-09 多模态大模型 LLM

作者：yearn，微软亚洲研究院 · Research Intern 主页：https://yfzhang114.github.io/ 原文：https://zhuanlan.zhihu.com/p/731680062 视觉-语言模型（Vision-Language Models, VLMs）领域正迅速发展，但在数据、架构和训练方法等关键方面还未达成共识。本文旨在为构建VLM提供指南，概述当前的最先进方法，指出各自的优缺点，解决该领域的主要挑战，并为未被充分探索的研究领域提供有前途的研究方向。 1Abs：https://www.arxiv.org/pdf/2408.12637 主要贡献系统性综述：提供了对当前最先进VLM方法的全面概述，探讨了不同方法的优缺点，提出了未来的研究方向。实践指导：详细阐述了构建Idefics3-8B模型的实际步骤，这是一种强大的VLM，显著优于其前身Idefics2-8B。数据集贡献：创建了Docmatix数据集，用于提升文档理解能力。该数据集包含240倍于之前开放数据集的规模，共计2.4百万张图片和9.5百万对问答对，从1.3百万个PDF文档中 ...

LLM

未读

从O1模型聊聊低延迟LLM推理加速器的设计

发表于2024-10-082024-10-08 LLM LLM推理

作者：知返原文：https://zhuanlan.zhihu.com/p/764498716 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术在今年年初写的一篇文章里面，我曾经分析过当时大热的Groq LPU 加速器的LLM推理性能，现在看来里面分析的方法论稍微有些稚嫩，不过大体结论都还是对的。如果你还不了解Groq当时搞了什么大新闻，可以再回顾一下下面这张图。在LLAMA2 70B模型下，Groq LPU以接近200Token/s 的单用户推理性能冠绝群雄。注意，这是单用户的吞吐，而不是整个系统通过组大Batch打满算力带宽得到的吞吐。可以换算一下每token的延迟（TBT）可以打到5ms左右。作为对比，通常GPU推理实例能达到的TBT一般在15-50ms。 Groq LPU 单用户推理性能在文章的结尾我做了几个预测与分析，一方面是当时看来，低延迟推理的商业模式还没有没有跑通，低延迟推理意味着什么还是个大大的问号。二是显然LPU的分布式SRAM卡+确定性互联和调度的方案只能算是“青春版”解法，这个赛道上一定会有晶圆级大SRAM加速器玩 ...

LLM

未读

多模态大模型的预训练策略探究

发表于2024-10-082024-10-08 LLM 多模态啊大模型

作者：阿秋Rachel 原文：https://zhuanlan.zhihu.com/p/722324120 >>加入青稞AI技术交流群，与青年AI研究员/开发者交流最新AI技术多模态大模型预训练探究主要指的是在视觉指令微调前的训练阶段，让模型学会理解图像及其视觉概念，在多个模态上进行joint modeling的过程。本文主要内容来自下列文章，探索了视觉语言预训练阶段如何设计更有利于下游任务。 VILA: On Pre-training for Visual Language Models MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training NVLM: Open Frontier-Class Multimodal LLMs VILA 结论好的预训练阶段可以让模型具有多图推理能力、更强的in-context learning能力、更广泛的世界知识。预训练时冻结LLMs就可以实现不错的zero-shot能力，但是在in-context learning能力上会有所下降。 ...

LLM

未读

万字总结 LLM 推理加速方式

发表于2024-10-032024-10-03 LLM 模型推理

作者：梦想成真，阿里巴巴集团算法工程师原文：https://zhuanlan.zhihu.com/p/688736901 前言 LLM参数一般都是1.5B，3B，7B，13B甚至更大，远大于CV的主流模型。并且随着ChatGPT爆火，基本上现在的LLM都是围绕decoder-only的next token prediction形式，推理预测方式相对比较固定，本文是从一个初学者角度，介绍LLM 若干推理加速方式。总览总的来说，我的调研中，有如下几种方式可以提高LLM推理的速度量化模型结构改进 Dynamic batch 投机（Speculative）推理量化几乎在每一个LLM的公开repo中都能看到作者团队release了不同大小的量化模型，这是因为量化是一种非常有效的加速LLM推理，并且减少显存占用的方式。数值类型讲量化之前，有必要带大家重温一下数值类型。如果你觉得不重要，你完全可以跳过到下一个章节，你只需要记住LLM的训练和推理要尽量使用BF16，而不是FP16，HF16，FP32就行了。这里主要区分** FP32 、FP16 和BF16**。这些是L ...

LLM

未读

OpenAI o1能否支撑AGI的新Scaling？

发表于2024-10-022024-10-02 OenAI

作者：mackler，Computer Architect/Minecraft 原文：https://zhuanlan.zhihu.com/p/730982539 OpenAI o1的推出带来了一波新的算法热潮，OpenAI官方也强推所谓新的深度思考的Scaling。虽然听起来用LLM和RL来进行隐式COT（也就是“思考”）咋一眼看上去很有道理。但真正支撑Scaling还是需要深入思考里面的很多基本假设，和我过去的文章一样，包含很多个人观点极强的暴论，各位看官酌情食用。关于o1实现方式大家也已经猜测地八九不离十了，以下几个都可以参考参考 GitHub - hijkzzz/Awesome-LLM-Strawberry 收录了不少相关论文曹宇：OpenAI o1 self-play RL 技术路线推演张俊林：Reverse-o1:OpenAI o1原理逆向工程图解无论如何，给LLM纠错的机会，对于效果的提升都是可以预期的。LLM生成token的过程中，生成的序列越长，产生错误token的概率自然也会越高，后面模型为了自洽往往会用一百个谎言来掩盖第一个谎言，最后就彻底逻辑失控 ...

LLM

未读

万字干货！从零到一进行LLM pretrain的经验

发表于2024-09-242024-09-24 LLM pretrain

作者: ybq，nlp码农，中国科学院大学信号与信息处理硕士原文: https://zhuanlan.zhihu.com/p/718354385 这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多，不同的地方可能在于，我并不会去分析 pretrain 阶段的核心技术，而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些，主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我，文中有一些内容的具体做法不会展开细说，请大家见谅。作为替代，我会推荐一些比较好的开源做法。背景篇时至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。无论是个人还是大厂，都很难训出同 size 下更优秀的模型，大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么，在这个时代大背景下，自研 pretrain 模型的意义又有哪些呢？正经答案各公司仅仅是开源了模型参数，但并没有开源训练框架、训练数据等更核心的内容，其实本质上还是闭源。在这种情况下，每一个 ...

加群

未读

加入青稞AI技术交流群，与青年AI研究与员/开发者交流最新AI技术

发表于2024-09-232025-03-22 LLM AIGC

三维视觉

未读

Manydepth2 | 基于运动感知自监督单目深度与位姿估计

发表于2024-09-222024-09-22 三维视觉深度估计位姿估计

尽管自监督单目深度估计与位姿估计技术已经取得了长足的进展，但在处理包含动态物体的复杂场景时，仍面临诸多挑战。这主要是由于这些方法大多建立在静态世界假设的基础上，难以准确捕捉并处理动态变化。为了突破这一瓶颈，我们推出了Manydepth2，一个创新的基于运动引导代价体积的深度网络。 Manydepth2将光流信息与初步的单目深度估计结果相结合，构建出一个静态参考帧，以此作为处理动态场景的基础。通过与目标帧的协同作用，我们构建了一个运动引导的代价体积，有效地捕捉了场景中物体的运动信息。此外，为了增强网络的性能，我们还引入了一种先进的基于注意力的深度网络架构，该架构能够高效地整合来自不同分辨率特征图的关键信息，进一步提升了深度估计与位姿估计的准确性和鲁棒性。实验数据证明，在KITTI-2015和Cityscapes等权威数据集上，与计算成本相近的其他方法相比，Manydepth2在自监督单目深度估计与位姿估计任务中均展现出了卓越的性能，实现了显著的误差降低和精度提升。其中的主要贡献包括：静态参考帧生成：我们创新性地结合了估计的光流信息和先前的深度信息，生成了一个新的静态参考帧。这一 ...

LLM

未读

OpenAI o1的合成数据与推理搜索是怎么实现的

发表于2024-09-202024-09-20 OpenAI OpenAI o1

背景简介首先推荐阅读一下拾象的《LLM 的范式转移：RL 带来新的 Scaling Law》，很好地科普了一下基于 RL 的新 LLM scaling 范式。之前我们常说的 scaling law 一般指的是 pre-train 阶段通过算力、数据、模型参数量的提升来不断提升模型智能水平。不过最近一年来看，碰到了不少瓶颈：算力上我们受限于超大规模训练集群的各种工程挑战，例如 LLaMA 3 的 paper 里就提到他们的万卡集群每两小时就会有坏卡问题出现，所以进一步拓展到 10 万卡规模的集群目前看起来难度很大。数据方面，文本数据达到 10-20T token 量级后，需要进一步在数量级上提升目前也比较困难了。尤其是能带来“增量收益”的复杂推理方面的数据更加稀缺。所以大家普遍有感觉，自从 GPT-4 发布后，基本没有出现让人惊艳的模型能力大幅提升的“魔法时刻”了。不过 Claude-3.5 和 OpenAI o1 还是逐渐展现出一个新的发展方向，也就是拾象所谓的 RL 带来的新范式。RL 这个定义其实很广泛，在 OpenAI o1 里是怎么体现的呢？可以看他们的这张图 ...

LLM

未读

现代LLM基本技术整理

发表于2024-09-182024-09-18 LLM

作者：hadiii，北京大学电子信息硕士在读原文：https://zhuanlan.zhihu.com/p/713794852 0 开始之前本文从Llama 3报告出发，基本整理一些现代LLM的技术。"基本"，是说对一些具体细节不会过于详尽，而是希望得到一篇相对全面，包括预训练，后训练，推理，又能介绍清楚一些具体技术，例如RM，DPO，KV Cache，GQA，PagedAttention，Data Parallelism等等的索引向文章。由于东西比较多，且无法详尽细节，所以推荐大家二次整理为自己的笔记。本文的主要参考是Llama Team的The Llama 3 Herd of Models报告原文，以及沐神回归B站新出的论文精读系列。同时也包括一些知乎的优秀文章。 1 Intro Illustration of the overall architecture and training of Llama 3 Overview of the Llama 3 Herd of models. 1.1 现代基础模型训练的主要阶段（a）预训练阶段（pre-train ...

LLM

未读

万字长文推演OpenAI o1 self-play RL 技术路线

发表于2024-09-182025-03-22 OpenAI self-play RL

招聘

未读

秋招上岸！AIGC/LLM高薪岗位推荐

发表于2024-09-182024-09-18 LLM AIGC

岗位由Entire Lab提供，Entire Lab是一个聚焦AI方向的求职社区，对接一线大厂和创业公司，提供内推与猎头服务。想要了解岗位更多信息以及投递简历的朋友，可以在文章的底部扫描二维码添加小助手咨询～算法研究类岗位多模态算法工程师公司：AIGC创业公司 - 2亿参数端侧大模型 - 对话助手 - 清华NLP LAB 工作地点：北京海淀薪资：面议职位描述： 1. 负责多模态大模型预训练、SFT、对齐等各阶段的模型开发与训练，涉及模型高效结构、多模态 scaling law、数据配比、性能优化等探索; 2. 参与多模态大模型的训练加速和高效部署，包括但不限于于系统调优、硬件适配等工作 3. 参与前沿多模态算法与应用的调研和研究创新工作，并将多模态 AI 能力应用在产品中。任职要求： 1. 硕士及以上学历，三年以上算法开发经验，一年以上大模型相关经验； 2. 对多模态大模型有深入理解和实践经验优先; 有多机多卡、大规模集群训练经验者优先；有多模态视频理解经验者优先； 3. 熟悉多模态大模基本原理，至少熟悉一种深度学习编程框架，如PyTorch等，有模型开发、部署、微 ...

LLM

未读

如何正确复现 Instruct GPT / RLHF?

发表于2024-09-092024-09-13 LLM RLHF Instruct GPT

作者：初七123334 声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://www.zhihu.com/people/chu-qi-6-41 前言最近几个月随着 OpenAI Instruct GPT/ChatGPT/Anthropic Claude/文心一言等大语言模型的火爆，GitHub上开源了不少 ChatGPT复现方案。总体来说这些复现库分为两类：基于 ChatGPT API 接口抓取指令数据基于开源大模型权重做指令微调，比如基于 LLaMA 微调的 Alpaca，基于 Bloomz 微调的 BELLE。这类微调模型因为直接“蒸馏”ChatGPT的"标准答案"，所以效果通常还不错。实现完整的 SFT/RLHF 流程，以供用户自己从头开发自己的模型。这些库主要有 PaLM-rlhf-pytorch，ColossalAI-Chat，DeepSpeed-Chat，TRLX, Huggingface TRL。但是在试用过这些框架后，笔者发现这些实现中有各种各样的bug导致训练不稳定无法收敛。本文基于对大量RLHF相关论文和开源库的调研，旨在讨论如何正 ...

LLM

未读

更适合 flash attenion 体质的长上下文训练方案

发表于2024-09-092024-09-09 LLM 大模型训练

作者：朱小霖，SDE @Tencent WeChat AI, focusing on MLSys 声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://zhuanlan.zhihu.com/p/718486708 年初的时候，我尝试去结合了 ring attention 和 flash attention，并设计了 zigzag ring attention：理论上来看，zigzag ring attention 基本做到了线性扩展 context length 的最优解，即：每张卡上的显存占用不随 context length 扩展；每张卡基本平分计算与通信；通信可以和计算 overlap。然而，当我去把 zigzag ring attention 和 flash attention 结合的时候，遇到了如下的现实问题：精度损失因为 ring attention 需要对在 flash attention 的输出进行迭代计算，我们要把 flash attention 输出的 bf16 结果相加。而 bf16 作为一种有效位数极少的数据格式，随便就 ...

LLM

未读

行云集成电路创始人季宇：谈谈 AI 的泡沫

发表于2024-09-052024-09-05 AI

作者：季宇(mackler@知乎)，行云集成电路的创始人声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://zhuanlan.zhihu.com/p/718191220 最近关于AI泡沫的声音此起彼伏，NVIDIA的股价也跟着此起彼伏，看好和唱衰的都彼此站在长期预期和营收现状的角度争论不休好不热闹。大家说的都有道理，行业周期肯定会有，大模型也确实带来了巨大的想象空间。但有一个假设其实是问题的核心，但双方似乎都默认就应该是这样，那就是支撑大模型的计算机系统的成本就应该这么贵，无非是这么贵的成本到底还有没有大规模商业化机会的争论。当然这种问题本身也是目前争议最大的话题，和以往一样，很多人都会讲的观点就也不再赘述，我的观点往往非常激进，也希望给大家带来不一样的视角，各位看官酌情食用。 AI大型机才是核心问题 AI大型机是我造的词，能更贴切地描述今天大家所使用的价格高昂的GPU服务器对行业产生的冲击。今天的AI产业以及GPU服务器和历史上的IBM大型机做过类比，IBM大型机可以小规模商业化，但无法支撑PC产业、互联网产业这种级别的繁荣。今天AI泡沫的争论，本质上是类 ...

LLM

未读

大白话说什么是“MLLM”多模态大语言模型

发表于2024-09-042024-09-04 多模态大模型 LLM

作者：阿桂，13年软件行业老登，数字孪生，PMP，CSPO 声明：本文已经授权，版权归原作者原文：https://zhuanlan.zhihu.com/p/717687637 1. 什么是MLLM多模态大语言模型 1.1 先来思考一个问题如果上传了一张图片，并向大模型提问。“图片中绿色框框中的人是谁？” 大模型回答：“那是波多野吉衣老师” 请问，大模型是怎么做到的？我们用常规的思路来想一下，难道是：第一步：先对图片进行目标检测，先把绿色框的内容剪切出来；第二步：在剪切后的图片中，把人脸标记出来，并读取其landmark转为向量；第三步：在人脸向量库中进行比对，以便于确定其身份。整套流程下来，需要用到目标检测，人脸识别，向量存储与比对。最重要的是，还得让人脸识别模型“阅片无数”不然他是不会认识波多野结衣老师的。但其实，多模态大模型并不是这样处理的。所谓的多模态其实可以理解就是多种数据类型，包括但不限于图片，视频，音频等。它的工作模式并不是将原来的CV模型和NLP模型，通过MultiStage的方式简单粗暴的组合在一起。而是一个端到端的思维。 1.2 为什么会有多模态 ...

LLM

未读

长上下文 LLM 会导致 RAG 的消亡吗？

发表于2024-09-012024-09-01 LLM RAG

摘要本文讨论了尽管大型语言模型（LLM）在处理大量上下文窗口方面取得了进展，但检索增强生成（RAG）与长上下文LLM的持续相关性和潜在整合。截至2024年7月，语言模型领域已经经历了显著的发展，大型语言模型（LLM）现在能够处理超过128K标记的上下文窗口。这一进展引发了学术界关于检索增强生成（RAG）系统未来的讨论。一些研究人员认为，像Claude 2、Gemini 1.5和Llama-3这样的长上下文LLM的能力可能会使RAG变得过时。然而，另一些研究人员则认为RAG仍然具有价值，尤其是在利基领域和成本效率方面。文章回顾了直观比较和学术研究，指出尽管长上下文LLM在某些基准测试中优于RAG，但在特定领域的准确性和成本效益方面，RAG增强型模型表现更为出色。提出了一种结合RAG与长上下文LLM的混合方法，作为利用两者优势的潜在解决方案。结论建议，RAG和长上下文LLM的协同组合可能是AI应用中最有效的前进路径。观点 RAG（Retrieval-Augmented Generation，检索增强生成）并未过时；它在专业领域知识和成本敏感的应用中仍然具有优势。长上下文LLM（L ...

LLM

未读

如何利用多模态大模型进行视觉自回归图像生成？

发表于2024-09-012024-09-01 LLM MLLM AIGC 图像生成

作者：阿秋Rachel，构建domain big picture 原文：https://zhuanlan.zhihu.com/p/716112475 目前利用多模态大模型进行图像生成主要有以下两种形式： LLM作为condtioner 利用MLLM依据用户输入的text prompt来生成条件信息，条件信息被注入到下游生成模型进行更精细化的生成控制。这种形式通常需要外接一个额外专门的多模态生成模型，例如Stable Diffusion、DALLE-3、GLIGEN等。条件信息的形式通常是文本，通过利用MLLM对用户输入的text prompt进行润色，润色后输出的新的text prompt作为diffusion的文本条件，来生成更加复杂精美的图片。或者通过利用MLLM依据用户输入的text prompt生成layout信息，其中layout以文本形式指明物体类别和以bounding box形式指明物体位置。 LLM作为generator 利用LLM不断生成image token完成生成的过程，根据近年的发展，我将其简单分为下面三类。 visual autoregress ...

LLM

未读

如何估计LLM推理和训练所需的GPU内存？

发表于2024-08-252025-03-22 LLM GPU 孙鹏飞

来源：孙鹏飞，南京大学 · 计算机科学与技术原文：https://zhuanlan.zhihu.com/p/716317173 在实际工作中，经常有人问，7B、14B或70B的模型需要多大的显存才能推理？如果微调他们又需要多大的显存呢？为了回答这个问题整理一份训练或推理需要显存的计算方式。如果大家对具体细节不感兴趣，可以直接参考经验法则评估推理或训练所需要的资源。更简单的方式可以通过这个工具或者huggface官网计算推理/训练需要的显存工具在线评估。数据精度开始介绍之前，先说一个重要的概念——数据精度。数据精度指的是信息表示的精细程度，在计算机中是由数据类型和其位数决定的。如果想要计算显存，从“原子”层面来看，就需要知道我们的使用数据的精度，因为精度代表了数据存储的方式，决定了一个数据占多少bit。目前，精度主要有以下几种： 4 Bytes: FP32 / float32 / 32-bit 2 Bytes: FP16 / float16 / bfloat16 / 16-bit 1 Byte: int8 / 8-bit 0.5 Bytes: int4 / 4-bit ...

LLM

未读

OpenAI 绝密项目「草莓」技术详解

发表于2024-08-202024-08-20 OpenAI Q*

作者：绝密伏击，奇虎360 算法资深专家原文：https://zhuanlan.zhihu.com/p/712441972 OpenAI 的神秘项目“草莓”是什么？近期，继去年备受瞩目的神秘项目「Q*」之后，OpenAI 再次传来新动向。据路透社报道，OpenAI 内部正秘密研发一个代号为「草莓（Strawberry）」的新人工智能模型项目。此前，该模型的细节从未被外界知晓，而 OpenAI 正致力于证明这一新型模型能够展现出高级推理能力。路透社在五月份获取了一份 OpenAI 的内部文件副本，其中详细阐述了团队对「草莓」的研究计划。然而，即便是 OpenAI 内部员工，对于「草莓」的工作原理也知之甚少，其保密程度之高可见一斑。值得注意的是，还记得去年报道的 Q* 吗？当时有媒体报道称，OpenAI CEO Sam Altman 未及时向董事会披露 Q* 的进展，这一事件被视为引发 OpenAI “内部纷争”的重要导火索。更令人担忧的是，OpenAI内部人士曾担忧 Q* 的重大突破可能威胁到全人类。而据路透社报道，Q* 实则是「草莓」项目的前身，在去年的报道中 ...

LLM

未读

以DeepSeek-VL为例，详解视觉语言模型原理及代码

发表于2024-08-172024-08-17 LLM VLM

来源：炼钢AI@公众号最近开始看看视觉语言模型（VLM）相关的东西了，之前没特别仔细看过代码。翻了几篇比较知名的开源VLM技术报告，感觉DeepSeek-VL算是写的比较好的，因此本文就以DeepSeek-VL为例，结合代码写一写VLM的细节。VLM和LLM比较共性的东西比如Self Attention之类的本文就不过多介绍了，重点讲一讲VLM独有的内容。 DeepSeek-VL github链接 1https://github.com/deepseek-ai/DeepSeek-VL/tree/main 原理模型训练 VLM通常分为3个部分：视觉编码编码器、视觉适配器和LLM。视觉编码器用于将图像转换为向量表示，在DeepSeek-VL中，图像被视觉编码器转换为576个向量（图像的token embedding）。VLM的视觉编码器直接使其他模型预训练好的参数，普遍使用的视觉编码器结构为ViT（Vision Transformer），但可能是不同方式训练出来的，例如DeepSeek-VL使用的是Siglip和SAM训练出来的ViT，而Qwen-VL使用的是OpenCLIP的 ...

LLM

未读

GPT-5：你需要知道的一切

发表于2024-08-162024-08-16 LLM GPT-5

这篇超长的文章（部分是评论，部分是探索）是关于 GPT-5 的。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能（如推理和代理）。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。它讲述了所有这些事情——这就是为什么它有 14,000 个字那么长。你现在想知道，既然你已经听说了有关 GPT-5 的泄密和谣言，为什么还要花一个小时阅读这篇迷你书大小的文章。答案是：如果没有背景，零散的信息是无用的；只有当你把所有信息都放在一个地方时，大局才会清晰。就是这样。在我们开始之前，我们先简单介绍一下 OpenAI 的成功历程，以及为什么人们对 GPT-5 的巨大期待会给他们带来压力。四年前，也就是 2020 年，GPT-3震惊了科技界。谷歌、Meta 和微软等公司纷纷挑战 OpenAI 的领先地位。他们确实这么做了（例如LaMDA、OPT、MT-NLG），但仅仅几年后。到 2023 年初，在 ChatGPT 取得成功（引起 OpenAI 的广泛关注）之后，他们准备发布GPT-4 ...

AIGC

未读

【8分钟极减专栏：从分布到生成（三）】GAN可以不是对抗？

发表于2024-07-072024-07-09 南开大学李翔减论系列专栏《从分布到生成》专题

大家好，这里是减论8分钟极减专栏系列，《从分布到生成》专题第三集。本集信息量极大，观点视角极度新颖炸裂，请大家屏住呼吸，别眨眼，且听我慢慢道来。在“从分布到生成（一、二）”中，我们已经带领大家极减地理解了什么是图像的分布P(X)，以及如何使用映射来采样生成复杂分布的样本。还不清楚的小伙伴可以移步一、二系列内容进行学习。图一：GAN同时解决2个目标本次专题第三集，我们来尝试回答GAN是如何同时解决那两个采样难题的（图一红框所示），即： • 如何找到图像分布P(X)？ • 如何通过程序进行一次性采样，采样目标服从P(X)分布？此前我们提到过，图像分布P(X)非常复杂，精确地求出每个P(X=…) = …的概率数值通常是不现实的，另外很精确其实也没有太大的必要。那么我们把思路做一下简化：假设我们已经知道了P(X)，并且是用神经网络D(X,w’)来逼近表示的，其中w’是该神经网络固定的参数。我们每输入一个张量实例X，都能通过D(X,w’)得到其准确的概率数值：P(X) = D(X,w’)，如图二所示：图二：用一个已知的神经网络D完美逼近表示真实图像分布P 那么，当我们 ...

AIGC

未读

计算机如何采样出一张服从特定分布的图像（VAE篇）？

发表于2024-07-042024-07-05 南开大学李翔减论系列专栏《从分布到生成》专题

大家好，这里是减论系列专栏，《从分布到生成》专题第二集。图一：分布描述与采样的类比上回说到，如图一所示，简单的分布例如伯努利分布、均匀分布、高斯分布都可以借助程序语言中的random(), normal()等基础的伪随机函数进行计算机采样模拟。然而，服从特定的分布P(X)的图像（例如0-9黑白数字图像）却似乎很难借助计算机的某个函数采样实现，这个难点体现在2个方面：我们很难知道具体的图像分布P(X)；即使我们知道了图像分布P(X)精确值，如何通过程序进行一次性采样并能服从P(X)也不清楚。为了解决从某个特定分布P(X)进行图像采样的任务（即图像生成任务），业界进行了长期的努力并衍生出3大主要流派：VAE（变分自编码器）、GAN（对抗生成网络）和Diffusion（扩散模型）。在图二中，我们将这三个流派与上述两个难点进行关联，看看各自都是从哪个难点入手进行解决的。图二：VAE, GAN与Diffusion解决目标及本质对比接下来的事情就比较有趣了。从本质上来看： VAE尝试重点解决第二个难点（2），通过程序进行一次性采样，采样目标服从P(X)分布，具体是 ...

5分钟极减阅读CVPR24 best paper《Generative Image Dynamics》

AIGC

未读

5分钟极减阅读CVPR24 best paper《Generative Image Dynamics》

发表于2024-06-252024-06-25 减论 5分钟极减阅读南开大学李翔

减论 (ReductTheory)：传递人工智能算法科普教育的减约理解，提升信息效率及认知维度。大家好，这里是减论为您带来的5分钟极减阅读CVPR24 best paper《Generative Image Dynamics》，生成式图像动态。 12Paper：Generative Image DynamicsarXiv：https://arxiv.org/abs/2309.07906 CVPR今年2篇best paper都给了图像生成模型，可见社区对生产式模型的关注度还是空前高涨的。这篇文章《Generative Image Dynamics》GID重点解决的是某种特定类型的动态视频的生成：图像全局的自然摇曳，例如下图中由风引起的树叶、花朵、灯笼、烛火的摆动，甚至是猫咪的呼吸导致的腹部起伏。原文本质上是对《Image-Space Modal Bases for Plausible Manipulation of Objects in Video》[0]这篇2015年TOG的深度学习化改造。原文GID和这篇TOG文章从效果上做了几乎一致的事情，形成自然摇曳的目标（或图像），用 ...

AIGC

未读

5分钟极减阅读kaiming团队无向量量化的自回归图像生成模型

发表于2024-06-232024-06-25 减论 5分钟极减阅读南开大学李翔

减论 (ReductTheory)：传递人工智能算法科普教育的减约理解，提升信息效率及认知维度。大家好，这里是减论为您带来的5分钟极减阅读《Autoregressive Image Generation without Vector Quantization》，即无向量量化的自回归图像生成模型 12Paper：Autoregressive Image Generation without Vector Quantization ArXiv：https://arxiv.org/abs/2406.11838 众所周知，kaiming出品，必属精品。今天，让我们花5分钟时间来领略一下kaiming团队在图像自回归生成领域的一大力作：MAR + Diffusion Loss。一作是li tianhong博士。这篇工作的故事线是希望移除自回归式的图像生成模型(Autoregressive Image Generation，AIG)对向量量化（vector quantization，VQ)的依赖，也就是人们常说的codebook，有限向量码表。 AIG为什么会对codebook有所 ...

Agent

未读

吴恩达：从 Agent 到 Agentic，超越基础模型的下一代 AI

发表于2024-06-212024-06-23 非AI@公众号

Agentic AI：超越基础模型的下一代 AI — 来自吴恩达的洞察 “与其争论哪些工作才算是真正的 Agent，不如承认系统可以具有不同程度的 Agentic 特性。” —— 吴恩达 2024年 Snowflake 峰会开发者日上，人工智能领域的领军人物吴恩达 (Andrew Ng) 发表了题为“AI 代理工作流及其推动 AI 进展的潜力 (How AlAgentic workflows could drive more Al progress than even the next generation of foundation models)”的演讲，为我们揭开了 Agentic AI 的神秘面纱，并指出这可能是比下一代基础模型更具潜力的 AI 发展方向。 Agentic AI ：从 Agent 到 Agentic，开启 AI 新纪元近年来，大型语言模型 (LLM) 如 GPT-3、GPT-4 等的出现，为人工智能领域带来了前所未有的突破。然而，传统的 LLM 交互方式更像是一种“非代理型工作流程 (Non-agentic workflow (zero-shot))”， ...

招聘

未读

浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生

发表于2024-06-132024-11-04 浙江大学莫纳什大学 Bohan Zhuang

LLM

未读

张俊林：关于Scaling Law、半合成数据、MOE及长文本的看法及未来

发表于2024-05-312024-05-31 张俊林合成数据 Scaling Law MOE Long Context

作者：张俊林，新浪微博新技术研发负责人声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://zhuanlan.zhihu.com/p/700622253 以下内容是5月15日甲子光年圆桌论坛讨论内容，涉及Scaling Law、合成数据与“半合成数据”、与Transformer不同的新模型结构、MOE及Long Context等问题。一、是否相信Scaling Law？王艺：围绕Scaling Law有很多的争议，有些人是坚定的信仰者，觉得只要堆数据、堆算力就能带领我们达到AGI；但是也有人认为你无限堆数据和算力并不能无限提升模型的性能，它其实会慢慢趋向于一个固定的值。那你是Scaling Law的坚定信仰者吗？张俊林：Scaling Law其实是个经验公式，最初是OpenAI在2020年提出来的，现在大家遵循的应该是DeepMind在22年提出的Chinchilla Scaling Laws（Chinchilla Scaling Laws：为了使模型达到最佳性能，模型参数量应与训练集的大小成等比例扩张。），尽管它被称为Law，但它是通过大量的实验来得出 ...

LLM

未读

视觉语言融合新范式MemVP：基于记忆空间的多模态大模型高效微调方法

发表于2024-05-222024-05-22 LLM 华为唐业辉

作者：唐业辉，华为 · 算法研究员声明：本文已经授权，版权归原作者！原文：https://zhuanlan.zhihu.com/p/697627446 传统多模态模型将视觉特征和输入文本拼接起来，作为大语言模型的输入。这种方式显著增加了语言模型的输入长度，大幅拖慢了语言模型的推理速度。大语言模型中的前馈神经模块（FFN）作为记忆单元来存储学到的知识，我们提出了一种视觉模态和语言模态融合的新范式，将视觉特征直接注入到FFN的参数中，基于记忆空间来实现多模态大模型的高效微调（MemVP）。相比LoRA、VL-Adapter等现有方法，训练&推理加速2倍，在下游任务依然可以取得更高精度。 123paper：Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning arxiv：https://arxiv.org/pdf/2405.05615 code：https://github.com/JieShibo/MemVP ` # 引言随着视觉模型和大语言模型的发展，视觉-语言模型的 ...

LLM

未读

LLaMA 3/2/1模型结构总览

发表于2024-05-092024-05-09 LLM LLaMA 孟繁续

作者：孟繁续，北京大学博士生，研究方向 LLM（大型语言模型）和模型压缩主页：fxmeng.github.io 声明：原文已经授权，版权归原作者！原文：https://zhuanlan.zhihu.com/p/636784644 LLaMA-3又出来了，综合表现非常惊艳，我在实际测试中能力也比LLaMA-2-7B，Mistral-7B和Gemma-7B效果好。模型还是直接复用之前的代码，不过最小的8B模型也用上了GQA了，实测速度挺快。手头的llama-2可以丢了，可以拥抱llama-3了。 llama2 出来了，并且开源可商用，这下开源社区又要变天了。快速看一下官网以及paper，看看llamav2相比v1有什么更新吧：预训练语料从1->2 Trillion tokens context window 长度从2048->4096 收集了100k人类标注数据进行SFT 收集了1M人类偏好数据进行RLHF 在reasoning, coding, proficiency, and knowledge tests上表现超越MPT和Falcon 和falcon一样，使 ...

LLM

未读

阿里出品！3B多模态图表理解大模型TinyChart达到新SOTA

发表于2024-05-082024-05-09 LLM MLLM Anwen Hu 阿里巴巴

作者：Anwen Hu，人大博士毕业生，阿里巴巴通义实验室高级算法工程师声明：原文已经授权，版权归原作者！原文：https://zhuanlan.zhihu.com/p/696540858 作为一种重要的信息来源，图表（Chart）能够直观地展示数据关系，被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增，自动化图表理解受到广泛关注，近期诸如GPT-4V、QwenVL-Max和Gemini-Ultra等通用闭源多模态大模型都展现出一定的图表理解能力，开源模型Chartllama [2]、ChartAst [3]等也在图表问题回答、图表总结和图表转换等任务上取得强大的性能。然而，目前开源的图表理解模型有以下三个局限：模型参数规模庞大，难以部署到应用中。例如Chartllama包含13B参数，无法直接部署到单张小于26 GB显存的消费级显卡上 [4]。模型容易出现数值错误，尤其是回答涉及数值计算的问题时 [3]。模型无法高效处理高清图片，而许多关键信息（比如OCR文本）往往需要在较高分辨率下才清晰可见。并且，考虑到标准视觉Transformer会 ...

招聘

未读

TAMU计算机系招收全额奖学金博士生

发表于2024-05-072024-05-07 TAMU 涂正中

方向：多模态/计算机视觉/生成模型/自动驾驶/可信机器学习/高效机器学习招收职位：博士、实习生联系教授： Dr. Zhengzhong Tu (vztu.github.io) 🏫 学校介绍德克萨斯A&M大学（Texas A&M University,TAMU）是一所世界顶尖的公立研究型大学，建立于1876年，世界百强名校，得州第一所公立大学。TAMU是北美顶尖研究型大学联盟美国大学协会（AAU）成员，全美第六大公立高校。该校与得克萨斯大学奥斯汀分校（本人母校）并称德州两大旗舰学府。2024 U.S. News美国最佳大学排名47名（比去年前进20名！）。作为一所传统理工科强校，TAMU在工程领域享有盛誉，并在2024 U.S. NEWS最佳工程学院排名中位列前十。TAMU计算机科学与工程系在国际学术界和工业界受到广泛认可，在CSRankings排名（2014-2024）中位列全美第32位，在2024 U.S. NEWS最佳计算机科学排名中位列第45位、计算机工程位列第20位。迄今为止，学校共有诺贝尔奖获得者9位、国家科学勋章获得者3位、普利策奖获得者1位、 ...

LLM

未读

张俊林：聊聊对LLAMA-3、大模型开源与闭源以及合成数据的看法

发表于2024-04-212024-05-19 LLM LLAMA-3 张俊林合成数据

作者：张俊林，新浪微博新技术研发负责人声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://www.zhihu.com/question/653373334/answer/3471466524 LLAMA-3的发布是大模型开源届的大事，蹭下热度，在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。一.LLAMA-3的基本情况模型结构与LLAMA-2相比没有大的变动，主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K，以增加编码效率；另外一点是引入了Grouped Query Attention (GQA)，这可以减少推理过程中的KV缓存大小，增加推理效率；还有一点是输入上下文长度从4K拓展到了8K，这个长度相比竞品来说仍然有点短。最重要的改变是训练数据量的极大扩充，从LLAMA-2的2T Tokens，扩展了大约8倍到了15T Tokens，其中代码数据扩充了4倍，这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15 T token数据那是相当之大了，传闻中GPT 4是用了13T的Token数据。 LLA ...

招聘

未读

西湖大学助理教授王欢招收PhD/RA/Visiting Students

发表于2024-04-122024-04-14 西湖大学王欢

# 自我介绍大家好！我叫王欢，将于2024年夏季加入西湖大学任助理教授（Tenure-Track Assistant Professor）, ENCODE (Efficient Neural Computing and Design) Lab PI。此前我在浙大读完本科和硕士，在美国东北大学读完博士。在Google / Snap / MERL / Alibaba等研究机构实习。我的研究方向是Efficient AI、Computer Vision，更多信息欢迎参考我的个人主页。 https://huanwang.tech/ 现招收 PhD students (2025 Fall) 和 RA、Visiting Students（常年招收）。学校简介西湖大学是一所社会力量举办、国家重点支持的新型高等学校，前身为浙江西湖高等研究院，于2018 年正式获教育部批准设立。西湖的定位是成为小而精的研究型大学，目前有4个学院（理学院，工学院，生命科学学院，医学院）。工学院下有6个专业，我所在的是人工智能和数据科学（Artificial Intelligence and Data Scien ...

AIGC

未读

张俊林：技术神秘化的去魅，Sora关键技术逆向工程图解

发表于2024-03-212024-11-04 张俊林 Sora 视频生成

LLM

未读

阿里出品！7B最强多模态文档理解大模型mPLUG-DocOwl 1.5

发表于2024-03-212024-03-21 MLLM 文档处理 Anwen Hu

作者：Anwen Hu，人大博士毕业生，阿里巴巴通义实验室高级算法工程师原文链接：https://zhuanlan.zhihu.com/p/687993277 多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解，其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max, Gemini, Cloude3, GPT4V都具备很强的文档图片理解能力，然而开源模型在这个方向上的进展缓慢，距离这些闭源大模型具有很大差距（例如DocVQA上开源7B SOTA 66.5，而Gemini Pro 1.5为86.5）。 mPLUG-DocOwl 1.5 是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作，在10个文档理解benchmark上达到最优效果，5个数据集上提升超过10个点，部分数据集上超过智谱17.3B的CogAgent，在DocVQA上达到82.2的效果。 123paper：mPLUG-DocOwl 1.5: Unified Structure Learning f ...

LLM

未读

聊一聊Transformer中的FFN

发表于2024-03-112024-05-31 Transformer 莫纳什大学潘梓正

作者：潘梓正，莫纳什大学博士生主页：zizhengpan.github.io 原文链接：https://zhuanlan.zhihu.com/p/685943779 最近看到有些问题[1]说为什么Transformer中的FFN一直没有大的改动。21年刚入学做ViT的时候就想这个问题，现在读博生涯也快结束了，刚好看到这个问题，打算稍微写写, 也算是对这个地方做一个小总结吧。 1. Transformer与FFN Transformer的基本单位就是一层block这里，一个block包含 MSA + FFN，目前公认的说法是， • Attention 作为token-mixer做spatial interaction。 • FFN （又称MLP）在后面作为channel-mixer进一步增强representation。从2017至今，过去绝大部分Transformer优化，尤其是针对NLP tasks的Efficient Transformer都是在Attention上的，因为文本有显著的long sequence问题。安利一个很好的总结Efficient Transforme ...

LLM

未读

生成式 AI 的下一站，应该有趣还是有用？

发表于2024-02-042024-03-12 AI Agent 李博杰

作者：李博杰， Logenic AI 联合创始人、中科大与MSRA联培计算机博士、华为天才少年个人主页：https://01.me/ 原文链接：https://zhuanlan.zhihu.com/p/681283469 （本文是 2024 年 1 月 6 日笔者在知乎首届 AI 先行者沙龙上的演讲实录）非常荣幸能够认识大家，非常荣幸能够来知乎 AI 的先行者沙龙来做分享，我是李博杰，Logenic AI 联合创始人。我们知道目前 AI Agent 非常火，比如说参加路演 70 多个项目，一半多都是跟 AI Agents 相关的项目， AI Agents 的未来会是什么样子呢？它未来应该是更有趣还是更有用呢？我们知道 AI 的发展目前一直有两个方向，一个是有趣的 AI，一个是更像人的 AI，另外一个方向就是更有用的 AI，也就是 AI 应该更像人还是更像工具呢？其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 他就说 AI 应该是一个工具，它不应该是一个生命，但是我们现在所做的事正好相反，我们现在是让 AI 其实更像人，其实很多科幻电影里的 AI ...

招聘

未读

阿里巴巴通义实验室自然语言智能团队招聘大语言模型算法实习生

发表于2024-01-192024-05-31 LLM 阿里巴巴通义实验室自然语言智能团队算法实习生

阿里巴巴通义实验室自然语言智能团队介绍阿里巴巴通义实验室，自然语言智能团队主要负责通义系列大模型研究与产品落地。其中我们智能对话与服务技术团队，以大模型研究和应用为中心，以AI智能体为核心交互形态，推进大模型的大规模商业化应用，主要技术包括：（1）AI Agents （2）个性化大模型（3）多模态等过去三年发表40+篇国际顶会论文，包括ICML、EMNLP、ACL、CVPR等各领域顶会；主要技术研究方向包括： 1、通义星尘-个性化大模型，类CharacterAI角色扮演应用，打造更好的AI情感陪伴智能体应用； 2、ModelScope-Agent，开源的可定制化的通用Agent框架和Agent智能体大模型； 3、多模态mPLUG大模型系列，包括mPLUG、mPLUG-2、mPLUG-owl等工作。团队Github： https://github.com/X-PLUG 招聘岗位 Research Intern / 算法专家（P6/P7）坐标：杭州、北京类型：实习/社招岗位职责 1、负责Agent框架和Agent底座的优化，包括但不限于multi-agent应用，pl ...

AIGC

未读

2天狂拦2300star，AnimateAnyone到底是什么来头

发表于2023-12-022024-03-12

周末加班干活了～ img 1234Project page: https://humanaigc.github.io/animate-anyone/Code: https://github.com/HumanAIGC/AnimateAnyoneArxiv: https://arxiv.org/pdf/2311.17117.pdfYoutube Video: https://www.youtube.com/watch?v=8PCn5hLKNu4 前言 Animate Anyone是阿里巴巴通义实验室XR Lab最新推出的成果，只需要单张图片和Openpose动作就可以让图片动起来并保持稳定性。具体来说，Animate Anyone是基于Diffusion model (扩散模型结构)来进行pose2video的生成，通过如2D openpose的姿态骨架skeleton，来引导(guide)网络生成和参考图像reference image一致的角度动态效果。 Animate Anyone也是第一个在Pose2Video领域生成角色动画达到80分成绩的方法。Twitter上各 ...