加载头像
图片
2024-09-18万字长文推演OpenAI o1 self-play RL 技术路线
作者:曹宇,阿里巴巴集团 · 大模型练习生,AI 系统及算法方向 原文:https://zhuanlan.zhihu.com/p/720106482 OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。在数理推理领域获得了傲人的成绩,同时提出了train-time compute和test-time compute两个全新的RL scaling law。作为领域博主,在时效性方面肯定卷不过其他营销号了,所以这次准备了大概一万字的内容,彻底深入分析并推演一遍其中的相关技术细节。 o1,而今迈步从头越 首先要说一下,o1是一个多模态模型,很多人包括 Jim Fan 都忽略了这一点: 因此他继续叫做o,作为omni系列是没有任何疑问的。只不过这次发布是过于低调了,很多人都没有注意到这个拉爆了所有其他多模态框架的78.1分。 那么这个o1,说明这个技术路线就是一个全新的模型pipeline弄出来的了。作为一个全新的多模态Self-play RL模型,首秀的成绩还是相当不错的。虽然现在评价该self-play方法是否能够泛化至多模态还 ...
详情
图片
2024-09-23加入青稞AI技术交流群,与青年AI研究与员/开发者交流最新AI技术
青稞社区 青年AI研究员idea加油站,AI开发者的新能源充电桩! 青稞AI技术交流群 长案扫码添加青稞小助手 备注:姓名-学校/公司-学历/职位-研究领域(如:青稞-MIT-博士-LLM),即可申请加入青稞LLM/多模态/Agent/具身智能/面试/顶会等技术交流群: 加入青稞AI技术交流群,不仅能与来自MIT、港中文、CMU、UCLA、斯坦福、清华、阿里、腾讯等名校名企AI研究员/开发者一起进行技术交流,同时还有青年AI研究员/开发者的Talk分享、行业前沿资讯、顶会资源、招聘内推等。 社群列表 细分方向技术交流群 青稞|LLM技术交流群 青稞|多模态技术交流群 青稞|具身智能技术交流群 青稞|Agent技术交流群 青稞|Diffusion技术交流群 SGLang技术交流群 顶会投稿开会交流群 ICRA 投稿开会交流群 | 青稞 CVPR 投稿开会交流群 | 青稞 ICASSP 投稿开会交流群 | 青稞 NAACL 投稿开会交流群 | 青稞 ECCV 投稿开会交流群 | 青稞 AIGC/LLM面试交流群 青稞|AIGC&LLM面试招聘交流群 行业资讯群 ...
详情
图片
2024-03-21张俊林:技术神秘化的去魅,Sora关键技术逆向工程图解
作者:张俊林,新浪微博新技术研发负责人 声明:本文只做分享,版权归原作者,侵权私信删除 原文链接:https://zhuanlan.zhihu.com/p/687928845 | https://zhuanlan.zhihu.com/p/684089478 Sora生成的视频效果好吗?确实好。Sora算得上AGI发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道Sora到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道Sora到底是怎么做出来的吗?不知道。 马斯克讽刺OpenAI是CloseAI,为示道不同,转头就把Grok开源了。且不论Grok效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI树大招风,目前被树立成技术封闭的头号代表,想想花了上亿美金做出来的大模型,凭啥要开源?不开源确实也正常。所谓“开源固然可赞,闭源亦可理解”。 但是,我个人一年多来的感觉,OpenAI技术强归强,然而有逐渐把技术神秘化的倾向,如果不信您可以去读一下Altman的各种访谈。在这个AI技术 ...
详情
图片
2024-06-13浙大百人计划教授招收访问学者、研究助理、博士后、硕士和博士生
浙江大学招收访问学者、研究助理、博士后、硕士和博士生 Monash University招收1-2名博士生 ZIP Lab介绍 ZIP Lab 是一个国际性的研究实验室,位于杭州和墨尔本。我们的主要研究重点是为边缘应用开发高效的机器学习系统,特别是在大型语言模型和多模态大模型方面。自2021年成立以来,实验室凭借其才华横溢的成员迅速取得了发展。 有关我们团队成员和论文的更多信息,请访问实验室主页: https://ziplab.github.io/ 我们正在积极招聘浙江大学的访问学者、研究助理、博士后、硕士和博士生。此外,我们还在 Monash University 招收1-2名博士生 ,将由资深教授共同指导。我们期待在学术界影响力和工业界落地都取得突破,欢迎您的加入! PI简介 Bohan Zhuang是ZIP Lab的负责人。他于2018年在阿德莱德大学获得博士学位,并在澳大利亚机器人视觉中心担任高级研究员。从2020年至今,他担任Monash University信息技术学院的长聘助理教授,该校在2025年QS全球排名第37位。2023年,他获得了国家优 ...
详情
青稞Talk 29预告!VILA^2:视觉语言模型能力的自我提升
干货分享精调视觉语言模型VLM的经验
DPO新作Your Language Model is Secretly a Q-Function解读,与OPENAI Q* 的联系?
DPO,RM,RLHF 傻傻分不清楚
基于 MLCEngine 的低延迟高吞吐量的 LLM 部署研究
浙大百人计划教授魏颖课题组招收2025年博士生、研究助理、实习生
K-Sort Arena:探索高效竞技场算法,根据人类偏好快速评估视觉生成模型
青稞Talk 28预告!DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
OpenAI o1:AI新范式以及对未来的 10 个启示
青稞Talk 27预告!GenAD & Vista:构建通用可泛化的自动驾驶世界模型
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體