作者:涮月亮的谪仙人
原文:https://zhuanlan.zhihu.com/p/18565423596 >> 加入青稞AI技术交流群,与青年AI研究员/开发者交流最新AI技术
项目代码;欢迎关注和star! 1https://github.com/Unakar/Logic-RL
我们将开源完整的wandb曲线和训练日志
1https://wandb.ai/ustc_ai/GRPO_logic_KK/reports/GRPO-Zero--VmlldzoxMTIwOTYyNw?accessToken=gnbnl5mu5pwfww7gtwxymohg85w7d7vthvjvbl4w8yxg0a99vf1k22m11e61cvv8
在大四的最后一个寒假,和@AdusTinexl、@ShadeCloak两个小伙伴捣鼓出了点有意思的东西,非常开心,欢迎各位合作,指导!
先展示一下结果:
基座模型Qwen 7B在测试集上只会基础的step by step逻辑。
无 Long CoT冷启动蒸馏,三阶段Rule Based RL后
(约400steps),模型学会了
迟疑 ( ...
大模型技术报告
未读
作者:北方的郎 原文:https://zhuanlan.zhihu.com/p/18384965809
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
刚刚MiniMax发布了MiniMax-01,简单测试了效果,感觉不错。于是又把它的技术报告看了一下。这种报告看多了,就会多一个毛病,越来越觉得自己也能搞一个。
O
这篇文章我觉得最有意思的一句是对数据质量的强调“低质量数据在训练超过两个epoch后性能显著下降,而高质量数据可以有效地训练多达四个epoch”
MiniMax-01系列模型通过创新的Lightning Attention和专家混合(Mixture of
Experts, MoE)架构,实现了在长上下文处理上的突破性进展。
1234Paper:MiniMax-01: Scaling Foundation Models with Lightning Attention论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdfGithub地址:https://github.co ...
作者:姜富春,大厂程序员
原文:https://zhuanlan.zhihu.com/p/18056041194 >>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
引言
最近整理deepseek的技术线,针对MTP(Multi-Token
Prediction)方法做了些扩展的阅读和学习。主要参考3篇论文了解了MTP的前世今生。本文章结合业界的一些探索,并试图增加自己的一些理解来讲讲MTP方法。下面我们进入正题。
为什么要做MTP
在学习具体的方法前,我们首先了解下为什么要做MTP(Multi-Token
Prediction)?
背景
我们都知道,当前主流的大模型(LLMs)都是decoder-base的模型结构,也就是无论在模型训练还是在推理阶段,对于一个序列的生成过程,都是token-by-token的。每次在生成一个token的时候,都要频繁跟访存交互,加载KV-Cache,再通过多层网络做完整的前向计算。对于这样的访存密集型的任务,通常会因为访存效率形成训练或推理的瓶颈。
针对token-by-token生成效率的瓶颈,业界很多方法来优化,包括 ...
青稞·大模型Weekly
未读
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
NovaSky发布Sky-T1-32B-Preview推理模型
训练成本不到 450 美元
Sky-T1-32B-Preview:450美金就可以训练的o1-preview【模型权重与训练细节已完全开源】
2025年1月12日,加州大学伯克利分校天空计算实验室的研究团队NovaSky发布Sky-T1-32B-Preview推理模型。该模型在多个关键基准测试中表现出与OpenAI早期o1版本相当的水平,且其训练成本不到450美元,远低于以往同类模型的数百万美元。
Sky-T1-32B-Preview不仅是首个真正意义上的开源推理模型,NovaSky团队还公开了用于训练它的数据集及必要的训练代码,这意味着该模型可以从头开始复制。这一突破得益于合成训练数据的广泛应用,合成数据由其他模型生成,能够显著降低训练成本。
昆仑万维发布「天工大模型4.0」o1版和4o版
o1版具备中文逻辑推理能力,4o版可以提供情感表达和快速响应的实时语音对话助手Skyo
昆仑万维集团推出「天工大 ...
原文:https://novasky-ai.github.io/posts/sky-t1/
>>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
Sky-T1-32B-Preview
是我们推出的推理模型,在常见的推理和编码基准测试中,其表现可与
o1-preview 媲美。值得注意的是,Sky-T1-32B-Preview 的训练成本不到
450
美元,展示了以经济高效的方式复制高水平推理能力的可能性。
123代码库:https://github.com/novasky-ai/sky-t1模型权重:https://huggingface.co/novasky-ai/sky-t1-32b-preview技术报告:https://arxiv.org/abs/2024xxxx
背景
诸如 o1 和 Gemini 2.0
等在推理方面表现出色的模型,能够通过生成长链的内部思考来解决复杂任务。然而,这些模型的技术细节和权重尚未公开,限制了学术界和开源社区的参与。
为此,一些在数学领域训练开源推理模型的努力相继出现,例如 STILL-2 和
Journey。同时, ...
1月14日19:00,青稞Talk
第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion
Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。
主讲嘉宾
许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。
主题提纲
Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
1、现有视频生成模型的局限性 2、基于场景感知运动推理的视频生成模型
Motion Dreamer - 两阶段的视频生成框架 - 实例流的训练与推理策略
- 中间运动表示的选择 3、在自动驾驶等复杂场景中的应用讨论
成果链接
Abs:https://arxiv.org/abs/2412.00547
直播时间
1月14日(周二)19:00 - 20:00
参与方式
Talk 将在青稞·知识社区上进行,扫码对暗号:" 0114
",报名进群!
作者:方佳瑞,清华大学计算机科学技术博士,腾讯专家工程师
原文:https://zhuanlan.zhihu.com/p/16445683081 >>加入青稞AI技术交流群,与青年研究员/开发者交流最新AI技术
本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右,相比V2的MFU提升大概60%,希望对后续技术讨论提供数据支撑。
自2024年12月发布以来,DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道,更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考,更延伸出对美国对华技术出口管制政策有效性的讨论,甚至影响到投资者对英伟达股价走势的判断。
神秘的幻方公司,加之某热点人物跳槽的花边,DeepSeekV3目前俨然成为舆论焦点,其影响力已远远超出技术领域,被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论不断发酵,从科技从业者到政策研究者,从资本市场到普 ...
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
智谱发布深度推理模型zero初代版GLM-Zero-Preview
效果与OpenAI-o1-Preview 相当
2024
年12月31日,智谱AI旗下GLM技术团队发布GLM-Zero的初代版本GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。专注于增强推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题,支持文字和图片上传,输出完整推理过程。同基座模型相比,它在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升,在
AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与OpenAI-o1-Preview
相当。
详情链接:https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
英伟达联合新加坡科技设计大学推出文本音频生成模型TangoFlux
能够在3.7秒内生成30秒的高质量音频
2025年1月2日,英伟达联合新加坡科技 ...
随着生成技术的快速发展,视频生成已经步入了新的高度。可控视频生成也引起了科研人员的关注,如何能够进行更加可控的生成成为业界关注的焦点,在这个领域中,Follow
Family 中的一系列工作对此进行了探索,包括:
骨架控制:Follow-Your-Pose
肖像控制:Follow-Your-Emoji
局部可控图生视频:Follow-Your-Click
可控的视频生成:Follow-Your-Handle
大分辨率视频扩展生成:Follow-Your-Handle
1月4日(周六)上午11点,香港科技大学计算机博士生马跃,将对这些成果进行直播分享,主题为《Follow
Family:可控视频生成方法探索与应用》。
主讲嘉宾
马跃,香港科技大学计算机博士生,清华大学电子信息硕士,主要研究领域是视频生成、图片生成等,曾在百度,腾讯
AI
Lab,腾讯混元作为算法研究实习,在NeurIPS,Siggraph,AAAI,CVPR,TMM等发表多篇高水平文章,曾经获得北京市优秀毕业生等荣誉称号。
主题提纲
Follow Family:可控视频生成方法探索与应用 ...
青稞·大模型Weekly
未读
「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI
大模型产品每周的最新进展和创新应用。
国产DeepSeek-V3首个版本上线并同步开源
首位全职提示词工程师出新题,DeepSeek V3完全答对
DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI
o1的61分。而在LiveBench的测评中,DeepSeek
v3是最强的开源大语言模型,并在非推理模型中,排名第二。
详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main
IBM推出开源大型语言模型Granite3.1
能处理最多128,000个令牌
IBM开源大语言模型 Granite
3.1版本现已发布,新版本的模型经过重新设计,采用了更加 ...