作者:张俊林,新浪微博新技术研发负责人声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://www.zhihu.com/question/653373334/answer/3471466524
LLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。
一.LLAMA-3的基本情况模型结构与LLAMA-2相比没有大的变动,主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K,以增加编码效率;另外一点是引入了Grouped Query Attention (GQA),这可以减少推理过程中的KV缓存大小,增加推理效率;还有一点是输入上下文长度从4K拓展到了8K,这个长度相比竞品来说仍然有点短。
最重要的改变是训练数据量的极大扩充,从LLAMA-2的2T Tokens,扩展了大约8倍到了15T Tokens,其中代码数据扩充了4倍,这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15 T token数据那是相当之大了,传闻中GPT 4是用了13T的Token数据。
LLAMA-3分 ...
尽管 VLM 取得了进步,促进了基本的视觉对话和推理,但与 GPT-4 和 Gemini 等高级模型相比,性能差距仍然存在。那如何在学术环境中以可接受的成本推动VLMs接近成熟模型呢?
来自香港中文大学的贾佳亚团队新提出了多模态大模型 Mini-Gemini,堪比 GPT-4 + DALL-E 3 王炸组合。
在这项工作中,研究者主要探究了目前多模态模型的潜力,并从三个方面进行提升:
对高清细节信息的挖掘
多模态模型训练数据的质量
与生成模型的结合
具体来说,研究者通过引入双分支视觉编码器,在保持 LLM 计算效率的情况下拓展对高清图像的理解。并通过优化训练数据的方式来提升多模态模型的性能和对生成任务的支持,从而在保证多模态模型基础性能的同时实现图像理解、推理和生成的统一。实验表明在多种 zero-shot 的榜单上超越现有开源甚至闭源商业模型,并能够支持从 2B 至 34B 的多种大语言基座模型。
12345Github 地址:https://github.com/dvlab-research/MiniGemini Demo 地址: http://103.170.5.190:7 ...
大型语言模型(LLM)和视觉语言模型(VLM)在理解和生成语言方面表现出色,但它们并不以 3D 物理世界为基础,更不用说在更丰富的 3D 具身环境中探索和互动了。
加州大学洛杉矶分校的洪艺宁博士及来自 MIT-IBM Watson AI Lab 等研究人员在最新的成果中开发了 3D 具身基础模型,致力于构建能够主动探索和与 3D 物理世界互动。这些模型促进了与3D空间的动态互动,融入了空间关系、可利用性、物理、布局、多感官学习等基本具身智能概念。
在 NeurIPS 2023 的 Spotlight 成果 3D-LLM 中,她们将 3D 世界注入大型语言模型中,用 3D 点云及其特征作为输入,并执行各种 3D 相关任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D 辅助对话、导航等。
123paper:3D-LLM: Injecting the 3D World into Large Language ModelsarXiv:https://arxiv.org/abs/2307.12981code:https://github.com/UMass-Foundation ...
自我介绍大家好!我叫王欢,将于2024年夏季加入西湖大学任助理教授(Tenure-Track Assistant Professor), ENCODE (Efficient Neural Computing and Design) Lab PI。
此前我在浙大读完本科和硕士,在美国东北大学读完博士。在Google / Snap / MERL / Alibaba等研究机构实习。我的研究方向是Efficient AI、Computer Vision,更多信息欢迎参考我的个人主页。
https://huanwang.tech/
现招收 PhD students (2025 Fall) 和 RA、Visiting Students(常年招收)。
学校简介西湖大学是一所社会力量举办、国家重点支持的新型高等学校,前身为浙江西湖高等研究院,于2018 年正式获教育部批准设立。西湖的定位是成为小而精的研究型大学,目前有4个学院(理学院,工学院,生命科学学院,医学院)。工学院下有6个专业,我所在的是人工智能和数据科学(Artificial Intelligence and ...
AI 智能体是最近很火的一个话题。斯坦福大学吴恩达教授在一次演讲中表示:“基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。AI 智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型,这是一个值得所有人关注的趋势。”
其中,吴恩达教授还点赞了来自清华大学自然语言处理实验室、面壁智能的大模型驱动的全流程自动化软件开发框架 ChatDev(Chat-powered Software Development):一个由多智能体协作运营的虚拟软件公司,在人类用户指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。
这一技术为软件开发自动化提供了新的可能性,支持快捷高效且经济实惠的软件制作,未来将有效地将部分人力从传统软件开发的繁重劳动中解放出来。
123paper:Communicative Agents for Software Developmentarxiv:https://arxiv.org/abs/2307.07924code:https://github.com/O ...
基于扩散模型的三维纹理图生成方法在单个物体上已经取得了令人惊艳的成果,但场景级纹理图生成领域还有待探索,其难点在于其生成尺度远大于单个物体,对于生成的纹理细节以及风格一致性要求也更高。因而,现有的单个物体级三维纹理图生成方法难以被直接迁移到场景级目标上。
来自慕尼黑工业大学视觉计算实验室的陈振宇博士等人在最新的 CVPR 论文中,提出了一种基于二维扩散模型的场景级三维纹理图生成方法 SceneTex。与之前的基于 Inpainting 的三维纹理图生成方法不同的是,SceneTex 将整个纹理图生成过程转化为一个全局优化问题。SceneTex 的算法核心在提出了一个多分辨率的纹理图特征场,以用于在多尺度上隐式编码场景外观信息。
为了进一步提高场景中每一个物体的外观一致性,以及整个场景风格的一致性,SceneTex提出了一个基于跨注意力机制的纹理图解码器,有效地在生成过程中避免了物体自遮挡问题,并极大程度地提高了场景纹理图的生成质量。该项目已在GitHub开源。
123paper:SceneTex: High-Quality Texture Synthesis for Indoor Sc ...
作者:张俊林,新浪微博新技术研发负责人声明:本文只做分享,版权归原作者,侵权私信删除原文链接:https://zhuanlan.zhihu.com/p/687928845 | https://zhuanlan.zhihu.com/p/684089478
Sora生成的视频效果好吗?确实好。Sora算得上AGI发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道Sora到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道Sora到底是怎么做出来的吗?不知道。
马斯克讽刺OpenAI是CloseAI,为示道不同,转头就把Grok开源了。且不论Grok效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI树大招风,目前被树立成技术封闭的头号代表,想想花了上亿美金做出来的大模型,凭啥要开源?不开源确实也正常。所谓“开源固然可赞,闭源亦可理解”。
但是,我个人一年多来的感觉,OpenAI技术强归强,然而有逐渐把技术神秘化的倾向,如果不信您可以去读一下Altman的各种访谈。在这个AI技术越来 ...
作者:Anwen Hu,人大博士毕业生,阿里巴巴通义实验室高级算法工程师原文链接:https://zhuanlan.zhihu.com/p/687993277
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max, Gemini, Cloude3, GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢,距离这些闭源大模型具有很大差距 (例如DocVQA上开源7B SOTA 66.5,而Gemini Pro 1.5为86.5)。
mPLUG-DocOwl 1.5 是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的CogAgent,在DocVQA上达到82.2的效果。
123paper:mPLUG-DocOwl 1.5: Unified Structure Learning fo ...
作者:潘梓正,莫纳什大学博士生主页:zizhengpan.github.io原文链接:https://zhuanlan.zhihu.com/p/685943779
最近看到有些问题[1]说为什么Transformer中的FFN一直没有大的改动。21年刚入学做ViT的时候就想这个问题,现在读博生涯也快结束了,刚好看到这个问题,打算稍微写写, 也算是对这个地方做一个小总结吧。
1. Transformer与FFNTransformer的基本单位就是一层block这里,一个block包含 MSA + FFN,目前公认的说法是,
• Attention 作为token-mixer做spatial interaction。
• FFN (又称MLP)在后面作为channel-mixer进一步增强representation。
从2017至今,过去绝大部分Transformer优化,尤其是针对NLP tasks的Efficient Transformer都是在Attention上的,因为文本有显著的long sequence问题。安利一个很好的总结Efficient Transformers: ...
最近,无论是 OpenAI 的 Sora 模型,还是 Stability AI 的 Stable Diffusion 3 ,都让我们看到了生成模型方面的突破。这也让我们不禁思考:AIGC 领域的微积分时刻是否已经到来?
3月2日晚8点,青稞社区策划推出【青稞Panel】第一期,并邀请到DeepFaceLab(累计60,000 +⭐️)作者小黑兔、InstantID(huggingface space周榜第一)作者王浩帆、剑桥大学计算机系在读博士Andi Zhang和VBench 第一作者、南洋理工大学MMLab在读博士黄子琪参与,共同探讨《Sora迷思,AIGC的微积分时刻?》。
参与嘉宾王浩帆,CMU(卡耐基梅隆)硕士毕业,InstantX成员,代表工作InstantID(huggingface space周榜第一,Yann Lecun转发点赞),Score-CAM(累计1000+ google citation),发表过 NeurIPS、CVPR、ICCV、3DV 等多个领域顶级会议。
Andi Zhang,剑桥大学计算机数学双硕士,剑桥大学计算机系博士生在读,研究方向涵盖贝叶斯 ...