方向:
多模态/计算机视觉/生成模型/自动驾驶/可信机器学习/高效机器学习
招收职位:
博士、实习生
联系教授:
Dr. Zhengzhong Tu (vztu.github.io)
🏫 学校介绍
德克萨斯A&M大学(Texas A&M
University,TAMU)是一所世界顶尖的公立研究型大学,建立于1876年,世界百强名校,得州第一所公立大学。TAMU是北美顶尖研究型大学联盟美国大学协会(AAU)成员,全美第六大公立高校。该校与得克萨斯大学奥斯汀分校(本人母校)并称德州两大旗舰学府。2024
U.S. News美国最佳大学排名47名(比去年前进20名!)。
作为一所传统理工科强校,TAMU在工程领域享有盛誉,并在2024 U.S.
NEWS最佳工程学院排名中位列前十。TAMU计算机科学与工程系在国际学术界和工业界受到广泛认可,在CSRankings排名(2014-2024)中位列全美第32位,在2024
U.S.
NEWS最佳计算机科学排名中位列第45位、计算机工程位列第20位。迄今为止,学校共有诺贝尔奖获得者9位、国家科学勋章获得者3位、普利策奖获得者1位、 ...
现有的视觉-语言-动作(VLA)模型主要基于二维输入,未能有效整合三维物理世界,且在行动预测上忽视了动态场景与动作间的关系。相比之下,人类能够借助内在的3D世界模型来模拟未来事件,从而更好地规划行动。
为此,UMass Amherst、上海交大联合提出了一种新型的3D视觉-语言-行动生成世界模型
3D-VLA。3D-VLA
是一个基于三维大型语言模型(3D-LLM),并且能够连接三维感知、推理和动作预测的世界模型。
此外,为了将生成能力注入模型,他们还训练了一系列具身扩散模型,并将它们与LLM对齐,以预测目标图像和点云。此外,为了训练我们的3D-VLA,通过从现有机器人数据集中提取大量3D相关信息,他们策划了一个大规模的3D具身指令数据集。在数据集上的实验表明,3D
VLA在具身环境中显著改善了推理、多模
态生成和规划能力,展示了其在实际应用中的潜力。
123paper:3D-VLA: A 3D Vision-Language-Action Generative World ModelarXiv:https://arxiv.org/abs/2403.09631code:https:/ ...
作者:张俊林,新浪微博新技术研发负责人
声明:本文只做分享,版权归原作者,侵权私信删除!
原文:https://www.zhihu.com/question/653373334/answer/3471466524
LLAMA-3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关LLAMA-3、大模型开源与闭源以及合成数据的一些个人看法。
一.LLAMA-3的基本情况
模型结构与LLAMA-2相比没有大的变动,主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K,以增加编码效率;另外一点是引入了Grouped
Query Attention
(GQA),这可以减少推理过程中的KV缓存大小,增加推理效率;还有一点是输入上下文长度从4K拓展到了8K,这个长度相比竞品来说仍然有点短。
最重要的改变是训练数据量的极大扩充,从LLAMA-2的2T
Tokens,扩展了大约8倍到了15T
Tokens,其中代码数据扩充了4倍,这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15
T token数据那是相当之大了,传闻中GPT 4是用了13T的Token数据。
LLA ...
尽管 VLM 取得了进步,促进了基本的视觉对话和推理,但与 GPT-4
和 Gemini 等高级模型相比,性能差距仍然存在。那如何在学术环境中以可接受的成本推动VLMs接近成熟模型呢?
来自香港中文大学的贾佳亚团队新提出了多模态大模型 Mini-Gemini,堪比
GPT-4 + DALL-E 3 王炸组合。
在这项工作中,研究者主要探究了目前多模态模型的潜力,并从三个方面进行提升:
对高清细节信息的挖掘
多模态模型训练数据的质量
与生成模型的结合
具体来说,研究者通过引入双分支视觉编码器,在保持 LLM
计算效率的情况下拓展对高清图像的理解。并通过优化训练数据的方式来提升多模态模型的性能和对生成任务的支持,从而在保证多模态模型基础性能的同时实现图像理解、推理和生成的统一。实验表明在多种
zero-shot 的榜单上超越现有开源甚至闭源商业模型,并能够支持从 2B 至 34B
的多种大语言基座模型。 12345Github 地址:https://github.com/dvlab-research/MiniGemini Demo 地址: http://103.170.5.190: ...
大型语言模型(LLM)和视觉语言模型(VLM)在理解和生成语言方面表现出色,但它们并不以
3D 物理世界为基础,更不用说在更丰富的 3D 具身环境中探索和互动了。
加州大学洛杉矶分校的洪艺宁博士及来自 MIT-IBM Watson AI Lab
等研究人员在最新的成果中开发了 3D
具身基础模型,致力于构建能够主动探索和与 3D
物理世界互动。这些模型促进了与3D空间的动态互动,融入了空间关系、可利用性、物理、布局、多感官学习等基本具身智能概念。
在 NeurIPS 2023 的 Spotlight 成果 3D-LLM 中,她们将 3D
世界注入大型语言模型中,用 3D 点云及其特征作为输入,并执行各种 3D
相关任务,包括字幕、密集字幕、3D 问答、任务分解、3D 基础、3D
辅助对话、导航等。
123paper:3D-LLM: Injecting the 3D World into Large Language ModelsarXiv:https://arxiv.org/abs/2307.12981code:https://github.com/UMass-Foundation ...
# 自我介绍
大家好!我叫王欢,将于2024年夏季加入西湖大学任助理教授(Tenure-Track
Assistant Professor), ENCODE (Efficient Neural Computing and Design)
Lab PI。
此前我在浙大读完本科和硕士,在美国东北大学读完博士。在Google / Snap /
MERL / Alibaba等研究机构实习。我的研究方向是Efficient AI、Computer
Vision,更多信息欢迎参考我的个人主页。
https://huanwang.tech/
现招收 PhD students (2025 Fall) 和 RA、Visiting
Students(常年招收)。
学校简介
西湖大学是一所社会力量举办、国家重点支持的新型高等学校,前身为浙江西湖高等研究院,于2018
年正式获教育部批准设立。西湖的定位是成为小而精的研究型大学,目前有4个学院(理学院,工学院,生命科学学院,医学院)。工学院下有6个专业,我所在的是人工智能和数据科学(Artificial
Intelligence and Data Scien ...
AI
智能体是最近很火的一个话题。斯坦福大学吴恩达教授在一次演讲中表示:“基于
GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。AI
智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型,这是一个值得所有人关注的趋势。”
其中,吴恩达教授还点赞了来自清华大学自然语言处理实验室、面壁智能的大模型驱动的全流程自动化软件开发框架
ChatDev(Chat-powered Software
Development):一个由多智能体协作运营的虚拟软件公司,在人类用户指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。
这一技术为软件开发自动化提供了新的可能性,支持快捷高效且经济实惠的软件制作,未来将有效地将部分人力从传统软件开发的繁重劳动中解放出来。
123paper:Communicative Agents for Software Developmentarxiv:https://arxiv.org/abs/2307.07924code:https://github.com/O ...
基于扩散模型的三维纹理图生成方法在单个物体上已经取得了令人惊艳的成果,但场景级纹理图生成领域还有待探索,其难点在于其生成尺度远大于单个物体,对于生成的纹理细节以及风格一致性要求也更高。因而,现有的单个物体级三维纹理图生成方法难以被直接迁移到场景级目标上。
来自慕尼黑工业大学视觉计算实验室的陈振宇博士等人在最新的 CVPR
论文中,提出了一种基于二维扩散模型的场景级三维纹理图生成方法
SceneTex。与之前的基于 Inpainting 的三维纹理图生成方法不同的是,SceneTex
将整个纹理图生成过程转化为一个全局优化问题。SceneTex
的算法核心在提出了一个多分辨率的纹理图特征场,以用于在多尺度上隐式编码场景外观信息。
为了进一步提高场景中每一个物体的外观一致性,以及整个场景风格的一致性,SceneTex提出了一个基于跨注意力机制的纹理图解码器,有效地在生成过程中避免了物体自遮挡问题,并极大程度地提高了场景纹理图的生成质量。该项目已在GitHub开源。
123paper:SceneTex: High-Quality Texture Synthesis for Indoor Sc ...
作者:张俊林,新浪微博新技术研发负责人
声明:本文只做分享,版权归原作者,侵权私信删除
原文链接:https://zhuanlan.zhihu.com/p/687928845 |
https://zhuanlan.zhihu.com/p/684089478
Sora生成的视频效果好吗?确实好。Sora算得上AGI发展历程上的里程碑吗?我个人觉得算。我们知道它效果好就行了,有必要知道Sora到底是怎么做的吗?我觉得最好是每个人能有知情的选择权,任何想知道的人都能够知道,这种状态比较好。那我们知道Sora到底是怎么做出来的吗?不知道。
马斯克讽刺OpenAI是CloseAI,为示道不同,转头就把Grok开源了。且不论Grok效果是否足够好,马斯克此举是否有表演成分,能开源出来这行为就值得称赞。OpenAI树大招风,目前被树立成技术封闭的头号代表,想想花了上亿美金做出来的大模型,凭啥要开源?不开源确实也正常。所谓“开源固然可赞,闭源亦可理解”。
但是,我个人一年多来的感觉,OpenAI技术强归强,然而有逐渐把技术神秘化的倾向,如果不信您可以去读一下Altman的各种访谈。在这个AI技术 ...
作者:Anwen Hu,人大博士毕业生,阿里巴巴通义实验室高级算法工程师
原文链接:https://zhuanlan.zhihu.com/p/687993277
多模态大模型 Multimodal LLM (MLLM)
相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max,
Gemini, Cloude3,
GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢,距离这些闭源大模型具有很大差距
(例如DocVQA上开源7B SOTA 66.5,而Gemini Pro 1.5为86.5)。
mPLUG-DocOwl 1.5
是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的CogAgent,在DocVQA上达到82.2的效果。
123paper:mPLUG-DocOwl 1.5: Unified Structure Learning f ...