大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash
大模型Weekly|谷歌发布Gemini 2.0;微软推出小模型Phi-4;智谱上线GLM-4V-Flash
青稞「青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。
谷歌发布新模型Gemini 1206
在google AI studio可以免费使用,API免费
Google 发布 Gemini-EXP-1206 实验机型,在聊天机器人竞技场中再次反超了 ChatGPT-4o 。在Livebench上排名第二,超过Claude 3.5 Sonnet,直逼Open o1-preview 。能够处理200万个标记,擅长处理大型复杂数据集,并且在编码类别中与OpenAI的o1并列第一,Arena Score 作为衡量语言模型综合能力的关键指标,Gemini-Exp-1206 的高分充分展示了其在多任务处理、语言理解和生成能力上的卓越表现。
OpenAI正式发布视频生成模型Sora
支持 5-20 秒的视频生成
12月10日OpenAI宣布最新研发的视频生成模型Sora将正式向用户开放,Sora最大的特色是能够根据用户的文本提示生成逼真的视频内容。Sora将于当天向美国及其他市场的ChatGPT付费用户开放,OpenAI还推出Sora Turbo新版工具,能够生成最长达20秒的视频内容,并且提供了这些视频的多种变体,让用户可以根据自己的喜好和需求进行选择。
谷歌发布新一代原生多模态模型Gemini 2.0 Flash
支持图片、视频和音频等多模态输入
12月12日,谷歌推出大模型Gemini 2.0 ,谷歌CEO称,这是谷歌为新智能体时代构建的下一代模型,也是谷歌迄今为止最强的大模型。Gemini 2.0 Flash是谷歌此次发布的Gemini 2.0系列模型中的第一个模型。Gemini 2.0 Flash支持图片、视频和音频等多模态输入,还支持多模态输出,例如其可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。Gemini 2.0 Flash还可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。
谷歌DeepMind发布PaliGemma 2
多项任务登顶SOTA
PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好,PaliGemma 2在多个任务上取得了业界领先的成绩,包括图像描述、乐谱识别和医学图像报告生成;并且提供了不同尺寸和分辨率的版本,用户可以根据不同的任务需求进行微调,以获得更好的性能。
微软推出最新小模型Phi-4
数学超GPT-4o,编程胜Llama3.3
12月13日,微软宣布推出 14B 参数“最先进”小型语言模型(SLM)Phi-4,除了传统的语言处理外,它还擅长数学等领域的复杂推理。Phi-4 是 Phi 系列小型语言模型的最新成员,官方表示,得益于多方面的技术进步,包括采用高质量的合成数据集、精心挑选的高质量有机数据,以及训练后的创新,Phi-4 在数学推理方面超越了同类和更大规模的模型。
智谱上线首款免费多模态模型:GLM-4V-Flash
降低开发者挖掘大模型应用的门槛
智谱 AI 上线第一款免费的多模态模型 —— GLM-4V-Flash,不仅基于 4V 系列模型的各项优秀能力,更在图像处理上实现了精确度的提升。拥有图像描述生成、图像分类、视觉推理、视觉问答以及图像情感分析等高级图像处理功能,并且支持包括中文、英语、日语、韩语、德语在内的 26 种语言。
北京智源人工智能研究院推出3D生成模型:See3D
首个利用大规模无标注的互联网视频学习的3D生成模型
北京智源人工智能研究院推出首个利用大规模无标注的互联网视频学习的3D生成模型:See Video, Get 3D,能实现从视频中生成3D内容,See3D采用视觉条件技术,能高效地从互联网视频中学习3D先验。See3D支持从文本、单视图和稀疏视图到3D的生成,能进行3D编辑与高斯渲染。
巨人网络发布“千影 QianYing”有声游戏生成大模型
有声、可交互,可操控角色多种动作
12月12日,巨人网络在2024年度中国游戏产业年会上发布“千影 QianYing”有声游戏生成大模型,加码“游戏+AI”赛道。“千影 QianYing”包含游戏视频生成大模型YingGame、视频配音大模型YingSound,实现了有声可交互游戏视频生成的新突破。
MiniMax上新图生视频模型 I2V-01-Live
针对二次元图生视频效果优化,让2D二次元角色复活
I2V-01-Live专注于 2D 动画风格化效果的图片转视频领域,能够使动画人物的说话及动作表现得更为自然。I2V-01-Live 在稳定性与细腻表现力方面进行了优化,且支持多种艺术风格。对二次元效果进行优化,可以将静态的二次元图片转化为流畅且自然的动态视频,海螺 AI 正式进军“动漫界”。