大模型Weekly｜谷歌发布Gemini 2.0；微软推出小模型Phi-4；智谱上线GLM-4V-Flash

青稞2024-12-162024-12-16

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

谷歌发布新模型Gemini 1206

在google AI studio可以免费使用，API免费

Google 发布 Gemini-EXP-1206 实验机型，在聊天机器人竞技场中再次反超了 ChatGPT-4o 。在Livebench上排名第二，超过Claude 3.5 Sonnet，直逼Open o1-preview 。能够处理200万个标记，擅长处理大型复杂数据集，并且在编码类别中与OpenAI的o1并列第一，Arena Score 作为衡量语言模型综合能力的关键指标，Gemini-Exp-1206 的高分充分展示了其在多任务处理、语言理解和生成能力上的卓越表现。

OpenAI正式发布视频生成模型Sora

支持 5-20 秒的视频生成

12月10日OpenAI宣布最新研发的视频生成模型Sora将正式向用户开放，Sora最大的特色是能够根据用户的文本提示生成逼真的视频内容。Sora将于当天向美国及其他市场的ChatGPT付费用户开放，OpenAI还推出Sora Turbo新版工具，能够生成最长达20秒的视频内容，并且提供了这些视频的多种变体，让用户可以根据自己的喜好和需求进行选择。

谷歌发布新一代原生多模态模型Gemini 2.0 Flash

支持图片、视频和音频等多模态输入

12月12日，谷歌推出大模型Gemini 2.0 ，谷歌CEO称，这是谷歌为新智能体时代构建的下一代模型，也是谷歌迄今为止最强的大模型。Gemini 2.0 Flash是谷歌此次发布的Gemini 2.0系列模型中的第一个模型。Gemini 2.0 Flash支持图片、视频和音频等多模态输入，还支持多模态输出，例如其可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音（TTS）音频。Gemini 2.0 Flash还可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。

谷歌DeepMind发布PaliGemma 2

多项任务登顶SOTA

PaliGemma 2模型以更高性能的Gemma 2为基座，增加了视觉能力，微调起来更容易，性能也更好，PaliGemma 2在多个任务上取得了业界领先的成绩，包括图像描述、乐谱识别和医学图像报告生成；并且提供了不同尺寸和分辨率的版本，用户可以根据不同的任务需求进行微调，以获得更好的性能。

微软推出最新小模型Phi-4

数学超GPT-4o，编程胜Llama3.3

12月13日，微软宣布推出 14B 参数“最先进”小型语言模型（SLM）Phi-4，除了传统的语言处理外，它还擅长数学等领域的复杂推理。Phi-4 是 Phi 系列小型语言模型的最新成员，官方表示，得益于多方面的技术进步，包括采用高质量的合成数据集、精心挑选的高质量有机数据，以及训练后的创新，Phi-4 在数学推理方面超越了同类和更大规模的模型。