大模型Weekly04｜智谱发布深度推理模型GLM-Zero-Preview；英伟达推出文本音频生成模型TangoFlux

青稞2025-01-062025-01-09

「青稞·大模型Weekly」，持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

智谱发布深度推理模型zero初代版GLM-Zero-Preview

效果与OpenAI-o1-Preview 相当

2024 年12月31日，智谱AI旗下GLM技术团队发布GLM-Zero的初代版本GLM-Zero-Preview，这是智谱首个基于扩展强化学习技术训练的推理模型。专注于增强推理能力，擅长处理数理逻辑、代码和需要深度推理的复杂问题，支持文字和图片上传，输出完整推理过程。同基座模型相比，它在不显著降低通用任务能力的情况下，在专家任务能力方面表现大幅提升，在 AIME 2024、MATH500 和 LiveCodeBench 评测中，效果与OpenAI-o1-Preview 相当。

详情链接:https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

英伟达联合新加坡科技设计大学推出文本音频生成模型TangoFlux

能够在3.7秒内生成30秒的高质量音频

2025年1月2日，英伟达联合新加坡科技设计大学共同研发的一款革命性的文本音频生成模型TangoFlux ，一个高效且功能强大的文本到音频生成工具，适用于音频内容创作、语音合成和音频分析研究等领域,其拥有约 5.15 亿参数，能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频，采用 FluxTransformer 架构，引入 CLAP-Ranked Preference Optimization（CRPO）框架，通过引入CLAP 模型作为代理奖励模型，计算文本与音频嵌入之间的余弦相似度，精准地对生成音频进行排名，进而构建出高质量的偏好数据集，在训练过程中，通过迭代生成新数据、创建偏好对并进行优化，使模型能够持续学习和改进，从而生成更符合用户意图的音频。此外，该模型还将直接偏好优化（DPO）应用于流匹配，通过比较获胜和失败的音频样本来优化模型，进一步提高音频与文本描述的对齐度。

所有代码和模型已开源，旨在推动文本音频生成的研究与应用。

详情链接:https://tangoflux.github.io/

微软推出名为LAM（Large Action Model）大模型产品

可以在Word中编写文档、在Excel中绘制图表

微软推出一款名为 LAM 的大模型产品，可以独立运行 Windows 程序，在Word操作的成功率、操作复杂度和速度上均优于GPT-4，但与 GPT-4o 等主要处理和生成文本的传统语言模型不同，LAM 可以将用户请求转化为实际行动--无论是操作软件还是控制机器人。虽然这并不是一个全新的概念，但这却是第一个经过专门训练，可以使用微软 Office 产品的模型。

在使用微软 Word 进行的测试中，基于 Mistral-7B 模型的 LAM 成功率高达 71%，在无视觉输入的情况下速度超过了 GPT-4o，但仍存在安全风险、道德问题和可扩展性有限等挑战。

具身智能创业项目「智元机器人」开源全球首个基于全域真实场景百万数据集AgiBot World

数据集包含80余种日常任务，涵盖家居、餐饮、工业等多场景，支持双机器人协作与精细操作

稚晖君具身智能创业项目智元机器人，携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布开源全球首个基于全域真实场景百万数据集AgiBot World数据集，覆盖全域真实场景，旨在提升具身智能领域的数据质量,数据集包含80余种日常任务，涵盖家居、餐饮、工业等多场景，支持双机器人协作与精细操作, 通过严格的数据采集、质量把控及人工审核，确保数据高质量，为机器人研发与大模型训练提供支持。

详情链接:https://github.com/OpenDriveLab/agibot-world

支付宝推出“探一下”视觉搜索功能

可以通过拍照或上传图片的方式，让支付宝识别并提供相关信息

支付宝推出了一项名为“探一下”的视觉搜索功能。这一功能利用生成式AI技术，结合多模态大模型和基础视觉算法，为用户提供了一种全新的视觉搜索体验。用户可以通过拍照或上传图片的方式，让支付宝识别并提供相关信息，从而实现从传统判别式搜索向生成式搜索的转变此外，该功能还保持了与支付宝金融级产品相同的隐私与安全标准，确保用户数据的安全性

爱诗科技PixVerse V3.5版本正式上线

最快5秒生成视频动漫效果提升

爱诗科技其核心产品PixVerse V3.5版本正式上线，新版本的PixVerse能够在最快5秒内生成视频，显著增强了运动控制力，为用户提供了更加流畅和精确的视频生成体验。此外，V3.5版本在动漫效果上实现了大幅提升，支持多种风格随意切换，满足不同用户的个性化需求。支持1080p高清画质，使得生成的视频更加细腻和生动。此外，新版本还支持首尾帧生成，实现了视频之间的丝滑过渡，进一步提升了视频的整体观感和专业度。

详情链接：https://app.pixverse.ai/

字节跳动发布Infinity自回归文生图模型‌

自回归文生图新突破，性能超越扩散模型

字节跳动发布了Infinity自回归文生图模型‌。基于此前在NeurIPS大会上获得最佳论文的VAR模型进一步研发而来，不仅在图像生成质量上超越了Stable Diffusion3等业界成熟模型，还在推理速度上展现了显著优势‌，Infinity模型在自回归方法中表现突出，远超HART、LlamaGen、Emu3等方法，并在人类评测中以接近90%的胜率击败了HART模型。同时，Infinity也以75%、80%、65%的胜率击败了SOTA的扩散模型如PixArt-Sigma、SD-XL、SD3-Meidum等，证明了其在同尺寸模型中的优势。在推理速度上，Infinity继承了VAR的速度优势，2B模型生成1024x1024的图像仅需0.8秒，比同尺寸的SD3-Medium快3倍，比12B的Flux Dev快14倍。8B模型比同尺寸的SD3.5快7倍，20B模型生成1024x1024的图像用时3秒，比12B的Flux Dev快近4倍。

目前，Infinity模型的训练和推理代码、demo、模型权重已在GitHub仓库上线，同时提供了网站体验，方便用户试用和评估模型效果。

详情链接:https://foundationvision.github.io/infinity.project/

微软论文意外曝光GPT核心机密

4o-mini只有8B，o1也才300B

微软论文意外泄露OpenAI等模型参数，包括GPT-4o等，论文实际介绍医学benchmark MEDEC，研究临床笔记错误识别与纠正。参数泄露于实验环节，Claude3.5Sonnet表现最优。OpenAI未公布确切数字，开源计划或已取消。论文中给OpenAI的mini系列，Claude3.5 Sonnet也都附上了参数，总结如下：

• o1-preview约300B • o1-mini约100BGPT-4o约200B • GPT-4o-mini约8B • Claude 3.5 Sonnet 2024-10-22版本约175B • 微软自己的Phi-3-7B