MixEval：混合评测数据集来拟合大语言模型的人类评估

发表于2024-05-24🎥 观看直播

MixEval：混合评测数据集来拟合大语言模型的人类评估

青稞2024-05-24

5月24日晚7点，青稞社区组织【青稞Talk】第七期，新加坡国立大学Research Fellow倪瑾杰博士，将直播分享《MixEval：混合评测数据集来拟合大语言模型的人类评估》。

分享嘉宾

倪瑾杰，新加坡国立大学Research Fellow。目前致力于大模型的高效训练，评估，以及多模态模型的训练。南洋理工大学计算机科学博士，博士期间研究方向为语言模型。

主题提纲

MixEval：混合评测数据集来拟合大语言模型的人类评估

1、大语言模型为什么需要评估及难点分析
2、重采样评测数据集的基准测试方法
3、与其他主流基准测试的全面鸟瞰分析

直播时间

5月24日（周五）19:00 - 20:00

喜欢这篇文章的人也看了

PRIME：结合隐式过程奖励的强化学习

Satori：通过训练LLM做自回归搜索来增强推理能力

基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

PC-Agent：面向复杂 PL 任务的多模态智能体框架

COAT：显存高效的 FP8 训练，实现高效深度学习

从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化