2024-07-28
开源大模型正在缩小与闭源大模型的差距

MMLU(大规模多任务语言理解)是一种大模型能力的测试基准,旨在通过在零样本和少样本设置中专门评估模型来衡量预训练期间获得的知识。比较类似评估人类学习能力的方式。该基准涵盖了 STEM、人文科学、社会科学等 57 个学科。

Maxime Labonne 针对主流大模型的 MMLU 测试结果显示,以 Meta Llama 为代表的开源大模型正在缩小与闭环大模型的差距。