关于大模型评测榜单

2022 年 ChatGPT 横空出世之后,国内外各家 AI 公司跟进步伐,训练出大量大语言模型(LLM)。两年过去,各家 LLM 的能力不断提升。不仅价格,LLM 智能水平也是用户选择 LLM 最关心的因素。

就像武侠世界论武功高低要看兵器谱排行榜,许多 LLM 评测榜单应运而生。

目前评测机制大概分两种。第一种类似学生考试,编制好的试题(评测数据集)让 LLM 做,看能做对多少题获得多少分。第二种类似足球联赛积分制,LLM 两两比拼一下,赢的一方得一分,比拼次数越多,排行榜上就体现高低差距了。

两种评测机制都能反映 LLM 的水平,但也都有些缺陷。

第一种考试机制可能出现的问题。一个是 LLM 可能提前拿到试题从而作弊。另一个问题产生自试题的难度,如果难度不变,但学生成长迅速,最后一帮学霸都考到接近 100 分,那就分不出水平高低。

第二种竞技机制,权威的就只 LMSYS 一家,采用 LLM 匿名回答,用户打分的办法。有些 LLM 可能智能稍低,但回答的输出格式、风格讨人喜欢,得分就会高。比如目前榜单第一的 Grok-3,逻辑推理能力不如 o1,但 Grok-3 的回答百无禁忌,用户体验就上去了。所以 LMSYS 的榜单不能只看总榜,还要关注控制风格 Rank (StyleCtrl) 以及各个专项的排名,如 Code、Math、Chinese 等。

推荐的 LLM 榜单

汇总整理的 LLM 评测榜单见后文,大部分是目前比较独立、权威的机构。

我平时参考的最多的榜单如下:

  1. LMSYS Chatbot Arena:全世界最靠谱的 LLM 竞技排行榜;
  2. 知乎用户 toyama nao 的个人评测榜单:个人向的评测,偏重逻辑推理;
  3. OpenCopass:国内出现较早且持续更新的榜单,有中文领域的评测;
  4. HHEM Leaderboard :评测 LLM 的幻觉率;
  5. Aider LLM Leaderboards:著名编程助手 Aider 评测的 LLM 代码能力排行榜。
  6. Artificial Analysis:模型的技术性能、功能和质量差异很大。Artificial Analysis 的智能指数代表了一种通才视角,可以作为衡量响应质量的一个指标。用户可以选择若干模型进行对比。

我平时使用 LLM 最多的场景:翻译、查资料、总结文章、写文案、寻求建议,较少用到代码、推理能力。所以会重点关注『中文』、『写作』、『指令跟随』、『幻觉率』、『逻辑推理』、『语言理解』、『代码』这几个能力的评测。

其中我认为最重要的、最基础的、实现 AGI 必须的能力是『逻辑推理』。几万年前人类进化得到『想象』能力,能够对世界上的事物和过程进行抽象和思考,进而获得『逻辑推理』能力,经过几千年古代世界之后发展出『科学』,再经过几百年的认识和改造世界,到现在终于开始创造出类似人类自己的智能。近两年,LLM 从基础模型发展到推理模型,主要提升的就是『逻辑推理』能力。

很同意知乎用户『toyama nao』的观点,每个人应该根据自己所需,对大模型进行考察,不可盲信任何评测。我一般会根据榜单挑选能力合适的几个 LLM,再根据自身所需进行试用,对比体验,再确定哪个 LLM 作为常用工具。每个 LLM 可能能力偏重点不同,因此不同场景会使用不同 LLM。

LLM 的评测榜单整理

评测榜单汇总

The Big Benchmarks Collection,HuggingFace 汇总的大模型评测基准及榜单。

大模型综合能力评测对比表,DataLearner 汇总的当前主流大模型在各评测数据集上的表现榜单。

大模型编程能力评测对比表,DataLearner 汇总的当前主流大模型在编程水平上的表现榜单。

按数据集评测的榜单

MMLU on HELM

斯坦福大学开发的一个广泛应用于评估 LLM 能力的基准测试工具,旨在全面测试模型在多个学科和任务中的知识掌握和问题解决能力。MMLU 包含 57 个主题,涵盖基础数学、美国历史、计算机科学、法律、伦理等多个领域,难度从初级到高级不等,适用于不同水平的测试。

榜单特点:LLM 评测工具中的抗把子,类似手机跑分的安兔兔,国内外大厂 LLM 发布时都要展示一下跑分。

榜上最好国产 LLM:DeepSeek-v3 位列第 2(20250303 数据)。

Humanity’s Last Exam

HLE 是一个处于人类知识前沿的多模态基准,旨在成为此类学术基准的最终封闭式标准,涵盖广泛的主题。该数据集由2700个跨越百余个学科的具有挑战性的问题组成。评测结果分为准确度和校准误差,后者反应大模型的幻觉程度。

榜单特点:聚焦最强的几个多模态模型,难度最高的评测基准,据说满分就是 AGI 了。

榜上最好国产 LLM:DeepSeek-R 1 位列第 5(20250303 数据)。

LiveBench

AbacusAI 联合杨立昆(Yann LeCun)团队、英伟达等团队共同推出的评测平台,引入了一组不断演变的测试基准,无法被 AI 系统简单地记忆,被誉为“世界上第一个不可玩弄的 LLM 基准测试”。

LiveBench 旨在通过定期发布新问题以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介的问题来限制潜在的评测基准的污染。

榜单特点:评测试题是不断更新的,有效防止 LLM 提前做过试题。

榜上最好国产 LLM:DeepSeek-R 1 位列第 5(20250303 数据)。

Open LLM Leaderboard

HuggingFace 的开源大模型排行榜,对数量众多的开源 LLM 进行 6 个关键基准进行模型评估,包括:IFEval(指令跟随)、BBH(复杂逻辑推理)、MATH(高中竞赛数学)、GPQA(博士级专业知识)、MuSR(推理能力)、MMLU-PRO(多学科知识和任务表现)。

榜单特点:聚焦于 100 B 参数量以下的开源 LLM,方便本地部署选择。

榜上最好国产 LLM:Qwen2.5-72B-Instruct-abliterated,位列第 5(20250303 数据)。

Berkeley Function Calling Leaderboard)

伯克利大学建立的评测系统,目标是全面、公正地评估各种大型语言模型在函数调用任务上的表现。函数调用能力的好坏通常意味着模型在解决复杂任务时候对工具的正确使用情况,是构建AI Agent系统中大模型最为重要的能力之一。

榜单特点:测试 LLM 使用工具的能力,原始人学会了用工具从而进化,AI 也一样。

榜上最好国产 LLM:Qwen2.5-72B-Instruct 位列第 17(20250303 数据)。

OpenCopass

由上海人工智能实验室研发的开源、高效、全面的评测大模型体系及开放平台,有专门的中文评测集。评测维度包含:语言、知识、推理、数学、代码、指令跟随。

榜单特点:完善可靠的国内 LLM 评测榜,榜单分为大语言模型和多模态模型,每隔两月更新一次。

榜上最好国产 LLM:目前 DeepSeek-R1 位列榜首(20250303 数据)。

FlagEval

智源 FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。评测维度包含:简单理解、知识运用、推理能力、数学能力、任务解决、安全与价值观。

榜单特点:完善可靠的国内 LLM 评测榜,具有大语言模型、多模态模型、金融量化交易榜单等多领域榜单,更新周期较久。

榜上最好国产 LLM:主观评测 Doubao-pro-32k 位列榜首,客观评测 o1-mini 位列榜首(20250303 数据)。

SuperBench

清华大学人工智能研究院基础模型研究中心,联合中关村实验室,发布的开源的大模型综合能力评测平台。评测维度包含:代码、对齐、安全、智能体、数理逻辑、指令遵循、社交只能。

榜单特点:评测的 LLM 数量较少,聚焦中文领域能力,每隔两月更新一次。

榜上最好国产 LLM:Qwen2.5-72B 位列第 5(20250303 数据)。

Chinese LLM Benchmark

CLiB 中文大模型能力评测榜单,一个持续更新的 GitHub 项目。评测维度:分类能力、信息抽取、阅读理解、数据分析、指令遵从、算术运算、初中数学、符号推理BBH、代词理解CLUEWSC、诗词匹配CCPM、公务员考试、律师资格考试JEC-QA、高考、高中学科、初中学科、小学学科、常识推理、文本蕴含、成语理解、情感分析、演绎推理、C3中文阅读理解、医师考试之规培结业、医师考试之执业助理医师。

榜单特点:涵盖非常多类型的 LLM 排行榜,如『输出价格1~5元商用大模型排行榜』,更新很快。

榜上最好国产 LLM:目前综合榜中 Doubao-1.5-pro-32k-250115 位列榜首(20250303 数据)。

知乎用户 toyama nao 的个人评测榜单

来自知乎用户 toyama nao 的个人评测,偏重作者个人使用偏好,侧重模型对逻辑,数学,编程,人类直觉等问题的测试,使用滚动更新的私有题库,每月更新评测。

榜单特点:作者个人向,测试题难度很高,评测 LLM 的极限能力。

榜上最好国产 LLM:目前 DeepSeek-R1 位列第 4(20250303 数据)。

Arc-AGI-2 20250326 增加

ARC-AGI-2 的设计是为了挑战 AI 的极限,同时保持对人类的相对容易。每个任务都经过控制实验,确保至少 2 名人类可以在 2 次尝试或更少的时间内解决。ARC-AGI-2 中的任务包括符号解释、组合推理和上下文规则应用等。这些任务对于人类来说相对容易,但对于 AI 来说却非常具有挑战性。

目前基础大语言模型在 ARC-AGI-2 上得分为 0%,推理模型也仅获得了个位数的百分比分数。

榜单特点:测试题目对于 AI 非常难,但对人较容易,目的是作为 AGI 的门槛,感觉类似 [[AI 大语言模型的测评榜,看这些就够了#[Humanity’s Last Exam](https //agi. Safe. Ai)]]。

榜上最好国产 LLM:目前 DeepSeek-R 1 位列第 9(正确率仅 1.3%😅,排第 1 的 o3 (low) 也才 4%)(20250326 数据)。

Aider LLM Leaderboards 20250424 增加

Aider 在编写和编辑代码方面表现出色,并使用基准来评估 LLM 在没有人为干预的情况下,成功地遵循指令和编辑代码的能力。Aider 的多语言基准测试在 C++、Go、Java、JavaScript、Python 和 Rust 等语言的 225 个具有挑战性的 Exercism 编码练习中测试 LLM。

榜单特点:新基准测试难度很高,使 LLM 的得分能够拉开差距,更清晰地比较顶级模型的相对性能。

榜上最好国产 LLM:目前 DeepSeek-R 1 位列第 10,正确率 56.9%(20250424 数据)。

Intelligent Document Processing Leaderboard 20250515 增加

智能文档处理(IDP)排行榜提供了一个全面的评估框架,用于评估各种AI模型在文档理解和处理任务中的能力。排行榜旨在为研究人员和实践者提供一个标准化的方式来比较这些多样化的文档处理任务的模型性能。每个任务都使用精心策划的数据集进行评估,这些数据集代表了现实世界的文档处理挑战。

榜单特点:榜单聚焦于多模态模型的文档处理能力,用于 OCR、知识提取、分类、问答、表格提取和置信度评分评估。

榜上最好国产 LLM:目前 qwen 2.5-vl-72 b-instruct 位列第 9(共 13 个模型上榜,20250515 数据)

xbench 20250718 增加

xbench不仅仅是一个排行榜——它是一个新的评估框架,包含两个互补的轨道,旨在衡量人工智能系统的智能前沿和实际应用价值。

  1. AGI Tracking:衡量核心模型能力,如推理、工具使用和记忆;
  2. 职业相关:一类新的评估,基于工作流程、环境和业务KPI,与领域专家共同设计。

榜上最好国产 LLM:xbench-ScienceQA 榜上目前最高国产模型是 Doubao-Seed-1.6,位列第 5(20250718 数据)

OCR Arena

OCR Arena是一个用于测试和评估在文档解析任务上领先的基座VLM和开源OCR模型的免费游乐场。上传文档,测量准确性,并在公共排行榜上为最佳模型投票。

榜上最好国产 LLM:榜上目前最高国产模型是Qwen3-VL-8B,为列第 13(20251130 数据)

其他数据集评测榜单

  • SuperCLUE:中文通用大模型综合性测评基准。
  • C-Eval:采用 1.4 万道涵盖 52 个学科的选择题,评估模型中文能力。

按竞技对战胜负的榜单

LMSYS Chatbot Arena

Chatbot Arena LLM Leaderboard,当今 AI 大模型江湖的兵器谱排行榜,最有名气的榜单,目前大模型发布都要亮个榜单排名。由加州大学伯克利分校等高校联合创立的开放研究组织 LMSYS Org 开发的大模型评测平台,通过匿名对战和用户投票评估 LLM 性能。

榜单特点:采用众包反馈机制,让用户对不同模型对同样问题的回答进行打分,从而区分出大模型能力高低,排名更接近用户实际使用体验。

榜上最好国产 LLM:目前 DeepSeek-R1 位列第 6(20250303 数据)。

其他对战榜单

  • SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准,评价机制类似于 LMSYS。榜单已经一年多没更新了
  • AlpacaEval:斯坦福大学发布的LLM排行榜,以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)(AlpacaEval)或 GPT-4 Preview (AlpacaEval 2.0)为基准,将目标模型与基准模型的回复进行比较,计算获胜率。官方榜单上缺少推理模型,也是很久没更新了
  • LYi 林哥的大模型野榜:B 站 UP 林亦LYi 团队制作的大模型应用竞技场,榜单上评测对象是万知、ChatGPT 这类聊天应用,非 LLM。

按幻觉产生率的榜单

HHEM Leaderboard

此排行榜(由 Vectara 提供)评估大型语言模型在总结文档时引入幻觉的频率。

目前榜单上幻觉率最低的 LLM 是 Gemini-2.0-flash-001(幻觉率 0.7),幻觉率最低的国产 LLM 是 DeepSeek-Chat(幻觉率 2.4),其他模型 DeepSeek-v3(幻觉率 3.9)、DeepSeek-R1(幻觉率 14.3)(20250303 数据)。

按性价比的榜单

  • LLM Price Check:简单的 LLM 的性能和价格对比,全部是国外模型,论性价比绝对打不过 DeepSeek。
  • Countless.dev | AI Model Comparison:一个包含各类模型价格的汇总表,包括:LLM、多模态模型、文生图模型、嵌入模型、TTS模型、语音转文本模型。

按价格的榜单

LLM API Pricing Data - Price Per Token:包括OpenAI、Anthropic、Google等主要LLM API的最新定价信息。比较不同AI模型的成本,找到最适合您用例的最佳价值。所有定价信息均来自OpenRouter.ai,LLM的统一接口。

按 OCR 能力(20250408 更新)

  • OCR Benchmark - Omni AI:一个基准测试工具,用于比较不同大型多模态模型(如gpt-4o)的 OCR 和数据提取能力,评估文本和 JSON 提取的准确性。此基准测试的目标是发布一个全面的 OCR 准确性基准,涵盖传统 OCR 提供商和多模态语言模型。

嵌入模型能力

MTEB Leaderboard - a Hugging Face Space by mteb:该排行榜对比了 100 多种文本和图像嵌入模型在 1000 多种语言上的表现。如需了解各项指标、支持的语言、具体任务及其类型等详细信息,请查阅相应的基准测试文档。