AI 大语言模型的测评榜,看这些就够了

关于大模型评测榜单 2022 年 ChatGPT 横空出世之后,国内外各家 AI 公司跟进步伐,训练出大量大语言模型(LLM)。两年过去,各家 LLM 的能力不断提升。不仅价格,LLM 智能水平也是用户选择 LLM 最关心的因素。 就像武侠世界论武功高低要看兵器谱排行榜,许多 LLM 评测榜单应运而生。 目前评测机制大概分两种。第一种类似学生考试,编制好的试题(评测数据集)让 LLM 做,看能做对多少题获得多少分。第二种类似足球联赛积分制,LLM 两两比拼一下,赢的一方得一分,比拼次数越多,排行榜上就体现高低差距了。 ...

2025年3月14日 · 11 分钟 · tsingk