LLM | 桃花岛种桃

关于大模型评测榜单 2022 年 ChatGPT 横空出世之后，国内外各家 AI 公司跟进步伐，训练出大量大语言模型（LLM）。两年过去，各家 LLM 的能力不断提升。不仅价格，LLM 智能水平也是用户选择 LLM 最关心的因素。就像武侠世界论武功高低要看兵器谱排行榜，许多 LLM 评测榜单应运而生。目前评测机制大概分两种。第一种类似学生考试，编制好的试题（评测数据集）让 LLM 做，看能做对多少题获得多少分。第二种类似足球联赛积分制，LLM 两两比拼一下，赢的一方得一分，比拼次数越多，排行榜上就体现高低差距了。 ...