<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>LLM on 桃花岛种桃</title><link>https://blog.kangq.wang/tags/llm/</link><description>Recent content in LLM on 桃花岛种桃</description><generator>Hugo -- 0.155.3</generator><language>zh-cn</language><lastBuildDate>Fri, 14 Mar 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.kangq.wang/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 大语言模型的测评榜，看这些就够了</title><link>https://blog.kangq.wang/aidayuyanmoxingdeceping/</link><pubDate>Fri, 14 Mar 2025 00:00:00 +0000</pubDate><guid>https://blog.kangq.wang/aidayuyanmoxingdeceping/</guid><description>&lt;h1 id="关于大模型评测榜单"&gt;关于大模型评测榜单&lt;/h1&gt;
&lt;p&gt;2022 年 ChatGPT 横空出世之后，国内外各家 AI 公司跟进步伐，训练出大量大语言模型（LLM）。两年过去，各家 LLM 的能力不断提升。不仅价格，LLM 智能水平也是用户选择 LLM 最关心的因素。&lt;/p&gt;
&lt;p&gt;就像武侠世界论武功高低要看兵器谱排行榜，许多 LLM 评测榜单应运而生。&lt;/p&gt;
&lt;p&gt;目前评测机制大概分两种。第一种类似学生考试，编制好的试题（评测数据集）让 LLM
做，看能做对多少题获得多少分。第二种类似足球联赛积分制，LLM 两两比拼一下，赢的一方得一分，比拼次数越多，排行榜上就体现高低差距了。&lt;/p&gt;</description></item></channel></rss>