更新時(shí)間:2025-05-03 16:02:42來源:安勤游戲網(wǎng)
大模型競(jìng)技場(chǎng)的可信度,再次被錘。
最近一篇名為排行榜幻覺(The Leaderboard Illusion)的論文在學(xué)術(shù)圈引發(fā)關(guān)注。
它指出,如今被視為 LLM 領(lǐng)域首選排行榜的 Chatbot Arena,存在諸多系統(tǒng)問題。比如:
少數(shù)大廠可以私下測(cè)試多個(gè)模型版本,Llama4 在發(fā)布前甚至測(cè)了 27 個(gè)版本,然后只公開最佳表現(xiàn)。
數(shù)據(jù)訪問不平等,專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。
試用 Arena 數(shù)據(jù)訓(xùn)練,可提升模型性能高達(dá) 112%。
205 個(gè)模型被悄悄靜默棄用,遠(yuǎn)超過官方列出的 47 個(gè)。
大神卡帕西也站出來表示,他個(gè)人也察覺出了一些異樣。
有一段時(shí)間,Claude-3.5 是我覺得最好用的模型,但是在競(jìng)技場(chǎng)中排名很低。當(dāng)時(shí)我在網(wǎng)上也看到了類似的反饋。
對(duì)于最新質(zhì)疑,大模型競(jìng)技場(chǎng)官方 Lmrena.ai 已經(jīng)給出回應(yīng):
確實(shí)幫助廠商進(jìn)行測(cè)試,最后發(fā)布最受歡迎的版本;
但這不代表競(jìng)技場(chǎng)有偏見,排行榜反映數(shù)百萬人類的個(gè)人真實(shí)偏好。
快速刷榜不符合模型進(jìn)步實(shí)際情況
具體來看這項(xiàng)研究,它收集了 243 個(gè)模型的 200 + 萬場(chǎng)競(jìng)技場(chǎng) battle,并結(jié)合私人真實(shí)測(cè)試,通過模擬實(shí)驗(yàn)確定了不同情況下對(duì)模型排名的影響。
主要挖掘出了 4 方面問題。
第一,私人測(cè)試和有選擇性的結(jié)果報(bào)告。
少數(shù)大模型廠商(如 Meta、Google、Amazon)被允許私下測(cè)試多個(gè)模型變體,并只公開最佳表現(xiàn)的版本。
比如,Meta 在 Llama 4 發(fā)布前曾私下測(cè)試 27 個(gè)變體,加上多模態(tài)、代碼等榜單,Meta 可能一共測(cè)試過 43 個(gè)變體。
這種“最佳 N 選 1”策略導(dǎo)致排名膨脹。
例如,當(dāng)測(cè)試 5 個(gè)變體時(shí),期望分?jǐn)?shù)增加了約 20 分;當(dāng)測(cè)試 20 個(gè)變體時(shí),增加了約 40 分;當(dāng)測(cè)試 50 個(gè)變體時(shí),增加了約 50 分。
研究團(tuán)隊(duì)認(rèn)為,當(dāng)多個(gè)大模型廠商采用這種策略時(shí),他們實(shí)際上是在相互競(jìng)爭(zhēng)各自變體分布的最大值,而非真實(shí)的模型能力。
我們觀察到,像 Google、OpenAI 和 xAI 在短時(shí)間內(nèi)輪番霸榜,表明他們都在采用類似的策略。
例如,2024 年 11 月期間,Google 的 Gemini (Exp 1114)、OpenAI 的 ChatGPT-4o (20241120) 和 Google 的 Gemini (Exp 1121) 在一周內(nèi)先后占據(jù)榜首。類似地,2025 年 3 月 4 日,OpenAI 的 GPT-4.5 和 xAI 的 Grok-3 同一天爭(zhēng)奪榜首位置。
這種排行榜的快速變化不太可能反映真實(shí)的技術(shù)進(jìn)步,因?yàn)殚_發(fā)和完善一個(gè)全新的基礎(chǔ)模型通常需要數(shù)月時(shí)間。
相反,這很可能是多個(gè)大模型廠商同時(shí)使用“最佳 N 選 1”策略的結(jié)果,每個(gè)提供商都試圖優(yōu)化自己變體池中的最大值。
此外,團(tuán)隊(duì)還發(fā)現(xiàn)大模型廠商可以撤回表現(xiàn)不好的模型。
第二,數(shù)據(jù)訪問不平等。專有模型獲得的用戶反饋數(shù)據(jù)顯著多于開源模型。
Google 和 OpenAI 分別獲得了約 19.2% 和 20.4% 的所有測(cè)試數(shù)據(jù),而全部 83 個(gè)開放權(quán)重模型僅獲得約 29.7% 的數(shù)據(jù)。
第三,大模型廠商使用競(jìng)技場(chǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,排名可以顯著提升。
我們觀察到,將競(jìng)技場(chǎng)訓(xùn)練數(shù)據(jù)比例從 0% 增加到 70%,在 ArenaHard 上的勝率從 23.5% 提高到了 49.9%,實(shí)現(xiàn)了一倍多的增長(zhǎng)。
這還是一個(gè)保守估計(jì),因?yàn)椴糠痔峁┥虛碛袛?shù)據(jù)訪問優(yōu)勢(shì)。
第四,研究發(fā)現(xiàn),許多模型被”靜默棄用”(減少采樣率至接近 0%)。
在 243 個(gè)公開模型中,有 205 個(gè)被靜默棄用,遠(yuǎn)超過官方列出的 47 個(gè)。這種做法特別影響開源和開放權(quán)重模型,會(huì)導(dǎo)致排名不可靠。
在提出問題后,研究團(tuán)隊(duì)還給出了 5 點(diǎn)改進(jìn)建議:
禁止提交后撤回分?jǐn)?shù)
限制每個(gè)提供商的非正式模型數(shù)量
公平應(yīng)用模型棄用政策,所有模型一視同仁
實(shí)施公平采樣方法
提高模型棄用透明度,即時(shí)通知被淘汰模型
這項(xiàng)研究由 Cohere 團(tuán)隊(duì)、普林斯頓大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)研究人員共同提出。
其中 Cohere 也是一家大模型廠商,由 Transformer 作者 Aidan Gomez 等人創(chuàng)辦,推出了 Command R + 系列模型。
“競(jìng)技場(chǎng)不應(yīng)該是唯一基準(zhǔn)參考”
大模型競(jìng)技場(chǎng)誕生 2 年來,因?yàn)闄C(jī)制的特殊性,其參考價(jià)值越來越高,大廠發(fā)模型也必來這里打榜,甚至是將未發(fā)布模型提前在此預(yù)熱造勢(shì)。
它最大的優(yōu)勢(shì)在于基于人類偏好評(píng)估,用戶可以在同一平臺(tái)上同時(shí)運(yùn)行多個(gè)聊天機(jī)器人模型,如 GPT-4、ChatGPT-3.5 等,并針對(duì)相同的問題或任務(wù)進(jìn)行比較分析,可以更直觀感受不同模型的差異。
最近一段時(shí)間,由于 Llama4 刷榜風(fēng)波,給競(jìng)技場(chǎng)的可信度也造成了一定影響。
對(duì)于這篇質(zhì)疑論文,官方現(xiàn)在已做出回應(yīng)。反駁了一些問題:
LMArena 模擬的缺陷:圖 7/8 中的模擬存在問題。這就像說:NBA 球員的平均三分命中率是 35%。斯蒂芬?庫(kù)里擁有 NBA 球員最高的三分命中率 42%。這不公平,因?yàn)樗麃碜?NBA 球員的分布,而所有球員都有相同的潛在平均水平。
數(shù)據(jù)不實(shí):文章中的許多數(shù)據(jù)并不反映現(xiàn)實(shí):請(qǐng)參閱幾天前發(fā)布的博客了解來自不同提供商測(cè)試模型數(shù)量的實(shí)際統(tǒng)計(jì)數(shù)據(jù)。例如,開放模型占比為 40%,而非文章聲稱的 8.8%!
112% 性能提升的誤導(dǎo)性說法:這一說法基于 LLM 評(píng)判基準(zhǔn)而非競(jìng)技場(chǎng)中的實(shí)際人類評(píng)估。
政策并非“不透明”:我們?cè)O(shè)計(jì)并公開分享了政策,且這一政策已存在一年多。
模型提供商并非只選擇“最佳分?jǐn)?shù)披露”:任何列在公共排行榜上的模型都必須是向所有人開放且有長(zhǎng)期支持計(jì)劃的生產(chǎn)模型。我們會(huì)繼續(xù)使用新數(shù)據(jù)對(duì)模型進(jìn)行至少一個(gè)月的測(cè)試。這些要點(diǎn)一直在我們的政策中明確說明。
展示非公開發(fā)布模型的分?jǐn)?shù)毫無意義:對(duì)于通過 API 或開放權(quán)重不公開可用的預(yù)發(fā)布模型顯示分?jǐn)?shù)沒有意義,因?yàn)樯鐓^(qū)無法使用這些模型或自行測(cè)試。這會(huì)違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規(guī)則:如果模型在排行榜上,它應(yīng)該可供使用。
模型移除不平等或不透明的說法不實(shí):排行榜旨在反映社區(qū)興趣,對(duì)最佳 AI 模型進(jìn)行排名。我們也會(huì)淘汰不再向公眾開放的模型,這些標(biāo)準(zhǔn)在我們與社區(qū)進(jìn)行私人測(cè)試的整個(gè)期間都已在政策中公開說明。
至于情況到底如何,可能還要等子彈飛一會(huì)兒。
不過這倒是也給 AI 社區(qū)提了個(gè)醒,或許不能只參考一個(gè)榜單了。
卡帕西就給出了一個(gè)備選項(xiàng):OpenRouter。
OpenRouter 可以提供一個(gè)統(tǒng)一 API 接口來訪問使用不同模型,而且更加關(guān)注實(shí)際使用案例。
盡管在多樣性和使用量上還不夠優(yōu)秀,但我認(rèn)為它有很大潛力。
參考鏈接:
[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890
相關(guān)資訊
其他推薦