RANKINGS

LLM Leaderboard rankings. Compare large language models by GPQA, AIME 2025, SWE-bench, HLE, MMMLU, BrowseComp, and MMMU-Pro benchmark scores.

Showing 1–20 of 128

#	Model
1	Anthropicclaude-mythos-preview	86.6%	94.6%	—	93.9%	92.7%	86.9%	64.7%	—
2	Metamuse-spark	—	89.5%	—	77.4%	—	—	58.4%	80.4%
3	Anthropicclaude-opus-4-8	—	93.6%	—	88.6%	—	84.3%	57.9%	—
4	OpenAIgpt-5.5-pro	—	—	—	—	—	90.1%	57.2%	—
5	Anthropicclaude-opus-4-7	81.5%	94.2%	—	87.6%	91.5%	79.3%	54.7%	—
6	Anthropicclaude-opus-4-6	82.5%	91.3%	99.8%	80.8%	91.1%	84.0%	53.1%	77.3%
7	OpenAIgpt-5.5	—	93.6%	—	—	—	84.4%	52.2%	83.2%
8	Googlegemini-3.1-pro-preview	80.9%	94.3%	—	80.6%	92.6%	85.9%	51.4%	80.5%
9	xAIgrok-4-heavy	—	88.4%	100.0%	—	—	—	50.7%	—
10	Anthropicclaude-sonnet-4-6	76.3%	89.9%	—	79.6%	89.3%	74.7%	49.0%	75.6%
11	Googlegemini-3-pro-preview	81.1%	91.9%	100.0%	76.2%	91.8%	—	45.8%	81.0%
12	Googlegemini-3-flash-preview	80.8%	90.4%	99.7%	78.0%	91.8%	—	43.5%	81.2%
13	Alibaba Cloud / Qwen Teamqwen3.7-max	—	92.4%	—	80.4%	90.3%	—	41.4%	—
14	Googlegemini-3.5-flash	—	—	—	—	—	—	40.2%	83.6%
15	xAIgrok-4	—	87.5%	91.7%	—	—	—	40.0%	—
16	OpenAIgpt-5.4	—	92.8%	—	—	—	82.7%	39.8%	81.2%
17	Baiduernie-5.0	—	85.0%	87.0%	—	—	—	39.0%	—
18	OpenAIgpt-5.2-pro-2025-12-11	—	93.2%	100.0%	—	—	77.9%	36.6%	—
19	OpenAIgpt-5.2-2025-12-11	77.4%	92.4%	100.0%	80.0%	89.6%	65.8%	34.5%	79.5%
20	Alibaba Cloud / Qwen Teamqwen3.6-plus	73.3%	90.4%	—	78.8%	89.5%	—	28.8%	78.8%