benchmark evidence

Chatbot Arena (LMSYS)

Human-preference Bradley-Terry ratings from LMSYS Chatbot Arena. Community-voted pairwise comparisons.

winner on Chatbot Arena (LMSYS)

direct benchmark result, not a broad vertical composite | source row dated 2026-07-12

scored on 2026-07-12

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	Anthropic: Claude Opus 4.6 Anthropic	99.4	model-only independent_benchmark	2026-07-12
2	Anthropic: Claude Opus 4.7 Anthropic	98.5	model-only independent_benchmark	2026-07-12
3	OpenAI: GPT-5.5 Openai	93.5	model-only independent_benchmark	2026-07-12
4	Anthropic: Claude Sonnet 4.6 Anthropic	92.9	model-only independent_benchmark	2026-07-12
5	Anthropic: Claude Opus 4.5 Anthropic	92.3	model-only independent_benchmark	2026-07-12
6	OpenAI: GPT-5.4 Openai	91.4	model-only independent_benchmark	2026-07-12
7	DeepSeek: DeepSeek V4 Pro Deepseek	89.3	model-only independent_benchmark	2026-07-12
8	Z.ai: GLM 5 Z Ai	89.1	model-only independent_benchmark	2026-07-12
9	Anthropic: Claude Sonnet 4.5 Anthropic	88.8	model-only independent_benchmark	2026-07-12
10	OpenAI: GPT-5.4 Mini Openai	87.3	model-only independent_benchmark	2026-07-12
11	Google: Gemini 2.5 Pro Google	86.4	model-only independent_benchmark	2026-07-12
12	OpenAI: GPT-5.1 Openai	84.7	model-only independent_benchmark	2026-07-12
13	DeepSeek: DeepSeek V4 Flash Deepseek	84.4	model-only independent_benchmark	2026-07-12
14	OpenAI: GPT-5.2 Openai	83.8	model-only independent_benchmark	2026-07-12
15	OpenAI: o3 Openai	82.7	model-only independent_benchmark	2026-07-12
16	OpenAI: GPT-5 Openai	81.6	model-only independent_benchmark	2026-05-19
17	DeepSeek: DeepSeek V3.2 Deepseek	81.3	model-only independent_benchmark	2026-07-12
18	MoonshotAI: Kimi K2 Thinking Moonshotai	79.4	model-only independent_benchmark	2026-05-19
19	OpenAI: GPT-4.1 Openai	78.4	model-only independent_benchmark	2026-07-12
20	Anthropic: Claude Haiku 4.5 Anthropic	78.0	model-only independent_benchmark	2026-07-12

what this result means

Human-preference Bradley-Terry ratings from LMSYS Chatbot Arena. Community-voted pairwise comparisons.

Human preference is useful, but presentation style and familiarity can move arena votes.

A win here is a win on Chatbot Arena (LMSYS). Broad task pages require independent corroboration before naming a general winner.

source record

category: overall

metric: bradley_terry

matched models: 34

latest source date: 2026-07-12

direction: higher is better

inspect upstream source ->