benchmark evidence

LiveBench Language

LiveBench language benchmark.

winner on LiveBench Language

direct benchmark result, not a broad vertical composite | source row dated 2026-05-20

scored on 2026-05-20 · stale source data (55d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	OpenAI: o1 Openai	77.4	model-only independent_benchmark	2026-05-20
2	Google: Gemini 2.5 Pro Google	55.2	model-only independent_benchmark	2026-05-20
3	DeepSeek: R1 Deepseek	49.4	model-only independent_benchmark	2026-05-20
4	OpenAI: GPT-5 Openai	49.0	model-only independent_benchmark	2026-05-20
5	DeepSeek: DeepSeek V3.2 Deepseek	48.7	model-only independent_benchmark	2026-05-20
6	Meta: Llama 4 Maverick Meta Llama	47.2	model-only independent_benchmark	2026-05-20
7	OpenAI: o3 Mini Openai	45.0	model-only independent_benchmark	2026-05-20
8	Google: Gemini 2.0 Flash Google	43.6	model-only independent_benchmark	2026-05-20
9	Mistral Large Mistralai	42.2	model-only independent_benchmark	2026-05-20
10	Amazon: Nova Pro 1.0 Amazon	41.1	model-only independent_benchmark	2026-05-20
11	Google: Gemma 3 27B Google	40.4	model-only independent_benchmark	2026-05-20
12	Google: Gemini 2.0 Flash Lite Google	38.1	model-only independent_benchmark	2026-05-20
13	Qwen2.5 Coder 32B Instruct Qwen	37.0	model-only independent_benchmark	2026-05-20
14	Meta: Llama 3.3 70B Instruct Meta Llama	34.3	model-only independent_benchmark	2026-05-20
15	Mistral: Mistral Small 4 Mistralai	33.8	model-only independent_benchmark	2026-05-20
16	DeepSeek: DeepSeek V4 Pro Deepseek	30.2	model-only independent_benchmark	2026-05-08

what this result means

LiveBench language benchmark.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on LiveBench Language. Broad task pages require independent corroboration before naming a general winner.

source record

category: writing

metric: accuracy

matched models: 16

latest source date: 2026-05-20

direction: higher is better