benchmark evidence

LiveBench Instruction Following

LiveBench instruction_following benchmark.

winner on LiveBench Instruction Following

direct benchmark result, not a broad vertical composite | source row dated 2026-05-20

scored on 2026-05-20 · stale source data (55d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	DeepSeek: DeepSeek V3.2 Deepseek	86.8	model-only independent_benchmark	2026-05-20
2	Google: Gemini 2.0 Flash Lite Google	84.2	model-only independent_benchmark	2026-05-20
3	Google: Gemini 2.5 Pro Google	83.2	model-only independent_benchmark	2026-05-20
4	OpenAI: o1 Openai	83.2	model-only independent_benchmark	2026-05-20
5	DeepSeek: R1 Deepseek	80.6	model-only independent_benchmark	2026-05-20
6	OpenAI: o3 Mini Openai	79.8	model-only independent_benchmark	2026-05-20
7	Meta: Llama 4 Maverick Meta Llama	79.6	model-only independent_benchmark	2026-05-20
8	Meta: Llama 3.3 70B Instruct Meta Llama	79.0	model-only independent_benchmark	2026-05-20
9	Google: Gemini 2.0 Flash Google	75.9	model-only independent_benchmark	2026-05-20
10	Google: Gemma 3 27B Google	71.5	model-only independent_benchmark	2026-05-20
11	Amazon: Nova Pro 1.0 Amazon	70.1	model-only independent_benchmark	2026-05-20
12	OpenAI: GPT-5 Openai	70.1	model-only independent_benchmark	2026-05-20
13	Mistral Large Mistralai	69.9	model-only independent_benchmark	2026-05-20
14	DeepSeek: DeepSeek V4 Pro Deepseek	65.2	model-only independent_benchmark	2026-05-08
15	Qwen2.5 Coder 32B Instruct Qwen	64.9	model-only independent_benchmark	2026-05-20
16	Mistral: Mistral Small 4 Mistralai	62.4	model-only independent_benchmark	2026-05-20

what this result means

LiveBench instruction_following benchmark.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on LiveBench Instruction Following. Broad task pages require independent corroboration before naming a general winner.

source record

category: overall

metric: accuracy

matched models: 16

latest source date: 2026-05-20

direction: higher is better