benchmark evidence

LiveBench Coding

LiveBench coding benchmark.

winner on LiveBench Coding

direct benchmark result, not a broad vertical composite | source row dated 2026-05-20

scored on 2026-05-20 · stale source data (55d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	DeepSeek: DeepSeek V3.2 Deepseek	71.1	model-only independent_benchmark	2026-05-20
2	DeepSeek: R1 Deepseek	70.3	model-only independent_benchmark	2026-05-20
3	OpenAI: o3 Mini Openai	69.5	model-only independent_benchmark	2026-05-20
4	Google: Gemini 2.5 Pro Google	63.3	model-only independent_benchmark	2026-05-20
5	Qwen2.5 Coder 32B Instruct Qwen	57.0	model-only independent_benchmark	2026-05-20
6	Google: Gemini 2.0 Flash Google	54.7	model-only independent_benchmark	2026-05-20
7	OpenAI: o1 Openai	52.3	model-only independent_benchmark	2026-05-20
8	Meta: Llama 4 Maverick Meta Llama	51.1	model-only independent_benchmark	2026-05-20
9	Mistral Large Mistralai	46.9	model-only independent_benchmark	2026-05-20
10	OpenAI: GPT-5 Openai	46.1	model-only independent_benchmark	2026-05-20
11	DeepSeek: DeepSeek V4 Pro Deepseek	44.4	model-only independent_benchmark	2026-05-08
12	Google: Gemini 2.0 Flash Lite Google	43.8	model-only independent_benchmark	2026-05-20
13	Google: Gemma 3 27B Google	39.8	model-only independent_benchmark	2026-05-20
14	Amazon: Nova Pro 1.0 Amazon	39.1	model-only independent_benchmark	2026-05-20
15	Mistral: Mistral Small 4 Mistralai	36.7	model-only independent_benchmark	2026-05-20
16	Meta: Llama 3.3 70B Instruct Meta Llama	20.0	model-only independent_benchmark	2026-05-20

what this result means

LiveBench coding benchmark.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on LiveBench Coding. Broad task pages require independent corroboration before naming a general winner.

source record

category: coding

metric: accuracy

matched models: 16

latest source date: 2026-05-20

direction: higher is better