benchmark evidence

LiveCodeBench

LiveCodeBench coding benchmark scores from LLM-Stats.

winner on LiveCodeBench

direct benchmark result, not a broad vertical composite | source row dated 2000-01-01

scored on 2025-02-01 · stale source data (528d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	DeepSeek: DeepSeek V4 Pro Deepseek	93.5	model-only independent_benchmark	2000-01-01
2	DeepSeek: DeepSeek V4 Flash Deepseek	91.6	model-only independent_benchmark	2000-01-01
3	OpenAI: o4 Mini Openai	74.5	model-only independent_benchmark	2025-02-01
4	OpenAI: o1 Openai	71.0	model-only independent_benchmark	2025-02-01
5	Qwen: Qwen3 235B A22B Qwen	70.7	model-only independent_benchmark	2000-01-01
6	OpenAI: o3 Mini Openai	69.5	model-only independent_benchmark	2025-02-01
7	Google: Gemini 2.5 Pro Google	69.2	model-only independent_benchmark	2025-02-01
8	Qwen: Qwen3 32B Qwen	65.7	model-only independent_benchmark	2000-01-01
9	DeepSeek: R1 Deepseek	62.8	model-only independent_benchmark	2025-02-01
10	Qwen: Qwen3 30B A3B Qwen	62.6	model-only independent_benchmark	2000-01-01
11	MoonshotAI: Kimi K2 Thinking Moonshotai	53.7	model-only independent_benchmark	2000-01-01
12	Meta: Llama 4 Maverick Meta Llama	43.4	model-only independent_benchmark	2000-01-01
13	DeepSeek: DeepSeek V3.2 Deepseek	34.6	model-only independent_benchmark	2025-02-01
14	OpenAI: GPT-5 Openai	32.9	model-only independent_benchmark	2025-02-01
15	Google: Gemini 2.0 Flash Google	31.8	model-only independent_benchmark	2025-02-01
16	Mistral Large Mistralai	27.1	model-only independent_benchmark	2025-02-01

what this result means

LiveCodeBench coding benchmark scores from LLM-Stats.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on LiveCodeBench. Broad task pages require independent corroboration before naming a general winner.

source record

category: coding

metric: pass@1

matched models: 16

latest source date: 2025-02-01

direction: higher is better