benchmark evidence

WebDev Arena

Arena.ai WebDev / Code Arena frontier coding preference leaderboard.

winner on WebDev Arena

direct benchmark result, not a broad vertical composite | source row dated 2026-07-10

scored on 2026-07-10

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	Anthropic: Claude Opus 4.7 Anthropic	100.0	model-only independent_benchmark	2026-07-10
2	Anthropic: Claude Opus 4.6 Anthropic	100.0	model-only independent_benchmark	2026-07-10
3	Anthropic: Claude Sonnet 4.6 Anthropic	100.0	model-only independent_benchmark	2026-07-10
4	Anthropic: Claude Opus 4.5 Anthropic	91.5	model-only independent_benchmark	2026-07-10
5	DeepSeek: DeepSeek V4 Pro Deepseek	86.5	model-only independent_benchmark	2026-07-10
6	Z.ai: GLM 5 Z Ai	82.6	model-only independent_benchmark	2026-07-10
7	OpenAI: GPT-5.2 Openai	76.3	model-only independent_benchmark	2026-07-10
8	OpenAI: GPT-5.4 Mini Openai	74.3	model-only independent_benchmark	2026-07-10
9	OpenAI: GPT-5.4 Openai	73.1	model-only independent_benchmark	2026-07-10
10	Anthropic: Claude Sonnet 4.5 Anthropic	71.5	model-only independent_benchmark	2026-07-10
11	OpenAI: GPT-5.1 Openai	59.9	model-only independent_benchmark	2026-07-10
12	DeepSeek: DeepSeek V3.2 Deepseek	58.0	model-only independent_benchmark	2026-07-10
13	Anthropic: Claude Haiku 4.5 Anthropic	56.6	model-only independent_benchmark	2026-07-10
14	Google: Gemini 2.5 Pro Google	26.1	model-only independent_benchmark	2026-07-10

what this result means

Arena.ai WebDev / Code Arena frontier coding preference leaderboard.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on WebDev Arena. Broad task pages require independent corroboration before naming a general winner.

source record

category: coding

metric: accuracy

matched models: 14

latest source date: 2026-07-10

direction: higher is better