benchmark evidence

SWE-bench Verified

Real-world GitHub issue resolution benchmark.

activecoding rankings ->upstream source ->

winner on SWE-bench Verified

direct benchmark result, not a broad vertical composite | source row dated 2000-01-01

scored on 2026-04-15 · stale source data (91d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	Anthropic: Claude Opus 4.6 Anthropic	80.8	model-only independent_benchmark	2000-01-01
2	DeepSeek: DeepSeek V4 Pro Deepseek	80.6	model-only independent_benchmark	2000-01-01
3	OpenAI: GPT-5.2 Openai	80.0	model-only independent_benchmark	2000-01-01
4	DeepSeek: DeepSeek V4 Flash Deepseek	79.0	model-only independent_benchmark	2000-01-01
5	Z.ai: GLM 5 Z Ai	77.8	model-only independent_benchmark	2000-01-01
6	OpenAI: GPT-5.1 Openai	76.3	model-only independent_benchmark	2000-01-01
7	Anthropic: Claude Opus 4.5 Anthropic	76.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-04-15
8	Anthropic: Claude Haiku 4.5 Anthropic	73.3	model-only independent_benchmark	2000-01-01
9	DeepSeek: DeepSeek V3.2 Deepseek	73.1	model-only independent_benchmark	2000-01-01
10	Anthropic: Claude Sonnet 4.5 Anthropic	72.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-04-15
11	MoonshotAI: Kimi K2 Thinking Moonshotai	71.3	model-only independent_benchmark	2000-01-01
12	Anthropic: Claude Opus 4.7 Anthropic	69.0	agent-dependent independent_benchmark \| SWE-agent	2026-03-15
13	OpenAI: GPT-5 Openai	68.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-03-15
14	Anthropic: Claude Sonnet 4.6 Anthropic	64.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-03-15
15	OpenAI: o3 Openai	61.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-02-15
16	OpenAI: GPT-4.1 Openai	59.6	agent-dependent independent_benchmark \| SWE-agent	2026-04-15
17	OpenAI: o4 Mini Openai	57.0	agent-dependent independent_benchmark \| mini-swe-agent	2026-02-15
18	OpenAI: o1 Openai	52.0	agent-dependent independent_benchmark \| SWE-agent	2025-09-15
19	DeepSeek: R1 Deepseek	49.0	agent-dependent independent_benchmark \| OpenHands	2026-01-15
20	Google: Gemini 2.5 Pro Google	48.0	agent-dependent independent_benchmark \| SWE-agent	2025-09-15

what this result means

Real-world GitHub issue resolution benchmark.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on SWE-bench Verified. Broad task pages require independent corroboration before naming a general winner.

source record

category: coding

metric: resolved_percent

matched models: 21

latest source date: 2026-04-15

direction: higher is better

inspect upstream source ->