developer_tools

Best LLM for Autonomous Coding

Benchmark-backed ranking of models for end-to-end autonomous software engineering and issue resolution.

#1 Recommendation

gpt-5-2025-08-07

Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct

external/openai/gpt-5-2025-08-07

22.9%

Score

26.7%

Confidence

Evidence

Runners-up:#2 anthropic/claude-opus-4.7 (21.2%)#3 anthropic/claude-sonnet-4 (20.3%)#4 gemini-3-pro-preview (18.8%)

Ranked Models

Evidence Quality

92%

Evidence Points

Top Signal

SWE-bench Verified Leaderboard: swe_verified_resolved_pct

Benchmark Sources

Last Updated

5h ago

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥉	gpt-5-2025-08-07 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	22.9%	27%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#4	claude-opus-4.7 Strong on OpenHands Index average_score_pct and OpenHands Issue Resolution issue_resolution_score_pct	21.2%	23%	—	OpenHands Index·May 1, 2026OpenHands Issue Resolution·May 1, 2026
#5	claude-sonnet-4 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	20.3%	27%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#8	gemini-3-pro-preview Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	18.8%	22%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#10	Kimi K2 Thinking Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	18.6%	36%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#12	GLM-5 Strong on SWE-bench Leaderboard verified_resolved_pct and OpenHands Issue Resolution issue_resolution_score_pct	17.6%	26%	—	SWE-bench Leaderboard·May 1, 2026OpenHands Issue Resolution·May 1, 2026
#13	o3-20250416 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Aider Polyglot Leaderboard percent_correct_pct	17.6%	24%	—	SWE-bench Verified Leaderboard·May 1, 2026Aider Polyglot Leaderboard·May 1, 2026
#14	kimi-k2.5-thinking Strong on SWE-bench Leaderboard verified_resolved_pct and OpenHands Issue Resolution issue_resolution_score_pct	16.6%	28%	—	SWE-bench Leaderboard·May 1, 2026OpenHands Issue Resolution·May 1, 2026
#15	gpt-5.2-2025-12-11 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	16.3%	20%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#16	o4-mini Strong on SWE-bench Leaderboard verified_resolved_pct and SWE-bench Verified Leaderboard swe_verified_resolved_pct	15.7%	23%	—	SWE-bench Leaderboard·May 1, 2026SWE-bench Verified Leaderboard·May 1, 2026
#19	claude-opus-4-5-20251101 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	15.2%	19%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#21	gpt-4.1-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct	14.6%	25%	—	Galileo Agent Leaderboard v2·May 1, 2026SWE-bench Verified Leaderboard·May 1, 2026
#23	gemini-2.5-pro Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	14.1%	20%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#25	claude-sonnet-4.6 Strong on OpenHands Issue Resolution issue_resolution_score_pct and OpenHands Index greenfield_score_pct	13.5%	23%	—	OpenHands Issue Resolution·May 1, 2026OpenHands Index·May 1, 2026
#26	qwen-2.5-coder32b-instruct Strong on BigCode Models Leaderboard average_score and BigCodeBench Official bigcodebench_complete_pct	13.5%	29%	—	BigCode Models Leaderboard·Apr 29, 2026BigCodeBench Official·Apr 29, 2026
#28	Kimi-K2-Instruct Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	12.9%	19%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#29	GLM-4.6 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Berkeley Function Calling Leaderboard (Overall) Overall Acc	12.7%	15%	—	SWE-bench Verified Leaderboard·May 1, 2026Berkeley Function Calling Leaderboard (Overall)·May 1, 2026
#31	GLM-5.1 Strong on OpenHands Issue Resolution issue_resolution_score_pct and OpenHands Index average_score_pct	12.6%	17%	—	OpenHands Issue Resolution·May 1, 2026OpenHands Index·May 1, 2026
#33	gpt-4o Strong on TestEval Leaderboard overall_average_coverage_pct and SWE-bench Verified Leaderboard swe_verified_resolved_pct	12.0%	20%	—	TestEval Leaderboard·May 1, 2026SWE-bench Verified Leaderboard·May 1, 2026
#36	qwen-2.5-72b-instruct Strong on Galileo Agent Leaderboard v2 Avg AC and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	11.9%	16%	—	Galileo Agent Leaderboard v2·May 1, 2026Open LLM Leaderboard MMLU-Pro·May 1, 2026
#37	gpt-5-mini-2025-08-07 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	11.7%	17%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#39	minimax-m2.1 Strong on OpenHands Issue Resolution issue_resolution_score_pct and Sonar Java Quality Leaderboard functional_skill_pct	10.9%	26%	—	OpenHands Issue Resolution·May 1, 2026Sonar Java Quality Leaderboard·May 1, 2026
#40	gemini-2.5-flash Strong on Berkeley Function Calling Leaderboard (Overall) Overall Acc and SWE-bench Leaderboard verified_resolved_pct	10.2%	18%	—	Berkeley Function Calling Leaderboard (Overall)·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#42	Grok-4-0709 Strong on Berkeley Function Calling Leaderboard (Overall) Overall Acc and Galileo Agent Leaderboard v2 Avg AC	10.1%	15%	—	Berkeley Function Calling Leaderboard (Overall)·May 1, 2026Galileo Agent Leaderboard v2·May 1, 2026
#43	gemini-3-flash-preview Strong on SWE-bench Leaderboard verified_resolved_pct and Vals LiveCodeBench overall_accuracy_pct	9.7%	11%	—	SWE-bench Leaderboard·May 1, 2026Vals LiveCodeBench·May 1, 2026
#50	deepseek-r1 Strong on Aider Polyglot Leaderboard percent_correct_pct and Sonar Java Quality Leaderboard functional_skill_pct	8.8%	12%	—	Aider Polyglot Leaderboard·May 1, 2026Sonar Java Quality Leaderboard·May 1, 2026
#52	gpt-5.1-2025-11-13 Strong on SWE-bench Leaderboard verified_resolved_pct and Vals LiveCodeBench overall_accuracy_pct	8.5%	11%	—	SWE-bench Leaderboard·May 1, 2026Vals LiveCodeBench·May 1, 2026
#55	gpt-4o-2024-08-06 Strong on SWE-bench Leaderboard verified_resolved_pct and BigCodeBench Official bigcodebench_hard_complete_pct	8.0%	18%	—	SWE-bench Leaderboard·May 1, 2026BigCodeBench Official·Apr 29, 2026
#58	GLM-4.5 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct	7.8%	10%	—	SWE-bench Verified Leaderboard·May 1, 2026SWE-bench Leaderboard·May 1, 2026
#60	gpt-4.1-mini-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct	7.5%	16%	—	Galileo Agent Leaderboard v2·May 1, 2026SWE-bench Verified Leaderboard·May 1, 2026

Head-to-Head: #1 vs #2

Top Pick

gpt-5-2025-08-07

Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and SWE-bench Leaderboard verified_resolved_pct

22.9%

Conf 26.7%

anthropic/claude-opus-4.7

Strong on OpenHands Index average_score_pct and OpenHands Issue Resolution issue_resolution_score_pct

21.2%

Conf 22.7%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Function Calling

Compare models for reliable tool use, function selection, and multi-step API orchestration.

Best LLM for Refactoring

Ranked models for safely refactoring code while preserving behavior and improving clarity.