developer_tools

Autonomous Coding Agent

End-to-end autonomous software engineering: reading issues, writing code, running tests, submitting PRs.

#1 Recommendation

Kimi K2 Thinking

Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct (80%) and Sonar Java Quality Leaderboard functional_skill_pct (88%)

external/kimi/kimi-k2-thinking

16.8%

Score

42.9%

Confidence

Runners-up:#2 GLM-5 (16.8%)#3 anthropic/claude-sonnet-4.6 (16.6%)#4 gemini-3-pro-preview (15.2%)

Limited benchmark evidence for this use case.

25 ranked models with average evidence of 17.2 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

82%

Scoring

Benchmark-backed

Top Signal

SWE-bench Verified Leaderboard: swe_verified_resolved_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

25 of 25

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#8	Kimi K2 Thinking	16.8%	42.9%	26	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#9	GLM-5	16.8%	29.8%	17	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#10	anthropic/claude-sonnet-4.6	16.6%	31.4%	26	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) OpenHands Index greenfield_score_pct (Mar 17, 2026)
#13	gemini-3-pro-preview	15.2%	18.6%	23	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#15	gemini-2.5-pro	14.3%	18.8%	24	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026)
#16	openai/gpt-4.1	14.1%	15.8%	13	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Aider Polyglot Leaderboard percent_correct_pct (Mar 17, 2026)
#17	kimi/kimi-k2.5-thinking	13.9%	32.1%	26	OpenHands Index average_score_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#18	gpt-4.1-20250414	13.5%	21.6%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#19	claude-opus-4-5-20251101	13.4%	15.3%	17	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#21	gpt-5.2-2025-12-11	12.8%	14.5%	14	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#24	minimax/minimax-m2.1	11.2%	36.0%	26	Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#25	gpt-4o	11.1%	21.4%	17	τ-bench Airline (Official README) tau_airline_pass1_pct (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#26	deepseek/deepseek-r1	10.6%	15.2%	18	Aider Polyglot Leaderboard percent_correct_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#28	o3-20250416	10.1%	13.8%	16	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#30	Grok-4-0709	9.2%	13.7%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#31	claude-sonnet-4-20250514	9.1%	12.1%	18	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#32	gpt-4.1-mini-20250414	8.9%	17.2%	11	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#33	gpt-4o-20241120	8.8%	20.7%	14	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026)
#34	z-ai/glm-4.7	8.7%	12.5%	15	Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#35	Kimi-K2-Instruct	8.6%	12.7%	4	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026)
#36	gpt-4o-2024-05-13	8.4%	15.7%	10	RepoQA Official Results overall_average_pass_at_1_pct (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#37	gpt-4o-2024-08-06	8.2%	19.0%	17	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) Aider Polyglot Leaderboard correct_edit_format_pct (Mar 17, 2026)
#39	o4-mini-20250416	7.6%	13.5%	15	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#40	GLM-4.7	7.1%	23.5%	11	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) OpenHands Index issue_resolution_score_pct (Mar 17, 2026)
#48	openai/gpt-4o-mini-2024-07-18	2.6%	10.2%	13	LLM Trustworthy Leaderboard privacy (Mar 17, 2026) LM Arena Hard Auto v0.1 score (Mar 17, 2026)

Compare Models

Model A leads by +0.0%

Shareable Link →

Model A

Kimi K2 Thinking

external/kimi/kimi-k2-thinking

16.8%

Rank #8

Confidence 42.9%26 evidence pts

SWE-bench Verified Leaderboard: swe_verified_resolved_pct

Value 80.2% · Conf 100.0% · Weight 4.2%

swebench_verified_official.swe_verified_resolved_pct (Mar 17, 2026)

Sonar Java Quality Leaderboard: functional_skill_pct

Value 88.4% · Conf 100.0% · Weight 1.8%

sonar_java_quality.functional_skill_pct (Mar 17, 2026)

Vals SWE-bench: overall_accuracy_pct

Value 63.5% · Conf 100.0% · Weight 0.7%

vals_swebench.overall_accuracy_pct (Mar 17, 2026)

Sonar Java Quality Leaderboard: issue_density_error_per_kloc

Value 66.6% · Conf 100.0% · Weight 0.7%

sonar_java_quality.issue_density_error_per_kloc (Mar 17, 2026)

Model B

GLM-5

zai-org/GLM-5

16.8%

Rank #9

Confidence 29.8%17 evidence pts

OpenHands Issue Resolution: issue_resolution_score_pct

Value 59.0% · Conf 100.0% · Weight 2.4%

openhands_issue_resolution.issue_resolution_score_pct (Mar 17, 2026)

Sonar Java Quality Leaderboard: functional_skill_pct

Value 91.6% · Conf 100.0% · Weight 1.8%

sonar_java_quality.functional_skill_pct (Mar 17, 2026)

OpenHands Index: average_score_pct

Value 36.5% · Conf 100.0% · Weight 1.4%

openhands_index.average_score_pct (Mar 17, 2026)

Sonar Java Quality Leaderboard: issue_density_error_per_kloc

Value 100.0% · Conf 100.0% · Weight 1.1%

sonar_java_quality.issue_density_error_per_kloc (Mar 17, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals LiveCodeBench

vals_lcb

16 rows

0.8% avg lift

SWE-bench Verified Leaderboard

swebench_verified_official

14 rows

3.3% avg lift

Vals SWE-bench

vals_swebench

14 rows

0.8% avg lift

Vals Legal Bench

vals_legal_bench

13 rows

0.2% avg lift

Missing Strong Models

gpt-5-2025-08-07

external/openai/gpt-5-2025-08-07

Rank #6

19.2%

Thin evidence after weighting

gpt-5-mini-2025-08-07

external/openai/gpt-5-mini-2025-08-07

Rank #7

19.1%

Thin evidence after weighting

google/gemini-3.1-pro-preview

external/google/gemini-3-1-pro-preview

Rank #8

18.6%

Thin evidence after weighting

openai/gpt-5.4-2026-03-05

external/openai/gpt-5-4-2026-03-05

Rank #9

18.3%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.agentic_multi_step_completiontask.code_generation

Required Modes

mode.tool_calling

Domains

domain.software_engineering

Related Use Cases

developer_tools

Codebase onboarding brief

Summarize a repository's architecture, modules, and conventions.

Top: gemini-3-pro-preview

developer_tools

Code generation

Generate correct, secure code from requirements.

Top: GLM-5

developer_tools

Refactoring assistant

Refactor code safely while preserving behavior and improving clarity.

Top: Kimi K2 Thinking

developer_tools

PR review agent

Review diffs for correctness, security, and maintainability.

Top: GLM-5