developer_tools

Function Calling / Tool Use Agent

Reliably selecting and invoking the correct tools/APIs in multi-step agentic pipelines.

#1 Recommendation

anthropic/claude-sonnet-4.6

Strong on OpenHands Issue Resolution issue_resolution_score_pct (72%) and Vals SWE-bench overall_accuracy_pct (95%)

external/anthropic/claude-sonnet-4-6

16.5%

Score

29.6%

Confidence

Runners-up:#2 kimi/kimi-k2.5-thinking (14.8%)#3 GLM-5 (13.8%)#4 gpt-4o (13.4%)

Limited benchmark evidence for this use case.

25 ranked models with average evidence of 17.4 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

OpenHands Issue Resolution: issue_resolution_score_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

25 of 25

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#5	anthropic/claude-sonnet-4.6	16.5%	29.6%	26	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#8	kimi/kimi-k2.5-thinking	14.8%	30.4%	26	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#11	GLM-5	13.8%	24.5%	17	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#12	gpt-4o	13.4%	20.0%	19	τ-bench Airline (Official README) tau_airline_pass1_pct (Mar 17, 2026) JSONSchemaBench Leaderboard medium_schema_compliance_pct (Mar 17, 2026)
#13	gemini-3-pro-preview	12.8%	16.2%	23	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#15	Kimi K2 Thinking	12.6%	33.9%	26	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#16	gpt-4.1-20250414	12.0%	18.2%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#18	gemini-2.5-pro	11.1%	16.2%	24	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#19	Grok-4-0709	11.0%	16.4%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#21	claude-sonnet-4-20250514	11.0%	14.5%	18	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#22	minimax/minimax-m2.1	10.9%	31.9%	26	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#23	qwen-2.5-72b-instruct	10.6%	14.6%	13	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026)
#24	claude-opus-4-5-20251101	10.2%	12.0%	17	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#25	gpt-5.2-2025-12-11	9.8%	11.1%	14	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#26	gpt-4.1-mini-20250414	8.8%	14.3%	11	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#29	gpt-4o-2024-08-06	8.7%	17.7%	16	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) GAIA Results Public score (Mar 17, 2026)
#30	z-ai/glm-4.7	8.2%	11.8%	15	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#31	gpt-5-2025-08-07	8.2%	10.1%	17	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#33	deepseek/deepseek-r1	7.8%	11.6%	18	Aider Polyglot Leaderboard percent_correct_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#34	gpt-4o-20241120	7.6%	13.7%	14	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026)
#35	o3-20250416	7.5%	10.2%	16	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#36	gpt-4o-2024-05-13	6.9%	11.1%	10	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) RepoQA Official Results overall_average_pass_at_1_pct (Mar 17, 2026)
#37	GLM-4.7	6.8%	20.1%	11	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) OpenHands Index issue_resolution_score_pct (Mar 17, 2026)
#41	GPT-4.1-nano-2025-04-14	4.0%	10.1%	9	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#42	openai/gpt-4o-mini-2024-07-18	3.8%	11.6%	12	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) LLM Trustworthy Leaderboard privacy (Mar 17, 2026)

Compare Models

Model A leads by +1.7%

Shareable Link →

Model A

anthropic/claude-sonnet-4.6

external/anthropic/claude-sonnet-4-6

16.5%

Rank #5

Confidence 29.6%26 evidence pts

OpenHands Issue Resolution: issue_resolution_score_pct

Value 71.8% · Conf 100.0% · Weight 2.3%

openhands_issue_resolution.issue_resolution_score_pct (Mar 17, 2026)

Vals SWE-bench: overall_accuracy_pct

Value 95.1% · Conf 100.0% · Weight 1.4%

vals_swebench.overall_accuracy_pct (Mar 17, 2026)

Vals LiveCodeBench: overall_accuracy_pct

Value 91.2% · Conf 100.0% · Weight 1.2%

vals_lcb.overall_accuracy_pct (Mar 17, 2026)

Vals Terminal-Bench 2: overall_accuracy_pct

Value 87.9% · Conf 100.0% · Weight 1.1%

vals_terminal_bench_2.overall_accuracy_pct (Mar 17, 2026)

Model B

kimi/kimi-k2.5-thinking

external/kimi/kimi-k2-5-thinking

14.8%

Rank #8

Confidence 30.4%26 evidence pts

Vals LiveCodeBench: overall_accuracy_pct

Value 93.6% · Conf 100.0% · Weight 1.2%

vals_lcb.overall_accuracy_pct (Mar 17, 2026)

Vals SWE-bench: overall_accuracy_pct

Value 82.6% · Conf 100.0% · Weight 1.2%

vals_swebench.overall_accuracy_pct (Mar 17, 2026)

OpenHands Index: information_gathering_score_pct

Value 75.4% · Conf 100.0% · Weight 1.0%

openhands_index.information_gathering_score_pct (Mar 17, 2026)

OpenHands Index: average_score_pct

Value 35.5% · Conf 100.0% · Weight 0.9%

openhands_index.average_score_pct (Mar 17, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals LiveCodeBench

vals_lcb

17 rows

0.9% avg lift

Vals SWE-bench

vals_swebench

15 rows

1.0% avg lift

Vals MedQA

vals_medqa

15 rows

0.2% avg lift

Vals Legal Bench

vals_legal_bench

14 rows

0.2% avg lift

Missing Strong Models

gpt-5-mini-2025-08-07

external/openai/gpt-5-mini-2025-08-07

Rank #7

19.1%

Thin evidence after weighting

google/gemini-3.1-pro-preview

external/google/gemini-3-1-pro-preview

Rank #8

18.6%

Thin evidence after weighting

openai/gpt-5.4-2026-03-05

external/openai/gpt-5-4-2026-03-05

Rank #9

18.3%

Thin evidence after weighting

gemini-2.5-flash

external/google/gemini-2-5-flash

Rank #10

17.6%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.function_calling_accuracytask.api_usage_correctness

Required Modes

mode.tool_calling

Domains

domain.software_engineering

Related Use Cases

developer_tools

Codebase onboarding brief

Summarize a repository's architecture, modules, and conventions.

Top: gemini-3-pro-preview

developer_tools

Code generation

Generate correct, secure code from requirements.

Top: GLM-5

developer_tools

Autonomous Coding Agent

End-to-end autonomous software engineering: reading issues, writing code, running tests, submitting PRs.

Top: Kimi K2 Thinking

developer_tools

Refactoring assistant

Refactor code safely while preserving behavior and improving clarity.

Top: Kimi K2 Thinking