developer_tools

Best LLM for Function Calling

Compare models for reliable tool use, function selection, and multi-step API orchestration.

#1 Recommendation

anthropic/claude-sonnet-4.6

Strong on OpenHands Issue Resolution issue_resolution_score_pct (72%) and Vals SWE-bench overall_accuracy_pct (95%)

external/anthropic/claude-sonnet-4-6

16.5%

Score

29.6%

Confidence

Evidence

Runners-up:#2 kimi/kimi-k2.5-thinking (14.8%)#3 GLM-5 (13.8%)#4 gpt-4o (13.4%)

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

OpenHands Issue Resolution: issue_resolution_score_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

25 of 25

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#5	anthropic/claude-sonnet-4.6	16.5%	29.6%	26	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#8	kimi/kimi-k2.5-thinking	14.8%	30.4%	26	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#11	GLM-5	13.8%	24.5%	17	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#12	gpt-4o	13.4%	20.0%	19	τ-bench Airline (Official README) tau_airline_pass1_pct (Mar 17, 2026) JSONSchemaBench Leaderboard medium_schema_compliance_pct (Mar 17, 2026)
#13	gemini-3-pro-preview	12.8%	16.2%	23	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#15	Kimi K2 Thinking	12.6%	33.9%	26	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#16	gpt-4.1-20250414	12.0%	18.2%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#18	gemini-2.5-pro	11.1%	16.2%	24	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026)
#19	Grok-4-0709	11.0%	16.4%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#21	claude-sonnet-4-20250514	11.0%	14.5%	18	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#22	minimax/minimax-m2.1	10.9%	31.9%	26	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#23	qwen-2.5-72b-instruct	10.6%	14.6%	13	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026)
#24	claude-opus-4-5-20251101	10.2%	12.0%	17	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#25	gpt-5.2-2025-12-11	9.8%	11.1%	14	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#26	gpt-4.1-mini-20250414	8.8%	14.3%	11	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#29	gpt-4o-2024-08-06	8.7%	17.7%	16	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) GAIA Results Public score (Mar 17, 2026)
#30	z-ai/glm-4.7	8.2%	11.8%	15	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#31	gpt-5-2025-08-07	8.2%	10.1%	17	Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026) Vals SWE-bench overall_accuracy_pct (Mar 17, 2026)
#33	deepseek/deepseek-r1	7.8%	11.6%	18	Aider Polyglot Leaderboard percent_correct_pct (Mar 17, 2026) Sonar Java Quality Leaderboard functional_skill_pct (Mar 17, 2026)
#34	gpt-4o-20241120	7.6%	13.7%	14	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026)
#35	o3-20250416	7.5%	10.2%	16	SWE-bench Verified Leaderboard swe_verified_resolved_pct (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#36	gpt-4o-2024-05-13	6.9%	11.1%	10	Aider Code Editing Leaderboard percent_correct_pct (Mar 17, 2026) RepoQA Official Results overall_average_pass_at_1_pct (Mar 17, 2026)
#37	GLM-4.7	6.8%	20.1%	11	OpenHands Issue Resolution issue_resolution_score_pct (Mar 17, 2026) OpenHands Index issue_resolution_score_pct (Mar 17, 2026)
#41	GPT-4.1-nano-2025-04-14	4.0%	10.1%	9	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 17, 2026)
#42	openai/gpt-4o-mini-2024-07-18	3.8%	11.6%	12	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) LLM Trustworthy Leaderboard privacy (Mar 17, 2026)

Head-to-Head: #1 vs #2

Top Pick

anthropic/claude-sonnet-4.6

Strong on OpenHands Issue Resolution issue_resolution_score_pct (72%) and Vals SWE-bench overall_accuracy_pct (95%)

16.5%

Conf 29.6%

kimi/kimi-k2.5-thinking

Strong on Vals LiveCodeBench overall_accuracy_pct (94%) and Vals SWE-bench overall_accuracy_pct (83%)

14.8%

Conf 30.4%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Autonomous Coding

Benchmark-backed ranking of models for end-to-end autonomous software engineering and issue resolution.

Best LLM for Refactoring

Ranked models for safely refactoring code while preserving behavior and improving clarity.