devops_sre

Best LLM for Terraform

Ranked models for generating Terraform IaC with correct resources and safe defaults.

Full Analysis Available

Benchmark methodology, patterns in the data, and deployment notes

#1 Recommendation

anthropic/claude-sonnet-4

Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct

external/anthropic/claude-sonnet-4

25.7%

Score

35.0%

Confidence

Evidence

$6.00

per 1M tokens

Runners-up:#2 qwen-2.5-72b-instruct (24.0%)#3 gemini-2.5-pro (22.5%)#4 gpt-4.1-20250414 (22.2%)

Ranked Models

Evidence Quality

96%

Evidence Points

Top Signal

Galileo Agent Leaderboard v2: Avg AC

Benchmark Sources

Last Updated

19h ago

All Ranked Models

30 of 30 models

Rank	Model	Score	Confidence	Price / 1M	Evidence sources
🥇	claude-sonnet-4 Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct	25.7%	35%	$6.00	Galileo Agent Leaderboard v2·Apr 29, 2026SWE-bench Verified Leaderboard·Apr 29, 2026
🥈	qwen-2.5-72b-instruct Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Galileo Agent Leaderboard v2 Avg AC	24.0%	36%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Galileo Agent Leaderboard v2·Apr 29, 2026
🥉	gemini-2.5-pro Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Galileo Agent Leaderboard v2 Avg AC	22.5%	32%	$3.44	SWE-bench Verified Leaderboard·Apr 29, 2026Galileo Agent Leaderboard v2·Apr 29, 2026
#4	gpt-4.1-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct	22.2%	32%	—	Galileo Agent Leaderboard v2·Apr 29, 2026SWE-bench Verified Leaderboard·Apr 29, 2026
#5	gemini-3-pro-preview Strong on Berkeley Function Calling Leaderboard (Overall) Overall Acc and SWE-bench Verified Leaderboard swe_verified_resolved_pct	21.1%	26%	$4.50	Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026SWE-bench Verified Leaderboard·Apr 29, 2026
#6	o3-20250416 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Berkeley Function Calling Leaderboard (Overall) Overall Acc	20.4%	31%	$3.50	SWE-bench Verified Leaderboard·Apr 29, 2026Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026
#7	gpt-5-2025-08-07 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Aider Polyglot Leaderboard percent_correct_pct	20.4%	25%	—	SWE-bench Verified Leaderboard·Apr 29, 2026Aider Polyglot Leaderboard·Apr 29, 2026
#8	Grok-4-0709 Strong on Berkeley Function Calling Leaderboard (Overall) Overall Acc and Galileo Agent Leaderboard v2 Avg AC	20.4%	29%	—	Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026Galileo Agent Leaderboard v2·Apr 29, 2026
#9	gpt-5.2-2025-12-11 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Berkeley Function Calling Leaderboard (Overall) Overall Acc	19.2%	24%	—	SWE-bench Verified Leaderboard·Apr 29, 2026Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026
#10	Steelskull/L3.3-MS-Nevoria-70b Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	17.8%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#11	MaziyarPanahi/calme-3.2-instruct-78b Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	17.7%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#12	Steelskull/L3.3-Nevoria-R1-70b Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	17.5%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#13	Mistral-Large-Instruct-2411 Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	17.5%	22%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#14	claude-opus-4-5-20251101 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Berkeley Function Calling Leaderboard (Overall) Overall Acc	17.3%	23%	—	SWE-bench Verified Leaderboard·Apr 29, 2026Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026
#15	MaziyarPanahi/calme-2.4-rys-78b Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	17.2%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#16	MaziyarPanahi/calme-3.1-instruct-78b Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	17.2%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#17	Tarek07/Progenitor-V1.1-LLaMa-70B Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	17.1%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#18	CalmeRys-78B-Orpo-v0.1 Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	17.1%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#19	phi-4 Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.7%	25%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#20	Apollo-70B Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.6%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#21	Triangle104/Set-70b Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.6%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#22	Sao10K/70B-L3.3-Cirrus-x1 Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.6%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#23	gpt-5-mini-2025-08-07 Strong on SWE-bench Verified Leaderboard swe_verified_resolved_pct and Vals MedQA overall_accuracy_pct	16.6%	24%	—	SWE-bench Verified Leaderboard·Apr 29, 2026Vals MedQA·Apr 29, 2026
#24	Homer-v1.0-Qwen2.5-72B Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	16.5%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#25	Tarek07/Thalassic-Alpha-LLaMa-70B Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.5%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026
#26	Sakalti/ultiima-72B-v1.5 Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	16.2%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#27	T3Q-qwen2.5-14b-v1.0-e3 Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	16.1%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#28	JungZoona/T3Q-Qwen2.5-14B-Instruct-1M-e3 Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Open LLM Leaderboard GPQA gpqa	16.1%	21%	—	Open LLM Leaderboard MMLU-Pro·Apr 29, 2026Open LLM Leaderboard GPQA·Apr 29, 2026
#29	gemini-2.5-flash Strong on Berkeley Function Calling Leaderboard (Overall) Overall Acc and Galileo Agent Leaderboard v2 Avg AC	16.1%	25%	$0.17	Berkeley Function Calling Leaderboard (Overall)·Apr 29, 2026Galileo Agent Leaderboard v2·Apr 29, 2026
#30	Llama3.3-70B-CogniLink Strong on Open LLM Leaderboard GPQA gpqa and Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct	16.1%	21%	—	Open LLM Leaderboard GPQA·Apr 29, 2026Open LLM Leaderboard MMLU-Pro·Apr 29, 2026

Head-to-Head: #1 vs #2

Top Pick

anthropic/claude-sonnet-4

Strong on Galileo Agent Leaderboard v2 Avg AC and SWE-bench Verified Leaderboard swe_verified_resolved_pct

25.7%

Conf 35.0%

qwen-2.5-72b-instruct

Strong on Open LLM Leaderboard MMLU-Pro mmlu_pro_accuracy_pct and Galileo Agent Leaderboard v2 Avg AC

24.0%

Conf 35.6%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Autonomous Coding

Benchmark-backed ranking of models for end-to-end autonomous software engineering and issue resolution.

Best LLM for Function Calling

Compare models for reliable tool use, function selection, and multi-step API orchestration.