Model Profile

anthropic/claude-opus-4

Name: anthropic/claude-opus-4
Rating: 2.0 (135 reviews)
Author: anthropic

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/anthropic/claude-opus-4

Author: anthropic

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 21.4%

Evidence points: 135

Raw rows: 361

Weighted rows: 26

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Price / 1M tokens: $10.00 (blended 3:1)

Intelligence Profile

Dimension Breakdown

IQ12 benchmarks

71.3%

EQ1 benchmark

91.2%*

Accuracy2 benchmarks

74.7%*

Creativity2 benchmarks

70.6%*

Based1 benchmark

12.0%*

* Low confidence — limited benchmark evidence for this dimension

5/5 dimensions scored · Last updated Apr 14, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

SWE-bench Verified Leaderboard

swe_verified_resolved_pct

4.6%

Normalized value 85.1% · confidence 100.0%

Strongest impact in Verilog/VHDL generation

swebench_verified_official.swe_verified_resolved_pct · Apr 1, 2026

EQ-Bench Leaderboard

eq_bench_score

4.0%

Normalized value 91.2% · confidence 100.0%

Strongest impact in Social post generation

eq_bench.eq_bench_score · Apr 1, 2026

Aider Polyglot Leaderboard

percent_correct_pct

2.6%

Normalized value 80.7% · confidence 100.0%

Strongest impact in Verilog/VHDL generation

aider_polyglot.percent_correct_pct · Apr 1, 2026

UGI Leaderboard

Writing ✍️

2.2%

Normalized value 94.1% · confidence 100.0%

Strongest impact in Social post generation

ugi_main.writing · Apr 1, 2026

Vals LiveCodeBench

overall_accuracy_pct

1.5%

Normalized value 64.4% · confidence 100.0%

Strongest impact in Simulation setup assistant

vals_lcb.overall_accuracy_pct · Mar 31, 2026

Aider Polyglot Leaderboard

correct_edit_format_pct

1.3%

Normalized value 96.0% · confidence 100.0%

Strongest impact in Integration test generation

aider_polyglot.correct_edit_format_pct · Apr 1, 2026

Some fit rows have limited benchmark evidence.

12 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

103

Total Measurements

361

Weighted Measurements

Weighted Sources

Raw Source Coverage

vals_mmlu_pro 60ugi_main 57vals_mgsm 48vals_medqa 28vectara_hhem_leaderboard 21vals_legal_bench 18

Weighted Source Coverage

vectara_hhem_leaderboard 12ugi_main 3aider_polyglot 2eq_bench 1hle_leaderboard 1swebench_verified_official 1

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Verilog/VHDL generation use_case.eda.verilog_generation	engineering	20.3%	25.0%	12	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Simulation setup assistant use_case.eng.simulation_setup_assistant	engineering	18.2%	23.4%	11	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Social post generation use_case.mkt.social_post_generation	marketing_sales	18.0%	21.7%	11	EQ-Bench Leaderboard: eq_bench_score
Product positioning and messaging use_case.mkt.product_positioning	marketing_sales	18.0%	21.7%	11	EQ-Bench Leaderboard: eq_bench_score
Campaign brief use_case.mkt.campaign_brief	marketing_sales	18.0%	21.7%	11	EQ-Bench Leaderboard: eq_bench_score
Integration test generation use_case.dev.integration_tests	developer_tools	17.5%	21.4%	12	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Ad copy variants use_case.mkt.ad_copy_variants	marketing_sales	17.0%	20.5%	11	EQ-Bench Leaderboard: eq_bench_score
Personalized sales outreach use_case.mkt.sales_outreach_personalized	marketing_sales	17.0%	20.5%	11	EQ-Bench Leaderboard: eq_bench_score
Refactoring assistant use_case.dev.refactoring	developer_tools	16.5%	20.5%	12	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Terraform generation use_case.sre.iac_terraform	devops_sre	16.3%	20.3%	11	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Kubernetes manifest generation use_case.sre.iac_k8s	devops_sre	16.3%	20.3%	11	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Config debugging use_case.sre.config_debugging	devops_sre	16.3%	20.3%	11	SWE-bench Verified Leaderboard: swe_verified_resolved_pct