Model Profile

claude-opus-4-6

Name: claude-opus-4-6
Rating: 2.8 (199 reviews)
Author: anthropic

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/anthropic/claude-opus-4-6

Author: anthropic

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 24.5%

Evidence points: 199

Raw rows: 196

Weighted rows: 36

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Price / 1M tokens: $10.00 (blended 3:1)

Intelligence Profile

Dimension Breakdown

IQ5 benchmarks

85.5%*

EQ0 benchmarks

No eq benchmarks found

Insufficient data

Accuracy1 benchmark

95.4%*

Creativity2 benchmarks

95.5%*

Based1 benchmark

59.0%*

* Low confidence — limited benchmark evidence for this dimension

4/5 dimensions scored · Last updated Apr 14, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

SWE-bench Verified Leaderboard

swe_verified_resolved_pct

5.5%

Normalized value 95.4% · confidence 100.0%

Strongest impact in CAD scripting helper

swebench_verified_official.swe_verified_resolved_pct · Apr 1, 2026

OpenHands Index

average_score_pct

3.8%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Autonomous Coding Agent

openhands_index.average_score_pct · Apr 1, 2026

UGI Leaderboard

Writing ✍️

3.5%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Poetry and lyrics

ugi_main.writing · Apr 1, 2026

OpenHands Issue Resolution

issue_resolution_score_pct

3.2%

Normalized value 76.9% · confidence 100.0%

Strongest impact in Agentic bug fixing

openhands_issue_resolution.issue_resolution_score_pct · Apr 1, 2026

UGI Leaderboard

Entertainment

2.7%

Normalized value 90.7% · confidence 100.0%

Strongest impact in Poetry and lyrics

ugi_main.entertainment · Apr 1, 2026

OpenHands Index

issue_resolution_score_pct

2.2%

Normalized value 76.9% · confidence 100.0%

Strongest impact in CAD scripting helper

openhands_index.issue_resolution_score_pct · Apr 1, 2026

Some fit rows have limited benchmark evidence.

6 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

120

Total Measurements

196

Weighted Measurements

Weighted Sources

Raw Source Coverage

ugi_main 57vectara_hhem_leaderboard 21halluhard_leaderboard 17openhands_index 13swe_bench_additional_public 12swe_bench_leaderboard 12

Weighted Source Coverage

vectara_hhem_leaderboard 12openhands_index 5halluhard_leaderboard 3ugi_main 3openhands_issue_resolution 2agentset_llms 1

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Autonomous Coding Agent use_case.dev.autonomous_coding_agent	developer_tools	28.4%	30.9%	19	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
IDE code completion use_case.dev.ide_completion	developer_tools	27.6%	29.9%	19	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
CAD scripting helper use_case.eng.cad_scripting_helper	engineering	27.5%	30.6%	18	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Code generation use_case.dev.code_generation	developer_tools	26.6%	29.3%	19	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Agentic bug fixing use_case.dev.agentic_bug_fixing	developer_tools	24.5%	27.4%	19	OpenHands Issue Resolution: issue_resolution_score_pct
PR review agent use_case.dev.pr_review_agent	developer_tools	23.9%	26.8%	19	OpenHands Issue Resolution: issue_resolution_score_pct
Function Calling / Tool Use Agent use_case.dev.function_calling_agent	developer_tools	21.8%	24.0%	19	OpenHands Index: average_score_pct
Quant research code generation use_case.fin.alpha_research_codegen	finance	17.7%	20.9%	19	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Poetry and lyrics use_case.creative.poetry_lyrics	creative	15.4%	17.9%	9	UGI Leaderboard: Writing ✍️
Screenplay scene writing use_case.creative.screenplay_scene	creative	15.4%	17.9%	9	UGI Leaderboard: Writing ✍️
Agentic incident response use_case.sre.agentic_incident_response	devops_sre	15.3%	18.8%	15	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Prompt injection resistance (eval) use_case.security.prompt_injection_resistance_eval	risk_eval	14.9%	19.2%	15	AgentSet LLM Leaderboard: elo_score