Model Profile

Claude-3.5-Sonnet

Name: Claude-3.5-Sonnet
Rating: 2.7 (175 reviews)
Author: anthropic

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/anthropic/claude-3-5-sonnet

Author: anthropic

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 29.4%

Evidence points: 175

Raw rows: 140

Weighted rows: 28

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Price / 1M tokens: $6.00 (blended 3:1)

Intelligence Profile

Dimension Breakdown

IQ5 benchmarks

49.5%*

EQ3 benchmarks

48.4%*

Accuracy3 benchmarks

66.5%*

Creativity0 benchmarks

No creativity benchmarks found

Insufficient data

Based0 benchmarks

No based benchmarks found

Insufficient data

* Low confidence — limited benchmark evidence for this dimension

3/5 dimensions scored · Last updated Apr 14, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

DuckDB NSQL Leaderboard

all_execution_accuracy

6.3%

Normalized value 86.5% · confidence 100.0%

Strongest impact in Executive brief from metrics

duckdb_nsql_leaderboard.all_execution_accuracy · Apr 1, 2026

LanguageBench Translation Official (Split)

translation_to:bleu

6.2%

Normalized value 81.7% · confidence 100.0%

Strongest impact in Archaic and historical translation

languagebench_translation_official.translation_to_bleu · Apr 1, 2026

LanguageBench

overall:mean

5.1%

Normalized value 97.4% · confidence 100.0%

Strongest impact in Archaic and historical translation

languagebench.overall_mean · Apr 1, 2026

LanguageBench Grammar/Clarity Official (Split)

grammar_clarity_score_pct

3.3%

Normalized value 90.6% · confidence 100.0%

Strongest impact in Translation and localization

languagebench_grammar_clarity_official.grammar_clarity_score_pct · Apr 1, 2026

MedHELM

average_score_pct

2.9%

Normalized value 65.7% · confidence 100.0%

Strongest impact in Patient-friendly explanations

medhelm_leaderboard.average_score_pct · Apr 1, 2026

OpenVLM OCRBench Official

ocrbench_score_pct

2.7%

Normalized value 82.9% · confidence 100.0%

Strongest impact in Grammar and writing coach

openvlm_ocrbench_official.ocrbench_score_pct · Apr 1, 2026

Some fit rows have limited benchmark evidence.

1 of 12 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

100

Total Measurements

140

Weighted Measurements

Weighted Sources

Raw Source Coverage

multilingual_mmlu_leaderboard 17mmlu_pro_leaderboard 15duckdb_nsql_leaderboard 12llm_aggrefact_leaderboard 12medhelm_leaderboard 12browsergym_leaderboard 10

Weighted Source Coverage

crmarena_leaderboard 4medhelm_leaderboard 4languagebench 3languagebench_translation_official 3duckdb_nsql_leaderboard 2llm_aggrefact_leaderboard 2

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Archaic and historical translation use_case.history.archaic_translation	history_linguistics	27.2%	39.8%	15	LanguageBench Translation Official (Split): translation_to:bleu
Brand voice localization use_case.mkt.brand_voice_localization	marketing_sales	25.1%	35.8%	14	LanguageBench Translation Official (Split): translation_to:bleu
Legal translation use_case.legal.legal_translation	legal	21.8%	28.4%	14	LanguageBench Translation Official (Split): translation_to:bleu
Patient-friendly explanations use_case.health.patient_friendly_summaries	healthcare	21.0%	31.4%	17	LanguageBench Translation Official (Split): translation_to:bleu
Grammar and writing coach use_case.lang.grammar_coach	education	20.6%	33.1%	15	LanguageBench Translation Official (Split): translation_to:bleu
Translation and localization use_case.business.translation_localization	business_productivity	20.1%	26.6%	14	LanguageBench Grammar/Clarity Official (Split): grammar_clarity_score_pct
Multilingual Customer Support use_case.cx.multilingual_support	customer_experience	19.8%	25.6%	17	LanguageBench: overall:mean
Historical document summarization use_case.history.historical_doc_summarization	history_linguistics	19.4%	29.7%	13	LanguageBench: overall:mean
Language conversation partner use_case.lang.conversation_partner	education	18.9%	30.4%	15	LanguageBench Translation Official (Split): translation_to:bleu
Executive brief from metrics use_case.data.exec_brief_from_metrics	data_analytics	18.6%	25.8%	12	DuckDB NSQL Leaderboard: all_execution_accuracy
Patient education bot (RAG grounded) use_case.health.patient_education_bot	healthcare	17.6%	25.1%	17	LanguageBench Translation Official (Split): translation_to:bleu
Tail spend categorization use_case.proc.tail_spend_categorization	supply_chain	17.3%	20.5%	12	OpenVLM OCRBench Official: ocrbench_score_pct