Model Profile

Llama-3.1-8B-Instruct

Name: Llama-3.1-8B-Instruct
Rating: 0.7 (9 reviews)
Author: meta-llama

4,096 ctxOpen weights

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: meta-llama/Llama-3.1-8B-Instruct

Author: meta-llama

Origin: huggingface_catalog

Arch: unknown

Benchmark Coverage

Scored use cases: 2

Avg confidence: 11.0%

Evidence points: 9

Raw rows: 43

Weighted rows: 8

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 5,867,664

Intelligence Profile

Dimension Breakdown

IQ6 benchmarks

37.2%*

EQ0 benchmarks

No eq benchmarks found

Insufficient data

Accuracy2 benchmarks

54.7%*

Creativity0 benchmarks

No creativity benchmarks found

Insufficient data

Based0 benchmarks

No based benchmarks found

Insufficient data

* Low confidence — limited benchmark evidence for this dimension

2/5 dimensions scored · Last updated Apr 2, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

JSONSchemaBench Leaderboard

medium_schema_compliance_pct

3.7%

Normalized value 75.9% · confidence 100.0%

Strongest impact in Metric definition workshop

jsonschemabench_leaderboard.medium_schema_compliance_pct · Mar 31, 2026

JSONSchemaBench Leaderboard

hard_schema_compliance_pct

1.5%

Normalized value 44.7% · confidence 100.0%

Strongest impact in Metric definition workshop

jsonschemabench_leaderboard.hard_schema_compliance_pct · Mar 31, 2026

BRIDGE Medical Leaderboard

average_performance_pct

0.2%

Normalized value 62.5% · confidence 100.0%

Strongest impact in Metric definition workshop

bridge_medical_leaderboard.average_performance_pct · Apr 1, 2026

Aider Code Editing Leaderboard

percent_correct_pct

0.1%

Normalized value 27.1% · confidence 100.0%

Strongest impact in Metric definition workshop

aider_code_editing.percent_correct_pct · Apr 1, 2026

Multilingual MMLU Benchmark

mmmlu

0.0%

Normalized value 0.1% · confidence 100.0%

Strongest impact in Historical document summarization

multilingual_mmlu_leaderboard.mmmlu · Apr 1, 2026

Some fit rows have limited benchmark evidence.

2 of 2 scored use cases have low confidence or thin contributor coverage.

Coverage Diagnostics

actively scored

Use-Case Scores

Total Measurements

Weighted Measurements

Weighted Sources

Raw Source Coverage

multilingual_mmlu_leaderboard 17jsonschemabench_leaderboard 12bridge_medical_leaderboard 9openrouter_models 3aider_code_editing 2

Weighted Source Coverage

aider_code_editing 2bridge_medical_leaderboard 2jsonschemabench_leaderboard 2multilingual_mmlu_leaderboard 2

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Metric definition workshop use_case.data.metric_definition_workshop	data_analytics	7.0%	11.5%	4	JSONSchemaBench Leaderboard: medium_schema_compliance_pct
Historical document summarization use_case.history.historical_doc_summarization	history_linguistics	2.3%	10.6%	5	JSONSchemaBench Leaderboard: medium_schema_compliance_pct