Model Profile

gpt-5-2025-08-07

Name: gpt-5-2025-08-07
Rating: 4.1 (375 reviews)
Author: openai

External Benchmark Shadowexternal_benchmark_shadowpublic

4,096 ctx

Use this page to decide where this model is a strong fit. Rankings below are benchmark-backed by use case, with explicit confidence and contributor metrics.

Identity

ID: external/openai/gpt-5-2025-08-07

Author: openai

Origin: external_benchmark_shadow

Arch: unknown

Benchmark Coverage

Scored use cases: 12

Avg confidence: 46.0%

Evidence points: 375

Raw rows: 699

Weighted rows: 70

Catalog Metadata

Parameters: unknown

Context window: 4096

Downloads: 0

Intelligence Profile

Dimension Breakdown

IQ33 benchmarks

76.7%

EQ2 benchmarks

97.8%*

Accuracy8 benchmarks

87.9%*

Creativity2 benchmarks

80.1%*

Based1 benchmark

47.0%*

* Low confidence — limited benchmark evidence for this dimension

5/5 dimensions scored · Last updated Apr 25, 2026

Benchmark Signals

Click through to the benchmark source behind this model profile.

LEXam Leaderboard

average_score_pct

4.9%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Contract Drafting & Redlining

lexam_leaderboard.average_score_pct · Mar 31, 2026

BasedAGI Log Triage Eval

overall_score_pct

4.9%

Normalized value 100.0% · confidence 100.0%

Strongest impact in Log triage

basedagi_log_triage_eval.overall_score_pct · Apr 1, 2026

Vals Legal Bench

overall_accuracy_pct

3.8%

Normalized value 97.1% · confidence 100.0%

Strongest impact in Contract Drafting & Redlining

vals_legal_bench.overall_accuracy_pct · Mar 31, 2026

SWE-bench Verified Leaderboard

swe_verified_resolved_pct

3.3%

Normalized value 93.8% · confidence 100.0%

Strongest impact in Quant research code generation

swebench_verified_official.swe_verified_resolved_pct · Apr 1, 2026

BasedAGI KB Q&A Eval

overall_score_pct

3.3%

Normalized value 87.5% · confidence 100.0%

Strongest impact in Knowledge base Q&A (with citations)

basedagi_kb_qna_eval.overall_score_pct · Apr 1, 2026

Vals Finance Agent

overall_accuracy_pct

3.3%

Normalized value 82.2% · confidence 100.0%

Strongest impact in Thesis red teaming

vals_finance_agent.overall_accuracy_pct · Mar 31, 2026

Coverage Diagnostics

actively scored

Use-Case Scores

151

Total Measurements

699

Weighted Measurements

Weighted Sources

Raw Source Coverage

vals_mmlu_pro 60ugi_main 57vals_mgsm 48vals_finance_agent 40vals_multimodal_index 32corpfin_taxeval_public 28

Weighted Source Coverage

vals_finance_agent 5basedagi_doc_summarization_eval 4basedagi_kb_qna_eval 4basedagi_log_triage_eval 4basedagi_support_bot_eval 4medhelm_leaderboard 4

Best Use Cases for This Model

Use Case	Vertical	Score	Confidence	Evidence	Top Contributor
Log triage use_case.sre.log_triage	devops_sre	40.9%	49.6%	32	BasedAGI Log Triage Eval: overall_score_pct
Thesis red teaming use_case.fin.thesis_red_team	finance	39.3%	50.9%	31	Vals Finance Agent: overall_accuracy_pct
Contract Drafting & Redlining use_case.legal.contract_drafting	legal	35.9%	43.9%	30	LEXam Leaderboard: average_score_pct
Transaction anomaly narrative use_case.fin.transaction_anomaly_narrative	finance	35.7%	46.0%	31	Vals Finance Agent: overall_accuracy_pct
Earnings call synthesis use_case.fin.earnings_call_synthesis	finance	35.5%	46.0%	31	Vals Finance Agent: overall_accuracy_pct
Accounts payable invoice extraction (text) use_case.fin.ap_invoice_extraction	finance	35.1%	46.9%	33	Vals Finance Agent: overall_accuracy_pct
Simulation setup assistant use_case.eng.simulation_setup_assistant	engineering	35.0%	42.7%	26	Aider Polyglot Leaderboard: percent_correct_pct
KYC profile synthesis use_case.fin.kyc_profile_synthesis	finance	35.0%	47.3%	33	Vals Finance Agent: overall_accuracy_pct
AML alert triage use_case.fin.aml_alert_triage	finance	35.0%	47.3%	33	Vals Finance Agent: overall_accuracy_pct
Component selection assistant use_case.eng.component_selection	engineering	34.9%	45.0%	28	Aider Polyglot Leaderboard: percent_correct_pct
Quant research code generation use_case.fin.alpha_research_codegen	finance	34.2%	41.7%	36	SWE-bench Verified Leaderboard: swe_verified_resolved_pct
Knowledge base Q&A (with citations) use_case.business.kb_qna_with_citations	business_productivity	34.0%	44.9%	31	BasedAGI KB Q&A Eval: overall_score_pct