data_analytics

Chart & Data Visualization Interpretation

Reading charts, graphs, and dashboards to extract insights and answer questions.

#1 Recommendation

gemini-2.5-pro

Strong on MWS Vision Bench validation_overall_score (93%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

external/google/gemini-2-5-pro

22.2%

Score

32.1%

Confidence

Runners-up:#2 gemini-3-pro-preview (21.8%)#3 gpt-4.1-20250414 (16.7%)#4 anthropic/claude-sonnet-4.6 (15.7%)

Limited benchmark evidence for this use case.

52 ranked models with average evidence of 15.2 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

MWS Vision Bench: validation_overall_score

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on MWS Vision Bench validation_overall_score (93%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)	22.2%	32.1%	26	MWS Vision Bench validation_overall_score (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#2	gemini-3-pro-preview Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and FACTS Benchmark Suite facts_search_score_pct (100%)	21.8%	28.3%	23	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) FACTS Benchmark Suite facts_search_score_pct (Mar 17, 2026)
#3	gpt-4.1-20250414 Strong on Vectara HHEM Leaderboard overall_hallucination_error_pct (82%) and Vals CorpFin v2 overall_accuracy_pct (85%)	16.7%	26.1%	20	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#4	anthropic/claude-sonnet-4.6	15.7%	20.0%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#5	gpt-5-2025-08-07	15.6%	19.3%	19	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#6	gpt-5-mini-2025-08-07	15.4%	23.0%	19	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#7	Grok-4-0709	15.3%	21.6%	21	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#8	gemini-3-flash-preview	15.1%	19.6%	17	MWS Vision Bench validation_overall_score (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#9	google/gemini-3.1-pro-preview	14.4%	17.0%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#10	gemini-2.5-flash	14.4%	22.0%	15	MWS Vision Bench validation_overall_score (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#11	openai/gpt-5.4-2026-03-05	14.2%	16.6%	17	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#12	claude-opus-4-5-20251101	13.7%	19.2%	17	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#13	qwen-2.5-72b-instruct	13.0%	21.7%	13	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) JSONSchemaBench Leaderboard medium_schema_compliance_pct (Mar 17, 2026)
#15	gpt-5.1-2025-11-13	12.6%	18.9%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#16	claude-sonnet-4-20250514	12.5%	21.1%	18	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#17	gpt-4o	12.2%	20.8%	15	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) MEGA-Bench overall_score (Mar 17, 2026)
#18	deepseek/deepseek-r1	12.2%	20.0%	19	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) SYCON Bench (Table 2) sycon_unethical_tof_pct (Mar 17, 2026)
#19	google/gemini-3.1-flash-lite-preview	11.8%	16.2%	16	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#20	gpt-4o-20241120	11.6%	21.2%	16	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) DuckDB NSQL Leaderboard hard_execution_accuracy (Mar 17, 2026)
#21	xai-org/grok-4-fast-reasoning	11.6%	16.6%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#22	xai-org/grok-4-1-fast-reasoning	11.1%	16.6%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#23	anthropic/claude-opus-4-6-thinking	11.0%	12.1%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#24	gpt-5.2-2025-12-11	11.0%	12.1%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#25	gpt-4o-2024-08-06	10.6%	22.4%	16	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#26	openai/gpt-4.1	10.5%	16.2%	13	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026) SciArena Leaderboard rating_elo (Mar 17, 2026)
#27	kimi/kimi-k2.5-thinking	10.4%	14.6%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#29	anthropic/claude-opus-4-5-20251101-thinking	10.2%	12.1%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#30	x-ai/grok-3	10.0%	14.0%	13	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#32	anthropic/claude-sonnet-4-5-20250929-thinking	9.5%	12.1%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#33	grok/grok-4.20-beta-0309-reasoning	9.3%	12.1%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)

Compare Models

Model A leads by +0.4%

Shareable Link →

Model A

gemini-2.5-pro

external/google/gemini-2-5-pro

22.2%

Rank #1

Confidence 32.1%26 evidence pts

MWS Vision Bench: validation_overall_score

Value 93.5% · Conf 100.0% · Weight 2.4%

mws_vision_bench.validation_overall_score (Mar 17, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 100.0% · Conf 100.0% · Weight 2.1%

facts_benchmark_suite.facts_grounding_score_pct (Mar 17, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 76.0% · Conf 100.0% · Weight 1.7%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 17, 2026)

Vals CorpFin v2: overall_accuracy_pct

Value 78.4% · Conf 100.0% · Weight 1.3%

vals_corp_fin_v2.overall_accuracy_pct (Mar 17, 2026)

Model B

gemini-3-pro-preview

external/google/gemini-3-pro-preview

21.8%

Rank #2

Confidence 28.3%23 evidence pts

FACTS Benchmark Suite: facts_grounding_score_pct

Value 88.3% · Conf 100.0% · Weight 1.9%

facts_benchmark_suite.facts_grounding_score_pct (Mar 17, 2026)

FACTS Benchmark Suite: facts_search_score_pct

Value 100.0% · Conf 100.0% · Weight 1.6%

facts_benchmark_suite.facts_search_score_pct (Mar 17, 2026)

SciArena Leaderboard: rating_elo

Value 78.8% · Conf 100.0% · Weight 1.6%

sciarena_leaderboard.rating_elo (Mar 17, 2026)

FACTS Benchmark Suite: average_score_pct

Value 100.0% · Conf 100.0% · Weight 1.5%

facts_benchmark_suite.average_score_pct (Mar 17, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals CorpFin v2

vals_corp_fin_v2

42 rows

1.1% avg lift

Vals Legal Bench

vals_legal_bench

37 rows

0.3% avg lift

Vals MedQA

vals_medqa

36 rows

0.3% avg lift

Vals Tax Eval v2

vals_tax_eval_v2

36 rows

0.3% avg lift

Missing Strong Models

GPT-4.1-nano-2025-04-14

external/openai/gpt-4-1-nano-2025-04-14

Rank #62

6.2%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.insight_miningtask.dashboard_narrative

Required Modes

none

Domains

domain.data_analytics_bi

Related Use Cases

data_analytics

SQL debugging

Diagnose and fix SQL queries for correctness and performance.

Top: gpt-4o-20241120

data_analytics

Metric definition workshop

Turn ambiguous KPI definitions into precise, measurable specs.

Top: gpt-4o

data_analytics

Dashboard narratives

Generate weekly KPI narratives and investigation suggestions.

Top: gemini-3-pro-preview

data_analytics

Text-to-SQL analyst assistant

Convert questions into SQL and explain the query.

Top: gemini-3-pro-preview