business_productivity

Meeting minutes

Extract decisions, action items, and open questions from transcripts.

#1 Recommendation

gemini-2.5-pro

Strong on Galileo Agent Leaderboard v2 Avg TSQ (79%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

external/google/gemini-2-5-pro

20.3%

Score

32.6%

Confidence

Runners-up:#2 gemini-3-pro-preview (20.2%)#3 gpt-4.1-20250414 (19.2%)#4 anthropic/claude-sonnet-4.6 (16.4%)

Limited benchmark evidence for this use case.

49 ranked models with average evidence of 15.0 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

Galileo Agent Leaderboard v2: Avg TSQ

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on Galileo Agent Leaderboard v2 Avg TSQ (79%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)	20.3%	32.6%	25	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#2	gemini-3-pro-preview Strong on Vals Finance Agent overall_accuracy_pct (87%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)	20.2%	28.1%	24	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#3	gpt-4.1-20250414 Strong on MMLongBench-Doc Leaderboard acc_score_pct (75%) and Galileo Agent Leaderboard v2 Avg TSQ (64%)	19.2%	27.6%	20	MMLongBench-Doc Leaderboard acc_score_pct (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#4	anthropic/claude-sonnet-4.6	16.4%	21.2%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#5	gemini-2.5-flash	16.2%	22.7%	17	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct (Mar 12, 2026)
#6	gpt-5-mini-2025-08-07	16.0%	23.4%	20	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#7	Grok-4-0709	15.9%	23.7%	19	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#8	google/gemini-3.1-pro-preview	15.5%	18.7%	19	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#9	gpt-5-2025-08-07	15.2%	18.9%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#10	openai/gpt-5.4-2026-03-05	15.0%	18.2%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#11	claude-sonnet-4-20250514	14.3%	21.9%	19	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#12	gpt-5.1-2025-11-13	13.3%	18.9%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#13	claude-opus-4-5-20251101	12.8%	17.6%	18	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#14	google/gemini-3.1-flash-lite-preview	12.5%	17.7%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#15	gpt-5.2-2025-12-11	11.9%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#16	anthropic/claude-opus-4-6-thinking	11.5%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#17	xai-org/grok-4-fast-reasoning	10.9%	18.2%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#18	gemini-3-flash-preview	10.8%	16.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#19	anthropic/claude-opus-4-5-20251101-thinking	10.7%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#21	kimi/kimi-k2.5-thinking	10.2%	15.4%	16	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#22	anthropic/claude-sonnet-4-5-20250929-thinking	10.1%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#23	xai-org/grok-4-1-fast-reasoning	10.1%	18.2%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard business_answer_rate_pct (Mar 12, 2026)
#24	qwen-2.5-72b-instruct	9.9%	14.7%	11	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 16, 2026)
#25	gpt-4o-2024-08-06	9.5%	17.6%	16	DuckDB NSQL Leaderboard all_execution_accuracy (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#26	gpt-4o	9.4%	11.2%	11	CRMArena Function Calling overall_score_pct (Mar 16, 2026) JSONSchemaBench Leaderboard medium_schema_compliance_pct (Mar 12, 2026)
#28	anthropic/claude-opus-4-1-20250805	8.9%	16.1%	15	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#29	gpt-4o-20241120	8.9%	13.7%	11	MMLongBench-Doc Leaderboard acc_score_pct (Mar 16, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 16, 2026)
#30	grok/grok-4.20-beta-0309-reasoning	8.8%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#31	anthropic/claude-haiku-4-5-20251001-thinking	8.6%	13.2%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#33	mistralai/mistral-large-2512	8.5%	17.2%	16	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard business_answer_rate_pct (Mar 12, 2026)

Compare Models

Model A leads by +0.2%

Shareable Link →

Model A

gemini-2.5-pro

external/google/gemini-2-5-pro

20.3%

Rank #1

Confidence 32.6%25 evidence pts

Galileo Agent Leaderboard v2: Avg TSQ

Value 79.5% · Conf 100.0% · Weight 2.0%

galileo_agent_v2.avg_tsq (Mar 16, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 100.0% · Conf 100.0% · Weight 1.8%

facts_benchmark_suite.facts_grounding_score_pct (Mar 16, 2026)

Vals Mortgage Tax: overall_accuracy_pct

Value 99.0% · Conf 100.0% · Weight 1.5%

vals_mortgage_tax.overall_accuracy_pct (Mar 16, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 76.0% · Conf 100.0% · Weight 1.4%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 12, 2026)

Model B

gemini-3-pro-preview

external/google/gemini-3-pro-preview

20.2%

Rank #2

Confidence 28.1%24 evidence pts

Vals Finance Agent: overall_accuracy_pct

Value 87.0% · Conf 100.0% · Weight 1.8%

vals_finance_agent.overall_accuracy_pct (Mar 16, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 88.3% · Conf 100.0% · Weight 1.6%

facts_benchmark_suite.facts_grounding_score_pct (Mar 16, 2026)

FACTS Benchmark Suite: average_score_pct

Value 100.0% · Conf 100.0% · Weight 1.5%

facts_benchmark_suite.average_score_pct (Mar 16, 2026)

Vals Mortgage Tax: overall_accuracy_pct

Value 99.3% · Conf 100.0% · Weight 1.5%

vals_mortgage_tax.overall_accuracy_pct (Mar 16, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals Legal Bench

vals_legal_bench

38 rows

0.4% avg lift

Vals MedQA

vals_medqa

37 rows

0.4% avg lift

Vals Tax Eval v2

vals_tax_eval_v2

37 rows

0.3% avg lift

Vals Mortgage Tax

vals_mortgage_tax

34 rows

1.2% avg lift

Missing Strong Models

gpt-4o-2024-05-13

external/openai/gpt-4o-2024-05-13

Rank #52

10.5%

Thin evidence after weighting

GPT-4.1-nano-2025-04-14

external/openai/gpt-4-1-nano-2025-04-14

Rank #90

6.4%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.summarize_meeting_transcripttask.timeline_extraction

Required Modes

mode.long_context

Domains

domain.general_business

Related Use Cases

business_productivity

Knowledge base Q&A (fast, no citations)

Answer KB questions grounded in retrieved text without citations.

Top: gemini-3-pro-preview

business_productivity

Knowledge base Q&A (with citations)

Answer questions grounded in an internal KB, with evidence.

Top: gemini-3-pro-preview

business_productivity

Decision memo

Recommend a decision with options, constraints, and risks.

Top: gemini-2.5-pro

business_productivity

Executive briefing

Turn raw notes into a short executive brief with risks and actions.

Top: gemini-2.5-pro