business_productivity

Business email drafting

Draft and rewrite professional emails with tone control.

#1 Recommendation

gemini-2.5-pro

Strong on Galileo Agent Leaderboard v2 Avg TSQ (79%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

external/google/gemini-2-5-pro

23.4%

Score

39.9%

Confidence

Runners-up:#2 gpt-4.1-20250414 (23.2%)#3 gemini-3-pro-preview (20.6%)#4 gemini-2.5-flash (20.6%)

Limited benchmark evidence for this use case.

50 ranked models with average evidence of 15.2 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

Galileo Agent Leaderboard v2: Avg TSQ

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on Galileo Agent Leaderboard v2 Avg TSQ (79%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)	23.4%	39.9%	27	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#2	gpt-4.1-20250414 Strong on OpenVLM OCRBench Official ocrbench_score_pct (88%) and Galileo Agent Leaderboard v2 Avg TSQ (64%)	23.2%	35.1%	25	OpenVLM OCRBench Official ocrbench_score_pct (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#3	gemini-3-pro-preview Strong on Vals Finance Agent overall_accuracy_pct (87%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)	20.6%	28.8%	24	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#4	gemini-2.5-flash	20.6%	27.4%	18	LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct (Mar 12, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#5	gpt-5-mini-2025-08-07	18.5%	26.4%	21	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) OpenVLM OCRBench Official ocrbench_score_pct (Mar 16, 2026)
#6	gpt-5-2025-08-07	17.6%	21.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) OpenVLM OCRBench Official ocrbench_score_pct (Mar 16, 2026)
#7	anthropic/claude-sonnet-4.6	16.8%	21.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#8	Grok-4-0709	16.3%	24.3%	19	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#9	google/gemini-3.1-pro-preview	15.9%	19.2%	19	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#11	openai/gpt-5.4-2026-03-05	15.4%	18.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#13	claude-sonnet-4-20250514	14.7%	22.4%	19	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#14	gpt-4.1-mini-20250414	14.3%	21.4%	15	OpenVLM OCRBench Official ocrbench_score_pct (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#15	gpt-4o	14.0%	17.3%	13	Creative Writing Official (EQ-Bench Slice) creative_writing_score (Mar 16, 2026) CRMArena Function Calling overall_score_pct (Mar 16, 2026)
#16	gpt-5.1-2025-11-13	13.6%	19.3%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#17	claude-opus-4-5-20251101	13.1%	18.0%	18	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#18	google/gemini-3.1-flash-lite-preview	12.8%	18.2%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#20	gpt-5.2-2025-12-11	12.2%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#21	anthropic/claude-opus-4-6-thinking	11.8%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#23	xai-org/grok-4-fast-reasoning	11.1%	18.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#24	gemini-3-flash-preview	11.1%	17.1%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#25	google/gemini-2.0-flash-001	11.0%	13.7%	12	LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct (Mar 12, 2026) LanguageBench Translation Official (Split) translation_to:bleu (Mar 12, 2026)
#26	anthropic/claude-opus-4-5-20251101-thinking	11.0%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#28	qwen-2.5-72b-instruct	10.7%	16.8%	11	Creative Writing Official (EQ-Bench Slice) creative_writing_score (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#30	kimi/kimi-k2.5-thinking	10.4%	15.8%	16	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#31	anthropic/claude-sonnet-4-5-20250929-thinking	10.4%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#32	xai-org/grok-4-1-fast-reasoning	10.4%	18.7%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard business_answer_rate_pct (Mar 12, 2026)
#39	anthropic/claude-opus-4-1-20250805	9.1%	16.4%	15	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#42	grok/grok-4.20-beta-0309-reasoning	9.0%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#44	anthropic/claude-haiku-4-5-20251001-thinking	8.8%	13.5%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#46	mistralai/mistral-large-2512	8.7%	17.6%	16	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard business_answer_rate_pct (Mar 12, 2026)

Compare Models

Model A leads by +0.2%

Shareable Link →

Model A

gemini-2.5-pro

external/google/gemini-2-5-pro

23.4%

Rank #1

Confidence 39.9%27 evidence pts

Galileo Agent Leaderboard v2: Avg TSQ

Value 79.5% · Conf 100.0% · Weight 2.2%

galileo_agent_v2.avg_tsq (Mar 16, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 100.0% · Conf 100.0% · Weight 1.9%

facts_benchmark_suite.facts_grounding_score_pct (Mar 16, 2026)

OpenVLM OCRBench Official: ocrbench_score_pct

Value 90.7% · Conf 100.0% · Weight 1.9%

openvlm_ocrbench_official.ocrbench_score_pct (Mar 16, 2026)

Vals Mortgage Tax: overall_accuracy_pct

Value 99.0% · Conf 100.0% · Weight 1.6%

vals_mortgage_tax.overall_accuracy_pct (Mar 16, 2026)

Model B

gpt-4.1-20250414

external/openai/gpt-4-1-20250414

23.2%

Rank #2

Confidence 35.1%25 evidence pts

OpenVLM OCRBench Official: ocrbench_score_pct

Value 87.7% · Conf 100.0% · Weight 1.8%

openvlm_ocrbench_official.ocrbench_score_pct (Mar 16, 2026)

Galileo Agent Leaderboard v2: Avg TSQ

Value 64.1% · Conf 100.0% · Weight 1.8%

galileo_agent_v2.avg_tsq (Mar 16, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 82.5% · Conf 100.0% · Weight 1.7%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 12, 2026)

OpenVLM TextVQA Official: textvqa_score_pct

Value 76.8% · Conf 100.0% · Weight 1.6%

openvlm_textvqa_official.textvqa_score_pct (Mar 16, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals MedQA

vals_medqa

38 rows

0.4% avg lift

Vals Legal Bench

vals_legal_bench

37 rows

0.4% avg lift

Vals Tax Eval v2

vals_tax_eval_v2

36 rows

0.4% avg lift

Vals Mortgage Tax

vals_mortgage_tax

34 rows

1.3% avg lift

Missing Strong Models

gpt-4o-20241120

external/openai/gpt-4o-20241120

Rank #50

10.7%

Thin evidence after weighting

gpt-4o-2024-05-13

external/openai/gpt-4o-2024-05-13

Rank #52

10.5%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.write_emailtask.rewrite_tone_style

Required Modes

none

Domains

domain.general_business

Related Use Cases

business_productivity

Knowledge base Q&A (fast, no citations)

Answer KB questions grounded in retrieved text without citations.

Top: gemini-3-pro-preview

business_productivity

Knowledge base Q&A (with citations)

Answer questions grounded in an internal KB, with evidence.

Top: gemini-3-pro-preview

business_productivity

Decision memo

Recommend a decision with options, constraints, and risks.

Top: gemini-2.5-pro

business_productivity

Executive briefing

Turn raw notes into a short executive brief with risks and actions.

Top: gemini-2.5-pro