legal

Best LLM for Regulatory Summary

Ranked models for summarizing regulatory text with conservative interpretation.

#1 Recommendation

gemini-2.5-pro

Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and LEXam Leaderboard average_score_pct (89%)

external/google/gemini-2-5-pro

32.7%

Score

50.9%

Confidence

Evidence

Runners-up:#2 gemini-3-pro-preview (32.4%)#3 gpt-4.1-20250414 (27.5%)#4 gpt-5-mini-2025-08-07 (24.9%)

Ranked Models

Evidence Quality

84%

Scoring

Benchmark-backed

Top Signal

FACTS Benchmark Suite: facts_grounding_score_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and LEXam Leaderboard average_score_pct (89%)	32.7%	50.9%	30	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) LEXam Leaderboard average_score_pct (Mar 16, 2026)
#2	gemini-3-pro-preview Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and Vals Legal Bench overall_accuracy_pct (99%)	32.4%	43.5%	26	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#3	gpt-4.1-20250414 Strong on MMLongBench-Doc Leaderboard acc_score_pct (75%) and Vals Case Law v2 overall_accuracy_pct (86%)	27.5%	38.5%	21	MMLongBench-Doc Leaderboard acc_score_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#4	gpt-5-mini-2025-08-07	24.9%	34.8%	21	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#5	anthropic/claude-sonnet-4.6	24.8%	31.8%	20	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#6	gemini-2.5-flash	24.5%	32.5%	19	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#7	google/gemini-3.1-pro-preview	22.9%	27.0%	20	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#8	openai/gpt-5.4-2026-03-05	22.7%	26.6%	19	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#9	Grok-4-0709	22.6%	31.3%	20	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#10	gpt-5-2025-08-07	22.0%	27.1%	18	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#11	claude-sonnet-4-20250514	21.1%	31.5%	20	Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#12	claude-opus-4-5-20251101	20.9%	27.7%	19	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#13	gpt-5.1-2025-11-13	19.5%	27.1%	18	Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#14	gemini-3-flash-preview	19.3%	26.4%	19	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#15	xai-org/grok-4-fast-reasoning	19.3%	26.6%	19	Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#16	google/gemini-3.1-flash-lite-preview	18.7%	26.1%	18	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#17	xai-org/grok-4-1-fast-reasoning	18.3%	26.6%	19	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#18	gpt-5.2-2025-12-11	16.2%	18.4%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#19	anthropic/claude-opus-4-6-thinking	15.9%	18.4%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#20	mistralai/mistral-large-2512	15.5%	25.7%	17	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#21	anthropic/claude-opus-4-5-20251101-thinking	15.0%	18.4%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#22	x-ai/grok-3	15.0%	19.3%	14	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#23	anthropic/claude-sonnet-4-5-20250929-thinking	14.3%	18.4%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#24	anthropic/claude-opus-4-1-20250805	14.1%	22.6%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#28	xai-org/grok-4-1-fast-non-reasoning	13.5%	23.2%	18	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#29	zai/glm-5-thinking	13.5%	21.0%	14	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#30	Command A (03-2025)	13.2%	24.8%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#31	kimi/kimi-k2.5-thinking	13.0%	20.3%	18	Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#32	grok/grok-4.20-beta-0309-reasoning	12.9%	18.4%	15	Vals Legal Bench overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#34	Kimi K2 Thinking	12.7%	21.5%	15	Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)

Head-to-Head: #1 vs #2

Top Pick

gemini-2.5-pro

Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and LEXam Leaderboard average_score_pct (89%)

32.7%

Conf 50.9%

gemini-3-pro-preview

Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and Vals Legal Bench overall_accuracy_pct (99%)

32.4%

Conf 43.5%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Refactoring

Ranked models for safely refactoring code while preserving behavior and improving clarity.

Best LLM for IDE Code Completion

Compare models for fast, accurate local-context code completion and snippet generation.