legal

Best LLM for Contract Drafting

Ranked models for drafting, reviewing, and redlining legal contracts and agreements.

#1 Recommendation

gemini-3-pro-preview

Strong on Vals Legal Bench overall_accuracy_pct (99%) and LEXam Leaderboard average_score_pct (76%)

external/google/gemini-3-pro-preview

34.6%

Score

47.4%

Confidence

Evidence

Runners-up:#2 gemini-2.5-pro (34.5%)#3 gpt-4.1-20250414 (26.6%)#4 gpt-5-mini-2025-08-07 (25.9%)

Ranked Models

Evidence Quality

84%

Scoring

Benchmark-backed

Top Signal

Vals Legal Bench: overall_accuracy_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-3-pro-preview Strong on Vals Legal Bench overall_accuracy_pct (99%) and LEXam Leaderboard average_score_pct (76%)	34.6%	47.4%	26	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) LEXam Leaderboard average_score_pct (Mar 17, 2026)
#2	gemini-2.5-pro Strong on LEXam Leaderboard average_score_pct (89%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)	34.5%	51.5%	33	LEXam Leaderboard average_score_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#3	gpt-4.1-20250414 Strong on Vals Case Law v2 overall_accuracy_pct (86%) and Vals Legal Bench overall_accuracy_pct (91%)	26.6%	36.5%	21	Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026) Vals Legal Bench overall_accuracy_pct (Mar 17, 2026)
#4	gpt-5-mini-2025-08-07	25.9%	35.3%	21	Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026) Vals Legal Bench overall_accuracy_pct (Mar 17, 2026)
#5	gpt-5-2025-08-07	24.4%	29.6%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#6	anthropic/claude-sonnet-4.6	24.3%	31.3%	20	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#7	Grok-4-0709	24.1%	32.9%	21	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#8	google/gemini-3.1-pro-preview	23.2%	27.5%	20	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#9	openai/gpt-5.4-2026-03-05	22.8%	27.1%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#10	gpt-5.1-2025-11-13	22.2%	29.2%	18	Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026) Vals Legal Bench overall_accuracy_pct (Mar 17, 2026)
#11	gemini-2.5-flash	21.5%	27.9%	20	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 17, 2026)
#12	claude-opus-4-5-20251101	20.3%	26.5%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#13	claude-sonnet-4-20250514	20.3%	29.4%	20	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#14	xai-org/grok-4-fast-reasoning	20.0%	27.1%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#15	deepseek/deepseek-r1	19.5%	32.0%	22	LEXam Leaderboard average_score_pct (Mar 17, 2026) SYCON Bench (Table 2) sycon_unethical_tof_pct (Mar 17, 2026)
#16	gemini-3-flash-preview	19.2%	27.0%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#17	xai-org/grok-4-1-fast-reasoning	18.7%	27.1%	19	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#18	google/gemini-3.1-flash-lite-preview	18.5%	26.8%	18	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#19	gpt-5.2-2025-12-11	17.8%	20.7%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#20	anthropic/claude-opus-4-6-thinking	17.2%	20.7%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#21	anthropic/claude-opus-4-5-20251101-thinking	16.5%	20.7%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#22	mistralai/mistral-large-2512	16.4%	26.5%	17	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#24	openai/gpt-4.1	16.1%	20.4%	17	LEXam Leaderboard average_score_pct (Mar 17, 2026) LEXam Leaderboard open_question_judge_score_pct (Mar 17, 2026)
#25	anthropic/claude-sonnet-4-5-20250929-thinking	15.8%	20.7%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#27	Command A (03-2025)	15.0%	25.8%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#28	x-ai/grok-3	14.8%	18.6%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#29	Kimi K2 Thinking	14.8%	23.1%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)
#30	anthropic/claude-opus-4-1-20250805	14.7%	22.5%	15	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#31	zai/glm-5-thinking	14.0%	22.8%	14	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#32	alibaba/qwen3.5-flash	13.5%	20.4%	14	Vals Legal Bench overall_accuracy_pct (Mar 17, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 17, 2026)

Head-to-Head: #1 vs #2

Top Pick

gemini-3-pro-preview

Strong on Vals Legal Bench overall_accuracy_pct (99%) and LEXam Leaderboard average_score_pct (76%)

34.6%

Conf 47.4%

gemini-2.5-pro

Strong on LEXam Leaderboard average_score_pct (89%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

34.5%

Conf 51.5%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Autonomous Coding

Benchmark-backed ranking of models for end-to-end autonomous software engineering and issue resolution.

Best LLM for Function Calling

Compare models for reliable tool use, function selection, and multi-step API orchestration.