customer_experience

Best LLM for Support Bot

Compare top support-bot models grounded in docs with citations and escalation.

#1 Recommendation

gemini-3-pro-preview

Strong on BasedAGI Support Bot Eval overall_score_pct (86%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)

external/google/gemini-3-pro-preview

36.3%

Score

48.2%

Confidence

Evidence

Runners-up:#2 gemini-2.5-pro (32.2%)#3 anthropic/claude-sonnet-4.6 (28.0%)#4 Grok-4-0709 (24.2%)

Ranked Models

Evidence Quality

82%

Scoring

Benchmark-backed

Top Signal

BasedAGI Support Bot Eval: overall_score_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-3-pro-preview Strong on BasedAGI Support Bot Eval overall_score_pct (86%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)	36.3%	48.2%	27	BasedAGI Support Bot Eval overall_score_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#2	gemini-2.5-pro Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and Vectara HHEM Leaderboard overall_hallucination_error_pct (76%)	32.2%	49.8%	28	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#3	anthropic/claude-sonnet-4.6 Strong on Vals Finance Agent overall_accuracy_pct (100%) and BasedAGI Support Bot Eval overall_score_pct (71%)	28.0%	37.6%	21	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) BasedAGI Support Bot Eval overall_score_pct (Mar 16, 2026)
#4	Grok-4-0709	24.2%	40.0%	25	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#5	gpt-5-mini-2025-08-07	21.0%	31.6%	19	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#6	gpt-4.1-20250414	20.7%	30.4%	20	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026)
#7	gpt-5-2025-08-07	19.9%	25.1%	18	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#8	google/gemini-3.1-pro-preview	18.7%	22.4%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#9	openai/gpt-5.4-2026-03-05	18.5%	22.0%	17	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#10	claude-sonnet-4-20250514	17.7%	29.2%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#11	claude-opus-4-5-20251101	17.0%	24.3%	17	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#12	gemini-2.5-flash	16.5%	27.5%	15	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#13	gpt-5.1-2025-11-13	16.2%	25.1%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#14	google/gemini-3.1-flash-lite-preview	15.4%	21.7%	16	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#15	gemini-3-flash-preview	15.2%	21.9%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#16	xai-org/grok-4-fast-reasoning	15.0%	22.0%	17	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#17	xai-org/grok-4-1-fast-reasoning	14.1%	22.0%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#18	gpt-5.2-2025-12-11	13.7%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#20	anthropic/claude-opus-4-6-thinking	13.4%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#21	kimi/kimi-k2.5-thinking	13.2%	28.5%	21	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#22	anthropic/claude-opus-4-5-20251101-thinking	12.3%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#23	anthropic/claude-sonnet-4-5-20250929-thinking	11.7%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#24	x-ai/grok-3	11.6%	16.2%	12	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#26	grok/grok-4.20-beta-0309-reasoning	11.4%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#27	zai/glm-5-thinking	11.3%	17.5%	13	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 16, 2026)
#29	mistralai/mistral-large-2512	11.0%	21.3%	15	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#30	xai-org/grok-4-1-fast-non-reasoning	11.0%	20.6%	16	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#35	Qwen3-Embedding-4B	10.7%	14.3%	8	BEIR-Style Retrieval (Official MTEB Slice) beir_average_score_pct (Mar 16, 2026) MTEB Retrieval and Rerank (Official) retrieval_score_pct (Mar 16, 2026)
#45	anthropic/claude-opus-4-1-20250805	10.3%	19.9%	13	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#47	anthropic/claude-haiku-4-5-20251001-thinking	10.2%	15.2%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)

Head-to-Head: #1 vs #2

Top Pick

gemini-3-pro-preview

Strong on BasedAGI Support Bot Eval overall_score_pct (86%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)

36.3%

Conf 48.2%

gemini-2.5-pro

Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and Vectara HHEM Leaderboard overall_hallucination_error_pct (76%)

32.2%

Conf 49.8%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Refactoring

Ranked models for safely refactoring code while preserving behavior and improving clarity.

Best LLM for IDE Code Completion

Compare models for fast, accurate local-context code completion and snippet generation.