customer_experience

Multilingual Customer Support

Handling customer queries in multiple languages with cultural awareness.

#1 Recommendation

gemini-2.5-flash

Strong on LanguageBench overall:mean (100%) and FACTS Benchmark Suite facts_grounding_score_pct (90%)

external/google/gemini-2-5-flash

24.7%

Score

33.8%

Confidence

Runners-up:#2 gemini-2.5-pro (23.1%)#3 gemini-3-pro-preview (22.6%)#4 gpt-4.1-20250414 (21.7%)

Limited benchmark evidence for this use case.

54 ranked models with average evidence of 15.2 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

LanguageBench: overall:mean

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-flash Strong on LanguageBench overall:mean (100%) and FACTS Benchmark Suite facts_grounding_score_pct (90%)	24.7%	33.8%	19	LanguageBench overall:mean (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#2	gemini-2.5-pro Strong on FACTS Benchmark Suite facts_grounding_score_pct (100%) and Vectara HHEM Leaderboard overall_hallucination_error_pct (76%)	23.1%	45.7%	31	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#3	gemini-3-pro-preview Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and FACTS Benchmark Suite facts_search_score_pct (100%)	22.6%	30.5%	23	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) FACTS Benchmark Suite facts_search_score_pct (Mar 17, 2026)
#4	gpt-4.1-20250414	21.7%	32.1%	25	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026)
#6	gpt-5-mini-2025-08-07	17.9%	26.5%	20	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 17, 2026)
#7	gpt-5-2025-08-07	17.3%	21.6%	20	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#8	anthropic/claude-sonnet-4.6	17.0%	22.1%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#10	Grok-4-0709	16.5%	24.4%	22	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#11	google/gemini-3.1-pro-preview	14.9%	17.8%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#12	openai/gpt-5.4-2026-03-05	14.7%	17.5%	17	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#13	openai/gpt-4.1	14.7%	17.4%	15	LanguageBench overall:mean (Mar 17, 2026) LanguageBench Translation Official (Split) translation_to:bleu (Mar 17, 2026)
#16	claude-sonnet-4-20250514	14.0%	23.2%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#17	google/gemini-2.0-flash-001	13.8%	18.0%	15	LanguageBench overall:mean (Mar 17, 2026) LanguageBench Translation Official (Split) translation_to:bleu (Mar 17, 2026)
#18	claude-opus-4-5-20251101	13.5%	19.3%	17	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#19	gpt-5.1-2025-11-13	12.9%	19.9%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 17, 2026)
#20	gpt-4.1-mini-20250414	12.4%	17.1%	17	OpenVLM MTVQA Official mtvqa_score_pct (Mar 17, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 17, 2026)
#22	google/gemini-3.1-flash-lite-preview	12.3%	17.2%	16	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 17, 2026)
#25	gemini-3-flash-preview	12.1%	17.4%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 17, 2026)
#27	xai-org/grok-4-fast-reasoning	11.9%	17.5%	17	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#34	Qwen3-Embedding-4B	11.5%	15.0%	8	MTEB STS & Summarization Proxy Official sts_score_pct (Mar 17, 2026) BEIR-Style Retrieval (Official MTEB Slice) beir_average_score_pct (Mar 17, 2026)
#44	xai-org/grok-4-1-fast-reasoning	11.2%	17.5%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 17, 2026)
#50	gpt-5.2-2025-12-11	10.9%	12.0%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 17, 2026)
#53	phi-4	10.7%	18.5%	8	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) LanguageBench overall:mean (Mar 17, 2026)
#58	anthropic/claude-opus-4-6-thinking	10.6%	12.0%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 17, 2026)
#80	kimi/kimi-k2.5-thinking	9.9%	15.0%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#91	anthropic/claude-opus-4-5-20251101-thinking	9.7%	12.0%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#102	Llama-3.3-70B-Instruct	9.6%	13.0%	6	LanguageBench overall:mean (Mar 17, 2026) LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct (Mar 17, 2026)
#107	x-ai/grok-3	9.5%	13.1%	13	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 17, 2026)
#112	Llama-3.1-70B-Instruct	9.4%	14.7%	7	LanguageBench overall:mean (Mar 17, 2026) LanguageBench Grammar/Clarity Official (Split) grammar_clarity_score_pct (Mar 17, 2026)
#121	anthropic/claude-sonnet-4-5-20250929-thinking	9.3%	12.0%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 17, 2026)

Compare Models

Model A leads by +1.6%

Shareable Link →

Model A

gemini-2.5-flash

external/google/gemini-2-5-flash

24.7%

Rank #1

Confidence 33.8%19 evidence pts

LanguageBench: overall:mean

Value 100.0% · Conf 100.0% · Weight 4.2%

languagebench.overall_mean (Mar 17, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 90.4% · Conf 100.0% · Weight 2.4%

facts_benchmark_suite.facts_grounding_score_pct (Mar 17, 2026)

LanguageBench Translation Official (Split): translation_to:bleu

Value 92.0% · Conf 100.0% · Weight 2.2%

languagebench_translation_official.translation_to_bleu (Mar 17, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 72.4% · Conf 100.0% · Weight 2.1%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 17, 2026)

Model B

gemini-2.5-pro

external/google/gemini-2-5-pro

23.1%

Rank #2

Confidence 45.7%31 evidence pts

FACTS Benchmark Suite: facts_grounding_score_pct

Value 100.0% · Conf 100.0% · Weight 2.7%

facts_benchmark_suite.facts_grounding_score_pct (Mar 17, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 76.0% · Conf 100.0% · Weight 2.2%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 17, 2026)

Vectara HHEM Leaderboard: overall_answer_rate_pct

Value 97.6% · Conf 100.0% · Weight 1.7%

vectara_hhem_leaderboard.overall_answer_rate_pct (Mar 17, 2026)

FACTS Benchmark Suite: average_score_pct

Value 78.3% · Conf 100.0% · Weight 1.5%

facts_benchmark_suite.average_score_pct (Mar 17, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals CorpFin v2

vals_corp_fin_v2

40 rows

0.9% avg lift

Vals Legal Bench

vals_legal_bench

35 rows

0.2% avg lift

Vals MedQA

vals_medqa

33 rows

0.2% avg lift

Vals Tax Eval v2

vals_tax_eval_v2

32 rows

0.2% avg lift

Missing Strong Models

gpt-4o-20241120

external/openai/gpt-4o-20241120

Rank #43

10.7%

Thin evidence after weighting

gpt-4o-2024-05-13

external/openai/gpt-4o-2024-05-13

Rank #47

10.6%

Thin evidence after weighting

openai/gpt-4o-mini-2024-07-18

external/openai/gpt-4o-mini-2024-07-18

Rank #55

9.4%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.customer_support_dialoguetask.translate_general

Required Modes

none

Domains

domain.customer_support

Related Use Cases

customer_experience

Agent-assist reply suggestions

Draft replies for human agents with tone and policy constraints.

Top: gemini-3-pro-preview

customer_experience

Support dialogue agent

Multi-turn support conversations with escalation and policy awareness.

Top: gemini-3-pro-preview

customer_experience

Support bot (RAG grounded)

Support chatbot grounded in docs with optional citations and escalation.

Top: gemini-3-pro-preview

customer_experience

Customer feedback theme mining

Extract themes and trends from reviews, tickets, and surveys.

Top: gemini-3-pro-preview