customer_experience

Feedback insight mining

Extract representative themes and actions from large feedback corpora.

#1 Recommendation

gemini-2.5-pro

Strong on SciArena Leaderboard rating_elo (71%) and Galileo Agent Leaderboard v2 Avg AC (59%)

external/google/gemini-2-5-pro

21.1%

Score

32.6%

Confidence

Runners-up:#2 gemini-3-pro-preview (20.5%)#3 gpt-4.1-20250414 (19.1%)#4 Grok-4-0709 (15.9%)

Limited benchmark evidence for this use case.

49 ranked models with average evidence of 14.1 points. Rankings may shift as more benchmark data is ingested.

Ranked Models

Evidence Quality

79%

Scoring

Benchmark-backed

Top Signal

SciArena Leaderboard: rating_elo

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on SciArena Leaderboard rating_elo (71%) and Galileo Agent Leaderboard v2 Avg AC (59%)	21.1%	32.6%	23	SciArena Leaderboard rating_elo (Mar 12, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026)
#2	gemini-3-pro-preview Strong on SciArena Leaderboard rating_elo (79%) and FACTS Benchmark Suite facts_grounding_score_pct (88%)	20.5%	28.3%	22	SciArena Leaderboard rating_elo (Mar 12, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#3	gpt-4.1-20250414 Strong on Galileo Agent Leaderboard v2 Avg AC (100%) and Vectara HHEM Leaderboard overall_hallucination_error_pct (82%)	19.1%	26.4%	19	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#4	Grok-4-0709	15.9%	24.5%	20	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#5	claude-sonnet-4-20250514	15.0%	22.6%	18	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)
#6	anthropic/claude-sonnet-4.6	14.9%	19.5%	16	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#7	gemini-2.5-flash	14.7%	24.5%	15	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#8	gpt-5-mini-2025-08-07	14.7%	21.4%	18	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#9	gpt-5-2025-08-07	13.9%	17.4%	17	FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#10	google/gemini-3.1-pro-preview	13.9%	16.6%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#11	qwen-2.5-72b-instruct	13.5%	20.7%	12	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 16, 2026)
#13	openai/gpt-5.4-2026-03-05	13.3%	16.1%	16	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#14	gpt-5.1-2025-11-13	12.1%	17.4%	17	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#15	claude-opus-4-5-20251101	11.5%	16.1%	16	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 16, 2026)
#16	gpt-4o	11.4%	14.3%	13	CRMArena Function Calling overall_score_pct (Mar 16, 2026) JSONSchemaBench Leaderboard medium_schema_compliance_pct (Mar 12, 2026)
#17	gemini-3-flash-preview	10.8%	15.9%	16	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#18	google/gemini-3.1-flash-lite-preview	10.6%	15.5%	15	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#19	xai-org/grok-4-fast-reasoning	10.4%	16.1%	16	Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026) Vals Finance Agent overall_accuracy_pct (Mar 16, 2026)
#21	gpt-5.2-2025-12-11	10.3%	11.6%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#26	anthropic/claude-opus-4-6-thinking	9.9%	11.6%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#27	xai-org/grok-4-1-fast-reasoning	9.7%	16.1%	16	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#34	anthropic/claude-opus-4-5-20251101-thinking	9.2%	11.6%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026)
#40	Qwen3-Embedding-4B	9.1%	12.1%	7	BEIR-Style Retrieval (Official MTEB Slice) beir_average_score_pct (Mar 16, 2026) MTEB STS & Summarization Proxy Official sts_score_pct (Mar 16, 2026)
#47	gpt-4.1-mini-20250414	8.9%	11.2%	11	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Galileo Agent Leaderboard v2 Telecom AC (Mar 16, 2026)
#53	kimi/kimi-k2.5-thinking	8.8%	14.2%	16	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#56	anthropic/claude-sonnet-4-5-20250929-thinking	8.7%	11.6%	14	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Finance Agent complex_retrieval_accuracy_pct (Mar 16, 2026)
#69	x-ai/grok-3	8.2%	12.3%	11	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) SciArena Leaderboard rating_elo (Mar 12, 2026)
#76	gpt-4o-2024-08-06	8.1%	15.4%	14	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 16, 2026)
#84	anthropic/claude-opus-4-1-20250805	8.0%	14.5%	13	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vectara HHEM Leaderboard overall_answer_rate_pct (Mar 12, 2026)
#92	deepseek-v3	7.9%	11.9%	6	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026)

Compare Models

Model A leads by +0.6%

Shareable Link →

Model A

gemini-2.5-pro

external/google/gemini-2-5-pro

21.1%

Rank #1

Confidence 32.6%23 evidence pts

SciArena Leaderboard: rating_elo

Value 70.7% · Conf 100.0% · Weight 2.0%

sciarena_leaderboard.rating_elo (Mar 12, 2026)

Galileo Agent Leaderboard v2: Avg AC

Value 58.7% · Conf 100.0% · Weight 2.0%

galileo_agent_v2.avg_ac (Mar 16, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 100.0% · Conf 100.0% · Weight 1.7%

facts_benchmark_suite.facts_grounding_score_pct (Mar 16, 2026)

Vectara HHEM Leaderboard: overall_hallucination_error_pct

Value 76.0% · Conf 100.0% · Weight 1.6%

vectara_hhem_leaderboard.overall_hallucination_error_pct (Mar 12, 2026)

Model B

gemini-3-pro-preview

external/google/gemini-3-pro-preview

20.5%

Rank #2

Confidence 28.3%22 evidence pts

SciArena Leaderboard: rating_elo

Value 78.8% · Conf 100.0% · Weight 2.3%

sciarena_leaderboard.rating_elo (Mar 12, 2026)

FACTS Benchmark Suite: facts_grounding_score_pct

Value 88.3% · Conf 100.0% · Weight 1.5%

facts_benchmark_suite.facts_grounding_score_pct (Mar 16, 2026)

Vals Finance Agent: overall_accuracy_pct

Value 87.0% · Conf 100.0% · Weight 1.5%

vals_finance_agent.overall_accuracy_pct (Mar 16, 2026)

FACTS Benchmark Suite: average_score_pct

Value 100.0% · Conf 100.0% · Weight 1.4%

facts_benchmark_suite.average_score_pct (Mar 16, 2026)

▶Ranking Diagnostics & Missing Models

Source Lift

Ranked

Sources

Quality

Insufficient

Vals MedQA

vals_medqa

36 rows

0.3% avg lift

Vals Legal Bench

vals_legal_bench

36 rows

0.3% avg lift

Vals Tax Eval v2

vals_tax_eval_v2

36 rows

0.3% avg lift

Vals LiveCodeBench

vals_lcb

34 rows

0.3% avg lift

Missing Strong Models

google/gemini-2.0-flash-001

external/google/gemini-2-0-flash-001

Rank #57

10.3%

Thin evidence after weighting

xai-org/grok-4-fast-non-reasoning

external/xai-org/grok-4-fast-non-reasoning

Rank #69

8.7%

Thin evidence after weighting

Llama-4-Scout-17B-16E-Instruct

external/meta/llama-4-scout-17b-16e-instruct

Rank #74

8.4%

Thin evidence after weighting

▶Taxonomy Details

Core Tasks

task.insight_mining

Required Modes

mode.long_context

Domains

domain.customer_support

Related Use Cases

customer_experience

Agent-assist reply suggestions

Draft replies for human agents with tone and policy constraints.

Top: gemini-3-pro-preview

customer_experience

Support dialogue agent

Multi-turn support conversations with escalation and policy awareness.

Top: gemini-3-pro-preview

customer_experience

Support bot (RAG grounded)

Support chatbot grounded in docs with optional citations and escalation.

Top: gemini-3-pro-preview

customer_experience

Customer feedback theme mining

Extract themes and trends from reviews, tickets, and surveys.

Top: gemini-3-pro-preview