creative

Best Model for NPC Dialogue

Compare models for low-latency in-character dialogue suitable for games.

#1 Recommendation

qwen-2.5-72b-instruct

Strong on Creative Writing Official (EQ-Bench Slice) creative_writing_score (78%) and Judgemark Official (EQ-Bench Slice) judgemark_score (56%)

external/qwen/qwen-2-5-72b-instruct

21.7%

Score

35.0%

Confidence

Evidence

Runners-up:#2 gpt-4o (20.7%)#3 gemini-2.5-pro (18.5%)#4 Grok-4-0709 (17.1%)

Ranked Models

Evidence Quality

80%

Scoring

Benchmark-backed

Top Signal

Creative Writing Official (EQ-Bench Slice): creative_writing_score

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#12	qwen-2.5-72b-instruct	21.7%	35.0%	13	Creative Writing Official (EQ-Bench Slice) creative_writing_score (Mar 16, 2026) Judgemark Official (EQ-Bench Slice) judgemark_score (Mar 16, 2026)
#16	gpt-4o	20.7%	26.5%	12	Creative Writing Official (EQ-Bench Slice) creative_writing_score (Mar 16, 2026) Judgemark Official (EQ-Bench Slice) judgemark_score (Mar 16, 2026)
#24	gemini-2.5-pro	18.5%	25.1%	23	UGI Leaderboard Writing ✍️ (Mar 16, 2026) MWS Vision Bench validation_overall_score (Mar 16, 2026)
#35	Grok-4-0709	17.1%	21.9%	20	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#40	gpt-4.1-20250414	16.6%	21.7%	20	UGI Leaderboard Writing ✍️ (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026)
#43	Arch-Agent-32B	16.4%	31.1%	4	BFCL Multi-turn Official Multi Turn Acc (Mar 16, 2026) BFCL Relevance Detection Official Relevance Detection (Mar 16, 2026)
#59	gemma-2-27b-it	13.5%	20.0%	8	Creative Writing Official (EQ-Bench Slice) creative_writing_score (Mar 16, 2026) UGI Leaderboard Writing ✍️ (Mar 16, 2026)
#75	xai-org/grok-4-fast-reasoning	12.1%	17.3%	17	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#82	Arch-Agent-3B	11.6%	31.1%	4	BFCL Multi-turn Official Multi Turn Acc (Mar 16, 2026) BFCL Relevance Detection Official Relevance Detection (Mar 16, 2026)
#86	xai-org/grok-4-1-fast-reasoning	11.4%	17.3%	17	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#87	gemini-3-pro-preview	11.4%	14.6%	21	FACTS Benchmark Suite average_score_pct (Mar 16, 2026) Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026)
#90	Arch-Agent-1.5B	11.1%	31.1%	4	BFCL Relevance Detection Official Relevance Detection (Mar 16, 2026) BFCL Multi-turn Official Multi Turn Acc (Mar 16, 2026)
#94	grok/grok-4.20-beta-0309-reasoning	10.9%	15.8%	15	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#96	gemini-3-flash-preview	10.7%	13.1%	15	MWS Vision Bench validation_overall_score (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#98	x-ai/grok-3	10.6%	13.9%	13	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#100	claude-sonnet-4-20250514	10.4%	14.8%	17	Galileo Agent Leaderboard v2 Avg AC (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#101	google/gemini-3.1-pro-preview	10.3%	11.7%	16	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vals GPQA overall_accuracy_pct (Mar 16, 2026)
#104	gemini-2.5-flash	10.2%	14.1%	14	MWS Vision Bench validation_overall_score (Mar 16, 2026) Galileo Agent Leaderboard v2 Avg TSQ (Mar 16, 2026)
#114	gpt-5-2025-08-07	9.5%	11.4%	16	Vals MedQA overall_accuracy_pct (Mar 16, 2026) Vals Legal Bench overall_accuracy_pct (Mar 16, 2026)
#116	openai/gpt-5.4-2026-03-05	9.4%	10.9%	15	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 12, 2026) Vals MedQA overall_accuracy_pct (Mar 16, 2026)
#119	gpt-5.1-2025-11-13	9.1%	11.4%	16	Vals Case Law v2 overall_accuracy_pct (Mar 16, 2026) Vals MedScribe overall_accuracy_pct (Mar 16, 2026)
#124	anthropic/claude-sonnet-4.6	9.0%	10.9%	15	Vals Finance Agent overall_accuracy_pct (Mar 16, 2026) Vals Tax Eval v2 overall_accuracy_pct (Mar 16, 2026)
#126	claude-opus-4-5-20251101	9.0%	11.4%	16	Vals Mortgage Tax overall_accuracy_pct (Mar 16, 2026) Vals MedQA overall_accuracy_pct (Mar 16, 2026)
#130	gpt-5-mini-2025-08-07	8.8%	12.2%	17	Vals MedQA overall_accuracy_pct (Mar 16, 2026) Vals LiveCodeBench overall_accuracy_pct (Mar 16, 2026)
#132	xai-org/grok-4-1-fast-non-reasoning	8.7%	16.5%	16	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#133	Kimi-K2-Instruct	8.7%	10.5%	4	UGI Leaderboard Entertainment (Mar 16, 2026) UGI Leaderboard Writing ✍️ (Mar 16, 2026)
#136	gpt-4o-2024-05-13	8.4%	11.4%	8	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#143	xai-org/grok-4-fast-non-reasoning	8.2%	15.1%	14	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#148	qwen/qwen3-max	7.9%	13.6%	12	UGI Leaderboard Writing ✍️ (Mar 16, 2026) UGI Leaderboard Entertainment (Mar 16, 2026)
#154	DeepSeek-V2.5	7.8%	12.2%	4	Judgemark Official (EQ-Bench Slice) judgemark_score (Mar 16, 2026) EQ-Bench Leaderboard judgemark_score (Mar 16, 2026)

Head-to-Head: #1 vs #2

#12

Top Pick

qwen-2.5-72b-instruct

Strong on Creative Writing Official (EQ-Bench Slice) creative_writing_score (78%) and Judgemark Official (EQ-Bench Slice) judgemark_score (56%)

21.7%

Conf 35.0%

#16

gpt-4o

Strong on Creative Writing Official (EQ-Bench Slice) creative_writing_score (84%) and Judgemark Official (EQ-Bench Slice) judgemark_score (74%)

20.7%

Conf 26.5%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Refactoring

Ranked models for safely refactoring code while preserving behavior and improving clarity.

Best LLM for IDE Code Completion

Compare models for fast, accurate local-context code completion and snippet generation.