creative

qwen-2.5-72b-instruct vs gpt-4o

For Long-form story co-author

Model A winsby +1.2%

Model A

Winner

qwen-2.5-72b-instruct

external/qwen/qwen-2-5-72b-instruct

25.3%

Rank #4

Confidence

40.8%

Evidence

13 pts

Confidence 40.8%13 evidence pts

Creative Writing Official (EQ-Bench Slice): creative_writing_score

Value 78.4% · Conf 100.0% · Weight 6.3%

artificialanalysis_creative_writing_official.creative_writing_score (Mar 12, 2026)

Judgemark Official (EQ-Bench Slice): judgemark_score

Value 55.6% · Conf 100.0% · Weight 3.4%

artificialanalysis_judgemark_official.judgemark_score (Mar 12, 2026)

EQ-Bench Leaderboard: judgemark_score

Value 55.6% · Conf 100.0% · Weight 1.6%

eq_bench.judgemark_score (Mar 12, 2026)

Galileo Agent Leaderboard v2: Avg AC

Value 76.1% · Conf 100.0% · Weight 1.5%

galileo_agent_v2.avg_ac (Mar 12, 2026)

UGI Leaderboard: Writing ✍️

Value 41.8% · Conf 100.0% · Weight 1.2%

ugi_main.writing (Mar 12, 2026)

Model B

gpt-4o

external/openai/gpt-4o

24.1%

Rank #5

Confidence

30.9%

Evidence

12 pts

Confidence 30.9%12 evidence pts

Creative Writing Official (EQ-Bench Slice): creative_writing_score

Value 84.4% · Conf 100.0% · Weight 6.8%

artificialanalysis_creative_writing_official.creative_writing_score (Mar 12, 2026)

Judgemark Official (EQ-Bench Slice): judgemark_score

Value 74.3% · Conf 100.0% · Weight 4.5%

artificialanalysis_judgemark_official.judgemark_score (Mar 12, 2026)

EQ-Bench Leaderboard: judgemark_score

Value 74.3% · Conf 100.0% · Weight 2.1%

eq_bench.judgemark_score (Mar 12, 2026)

MEGA-Bench: overall_score

Value 92.8% · Conf 100.0% · Weight 0.8%

mega_bench.overall_score (Mar 12, 2026)

DuckDB NSQL Leaderboard: all_execution_accuracy

Value 76.9% · Conf 100.0% · Weight 0.6%

duckdb_nsql_leaderboard.all_execution_accuracy (Mar 12, 2026)

Back to Long-form story co-author qwen-2.5-72b-instruct Profile gpt-4o Profile