benchmark evidence

BenchLM Coding

BenchLM composite coding score (0-100).

winner on BenchLM Coding

direct benchmark result, not a broad vertical composite | source row dated 2026-07-13

scored on 2026-07-13

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	OpenAI: GPT-5.4 Openai	86.4	model-only aggregator	2026-07-13
2	Anthropic: Claude Opus 4.6 Anthropic	82.4	model-only aggregator	2026-07-13
3	Anthropic: Claude Sonnet 4.6 Anthropic	75.7	model-only aggregator	2026-07-13
4	Anthropic: Claude Sonnet 4.5 Anthropic	74.4	model-only aggregator	2026-07-13
5	OpenAI: GPT-5.2 Openai	73.7	model-only aggregator	2026-07-13
6	Anthropic: Claude Opus 4.5 Anthropic	73.0	model-only aggregator	2026-07-13
7	OpenAI: GPT-5.5 Openai	72.5	model-only aggregator	2026-07-13
8	Z.ai: GLM 5 Z Ai	71.9	model-only aggregator	2026-07-13
9	OpenAI: GPT-5.1 Openai	68.4	model-only aggregator	2026-07-13
10	DeepSeek: DeepSeek V4 Pro Deepseek	68.1	model-only aggregator	2026-07-13
11	OpenAI: GPT-5.4 Mini Openai	67.2	model-only aggregator	2026-07-13
12	DeepSeek: DeepSeek V4 Flash Deepseek	62.1	model-only aggregator	2026-07-13
13	OpenAI: GPT-4.1 Openai	61.5	model-only aggregator	2026-07-09
14	Google: Gemini 2.5 Pro Google	45.4	model-only aggregator	2026-07-13

what this result means

BenchLM composite coding score (0-100).

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on BenchLM Coding. Broad task pages require independent corroboration before naming a general winner.

source record

category: coding

metric: score

matched models: 14

latest source date: 2026-07-13

direction: higher is better