benchmark evidence

BenchLM Reasoning

BenchLM composite reasoning score (0-100).

winner on BenchLM Reasoning

direct benchmark result, not a broad vertical composite | source row dated 2026-07-13

scored on 2026-07-13

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	Anthropic: Claude Opus 4.6 Anthropic	87.8	model-only aggregator	2026-07-13
2	OpenAI: GPT-5.4 Openai	87.5	model-only aggregator	2026-07-13
3	OpenAI: GPT-5.2 Openai	83.4	model-only aggregator	2026-07-13
4	OpenAI: GPT-5.5 Openai	81.9	model-only aggregator	2026-07-13
5	Anthropic: Claude Sonnet 4.6 Anthropic	80.9	model-only aggregator	2026-07-13
6	OpenAI: GPT-4.1 Openai	69.9	model-only aggregator	2026-07-09
7	Anthropic: Claude Opus 4.5 Anthropic	67.7	model-only aggregator	2026-07-13
8	OpenAI: GPT-5.1 Openai	65.7	model-only aggregator	2026-07-13
9	Anthropic: Claude Sonnet 4.5 Anthropic	61.0	model-only aggregator	2026-07-13
10	Google: Gemini 2.5 Pro Google	57.6	model-only aggregator	2026-07-13
11	Z.ai: GLM 5 Z Ai	56.2	model-only aggregator	2026-07-13
12	OpenAI: GPT-5.4 Mini Openai	28.3	model-only aggregator	2026-07-13

what this result means

BenchLM composite reasoning score (0-100).

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on BenchLM Reasoning. Broad task pages require independent corroboration before naming a general winner.

source record

category: reasoning

metric: score

matched models: 12

latest source date: 2026-07-13

direction: higher is better