benchmark evidence

GPQA Diamond

Google-proof PhD-level science QA. 198 expert-crafted multiple-choice questions in biology, chemistry, physics.

winner on GPQA Diamond

direct benchmark result, not a broad vertical composite | source row dated 2000-01-01

scored on 2025-07-01 · stale source data (378d)

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	Anthropic: Claude Opus 4.7 Anthropic	94.2	model-only independent_benchmark	2000-01-01
2	OpenAI: GPT-5.5 Openai	93.6	model-only independent_benchmark	2000-01-01
3	OpenAI: GPT-5.4 Openai	92.8	model-only independent_benchmark	2000-01-01
4	OpenAI: GPT-5.2 Openai	92.4	model-only independent_benchmark	2000-01-01
5	Anthropic: Claude Opus 4.6 Anthropic	91.3	model-only independent_benchmark	2000-01-01
6	DeepSeek: DeepSeek V4 Pro Deepseek	90.1	model-only independent_benchmark	2000-01-01
7	Anthropic: Claude Sonnet 4.6 Anthropic	89.9	model-only independent_benchmark	2000-01-01
8	OpenAI: GPT-5.1 Openai	88.1	model-only independent_benchmark	2000-01-01
9	DeepSeek: DeepSeek V4 Flash Deepseek	88.1	model-only independent_benchmark	2000-01-01
10	OpenAI: GPT-5.4 Mini Openai	88.0	model-only independent_benchmark	2000-01-01
11	Anthropic: Claude Opus 4.5 Anthropic	87.0	model-only independent_benchmark	2000-01-01
12	MoonshotAI: Kimi K2 Thinking Moonshotai	84.5	model-only independent_benchmark	2000-01-01
13	OpenAI: o3 Mini Openai	77.2	model-only independent_benchmark	2025-07-01
14	OpenAI: o1 Openai	73.3	model-only independent_benchmark	2025-07-01
15	OpenAI: GPT-4.1 Openai	66.3	model-only independent_benchmark	2025-07-01
16	OpenAI: GPT-5 Openai	46.0	model-only independent_benchmark	2025-07-01

what this result means

Google-proof PhD-level science QA. 198 expert-crafted multiple-choice questions in biology, chemistry, physics.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on GPQA Diamond. Broad task pages require independent corroboration before naming a general winner.

source record

category: reasoning

metric: accuracy

matched models: 16

latest source date: 2025-07-01

direction: higher is better