benchmark evidence

GAIA

GAIA general assistant benchmark using the public Hugging Face results dataset.

activeagent rankings ->upstream source ->

winner on GAIA

direct benchmark result, not a broad vertical composite | source row dated 2026-06-23 | agent: Cobra Agent_v3.2.3

scored on 2026-07-06

latest mapped results | top 20

#	Model	Score	Evidence	Tested
1	OpenAI: GPT-5.5 Openai	91.7	agent-dependent independent_benchmark \| Cobra Agent_v3.2.3	2026-06-23
2	OpenAI: GPT-5.4 Openai	84.7	agent-dependent independent_benchmark \| SB-Agent-4	2026-04-27
3	OpenAI: GPT-4.1 Openai	83.1	agent-dependent independent_benchmark \| Agent_v0.1.4	2025-08-11
4	OpenAI: GPT-5 Openai	78.4	agent-dependent independent_benchmark \| GenAgent_v0.0.3	2025-12-03
5	OpenAI: GPT-5.1 Openai	75.8	agent-dependent independent_benchmark \| XXP Agent	2025-11-25
6	Anthropic: Claude Opus 4.5 Anthropic	74.1	agent-dependent independent_benchmark \| Clawdbot	2026-01-29
7	Anthropic: Claude Sonnet 4.5 Anthropic	71.4	agent-dependent independent_benchmark \| Nexus test 1	2026-03-11
8	Google: Gemini 2.5 Pro Google	66.1	agent-dependent independent_benchmark \| ktc-agent-v2.0.2	2025-09-16
9	DeepSeek: DeepSeek V4 Pro Deepseek	65.8	agent-dependent independent_benchmark \| XWork-MultiAgent	2026-06-08
10	OpenAI: o3 Openai	62.1	agent-dependent independent_benchmark \| MetaAgentv0.5.11	2025-10-19
11	Anthropic: Claude Sonnet 4.6 Anthropic	54.5	agent-dependent independent_benchmark \| leo	2026-07-06
12	Anthropic: Claude Sonnet 4 Anthropic	51.2	agent-dependent independent_benchmark \| OpenHands-Versa	2025-06-09
13	OpenAI: o1 Openai	49.8	agent-dependent independent_benchmark \| open Deep Research \| pass@1	2025-02-10
14	OpenAI: o4 Mini Openai	42.5	agent-dependent independent_benchmark \| Magentic-UI	2025-05-24
15	DeepSeek: DeepSeek V3.2 Deepseek	37.2	agent-dependent independent_benchmark \| meta-agent	2026-01-09
16	Google: Gemini 2.5 Flash Google	30.2	agent-dependent independent_benchmark \| zzzzzzzz	2025-07-19
17	Qwen: Qwen3 32B Qwen	21.6	agent-dependent independent_benchmark \| Qwen-3-Memory	2025-06-19
18	Google: Gemini 2.0 Flash Google	6.3	agent-dependent independent_benchmark \| gemini-cot	2025-08-17

what this result means

GAIA general assistant benchmark using the public Hugging Face results dataset.

This benchmark contributes direct public evidence. Read its scope before generalizing the result.

A win here is a win on GAIA. Broad task pages require independent corroboration before naming a general winner.

source record

category: agentic

metric: accuracy

matched models: 18

latest source date: 2026-07-06

direction: higher is better

inspect upstream source ->