cybersecurity

Best LLM for Threat Intelligence

Ranked models for analyzing threat reports, CVEs, and advisories into structured risk assessments.

#1 Recommendation

gemini-2.5-pro

Strong on BaxBench Leaderboard average_secure_pass_1_pct (44%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

external/google/gemini-2-5-pro

27.9%

Score

43.6%

Confidence

Evidence

Runners-up:#2 gemini-3-pro-preview (19.8%)#3 gpt-4.1-20250414 (19.3%)#4 gpt-5-2025-08-07 (16.2%)

Ranked Models

Evidence Quality

79%

Scoring

Benchmark-backed

Top Signal

BaxBench Leaderboard: average_secure_pass_1_pct

All Ranked Models

Open weights only

Max params:

Min confidence:

30 of 30

Rank	Model	Score	Confidence	Evidence	Top Benchmarks
#1	gemini-2.5-pro Strong on BaxBench Leaderboard average_secure_pass_1_pct (44%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)	27.9%	43.6%	30	BaxBench Leaderboard average_secure_pass_1_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#2	gemini-3-pro-preview Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and FACTS Benchmark Suite facts_search_score_pct (100%)	19.8%	25.8%	23	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) FACTS Benchmark Suite facts_search_score_pct (Mar 17, 2026)
#3	gpt-4.1-20250414 Strong on Vectara HHEM Leaderboard overall_hallucination_error_pct (82%) and Vals CorpFin v2 overall_accuracy_pct (85%)	19.3%	29.7%	24	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#4	gpt-5-2025-08-07	16.2%	20.0%	20	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#5	gpt-5-mini-2025-08-07	16.1%	23.5%	20	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#6	anthropic/claude-sonnet-4.6	14.9%	18.9%	17	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#7	Grok-4-0709	14.4%	20.4%	21	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#8	google/gemini-3.1-pro-preview	13.6%	16.0%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#9	openai/gpt-5.4-2026-03-05	13.4%	15.6%	17	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#10	gemini-2.5-flash	13.1%	19.3%	16	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#11	claude-opus-4-5-20251101	13.0%	18.1%	17	FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#13	gpt-5.1-2025-11-13	11.9%	17.9%	18	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#14	claude-sonnet-4-20250514	11.8%	19.9%	18	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) FACTS Benchmark Suite facts_grounding_score_pct (Mar 17, 2026)
#15	openai/gpt-4.1	11.8%	21.8%	15	BaxBench Leaderboard average_secure_pass_1_pct (Mar 17, 2026) DuckDB NSQL Leaderboard all_execution_accuracy (Mar 17, 2026)
#16	gemini-3-flash-preview	11.6%	15.5%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#17	x-ai/grok-3	11.5%	18.0%	13	BaxBench Leaderboard average_secure_pass_1_pct (Mar 17, 2026) Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026)
#19	google/gemini-3.1-flash-lite-preview	11.1%	15.3%	16	Vectara HHEM Leaderboard overall_hallucination_error_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#20	xai-org/grok-4-fast-reasoning	11.0%	15.6%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#21	gpt-4.1-mini-20250414	10.9%	16.4%	16	OpenVLM OCRBench Official ocrbench_score_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#23	xai-org/grok-4-1-fast-reasoning	10.4%	15.6%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#24	anthropic/claude-opus-4-6-thinking	10.4%	11.4%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#25	gpt-5.2-2025-12-11	10.4%	11.4%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#26	kimi/kimi-k2.5-thinking	9.8%	13.8%	17	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)
#27	anthropic/claude-opus-4-5-20251101-thinking	9.6%	11.4%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#28	deepseek/deepseek-r1	9.5%	19.1%	17	BaxBench Leaderboard average_secure_pass_1_pct (Mar 17, 2026) SYCON Bench (Table 2) sycon_unethical_tof_pct (Mar 17, 2026)
#29	gpt-4o	9.3%	16.6%	14	OpenVLM OCRBench Official ocrbench_score_pct (Mar 17, 2026) BaxBench Leaderboard average_secure_pass_1_pct (Mar 17, 2026)
#30	gpt-4o-2024-05-13	9.1%	15.4%	10	LLM Trustworthy Leaderboard privacy (Mar 17, 2026) LLM Trustworthy Leaderboard adv (Mar 17, 2026)
#31	anthropic/claude-sonnet-4-5-20250929-thinking	9.0%	11.4%	15	Vals Finance Agent overall_accuracy_pct (Mar 17, 2026) Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026)
#32	openai/gpt-4o-mini-2024-07-18	8.9%	17.6%	14	LLM Trustworthy Leaderboard privacy (Mar 17, 2026) LLM Trustworthy Leaderboard adv (Mar 17, 2026)
#33	grok/grok-4.20-beta-0309-reasoning	8.8%	11.4%	15	Vals CorpFin v2 overall_accuracy_pct (Mar 17, 2026) Vals Finance Agent overall_accuracy_pct (Mar 17, 2026)

Head-to-Head: #1 vs #2

Top Pick

gemini-2.5-pro

Strong on BaxBench Leaderboard average_secure_pass_1_pct (44%) and FACTS Benchmark Suite facts_grounding_score_pct (100%)

27.9%

Conf 43.6%

gemini-3-pro-preview

Strong on FACTS Benchmark Suite facts_grounding_score_pct (88%) and FACTS Benchmark Suite facts_search_score_pct (100%)

19.8%

Conf 25.8%

Full Comparison with Benchmark Evidence →

Full Use-Case Page Browse All Use Cases How We Score

Related Lookups

Best LLM for Code Generation

Benchmark-backed ranking of models for generating correct, secure code from requirements.

Best LLM for Debugging

Find the top-ranked models for localizing bugs and proposing fixes with explanations.

Best LLM for Unit Test Generation

Ranked models for generating meaningful unit tests and edge cases from code.

Best LLM for Code Review

Compare models for automated PR review covering correctness, security, and maintainability.

Best LLM for Autonomous Coding

Benchmark-backed ranking of models for end-to-end autonomous software engineering and issue resolution.

Best LLM for Function Calling

Compare models for reliable tool use, function selection, and multi-step API orchestration.