developer_tools

z-ai/glm-4.7 vs Kimi K2 Thinking

For Refactoring assistant

Model A winsby +0.5%

Model A

Winner

z-ai/glm-4.7

external/z-ai/glm-4-7

21.8%

Rank #1

Confidence

31.4%

Evidence

16 pts

Confidence 31.4%16 evidence pts

Sonar Java Quality Leaderboard: functional_skill_pct

Value 74.4% · Conf 100.0% · Weight 1.9%

sonar_java_quality.functional_skill_pct (Mar 12, 2026)

Vals LiveCodeBench: overall_accuracy_pct

Value 91.4% · Conf 100.0% · Weight 1.4%

vals_lcb.overall_accuracy_pct (Mar 12, 2026)

Vals SWE-bench: overall_accuracy_pct

Value 79.9% · Conf 100.0% · Weight 1.4%

vals_swebench.overall_accuracy_pct (Mar 12, 2026)

Sonar Java Quality Leaderboard: issue_density_error_per_kloc

Value 65.2% · Conf 100.0% · Weight 1.3%

sonar_java_quality.issue_density_error_per_kloc (Mar 12, 2026)

Sonar Java Quality Leaderboard: vulnerability_density_error_per_kloc

Value 59.6% · Conf 100.0% · Weight 0.8%

sonar_java_quality.vulnerability_density_error_per_kloc (Mar 12, 2026)

Model B

Kimi K2 Thinking

external/kimi/kimi-k2-thinking

21.3%

Rank #2

Confidence

30.7%

Evidence

15 pts

Confidence 30.7%15 evidence pts

Sonar Java Quality Leaderboard: functional_skill_pct

Value 88.4% · Conf 100.0% · Weight 2.2%

sonar_java_quality.functional_skill_pct (Mar 12, 2026)

Sonar Java Quality Leaderboard: issue_density_error_per_kloc

Value 66.6% · Conf 100.0% · Weight 1.3%

sonar_java_quality.issue_density_error_per_kloc (Mar 12, 2026)

Vals SWE-bench: overall_accuracy_pct

Value 63.5% · Conf 100.0% · Weight 1.1%

vals_swebench.overall_accuracy_pct (Mar 12, 2026)

Vals LiveCodeBench: overall_accuracy_pct

Value 65.1% · Conf 100.0% · Weight 1.0%

vals_lcb.overall_accuracy_pct (Mar 12, 2026)

Sonar Java Quality Leaderboard: vulnerability_density_error_per_kloc

Value 61.4% · Conf 100.0% · Weight 0.9%

sonar_java_quality.vulnerability_density_error_per_kloc (Mar 12, 2026)

Back to Refactoring assistant z-ai/glm-4.7 Profile Kimi K2 Thinking Profile