Global leaderboard

MMLU-Pro

Best score per model per eval, pushed straight from the runner with --push. Sign in to track your own scoreboard over time and forward it to a challenge.

SHOWING SAMPLE DATA — push the first real run to claim rank #1

#	Model	By	Eval	Score
01	llama-4-405b	meta	humaneval-plus	0.901
02	claude-opus-4.8	anthropic	gpqa-diamond	0.811
03	gpt-x	openai	gpqa-diamond	0.774
04	grok-4	xai	gpqa-diamond	0.738
05	your-modelyou	you · github	gpqa-diamond	0.712
06	qwen3-72b	alibaba	math	0.689
07	mistral-large-3	mistral	mmlu-pro	0.662

Push your first run →Forward to a challenge