← Catalog/ Agent / Tool use

AgentBench

Roadmap

Eight distinct environments measuring agent ability across domains.

Status

This eval is catalogued and on the roadmap. The protocols are stable — implementing it is an EvalRunner with a catalog entry.