Personal

Vals AI

Where: Zoom link created by alphaXiv, later uploaded to 

https://stanford.zoom.us/j/95904059062?pwd=0ErKmwUCab6qBSNls8oUhmeF1pzeIo.1&from=addon

🗓 Thursday October 9th 2025 · 11AM PT

Terminal-Bench: A benchmark for AI agents in terminal environments

, a widely used benchmark for evaluating agents in terminal environments. He will also present his broader work and perspectives on evaluations. Mike is a Postdoctoral Researcher at Stanford Computer Science working with Ludwig Schmidt on empirical evaluations of reasoning LLMs.

AI Evals w/ Mike Merrill — Terminal Bench: A benchmark for AI agents in terminal environments

Zane Sabbagh

Abby Barnes

Zecheng Zhang