Benchmark Demos

Hands-on explorations of how MAST benchmarks evaluate AI in medicine.

First Do NOHARM v2

Explore how models handle clinical safety scenarios and harmful request detection.

Explore how models handle clinical safety scenarios and harmful request detection.

See how models perform on script concordance tests for clinical reasoning.

Watch AI agents navigate multi-step clinical workflows in a simulated EHR.

See how vision-language models generate radiology reports from chest X-rays across public datasets.

Explore how models handle clinical safety scenarios and harmful request detection.

See how models perform on script concordance tests for clinical reasoning.

Watch AI agents navigate multi-step clinical workflows in a simulated EHR.

See how vision-language models generate radiology reports from chest X-rays across public datasets.

Explore how models handle clinical safety scenarios and harmful request detection.

See how models perform on script concordance tests for clinical reasoning.

Watch AI agents navigate multi-step clinical workflows in a simulated EHR.

See how vision-language models generate radiology reports from chest X-rays across public datasets.