Vista: A Generalizable Driving World Model with
High Fidelity and Versatile Controllability

Shenyuan Gao^1,2, Jiazhi Yang², Li Chen^2,5, Kashyap Chitta^3,4, Yihang Qiu²,
Andreas Geiger^3,4,*, Jun Zhang^1,*, Hongyang Li^2,5,*

¹Hong Kong University of Science and Technology; ²OpenDriveLab at Shanghai AI Lab;
³University of Tübingen; ⁴Tübingen AI Center; ⁵University of Hong Kong

^*Equal advising.

Paper Code Model Dataset

1. High-Fidelity Open-World Prediction

Videos in this section are: 5 seconds, 10 Hz, 576×1024 resolution.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

2. Continuous Long-Horizon Rollout

Videos in this section are: 16 seconds, 10 Hz, 576×1024 resolution.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

Realistic drive view.

3. Zero-Shot Action Controllability

In this section, we use either [trajectory] or [angle+speed] to control the ego-vehicle.
Hover the mouse to see the action types that are derived from [trajectory] and [angle+speed] for demonstration clarity.

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop

Left

Forward

Right

Stop