Vision-Language-Action Agents

Natural Language Transformers
Vision Tranformers
VLA model architectures (RT-1, RT-2, SayCan, etc.)
Pretraining and grounding techniques
Policy learning via imitation
Sim2Real Transfer for VLA Agents
- Vision adaptation
- Policy robustness
- Deployment case studies