Chenming Zhu | Homepage

Publications

Visual Spatial Intelligence

Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

Arxiv 2026

Chenming Zhu, Jingli Lin, Yilin Long, Peizhou Cao, Tai Wang, Jiangmiao Pang, Xihui Liu

Project Paper PDF

G2TAM: Geometry Grounded Track Anything Model

ICML 2026

Chenming Zhu, Peizhou Cao, Jingli Lin, Wenbo Hu, Yunlong Ran, Tai Wang, Jiangmiao Pang, Xihui Liu

MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

Arxiv 2026

Jingli Lin*, Runsen Xu*, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang

Paper Code

G2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

CVPR 2026

Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang

Paper Code

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

ICLR 2026

Sihan Yang*, Runsen Xu*, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

Paper Code

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

NeurIPS 2025

Jingli Lin*, Chenming Zhu*, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang

Project Lead

Paper Code

Embodied 3D Perception

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

ICCV 2025

Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu

Paper Code

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

ECCV 2024

Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu

Paper Code

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

NeurIPS 2024

Ruiyuan Lyu, Tai Wang, Jingli Lin, Shuai Yang, Xiaohan Mao, Yilun Chen, Runsen Xu, Haifeng Huang, Chenming Zhu, Dahua Lin, Jiangmiao Pang

Paper Code

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

CVPR 2024

Tai Wang*, Xiaohan Mao*, Chenming Zhu*, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua Lin, Jiangmiao Pang

Paper Code

Vision-Language Navigation (VLN)

StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

ICRA 2026

Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

Paper Code

InternVLA-N1: An Open Dual-System Vision-Language Navigation Foundation Model with Learned Latent Plans

Technical report 2026

Core Contributor

Paper Code

Projects

MMDetection3D

OpenMMLab next-generation platform for general 3D perception. (GitHub > 5k stars)

Core Maintainer & Developer

MMDetection3D unifies the pipeline and modular design of mono3D, LiDAR-based, and multi-modality 3D object detection.
It supports state-of-the-art 3D object detectors of different modalities in multiple indoor and outdoor datasets.
It builds strong foundations, in a universal framework, for general 3D object detection.

Honors and Awards

2022 2nd of the Waymo 3D Camera-only Detection Challenge 2022
2017-2018 / 2018-2019 Excellent Undergraduate Scholarship of UESTC
2018 Outstanding Student Award of School of Computer Science and Engineering, UESTC

Academic Services

I served as a reviewer for CVPR, ICCV, ECCV, NeurIPS, AAAI, ICLR, and ICML.