Publications | Haobo Yuan

2025

arXiv

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, and Ming-Hsuan Yang

arXiv pre-print, 2025.

Bib PDF Website Demo

Star

@article{sa2va,
  title = {Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos},
  author = {Yuan, Haobo and Li, Xiangtai and Zhang, Tao and Huang, Zilong and Xu, Shilin and Ji, Shunping and Tong, Yunhai and Qi, Lu and Feng, Jiashi and Yang, Ming-Hsuan},
  journal = {arXiv pre-print},
  year = {2025},
}

arXiv

Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark

Haobo Yuan, Yueyi Sun, Yanwei Li, Tao Zhang, Xueqing Deng, Henghui Ding, Lu Qi, Anran Wang, Xiangtai Li, and Ming-Hsuan Yang

arXiv pre-print, 2025.

Bib PDF Website

Star

@article{yuan2025vrt,
  author = {Yuan, Haobo and Sun, Yueyi and Li, Yanwei and Zhang, Tao and Deng, Xueqing and Ding, Henghui and Qi, Lu and Wang, Anran and Li, Xiangtai and Yang, Ming-Hsuan},
  title = {Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark},
  journal = {arXiv pre-print},
  year = {2025},
}

arXiv

DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World

Xiangtai Li, Tao Zhang, Yanwei Li, Haobo Yuan, Shihao Chen, Yikang Zhou, Jiahao Meng, Yueyi Sun, Shilin Xu, Lu Qi, Tianheng Cheng, Yi Lin, Zilong Huang, Wenhao Huang, Jiashi Feng, and Guang Shi

arXiv preprint arXiv:2506.24102, 2025.

Bib PDF

Star

@article{li2025denseworld,
  title = {{DenseWorld-1M}: Towards Detailed Dense Grounded Caption in the Real World},
  author = {Li, Xiangtai and Zhang, Tao and Li, Yanwei and Yuan, Haobo and Chen, Shihao and Zhou, Yikang and Meng, Jiahao and Sun, Yueyi and Xu, Shilin and Qi, Lu and Cheng, Tianheng and Lin, Yi and Huang, Zilong and Huang, Wenhao and Feng, Jiashi and Shi, Guang},
  journal = {arXiv preprint arXiv:2506.24102},
  year = {2025},
}

arXiv

An empirical study of gpt-4o image generation capabilities

Sixiang Chen, Jinbin Bai, Zhuoran Zhao, Tian Ye, Qingyu Shi, Donghao Zhou, Wenhao Chai, Xin Lin, Jianzong Wu, Chao Tang, Shilin Xu, Tao Zhang, Haobo Yuan, Yikang Zhou, Wei Chow, Linfeng Li, Xiangtai Li, Lei Zhu, and Lu Qi

arXiv preprint arXiv:2504.05979, 2025.

Bib PDF

Star

@article{chen2025empirical,
  title = {An empirical study of gpt-4o image generation capabilities},
  author = {Chen, Sixiang and Bai, Jinbin and Zhao, Zhuoran and Ye, Tian and Shi, Qingyu and Zhou, Donghao and Chai, Wenhao and Lin, Xin and Wu, Jianzong and Tang, Chao and Xu, Shilin and Zhang, Tao and Yuan, Haobo and Zhou, Yikang and Chow, Wei and Li, Linfeng and Li, Xiangtai and Zhu, Lei and Qi, Lu},
  journal = {arXiv preprint arXiv:2504.05979},
  year = {2025},
}

ICML 25

On path to multimodal generalist: General-level and general-bench

Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Weiming Wu, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, and Hanwang Zhang

In ICML, 2025. Vancouver, Canada.

Bib PDF Website

@inproceedings{fei2025path,
  title = {On path to multimodal generalist: General-level and general-bench},
  author = {Fei, Hao and Zhou, Yuan and Li, Juncheng and Li, Xiangtai and Xu, Qingshan and Li, Bobo and Wu, Shengqiong and Wang, Yaoting and Zhou, Junbao and Meng, Jiahao and Shi, Qingyu and Zhou, Zhiyuan and Shi, Liangtao and Gao, Minghe and Zhang, Daoan and Ge, Zhiqi and Tang, Siliang and Pan, Kaihang and Ye, Yaobo and Yuan, Haobo and Zhang, Tao and Wu, Weiming and Ju, Tianjie and Meng, Zixiang and Xu, Shilin and Jia, Liyu and Hu, Wentao and Luo, Meng and Luo, Jiebo and Chua, Tat-Seng and Yan, Shuicheng and Zhang, Hanwang},
  booktitle = {ICML},
  year = {2025},
  address = {Vancouver, Canada},
}

AAAI 25

Point Could Mamba: Point Cloud Learning via State Space Model

Tao Zhang, Xiangtai Li, Haobo Yuan, Shunping Ji, and Shuicheng Yan

In AAAI, 2025. Philadelphia, PA, USA.

Bib PDF

Star

@inproceedings{zhang2025point,
  title = {Point Could Mamba: Point Cloud Learning via State Space Model},
  author = {Zhang, Tao and Li, Xiangtai and Yuan, Haobo and Ji, Shunping and Yan, Shuicheng},
  booktitle = {AAAI},
  address = {Philadelphia, PA, USA},
  year = {2025},
}

ICLR 25

RAP-SAM:Towards Real-Time All-Purpose Segment Anything

Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, and Ming-Hsuan Yang

In ICLR, 2025. Singapore. Oral.

Bib PDF Website

Star

@inproceedings{xu2025rapsam,
  title = {RAP-SAM:Towards Real-Time All-Purpose Segment Anything},
  author = {Xu, Shilin and Yuan, Haobo and Shi, Qingyu and Qi, Lu and Wang, Jingbo and Yang, Yibo and Li, Yining and Chen, Kai and Tong, Yunhai and Ghanem, Bernard and Li, Xiangtai and Yang, Ming-Hsuan},
  booktitle = {ICLR},
  address = {Singapore},
  year = {2025},
}

2024

ECCV 24

Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, and Chen Change Loy

In ECCV, 2024. Milano, Italy.

Bib PDF Website Demo

Star

@inproceedings{yuan2024ovsam,
  title = {Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively},
  author = {Yuan, Haobo and Li, Xiangtai and Zhou, Chong and Li, Yining and Chen, Kai and Loy, Chen Change},
  booktitle = {ECCV},
  address = {Milano, Italy},
  year = {2024},
}

CVPR 24

OMG-Seg: Is One Model Good Enough For All Segmentation?

Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, and Chen Change Loy

In CVPR, 2024. Seattle, WA, USA.

Bib PDF Website Demo

Star

@inproceedings{li2024omg,
  title = {OMG-Seg: Is One Model Good Enough For All Segmentation?},
  author = {Li, Xiangtai and Yuan, Haobo and Li, Wei and Ding, Henghui and Wu, Size and Zhang, Wenwei and Li, Yining and Chen, Kai and Loy, Chen Change},
  booktitle = {CVPR},
  address = {Seattle, WA, USA},
  year = {2024},
}

NeurIPS 24

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, and Shuicheng Yan

In NeurIPS, 2024. Vancouver, Canada.

Bib PDF

Star

@inproceedings{zhang2024omgllava,
  title = {OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding},
  author = {Zhang, Tao and Li, Xiangtai and Fei, Hao and Yuan, Haobo and Wu, Shengqiong and Ji, Shunping and Loy, Chen Change and Yan, Shuicheng},
  booktitle = {NeurIPS},
  address = {Vancouver, Canada},
  year = {2024},
}

TPAMI

Transformer-based Visual Segmentation: A Survey

Xiangtai Li, Henghui Ding, Haobo Yuan, Wenwei Zhang, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, and Chen Change Loy

IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

Bib arXiv PDF

Star

@article{li2024transformer,
  title = {Transformer-based Visual Segmentation: A Survey},
  author = {Li, Xiangtai and Ding, Henghui and Yuan, Haobo and Zhang, Wenwei and Pang, Jiangmiao and Cheng, Guangliang and Chen, Kai and Liu, Ziwei and Loy, Chen Change},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year = {2024},
}

TPAMI

Towards Open Vocabulary Learning: A Survey

Jianzong Wu, Xiangtai Li, Shilin Xu, Haobo Yuan, Henghui Ding, Yibo Yang, Xia Li, Jiangning Zhang, Yunhai Tong, Xudong Jiang, Bernard Ghanem, and Dacheng Tao

IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

Bib arXiv HTML PDF

Star

@article{wu2024towards,
  title = {Towards Open Vocabulary Learning: A Survey},
  author = {Wu, Jianzong and Li, Xiangtai and Xu, Shilin and Yuan, Haobo and Ding, Henghui and Yang, Yibo and Li, Xia and Zhang, Jiangning and Tong, Yunhai and Jiang, Xudong and Ghanem, Bernard and Tao, Dacheng},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year = {2024},
}

TPAMI

PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation

Xiangtai Li, Shilin Xu, Yibo Yang, Haobo Yuan, Guangliang Cheng, Yunhai Tong, Zhouchen Lin, Ming-Hsuan Yang, and Dacheng Tao

IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.

Bib arXiv PDF

Star

@article{li2023panopticpartformer++,
  title = {PanopticPartFormer++: A Unified and Decoupled View for Panoptic Part Segmentation},
  author = {Li, Xiangtai and Xu, Shilin and Yang, Yibo and Yuan, Haobo and Cheng, Guangliang and Tong, Yunhai and Lin, Zhouchen and Yang, Ming-Hsuan and Tao, Dacheng},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year = {2024},
}

arXiv

Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

Haobo Yuan, Xiangtai Li, Lu Qi, Tao Zhang, Ming-Hsuan Yang, Shuicheng Yan, and Chen Change Loy

arXiv preprint, 2024.

Bib PDF

@article{yuan2024mamba,
  title = {Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model},
  author = {Yuan, Haobo and Li, Xiangtai and Qi, Lu and Zhang, Tao and Yang, Ming-Hsuan and Yan, Shuicheng and Loy, Chen Change},
  journal = {arXiv preprint},
  year = {2024},
}

arXiv

LLAVADI: What Matters For Multimodal Large Language Models Distillation

Shilin Xu, Xiangtai Li, Haobo Yuan, Lu Qi, Yunhai Tong, and Ming-Hsuan Yang

arXiv preprint, 2024.

Bib PDF

@article{xu2024LLAVADI,
  title = {LLAVADI: What Matters For Multimodal Large Language Models Distillation},
  author = {Xu, Shilin and Li, Xiangtai and Yuan, Haobo and Qi, Lu and Tong, Yunhai and Yang, Ming-Hsuan},
  journal = {arXiv preprint},
  year = {2024},
}

2023

ICCV 23

Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation

Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, and Chen Change Loy

In ICCV, 2023. Paris, France.

Bib PDF

Star

@inproceedings{li2023tube,
  title = {Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation},
  author = {Li, Xiangtai and Yuan, Haobo and Zhang, Wenwei and Cheng, Guangliang and Pang, Jiangmiao and Loy, Chen Change},
  booktitle = {ICCV},
  address = {Paris, France},
  year = {2023},
}

TIP

Monocular Road Planar Parallax Estimation

Haobo Yuan, Teng Chen, Wei Sui, Jiafeng Xie, Lefei Zhang, Yuan Li, and Qian Zhang

IEEE Transactions on Image Processing, 2023.

Bib arXiv HTML PDF

@article{yuan2023monocular,
  title = {Monocular Road Planar Parallax Estimation},
  author = {Yuan, Haobo and Chen, Teng and Sui, Wei and Xie, Jiafeng and Zhang, Lefei and Li, Yuan and Zhang, Qian},
  journal = {IEEE Transactions on Image Processing},
  volume = {32},
  pages = {3690-3701},
  year = {2023},
}

ICLR 23

Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class-Incremental Learning

Yibo Yang, Haobo Yuan, Xiangtai Li, Zhouchen Lin, Philip Torr, and Dacheng Tao

In ICLR, 2023. Kigali, Rwanda. Spotlight.

Bib arXiv HTML PDF

Star

@inproceedings{yang2023neural,
  title = {Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class-Incremental Learning},
  author = {Yang, Yibo and Yuan, Haobo and Li, Xiangtai and Lin, Zhouchen and Torr, Philip and Tao, Dacheng},
  booktitle = {ICLR},
  year = {2023},
  address = {Kigali, Rwanda},
}

TCSVT

Multi-Task Learning with Multi-query Transformer for Dense Prediction

Yangyang Xu, Xiangtai Li, Haobo Yuan, Yibo Yang, and Lefei Zhang

IEEE Transactions on Circuits and Systems for Video Technology, 2023.

Bib arXiv HTML PDF

Star

@article{xu2023multi,
  title = {Multi-Task Learning with Multi-query Transformer for Dense Prediction},
  author = {Xu, Yangyang and Li, Xiangtai and Yuan, Haobo and Yang, Yibo and Zhang, Lefei},
  journal = {IEEE Transactions on Circuits and Systems for Video Technology},
  year = {2023},
}

arXiv

Neural Collapse Terminus: A Unified Solution for Class Incremental Learning and Its Variants

Yibo Yang, Haobo Yuan, Xiangtai Li, Jianlong Wu, Lefei Zhang, Zhouchen Lin, Philip Torr, Dacheng Tao, and Bernard Ghanem

arXiv pre-print, 2023.

Bib PDF

Star

@article{yang2023nct,
  author = {Yang, Yibo and Yuan, Haobo and Li, Xiangtai and Wu, Jianlong and Zhang, Lefei and Lin, Zhouchen and Torr, Philip and Tao, Dacheng and Ghanem, Bernard},
  title = {Neural Collapse Terminus: A Unified Solution for Class Incremental Learning and Its Variants},
  journal = {arXiv pre-print},
  year = {2023},
}

2022

ECCV 22

PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation

Haobo Yuan, Xiangtai Li, Yibo Yang, Guangliang Cheng, Jing Zhang, Yunhai Tong, Lefei Zhang, and Dacheng Tao

In ECCV, 2022. Tel Aviv, Israel.

Winner method of the ICCV-2021 SemKITTI-DVPS Challenge.

Bib arXiv PDF Supp Poster

Star

@inproceedings{yuan2022polyphonicformer,
  title = {PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation},
  author = {Yuan, Haobo and Li, Xiangtai and Yang, Yibo and Cheng, Guangliang and Zhang, Jing and Tong, Yunhai and Zhang, Lefei and Tao, Dacheng},
  booktitle = {ECCV},
  year = {2022},
  address = {Tel Aviv, Israel},
}

NeurIPS 22

Towards Theoretically Inspired Neural Initialization Optimization

Yibo Yang, Hong Wang, Haobo Yuan, and Zhouchen Lin

In NeurIPS, 2022. New Orleans, LA, USA.

Bib arXiv PDF

Star

@inproceedings{yang2022towards,
  title = {Towards Theoretically Inspired Neural Initialization Optimization},
  author = {Yang, Yibo and Wang, Hong and Yuan, Haobo and Lin, Zhouchen},
  booktitle = {NeurIPS},
  year = {2022},
  address = {New Orleans, LA, USA},
}

2021

TPDS

BOSSA: a decentralized system for proofs of data retrievability and replication

Dian Chen, Haobo Yuan, Shengshan Hu, Qian Wang, and Cong Wang

IEEE Transactions on Parallel and Distributed Systems, 2021.

Bib HTML PDF

@article{chen2020bossa,
  title = {BOSSA: a decentralized system for proofs of data retrievability and replication},
  author = {Chen, Dian and Yuan, Haobo and Hu, Shengshan and Wang, Qian and Wang, Cong},
  journal = {IEEE Transactions on Parallel and Distributed Systems},
  volume = {32},
  number = {4},
  pages = {786--798},
  year = {2021},
  publisher = {IEEE},
}