Publications | Qing Li

* Equal contribution, ✉ Corresponding author

2025

Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

Pengxiang Li , Zechen Hu , Zirui Shang , Jingrong Wu , Yang Liu , Hui Liu , Zhi Gao , Chenrui Shi , Bofei Zhang , Zihao Zhang , Xiaochuan Shi , Zedong YU , Yuwei Wu^✉ , Xinxiao Wu , Yunde Jia , Liuyu Xiang , Zhaofeng He , and Qing Li^✉

arXiv preprint arXiv:2509.23866, 2025

arXiv Bib Website

@article{li2025dart,
  title = {Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation},
  author = {Li, Pengxiang and Hu, Zechen and Shang, Zirui and Wu, Jingrong and Liu, Yang and Liu, Hui and Gao, Zhi and Shi, Chenrui and Zhang, Bofei and Zhang, Zihao and Shi, Xiaochuan and YU, Zedong and Wu, Yuwei and Wu, Xinxiao and Jia, Yunde and Xiang, Liuyu and He, Zhaofeng and Li, Qing},
  journal = {arXiv preprint arXiv:2509.23866},
  year = {2025},
}

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

Bofei Zhang , Zirui Shang , Zhi Gao , Wang Zhang , Rui Xie , Xiaojian Ma , Tao Yuan , Xinxiao Wu , Song-Chun Zhu , and Qing Li^✉

arXiv preprint arXiv:2504.12679, 2025

arXiv Bib Website

@article{zhang2025tongui,
  title = {TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials},
  author = {Zhang, Bofei and Shang, Zirui and Gao, Zhi and Zhang, Wang and Xie, Rui and Ma, Xiaojian and Yuan, Tao and Wu, Xinxiao and Zhu, Song-Chun and Li, Qing},
  journal = {arXiv preprint arXiv:2504.12679},
  year = {2025},
}

Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

Pengxiang Li* , Zhi Gao* , Bofei Zhang , Yapeng Mi , Xiaojian Ma , Chenrui Shi , Tao Yuan , Yuwei Wu^✉ , Yunde Jia , Song-Chun Zhu , and Qing Li^✉

Neural Information Processing Systems (NeurIPS), 2025

arXiv Bib Website

@article{li2025sport,
  title = {Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning},
  author = {Li, Pengxiang and Gao, Zhi and Zhang, Bofei and Mi, Yapeng and Ma, Xiaojian and Shi, Chenrui and Yuan, Tao and Wu, Yuwei and Jia, Yunde and Zhu, Song-Chun and Li, Qing},
  journal = {Neural Information Processing Systems (NeurIPS)},
  year = {2025},
}

From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes

Tianxu Wang , Zhuofan Zhang , Ziyu Zhu , Yue Fan , Jing Xiong , Pengxiang Li , Xiaojian Ma , and Qing Li^✉

Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B), 2025

arXiv Bib Website

@article{wang2025anywhere3d,
  title = {From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes},
  author = {Wang, Tianxu and Zhang, Zhuofan and Zhu, Ziyu and Fan, Yue and Xiong, Jing and Li, Pengxiang and Ma, Xiaojian and Li, Qing},
  journal = {Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B)},
  year = {2025},
}

NEP: Autoregressive Image Editing via Next Editing Token Prediction

Huimin Wu , Xiaojian Ma , Haozhe Zhao , Yanpeng Zhao , and Qing Li^✉

Neural Information Processing Systems (NeurIPS), 2025

arXiv Bib Website

@article{wu2025nep,
  title = {NEP: Autoregressive Image Editing via Next Editing Token Prediction},
  author = {Wu, Huimin and Ma, Xiaojian and Zhao, Haozhe and Zhao, Yanpeng and Li, Qing},
  journal = {Neural Information Processing Systems (NeurIPS)},
  year = {2025},
}

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation Highlight

Ziyu Zhu , Xilin Wang , Yixuan Li , Zhuofan Zhang , Xiaojian Ma , Yixin Chen , Baoxiong Jia , Wei Liang , Qian Yu , Zhidong Deng^✉ , Siyuan Huang^✉ , and Qing Li^✉

International Conference on Computer Vision (ICCV), 2025

arXiv Bib Website

Highlight

@article{zhu2025mtu,
  title = {Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation},
  author = {Zhu, Ziyu and Wang, Xilin and Li, Yixuan and Zhang, Zhuofan and Ma, Xiaojian and Chen, Yixin and Jia, Baoxiong and Liang, Wei and Yu, Qian and Deng, Zhidong and Huang, Siyuan and Li, Qing},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2025},
}

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding Highlight

Yue Fan , Xiaojian Ma , Rongpeng Su , Jun Guo , Rujie Wu , Xi Chen , and Qing Li^✉

International Conference on Computer Vision (ICCV), 2025

arXiv Bib Website

Highlight

@article{fan2025eva,
  title = {Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding},
  author = {Fan, Yue and Ma, Xiaojian and Su, Rongpeng and Guo, Jun and Wu, Rujie and Chen, Xi and Li, Qing},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2025},
}

Falcon: Fast Visuomotor Policies via Partial Denoising

Haojun Chen , Minghao Liu , Chengdong Ma , Xiaojian Ma , Zailin Ma , Huimin Wu , Yuanpei Chen , Yifan Zhong , Mingzhi Wang , Qing Li^✉ , and Yaodong Yang^✉

International Conference on Machine Learning (ICML), 2025

arXiv Bib

@article{chen2025falcon,
  title = {Falcon: Fast Visuomotor Policies via Partial Denoising},
  author = {Chen, Haojun and Liu, Minghao and Ma, Chengdong and Ma, Xiaojian and Ma, Zailin and Wu, Huimin and Chen, Yuanpei and Zhong, Yifan and Wang, Mingzhi and Li, Qing and Yang, Yaodong},
  journal = {International Conference on Machine Learning (ICML)},
  year = {2025},
}

MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans

Huangyue Yu , Baoxiong Jia , Yixin Chen , Yandan Yang , Rongpeng Su , Jiaxin Li , Qing Li , Wei Liang , Song-Chun Zhu , Tengyu Liu , and Siyuan Huang

The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025

arXiv Bib Website

@article{yu2025metascenes,
  title = {MetaScenes: Towards Automated Replica Creation for Real-world 3D Scans},
  author = {Yu, Huangyue and Jia, Baoxiong and Chen, Yixin and Yang, Yandan and Su, Rongpeng and Li, Jiaxin and Li, Qing and Liang, Wei and Zhu, Song-Chun and Liu, Tengyu and Huang, Siyuan},
  journal = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2025},
}

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Jiangyong Huang , Baoxiong Jia , Ziyu Zhu , Yan Wang , Xiongkun Linghu , Qing Li , Song-Chun Zhu , and Siyuan Huang

The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025

arXiv Bib Website

@article{huang2025beacon3d,
  title = {Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis},
  author = {Huang, Jiangyong and Jia, Baoxiong and Zhu, Ziyu and Wang, Yan and Linghu, Xiongkun and Li, Qing and Zhu, Song-Chun and Huang, Siyuan},
  journal = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2025},
}

Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage Spotlight

Zhi Gao* , Bofei Zhang* , Pengxiang Li* , Xiaojian Ma , Tao Yuan , Yue Fan , Yuwei Wu^✉ , Yunde Jia , Song-Chun Zhu , and Qing Li^✉

International Conference on Learning Representations (ICLR), 2025

arXiv Bib Website

Spotlight

@article{2025mat,
  title = {Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage},
  author = {Gao, Zhi and Zhang, Bofei and Li, Pengxiang and Ma, Xiaojian and Yuan, Tao and Fan, Yue and Wu, Yuwei and Jia, Yunde and Zhu, Song-Chun and Li, Qing},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2025},
}

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Yuntao Du* , Kailin Jiang* , Zhi Gao , Chenrui Shi , Zilong Zheng^✉ , Siyuan Qi , and Qing Li^✉

International Conference on Learning Representations (ICLR), 2025

arXiv Bib Website

@article{2025mmke,
  title = {MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge},
  author = {Du, Yuntao and Jiang, Kailin and Gao, Zhi and Shi, Chenrui and Zheng, Zilong and Qi, Siyuan and Li, Qing},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2025},
}

2024

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Pengxiang Li* , Zhi Gao* , Bofei Zhang* , Tao Yuan , Yuwei Wu^✉ , Mehrtash Harandi , Yunde Jia , Song-Chun Zhu , and Qing Li^✉

Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B), 2024

arXiv Bib Website

@article{2024fire,
  title = {FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models},
  author = {Li, Pengxiang and Gao, Zhi and Zhang, Bofei and Yuan, Tao and Wu, Yuwei and Harandi, Mehrtash and Jia, Yunde and Zhu, Song-Chun and Li, Qing},
  journal = {Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B)},
  year = {2024},
}

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

Haozhe Zhao* , Xiaojian Ma* , Liang Chen , Shuzheng Si , Rujie Wu , Kaikai An , Peiyu Yu , Minjia Zhang , Qing Li^✉ , and Baobao Chang^✉

Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B), 2024

arXiv Bib Website

@article{2024ultraedit,
  title = {UltraEdit: Instruction-based Fine-Grained Image Editing at Scale},
  author = {Zhao, Haozhe and Ma, Xiaojian and Chen, Liang and Si, Shuzheng and Wu, Rujie and An, Kaikai and Yu, Peiyu and Zhang, Minjia and Li, Qing and Chang, Baobao},
  journal = {Neural Information Processing Systems: Datasets and Benchmarks (NeurIPS D&B)},
  year = {2024},
}

OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

Zihao Wang , Shaofei Cai , Zhancun Mu , Haowei Lin , Ceyao Zhang , Xuejie Liu , Qing Li , Anji Liu , Xiaojian Ma , and Yitao Liang

Neural Information Processing Systems (NeurIPS), 2024

arXiv Bib Website

@article{2024omnijarvis,
  title = {OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents},
  author = {Wang, Zihao and Cai, Shaofei and Mu, Zhancun and Lin, Haowei and Zhang, Ceyao and Liu, Xuejie and Li, Qing and Liu, Anji and Ma, Xiaojian and Liang, Yitao},
  journal = {Neural Information Processing Systems (NeurIPS)},
  year = {2024},
}

Task-oriented Sequential Grounding in 3D Scenes

Zhuofan Zhang , Ziyu Zhu , Pengxiang Li , Tengyu Liu , Xiaojian Ma , Yixin Chen , Baoxiong Jia , Siyuan Huang , and Qing Li^✉

arXiv preprint arXiv:2408.04034, 2024

arXiv Bib Website

@article{2024sg3d,
  title = {Task-oriented Sequential Grounding in 3D Scenes},
  author = {Zhang, Zhuofan and Zhu, Ziyu and Li, Pengxiang and Liu, Tengyu and Ma, Xiaojian and Chen, Yixin and Jia, Baoxiong and Huang, Siyuan and Li, Qing},
  journal = {arXiv preprint arXiv:2408.04034},
  year = {2024},
}

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations Spotlight (top 3.5%)

Lirui Luo , Guoxi Zhang , Hongming Xu , Yaodong Yang , Cong Fang^✉ , and Qing Li^✉

International Conference on Machine Learning (ICML), 2024

arXiv Bib Website

Spotlight (top 3.5%)

@article{luo2024insight,
  title = {End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations},
  author = {Luo, Lirui and Zhang, Guoxi and Xu, Hongming and Yang, Yaodong and Fang, Cong and Li, Qing},
  journal = {International Conference on Machine Learning (ICML)},
  year = {2024},
}

Unifying 3D Vision-Language Understanding Via Promptable Queries

Ziyu Zhu , Zhuofan Zhang , Xiaojian Ma , Xuesong Niu , Yixin Chen , Baoxiong Jia , Zhidong Deng^✉ , Siyuan Huang^✉ , and Qing Li^✉

European Conference on Computer Vision (ECCV), 2024

arXiv Bib Website

@article{zhu2024unifying,
  title = {Unifying 3D Vision-Language Understanding Via Promptable Queries},
  author = {Zhu, Ziyu and Zhang, Zhuofan and Ma, Xiaojian and Niu, Xuesong and Chen, Yixin and Jia, Baoxiong and Deng, Zhidong and Huang, Siyuan and Li, Qing},
  journal = {European Conference on Computer Vision (ECCV)},
  year = {2024}
}

VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Yue Fan* , Xiaojian Ma* , Rujie Wu , Yuntao Du , Jiaqi Li , Zhi Gao , and Qing Li^✉

European Conference on Computer Vision (ECCV), 2024

arXiv Bib Website

@article{fan2024videoagent,
  title = {VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding},
  author = {Fan, Yue and Ma, Xiaojian and Wu, Rujie and Du, Yuntao and Li, Jiaqi and Gao, Zhi and Li, Qing},
  journal = {European Conference on Computer Vision (ECCV)},
  year = {2024}
}

Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting

Jun Guo* , Xiaojian Ma* , Yue Fan , Huaping Liu^✉ , and Qing Li^✉

arXiv preprint arXiv:2403.15624, 2024

arXiv Bib Website

@article{guo2024semantic,
  title = {Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting},
  author = {Guo, Jun and Ma, Xiaojian and Fan, Yue and Liu, Huaping and Li, Qing},
  journal = {arXiv preprint arXiv:2403.15624},
  year = {2024}
}

Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey

Yi Xin , Siqi Luo , Haodi Zhou , Junlong Du , Xiaohong Liu , Yue Fan , Qing Li , and Yuntao Du

arXiv preprint arXiv:2402.02242, 2024

arXiv Bib

@article{xin2024parameter,
  title = {Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey},
  author = {Xin, Yi and Luo, Siqi and Zhou, Haodi and Du, Junlong and Liu, Xiaohong and Fan, Yue and Li, Qing and Du, Yuntao},
  journal = {arXiv preprint arXiv:2402.02242},
  year = {2024}
}

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

Baoxiong Jia* , Yixin Chen* , Huangyue Yu , Yan Wang , Xuesong Niu , Tengyu Liu , Qing Li , and Siyuan Huang

European Conference on Computer Vision (ECCV), 2024

arXiv Bib Website

@article{jia2024sceneverse,
  title = {SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding},
  author = {Jia, Baoxiong and Chen, Yixin and Yu, Huangyue and Wang, Yan and Niu, Xuesong and Liu, Tengyu and Li, Qing and Huang, Siyuan},
  journal = {European Conference on Computer Vision (ECCV)},
  year = {2024}
}

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

Zhi Gao , Yuntao Du , Xintong Zhang , Xiaojian Ma , Wenjuan Han , Song-Chun Zhu , and Qing Li^✉

The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

arXiv Bib Website

@article{gao2024clova,
  title = {CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update},
  author = {Gao, Zhi and Du, Yuntao and Zhang, Xintong and Ma, Xiaojian and Han, Wenjuan and Zhu, Song-Chun and Li, Qing},
  journal = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2024}
}

An Embodied Generalist Agent in 3D World

Jiangyong Huang* , Silong Yong* , Xiaojian Ma* , Xiongkun Linghu* , Puhao Li , Yan Wang , Qing Li , Song-Chun Zhu , Baoxiong Jia , and Siyuan Huang

International Conference on Machine Learning (ICML), 2024

arXiv Bib Website

@article{huang2024embodied,
  title = {An Embodied Generalist Agent in 3D World},
  author = {Huang, Jiangyong and Yong, Silong and Ma, Xiaojian and Linghu, Xiongkun and Li, Puhao and Wang, Yan and Li, Qing and Zhu, Song-Chun and Jia, Baoxiong and Huang, Siyuan},
  journal = {International Conference on Machine Learning (ICML)},
  year = {2024}
}

Neural-Symbolic Recursive Machine for Systematic Generalization

Qing Li , Yixin Zhu , Yitao Liang , Ying Nian Wu , Song-Chun Zhu , and Siyuan Huang

International Conference on Learning Representations (ICLR), 2024

arXiv Bib Website

@article{li2024nsr,
  title = {Neural-Symbolic Recursive Machine for Systematic Generalization},
  author = {Li, Qing and Zhu, Yixin and Liang, Yitao and Wu, Ying Nian and Zhu, Song-Chun and Huang, Siyuan},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2024}
}

Bongard-OpenWorld: Few-Shot Reasoning for Free-Form Visual Concepts in the Real World

Rujie Wu* , Xiaojian Ma* , Zhenliang Zhang , Wei Wang^✉ , Qing Li^✉ , Song-Chun Zhu , and Yizhou Wang

International Conference on Learning Representations (ICLR), 2024

arXiv Bib Website

@article{wu2024bongard,
  title = {Bongard-OpenWorld: Few-Shot Reasoning for Free-Form Visual Concepts in the Real World},
  author = {Wu, Rujie and Ma, Xiaojian and Zhang, Zhenliang and Wang, Wei and Li, Qing and Zhu, Song-Chun and Wang, Yizhou},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2024}
}

2023

Learning Non-Markovian Decision-Making from State-Only Sequences

Aoyang Qin , Feng Gao , Qing Li , Song-Chun Zhu , and Sirui Xie

Neural Information Processing Systems (NeurIPS), 2023

arXiv Bib Code

@article{qin2023learning,
  title = {Learning Non-Markovian Decision-Making from State-Only Sequences},
  author = {Qin, Aoyang and Gao, Feng and Li, Qing and Zhu, Song-Chun and Xie, Sirui},
  journal = {Neural Information Processing Systems (NeurIPS)},
  year = {2023}
}

A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics Notable-top-25%

Qing Li , Siyuan Huang , Yining Hong , Yixin Zhu , Ying Nian Wu , and Song-Chun Zhu

International Conference on Learning Representations (ICLR), 2023

arXiv Bib Website

Notable-top-25%

@article{li2023hint,
  title = {A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics},
  author = {Li, Qing and Huang, Siyuan and Hong, Yining and Zhu, Yixin and Wu, Ying Nian and Zhu, Song-Chun},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2023}
}

3D-VisTA: Pre-Trained Transformer for 3D Vision and Text Alignment

Ziyu Zhu , Xiaojian Ma , Yixin Chen , Zhidong Deng^✉ , Siyuan Huang^✉ , and Qing Li^✉

International Conference on Computer Vision (ICCV), 2023

arXiv Bib Website

@article{zhu2023vista,
  title = {3D-VisTA: Pre-Trained Transformer for 3D Vision and Text Alignment},
  author = {Zhu, Ziyu and Ma, Xiaojian and Chen, Yixin and Deng, Zhidong and Huang, Siyuan and Li, Qing},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2023}
}

SQA3D: Situated Question Answering in 3D Scenes

Xiaojian Ma* , Silong Yong* , Zilong Zheng , Qing Li , Yitao Liang , Song-Chun Zhu , and Siyuan Huang

International Conference on Learning Representations (ICLR), 2023

arXiv Bib Website

@article{ma2023sqa3d,
  title = {SQA3D: Situated Question Answering in 3D Scenes},
  author = {Ma, Xiaojian and Yong, Silong and Zheng, Zilong and Li, Qing and Liang, Yitao and Zhu, Song-Chun and Huang, Siyuan},
  journal = {International Conference on Learning Representations (ICLR)},
  year = {2023}
}

2022

Close the Loop of Neural Perception, Grammar Parsing, and Symbolic Reasoning

Qing Li

University of California, Los Angeles, 2022

Bib

@article{li2022close,
  title = {Close the Loop of Neural Perception, Grammar Parsing, and Symbolic Reasoning},
  author = {Li, Qing},
  journal = {University of California, Los Angeles},
  year = {2022}
}

2021

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text

Qing Li , Boqing Gong , Yin Cui , Dan Kondratyuk , Xianzhi Du , Ming-Hsuan Yang , and Matthew Brown

arXiv preprint arXiv:2112.07074, 2021

arXiv Bib

@article{li2021unified,
  title = {Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text},
  author = {Li, Qing and Gong, Boqing and Cui, Yin and Kondratyuk, Dan and Du, Xianzhi and Yang, Ming-Hsuan and Brown, Matthew},
  journal = {arXiv preprint arXiv:2112.07074},
  year = {2021}
}

SMART: A Situation Model for Algebra Story Problems via Attributed Grammar

Yining Hong , Qing Li , Ran Gong , Daniel Ciao , Siyuan Huang , and Song-Chun Zhu

AAAI Conference on Artificial Intelligence (AAAI), 2021

arXiv Bib

@article{hong2021smart,
  title = {SMART: A Situation Model for Algebra Story Problems via Attributed Grammar},
  author = {Hong, Yining and Li, Qing and Gong, Ran and Ciao, Daniel and Huang, Siyuan and Zhu, Song-Chun},
  journal = {AAAI Conference on Artificial Intelligence (AAAI)},
  year = {2021}
}

Learning by Fixing: Solving Math Word Problems with Weak Supervision

Yining Hong , Qing Li , Daniel Ciao , Siyuan Huang , and Song-Chun Zhu

AAAI Conference on Artificial Intelligence (AAAI), 2021

arXiv Bib

@article{hong2021learning,
  title = {Learning by Fixing: Solving Math Word Problems with Weak Supervision},
  author = {Hong, Yining and Li, Qing and Ciao, Daniel and Huang, Siyuan and Zhu, Song-Chun},
  journal = {AAAI Conference on Artificial Intelligence (AAAI)},
  year = {2021}
}

YouRefIt: Embodied Reference Understanding with Language and Gesture Oral

Yixin Chen , Qing Li , Deqian Kong , Yik Lun Kei , Song-Chun Zhu , Tao Gao , Yixin Zhu , and Siyuan Huang

International Conference on Computer Vision (ICCV), 2021

arXiv Bib

Oral

@article{chen2021yourefit,
  title = {YouRefIt: Embodied Reference Understanding with Language and Gesture},
  author = {Chen, Yixin and Li, Qing and Kong, Deqian and Kei, Yik Lun and Zhu, Song-Chun and Gao, Tao and Zhu, Yixin and Huang, Siyuan},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2021}
}

VLGrammar: Grounded Grammar Induction of Vision and Language

Yining Hong , Qing Li , Song-Chun Zhu , and Siyuan Huang

International Conference on Computer Vision (ICCV), 2021

arXiv Bib

@article{hong2021vlgrammar,
  title = {VLGrammar: Grounded Grammar Induction of Vision and Language},
  author = {Hong, Yining and Li, Qing and Zhu, Song-Chun and Huang, Siyuan},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2021}
}

2020

A Competence-Aware Curriculum for Visual Concepts Learning Via Question Answering Oral

Qing Li , Siyuan Huang , Yining Hong , and Song-Chun Zhu

European Conference on Computer Vision (ECCV), 2020

arXiv Bib Website

Oral

@article{li2020competence,
  title = {A Competence-Aware Curriculum for Visual Concepts Learning Via Question Answering},
  author = {Li, Qing and Huang, Siyuan and Hong, Yining and Zhu, Song-Chun},
  journal = {European Conference on Computer Vision (ECCV)},
  year = {2020}
}

Closed Loop Neural-Symbolic Learning Via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning Best Paper in ICML Workshop

Qing Li , Siyuan Huang , Yining Hong , Yixin Chen , Ying Nian Wu , and Song-Chun Zhu

International Conference on Machine Learning (ICML), 2020

arXiv Bib Website

Best Paper in ICML Workshop

@article{li2020ngs,
  title = {Closed Loop Neural-Symbolic Learning Via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning},
  author = {Li, Qing and Huang, Siyuan and Hong, Yining and Chen, Yixin and Wu, Ying Nian and Zhu, Song-Chun},
  journal = {International Conference on Machine Learning (ICML)},
  year = {2020}
}

2019

Why Does a Visual Question Have Different Answers?

Nilavra Bhattacharya , Qing Li , and Danna Gurari

International Conference on Computer Vision (ICCV), 2019

arXiv Bib Website

@article{bhattacharya2019visual,
  title = {Why Does a Visual Question Have Different Answers?},
  author = {Bhattacharya, Nilavra and Li, Qing and Gurari, Danna},
  journal = {International Conference on Computer Vision (ICCV)},
  year = {2019}
}

VizWiz-Priv: A Dataset for Recognizing the Presence and Purpose of Private Visual Information in Images Taken by Blind People

Danna Gurari , Qing Li , Chi Lin , Yinan Zhao , Anhong Guo , Abigale Stangl , and Jeffrey P Bigham

The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019

Bib Website

@article{gurari2019vizwizpriv,
  title = {VizWiz-Priv: A Dataset for Recognizing the Presence and Purpose of Private Visual Information in Images Taken by Blind People},
  author = {Gurari, Danna and Li, Qing and Lin, Chi and Zhao, Yinan and Guo, Anhong and Stangl, Abigale and Bigham, Jeffrey P},
  journal = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2019}
}

2018

Tell-and-Answer: Towards Explainable Visual Question Answering Using Attributes and Captions Oral

Qing Li , Jianlong Fu , Dongfei Yu , Tao Mei , and Jiebo Luo

Annual Conference on Empirical Methods in Natural Language Processing (EMNLP), 2018

arXiv Bib

Oral

@article{li2018tell,
  title = {Tell-and-Answer: Towards Explainable Visual Question Answering Using Attributes and Captions},
  author = {Li, Qing and Fu, Jianlong and Yu, Dongfei and Mei, Tao and Luo, Jiebo},
  journal = {Annual Conference on Empirical Methods in Natural Language Processing (EMNLP)},
  year = {2018}
}

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Qing Li , Qingyi Tao , Shafiq Joty , Jianfei Cai , and Jiebo Luo

European Conference on Computer Vision (ECCV), 2018

arXiv Bib

@article{li2018vqa,
  title = {VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions},
  author = {Li, Qing and Tao, Qingyi and Joty, Shafiq and Cai, Jianfei and Luo, Jiebo},
  journal = {European Conference on Computer Vision (ECCV)},
  year = {2018}
}

VizWiz Grand Challenge: Answering Visual Questions from Blind People Spotlight

Danna Gurari , Qing Li , Abigale J Stangl , Anhong Guo , Chi Lin , Kristen Grauman , Jiebo Luo , and Jeffrey P Bigham

The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018

arXiv Bib Website

Spotlight

@article{gurari2018vizwiz,
  title = {VizWiz Grand Challenge: Answering Visual Questions from Blind People},
  author = {Gurari, Danna and Li, Qing and Stangl, Abigale J and Guo, Anhong and Lin, Chi and Grauman, Kristen and Luo, Jiebo and Bigham, Jeffrey P},
  journal = {The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2018}
}

2017

Learning Hierarchical Video Representation for Action Recognition

Qing Li , Zhaofan Qiu , Ting Yao , Tao Mei , Yong Rui , and Jiebo Luo

International Journal of Multimedia Information Retrieval, 2017

Bib

@article{li2017learning,
  title = {Learning Hierarchical Video Representation for Action Recognition},
  author = {Li, Qing and Qiu, Zhaofan and Yao, Ting and Mei, Tao and Rui, Yong and Luo, Jiebo},
  journal = {International Journal of Multimedia Information Retrieval},
  volume = {6},
  pages = {85-98},
  year = {2017}
}

2016

Action Recognition by Learning Deep Multi-Granular Spatio-Temporal Video Representation Best Paper Finalist

Qing Li , Zhaofan Qiu , Ting Yao , Tao Mei , Yong Rui , and Jiebo Luo

International Conference on Multimedia Retrieval, 2016

Bib

Best Paper Finalist

@article{li2016action,
  title = {Action Recognition by Learning Deep Multi-Granular Spatio-Temporal Video Representation},
  author = {Li, Qing and Qiu, Zhaofan and Yao, Ting and Mei, Tao and Rui, Yong and Luo, Jiebo},
  journal = {International Conference on Multimedia Retrieval},
  year = {2016}
}