Publications | Shaobo Wang (王少博)

2026

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Shaobo Wang , Xuan Ouyang , Tianyi Xu , Yuzheng Hu , Jialin Liu , Guo Chen , Tianyu Zhang , Junhao Zheng , and 4 more authors

In International Conference on Machine Learning , 2026

arXiv Bib HTML PDF Link

@inproceedings{wang2026opus,
  title = {OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration},
  author = {Wang, Shaobo and Ouyang, Xuan and Xu, Tianyi and Hu, Yuzheng and Liu, Jialin and Chen, Guo and Zhang, Tianyu and Zheng, Junhao and Yang, Kexin and Ren, Xingzhang and Liu, Dayiheng and Zhang, Linfeng},
  booktitle = {International Conference on Machine Learning},
  year = {2026},
  eprint = {2602.05400},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=FEfuE1mAB6},
}

ICML

Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

Zhengbo Jiao , Shaobo Wang , Zifan Zhang , Xuan Ren , Wei Wang , Bing Zhao , Hu Wei , and Linfeng Zhang

In International Conference on Machine Learning , 2026

arXiv Bib HTML PDF Code

@inproceedings{jiao2026agentic,
  title = {Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis},
  author = {Jiao, Zhengbo and Wang, Shaobo and Zhang, Zifan and Ren, Xuan and Wang, Wei and Zhao, Bing and Wei, Hu and Zhang, Linfeng},
  year = {2026},
  eprint = {2602.03279},
  archiveprefix = {arXiv},
  booktitle = {International Conference on Machine Learning},
}

ICML

Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners

Qingyang Liu , Bingjie Gao , Canmiao Fu , Zhipeng Huang , Chen Li , Feng Wang , Shuochen Chang , Shaobo Wang , and 4 more authors

In International Conference on Machine Learning , 2026

Bib HTML

@inproceedings{liu2026breakingdual,
  title = {Breaking Dual Bottlenecks: Evolving Unified Multimodal Models into Self-Adaptive Interleaved Visual Reasoners},
  author = {Liu, Qingyang and Gao, Bingjie and Fu, Canmiao and Huang, Zhipeng and Li, Chen and Wang, Feng and Chang, Shuochen and Wang, Shaobo and Wang, Yali and Ye, Keming and Li, Jiangtong and Niu, Li},
  booktitle = {International Conference on Machine Learning},
  year = {2026},
}

ICML

dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching

Zhiyuan Liu , Yicun Yang , Yaojie Zhang , Junjie Chen , Chang Zou , Qingyan Wei , Shaobo Wang , Yichen Zhu , and 1 more author

In International Conference on Machine Learning , 2026

arXiv Bib HTML PDF Code Link

@inproceedings{liu2025dllmcache,
  title = {dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching},
  author = {Liu, Zhiyuan and Yang, Yicun and Zhang, Yaojie and Chen, Junjie and Zou, Chang and Wei, Qingyan and Wang, Shaobo and Zhu, Yichen and Zhang, Linfeng},
  year = {2026},
  eprint = {2506.06295},
  archiveprefix = {arXiv},
  booktitle = {International Conference on Machine Learning},
  url = {https://openreview.net/forum?id=DriG3hgh42},
}

ACL main

CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs

Shaobo Wang* , Yongliang Miao* , Yuancheng Liu , Qianli Ma , Ning Liao , and Linfeng Zhang

In The 64th Annual Meeting of the Association for Computational Linguistics , 2026

arXiv Bib PDF

@inproceedings{wang2026circuitseer,
  title = {CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs},
  author = {Wang*, Shaobo and Miao*, Yongliang and Liu, Yuancheng and Ma, Qianli and Liao, Ning and Zhang, Linfeng},
  booktitle = {The 64th Annual Meeting of the Association for Computational Linguistics},
  year = {2026},
  eprint = {2510.18470},
  archiveprefix = {arXiv},
}

ACL main

Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling

Yujie Chen , Tailai Chen , Yifeng Gao , Zoe Wanying He , Yijue Xu , Shaobo Wang , and Linfeng Zhang

In The 64th Annual Meeting of the Association for Computational Linguistics , 2026

arXiv Bib PDF Code

@inproceedings{chen2026dash,
  title = {Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling},
  author = {Chen, Yujie and Chen, Tailai and Gao, Yifeng and He, Zoe Wanying and Xu, Yijue and Wang, Shaobo and Zhang, Linfeng},
  booktitle = {The 64th Annual Meeting of the Association for Computational Linguistics},
  year = {2026},
  eprint = {2604.18103},
  archiveprefix = {arXiv},
}

ACL findings

MelTrim: Coarse-to-Fine Data Pruning for Speech Classification

Shaobo Wang , Tianle Niu , Xuan Ouyang , Xintong Li , Zhengkun Ge , Yue Min , Xiaoqian Liu , Hankun Wang , and 9 more authors

In Findings of the Association for Computational Linguistics: ACL 2026 , 2026

Bib

@inproceedings{wang2026meltrim,
  title = {MelTrim: Coarse-to-Fine Data Pruning for Speech Classification},
  author = {Wang, Shaobo and Niu, Tianle and Ouyang, Xuan and Li, Xintong and Ge, Zhengkun and Min, Yue and Liu, Xiaoqian and Wang, Hankun and Wang, Jianjin and Zhang, Haoran and Ge, Yuan and Chang, Kaiyan and Xu, Chen and Xiao, Tong and Yu, Zhengtao and Zhang, Linfeng and Zhu, Jingbo},
  booktitle = {Findings of the Association for Computational Linguistics: ACL 2026},
  year = {2026}
}

WWW

Bridging Visual Dynamics and Narrative Reasoning: Multimodal Large Language Models for Short Drama Quality Assessment

Qingyang Liu , Jiangtong Li , Zelin Peng , Shaobo Wang , Zhaohe Liao , Shuochen Chang , Bingjie Gao , Haonan Zhao , and 3 more authors

In The ACM Web Conference 2026 Industry Track , 2026

Bib HTML Link

@inproceedings{liu2026bridging,
  title = {Bridging Visual Dynamics and Narrative Reasoning: Multimodal Large Language Models for Short Drama Quality Assessment},
  author = {Liu, Qingyang and Li, Jiangtong and Peng, Zelin and Wang, Shaobo and Liao, Zhaohe and Chang, Shuochen and Gao, Bingjie and Zhao, Haonan and Liu, Mu and Jiang, Jidong and Niu, Li},
  booktitle = {The ACM Web Conference 2026 Industry Track},
  year = {2026},
  url = {https://openreview.net/forum?id=Fkwvsf7U8N},
  doi = {10.1145/3774904.3792827}
}

CVPR

Socratic-Geo: Synthetic Data Generation and Cross-Modal Geometric Reasoning via Multi-Agent Interaction

Zhengbo Jiao* , Shaobo Wang* , Zifan Zhang* , Wei Wang , Bing Zhao , Hu Wei , and Linfeng Zhang

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2026

arXiv Bib PDF Code Link

@inproceedings{jiao2026socraticgeo,
  title = {Socratic-Geo: Synthetic Data Generation and Cross-Modal Geometric Reasoning via Multi-Agent Interaction},
  author = {Jiao*, Zhengbo and Wang*, Shaobo and Zhang*, Zifan and Wang, Wei and Zhao, Bing and Wei, Hu and Zhang, Linfeng},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year = {2026},
  eprint = {2602.03414},
  archiveprefix = {arXiv},
  url = {https://cvpr.thecvf.com/virtual/2026/poster/38181}
}

CVPR Findings

Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models

Junlong Ke , Zichen Wen , Boxue Yang , Yantai Yang , Xuyang Liu , Chenfei Liao , Zhaorun Chen , Shaobo Wang , and 1 more author

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Findings, 2026

arXiv Bib PDF Code

@article{ke2026flashunified,
  title = {Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models},
  author = {Ke, Junlong and Wen, Zichen and Yang, Boxue and Yang, Yantai and Liu, Xuyang and Liao, Chenfei and Chen, Zhaorun and Wang, Shaobo and Zhang, Linfeng},
  journal = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Findings},
  year = {2026},
  eprint = {2603.15271},
  archiveprefix = {arXiv},
}

ICLR

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

Shaobo Wang , Yantai Yang , Guo Chen , Peiru Li , Kaixin Li , Yufa Zhou , Zhaorun Chen , and Linfeng Zhang

In The Fourteenth International Conference on Learning Representations , 2026

arXiv Bib PDF Link

@inproceedings{wang2026grounding,
  title = {Grounding and Enhancing Informativeness and Utility in Dataset Distillation},
  author = {Wang, Shaobo and Yang, Yantai and Chen, Guo and Li, Peiru and Li, Kaixin and Zhou, Yufa and Chen, Zhaorun and Zhang, Linfeng},
  booktitle = {The Fourteenth International Conference on Learning Representations},
  year = {2026},
  eprint = {2601.21296},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=ThsYRbpv2F}
}

ICLR

Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

Shaobo Wang* , Cong Wang* , Wenjie Fu* , Yue Min , Mingquan Feng , Isabel Guan , Xuming Hu , Conghui He , and 6 more authors

In The Fourteenth International Conference on Learning Representations , 2026

arXiv Bib PDF Code Link

@inproceedings{wang2026rethinking,
  title = {Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?},
  author = {Wang*, Shaobo and Wang*, Cong and Fu*, Wenjie and Min, Yue and Feng, Mingquan and Guan, Isabel and Hu, Xuming and He, Conghui and Wang, Cunxiang and Yang, Kexin and Ren, Xingzhang and Huang, Fei and Liu, Dayiheng and Zhang, Linfeng},
  booktitle = {The Fourteenth International Conference on Learning Representations},
  year = {2026},
  eprint = {2510.10457},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=lZlZjSxdio}
}

ICLR workshop

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

Shaobo Wang , Jiaming Wang , Jiajun Zhang , Cong Wang , Yue Min , Zichen Wen , Xingzhang Ren , Fei Huang , and 4 more authors

ICLR 2026 Workshop on Data Problems for Foundation Models, 2026

arXiv Bib PDF Website Link

@article{wang2026winning,
  title = {Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning},
  author = {Wang, Shaobo and Wang, Jiaming and Zhang, Jiajun and Wang, Cong and Min, Yue and Wen, Zichen and Ren, Xingzhang and Huang, Fei and Jiang, Huiqiang and Lin, Junyang and Liu, Dayiheng and Zhang, Linfeng},
  journal = {ICLR 2026 Workshop on Data Problems for Foundation Models},
  year = {2026},
  eprint = {2509.23873},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=1ZzCzddCpB},
}

arXiv

IndustryCode: A Benchmark for Industry Code Generation

Puyu Zeng , Zhaoxi Wang , Zhixu Duan , Liang Feng , Shaobo Wang , Cunxiang Wang , Jinghang Wang , Bing Zhao , and 2 more authors

arXiv preprint arXiv:2604.02729, 2026

arXiv Bib PDF

@article{zeng2026industrycode,
  title = {IndustryCode: A Benchmark for Industry Code Generation},
  author = {Zeng, Puyu and Wang, Zhaoxi and Duan, Zhixu and Feng, Liang and Wang, Shaobo and Wang, Cunxiang and Wang, Jinghang and Zhao, Bing and Wei, Hu and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2604.02729},
  year = {2026},
  eprint = {2604.02729},
  archiveprefix = {arXiv},
}

arXiv

Do Phone-Use Agents Respect Your Privacy?

Zhengyang Tang , Ke Ji , Xidong Wang , Zihan Ye , Xinyuan Wang , Yiduo Guo , Ziniu Li , Chenxin Li , and 14 more authors

arXiv, 2026

arXiv Bib PDF Code Website

@article{tang2026phoneprivacy,
  title = {Do Phone-Use Agents Respect Your Privacy?},
  author = {Tang, Zhengyang and Ji, Ke and Wang, Xidong and Ye, Zihan and Wang, Xinyuan and Guo, Yiduo and Li, Ziniu and Li, Chenxin and Hu, Jingyuan and Chen, Shunian and Luo, Tongxu and Bi, Jiaxi and Qin, Zeyu and Wang, Shaobo and Lai, Xin and Lyu, Pengyuan and Li, Junyi and Xu, Can and Zhang, Chengquan and Hu, Han and Yan, Ming and Wang, Benyou},
  journal = {arXiv},
  year = {2026},
  eprint = {2604.00986},
  archiveprefix = {arXiv},
}

arXiv

Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models

Yuhang Han , Yuyang Wu , Zhengbo Jiao , Yiyu Wang , Xuyang Liu , Shaobo Wang , Hanlin Xu , Xuming Hu , and 1 more author

arXiv preprint arXiv:2603.27375, 2026

arXiv Bib PDF Website

@article{han2026bridgingvisual,
  title = {Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models},
  author = {Han, Yuhang and Wu, Yuyang and Jiao, Zhengbo and Wang, Yiyu and Liu, Xuyang and Wang, Shaobo and Xu, Hanlin and Hu, Xuming and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2603.27375},
  year = {2026},
  eprint = {2603.27375},
  archiveprefix = {arXiv},
}

arXiv

Towards Principled Dataset Distillation: A Spectral Distribution Perspective

Ruixi Wu* , Shaobo Wang* , Jiahuan Chen , Zhiyuan Liu , Yicun Yang , Zhaorun Chen , Zekai Li , Kaixin Li , and 4 more authors

arXiv preprint arXiv:2603.01698, 2026

arXiv Bib PDF

@article{wu2026principled,
  title = {Towards Principled Dataset Distillation: A Spectral Distribution Perspective},
  author = {Wu*, Ruixi and Wang*, Shaobo and Chen, Jiahuan and Liu, Zhiyuan and Yang, Yicun and Chen, Zhaorun and Li, Zekai and Li, Kaixin and Wang, Xinming and Yi, Hongzhu and Wang, Kai and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2603.01698},
  year = {2026},
  eprint = {2603.01698},
  archiveprefix = {arXiv},
}

arXiv

Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning

Zhengbo Jiao* , Shaobo Wang* , Zifan Zhang , Wei Wang , Bing Zhao , Hu Wei , and Linfeng Zhang

arXiv preprint arXiv:2602.11455, 2026

arXiv Bib PDF

@article{jiao2026credit,
  title = {Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning},
  author = {Jiao*, Zhengbo and Wang*, Shaobo and Zhang, Zifan and Wang, Wei and Zhao, Bing and Wei, Hu and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2602.11455},
  year = {2026},
  eprint = {2602.11455},
  archiveprefix = {arXiv},
}

AAAI

UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective

Furui Xu* , Shaobo Wang* , Jiajun Zhang , Chenghao Sun , Haixiang Tang , and Linfeng Zhang

In Annual AAAI Conference on Artificial Intelligence , 2026

arXiv Bib HTML PDF

@inproceedings{xu2026unseen,
  title = {UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective},
  author = {Xu*, Furui and Wang*, Shaobo and Zhang, Jiajun and Sun, Chenghao and Tang, Haixiang and Zhang, Linfeng},
  booktitle = {Annual AAAI Conference on Artificial Intelligence},
  year = {2026},
  eprint = {2511.12988},
  archiveprefix = {arXiv},
  doi = {10.1609/aaai.v40i32.39938}
}

AAAI

ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation

Yue Min* , Shaobo Wang* , Jiaze Li , Tianle Niu , Junxin Fan , Yongliang Miao , Lijin Yang , and Linfeng Zhang

In Annual AAAI Conference on Artificial Intelligence , 2026

arXiv Bib HTML PDF

@inproceedings{min2026imagebinddc,
  title = {ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation},
  author = {Min*, Yue and Wang*, Shaobo and Li, Jiaze and Niu, Tianle and Fan, Junxin and Miao, Yongliang and Yang, Lijin and Zhang, Linfeng},
  booktitle = {Annual AAAI Conference on Artificial Intelligence},
  year = {2026},
  eprint = {2511.08263},
  archiveprefix = {arXiv},
  doi = {10.1609/aaai.v40i18.38582}
}

2025

NeurIPS

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Zichen Wen , Shaobo Wang , Yufa Zhou , Junyuan Zhang , Qintong Zhang , Yifeng Gao , Zhaorun Chen , Bin Wang , and 3 more authors

In Advances in Neural Information Processing Systems , 2025

arXiv Bib HTML PDF Code Website Link

@inproceedings{wen2025efficient,
  title = {Efficient Multi-modal Large Language Models via Progressive Consistency Distillation},
  author = {Wen, Zichen and Wang, Shaobo and Zhou, Yufa and Zhang, Junyuan and Zhang, Qintong and Gao, Yifeng and Chen, Zhaorun and Wang, Bin and Li, Weijia and He, Conghui and Zhang, Linfeng},
  booktitle = {Advances in Neural Information Processing Systems},
  year = {2025},
  eprint = {2510.00515},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=gZjPllL9jM},
}

arXiv

VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction

Shaobo Wang* , Tianle Niu* , Runkang Yang , Deshan Liu , Xu He , Zichen Wen , Conghui He , Xuming Hu , and 1 more author

arXiv preprint arXiv:2511.18831, 2025

arXiv Bib PDF

@article{wang2025videocompressa,
  title = {VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction},
  author = {Wang*, Shaobo and Niu*, Tianle and Yang, Runkang and Liu, Deshan and He, Xu and Wen, Zichen and He, Conghui and Hu, Xuming and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2511.18831},
  year = {2025},
  eprint = {2511.18831},
  archiveprefix = {arXiv},
}

EMNLP main

Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More

Zichen Wen , Yifeng Gao , Shaobo Wang , Junyuan Zhang , Qintong Zhang , Weijia Li , Conghui He , and Linfeng Zhang

In Conference on Empirical Methods in Natural Language Processing , 2025

arXiv Bib HTML PDF Code

@inproceedings{wen2025stoplooking,
  title = {Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More},
  author = {Wen, Zichen and Gao, Yifeng and Wang, Shaobo and Zhang, Junyuan and Zhang, Qintong and Li, Weijia and He, Conghui and Zhang, Linfeng},
  booktitle = {Conference on Empirical Methods in Natural Language Processing},
  year = {2025},
  eprint = {2502.11494},
  archiveprefix = {arXiv},
}

arXiv

Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way

Yicun Yang , Cong Wang , Shaobo Wang , Zichen Wen , Biqing Qi , Hanlin Xu , and Linfeng Zhang

arXiv preprint arXiv:2510.24605, 2025

arXiv Bib PDF Code Website

@article{yang2025diffusion,
  title = {Diffusion LLM with Native Variable Generation Lengths: Let [EOS] Lead the Way},
  author = {Yang, Yicun and Wang, Cong and Wang, Shaobo and Wen, Zichen and Qi, Biqing and Xu, Hanlin and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2510.24605},
  year = {2025},
  eprint = {2510.24605},
  archiveprefix = {arXiv},
}

ACMMM

SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching

Jiacheng Liu , Chang Zou , Yuanhuiyi Lyu , Fei Ren , Shaobo Wang , Kaixin Li , and Linfeng Zhang

In ACM Multimedia , 2025

arXiv Bib HTML PDF Code Website Link

@inproceedings{liu2025speca,
  title = {SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching},
  author = {Liu, Jiacheng and Zou, Chang and Lyu, Yuanhuiyi and Ren, Fei and Wang, Shaobo and Li, Kaixin and Zhang, Linfeng},
  booktitle = {ACM Multimedia},
  year = {2025},
  eprint = {2509.11628},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=H3fJBxt1cL},
  doi = {10.1145/3746027.3755331},
}

ACMMM

Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching

Zhixin Zheng , Xinyu Wang , Chang Zou , Shaobo Wang , and Linfeng Zhang

In ACM Multimedia , 2025

arXiv Bib HTML PDF Code Link

@inproceedings{zheng2025compute16,
  title = {Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching},
  author = {Zheng, Zhixin and Wang, Xinyu and Zou, Chang and Wang, Shaobo and Zhang, Linfeng},
  booktitle = {ACM Multimedia},
  year = {2025},
  eprint = {2509.10312},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=lCg8s0h4EJ},
  doi = {10.1145/3746027.3755479},
}

arXiv

Socratic-Zero: Bootstrapping Reasoning via Data-Free Agent Co-evolution

Shaobo Wang* , Zhengbo Jiao* , Zifan Zhang , Yilang Peng , Xu Ze , Boyu Yang , Wei Wang , Hu Wei , and 1 more author

arXiv preprint arXiv:2509.24726, 2025

arXiv Bib PDF Code

@article{wang2025socraticzero,
  title = {Socratic-Zero: Bootstrapping Reasoning via Data-Free Agent Co-evolution},
  author = {Wang*, Shaobo and Jiao*, Zhengbo and Zhang, Zifan and Peng, Yilang and Ze, Xu and Yang, Boyu and Wang, Wei and Wei, Hu and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2509.24726},
  year = {2025},
  eprint = {2509.24726},
  archiveprefix = {arXiv},
}

ACL main

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

Shaobo Wang , Xiangqi Jin , Ziming Wang , Jize Wang , Jiajun Zhang , Kaixin Li , Zichen Wen , Zhong Li , and 3 more authors

In Annual Meeting of the Association for Computational Linguistics , 2025

arXiv Bib HTML PDF Code Website

@inproceedings{wang2025datawhisperer,
  title = {Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning},
  author = {Wang, Shaobo and Jin, Xiangqi and Wang, Ziming and Wang, Jize and Zhang, Jiajun and Li, Kaixin and Wen, Zichen and Li, Zhong and He, Conghui and Hu, Xuming and Zhang, Linfeng},
  booktitle = {Annual Meeting of the Association for Computational Linguistics},
  year = {2025},
  eprint = {2505.12212},
  archiveprefix = {arXiv},
}

CVPR highlight

Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

Shaobo Wang , Yicun Yang , Zhiyuan Liu , Chenghao Sun , Xuming Hu , Conghui He , and Linfeng Zhang

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2025

arXiv Bib HTML PDF Code News (Chinese)

@inproceedings{wang2025dataset,
  title = {Dataset Distillation with Neural Characteristic Function: A Minmax Perspective},
  author = {Wang, Shaobo and Yang, Yicun and Liu, Zhiyuan and Sun, Chenghao and Hu, Xuming and He, Conghui and Zhang, Linfeng},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year = {2025},
  eprint = {2502.20653},
  archiveprefix = {arXiv},
  news_zh = {https://mp.weixin.qq.com/s/VtIqPF_a098qAEvrTKbi6A},
}

CVPR workshop

Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation

Shaobo Wang , Yantai Yang , Qilong Wang , Kaixin Li , Linfeng Zhang , and Junchi Yan

Synthetic Data for Computer Vision Workshop at CVPR, 2025

arXiv Bib PDF Link

@article{wang2025samples,
  title = {Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation},
  author = {Wang, Shaobo and Yang, Yantai and Wang, Qilong and Li, Kaixin and Zhang, Linfeng and Yan, Junchi},
  journal = {Synthetic Data for Computer Vision Workshop at CVPR},
  year = {2025},
  eprint = {2408.12483},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=ulgRu6zM3a}
}

arXiv

Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs

Yufa Zhou* , Shaobo Wang* , Xingyu Dong* , Xiangqi Jin , Yifang Chen , Yue Min , Kexin Yang , Xingzhang Ren , and 2 more authors

arXiv preprint arXiv:2506.00577, 2025

arXiv Bib PDF Code

@article{zhou2025reasoning,
  title = {Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs},
  author = {Zhou*, Yufa and Wang*, Shaobo and Dong*, Xingyu and Jin, Xiangqi and Chen, Yifang and Min, Yue and Yang, Kexin and Ren, Xingzhang and Liu, Dayiheng and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2506.00577},
  year = {2025},
  eprint = {2506.00577},
  archiveprefix = {arXiv},
}

arXiv

Shifting AI Efficiency From Model-Centric to Data-Centric Compression

Xuyang Liu* , Zichen Wen* , Shaobo Wang* , Junjie Chen , Zhishan Tao , Yubo Wang , Tailai Chen , Xiangqi Jin , and 9 more authors

arXiv preprint arXiv:2505.19147, 2025

arXiv Bib PDF Website

@article{liu2025shifting,
  title = {Shifting AI Efficiency From Model-Centric to Data-Centric Compression},
  author = {Liu*, Xuyang and Wen*, Zichen and Wang*, Shaobo and Chen, Junjie and Tao, Zhishan and Wang, Yubo and Chen, Tailai and Jin, Xiangqi and Zou, Chang and Wang, Yiyu and Liao, Chenfei and Zheng, Xu and Chen, Honggang and Li, Weijia and Hu, Xuming and He, Conghui and Zhang, Linfeng},
  journal = {arXiv preprint arXiv:2505.19147},
  year = {2025},
  eprint = {2505.19147},
  archiveprefix = {arXiv},
}

arXiv

KO: Kinetics-inspired Neural Optimizer with PDE Simulation Approaches

Mingquan Feng , Yixin Huang , Yifan Fu , Shaobo Wang , and Junchi Yan

arXiv preprint arXiv:2505.14777, 2025

arXiv Bib PDF

@article{feng2025ko,
  title = {KO: Kinetics-inspired Neural Optimizer with PDE Simulation Approaches},
  author = {Feng, Mingquan and Huang, Yixin and Fu, Yifan and Wang, Shaobo and Yan, Junchi},
  journal = {arXiv preprint arXiv:2505.14777},
  year = {2025},
  eprint = {2505.14777},
  archiveprefix = {arXiv},
}

arXiv

DD-Ranking: Rethinking the Evaluation of Dataset Distillation

Zekai Li , Xinhao Zhong , Samir Khaki , Zhiyuan Liang , Yuhao Zhou , Mingjia Shi , Ziqiao Wang , Xuanlei Zhao , and 3 more authors

arXiv preprint arXiv:2505.13300, 2025

arXiv Bib PDF Code Website

@article{li2025ddranking,
  title = {DD-Ranking: Rethinking the Evaluation of Dataset Distillation},
  author = {Li, Zekai and Zhong, Xinhao and Khaki, Samir and Liang, Zhiyuan and Zhou, Yuhao and Shi, Mingjia and Wang, Ziqiao and Zhao, Xuanlei and Zhao, Wangbo and Qin, Ziheng and others},
  journal = {arXiv preprint arXiv:2505.13300},
  year = {2025},
  eprint = {2505.13300},
  archiveprefix = {arXiv},
}

ICLR

Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Transformers

Shaobo Wang , Hongxuan Tang , Mingyang Wang , Hongrui Zhang , Xuyang Liu , Weiya Li , Xuming Hu , and Linfeng Zhang

In International Conference on Learning Representations , 2025

arXiv Bib PDF Code Link

@inproceedings{wang2025gnothi,
  title = {Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Transformers},
  author = {Wang, Shaobo and Tang, Hongxuan and Wang, Mingyang and Zhang, Hongrui and Liu, Xuyang and Li, Weiya and Hu, Xuming and Zhang, Linfeng},
  booktitle = {International Conference on Learning Representations},
  year = {2025},
  eprint = {2410.21815},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=UvMSKonce8}
}

ICLR workshop

DRUPI: Dataset Reduction Using Privileged Information

Shaobo Wang , Youxin Jiang , Tianle Niu , Yantai Yang , Ruiji Zhang , Shuhao Hu , Shuaiyu Zhang , Chenghao Sun , and 4 more authors

The Future of Machine Learning Data Practices and Repositories Workshop at ICLR 2025, 2025

arXiv Bib PDF Website Link

@article{wang2025drupi,
  title = {DRUPI: Dataset Reduction Using Privileged Information},
  author = {Wang, Shaobo and Jiang, Youxin and Niu, Tianle and Yang, Yantai and Zhang, Ruiji and Hu, Shuhao and Zhang, Shuaiyu and Sun, Chenghao and Li, Weiya and He, Conghui and Hu, Xuming and Zhang, Linfeng},
  journal = {The Future of Machine Learning Data Practices and Repositories Workshop at ICLR 2025},
  year = {2025},
  eprint = {2410.01611},
  archiveprefix = {arXiv},
  url = {https://openreview.net/forum?id=e3WQbZFeIi},
}

2024

ECCV

Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)

Qifeng Li , Xiaosong Jia , Shaobo Wang , and Junchi Yan

In European Conference on Computer Vision , 2024

arXiv Bib PDF Website Link

@inproceedings{li2024think2drive,
  title = {Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)},
  author = {Li, Qifeng and Jia, Xiaosong and Wang, Shaobo and Yan, Junchi},
  booktitle = {European Conference on Computer Vision},
  year = {2024},
  eprint = {2402.16720},
  archiveprefix = {arXiv},
  url = {https://link.springer.com/chapter/10.1007/978-3-031-72995-9_9},
  doi = {10.1007/978-3-031-72995-9_9},
}

2023

arXiv

Unified Batch Normalization: Identifying and Alleviating the Feature Condensation in Batch Normalization and a Unified Framework

Shaobo Wang , Xiangdong Zhang , Dongrui Liu , and Junchi Yan

arXiv preprint arXiv:2311.15993, 2023

arXiv Bib PDF

@article{wang2023unified,
  title = {Unified Batch Normalization: Identifying and Alleviating the Feature Condensation in Batch Normalization and a Unified Framework},
  author = {Wang, Shaobo and Zhang, Xiangdong and Liu, Dongrui and Yan, Junchi},
  journal = {arXiv preprint arXiv:2311.15993},
  year = {2023},
  eprint = {2311.15993},
  archiveprefix = {arXiv},
}

2022

arXiv

Trap of Feature Diversity in the Learning of MLPs

Dongrui Liu* , Shaobo Wang* , Jie Ren , Kangrui Wang , Sheng Yin , Huiqi Deng , and Quanshi Zhang

arXiv preprint arXiv:2112.00980, 2022

arXiv Bib PDF

@article{liu2022trap,
  title = {Trap of Feature Diversity in the Learning of MLPs},
  author = {Liu*, Dongrui and Wang*, Shaobo and Ren, Jie and Wang, Kangrui and Yin, Sheng and Deng, Huiqi and Zhang, Quanshi},
  journal = {arXiv preprint arXiv:2112.00980},
  year = {2022},
  eprint = {2112.00980},
  archiveprefix = {arXiv},
}

2021

NeurIPS

Visualizing the Emergence of Intermediate Visual Patterns in DNNs

Mingjie Li , Shaobo Wang , and Quanshi Zhang

In Advances in Neural Information Processing Systems , 2021

Bib PDF Code Link

@inproceedings{li2021visualizing,
  title = {Visualizing the Emergence of Intermediate Visual Patterns in DNNs},
  author = {Li, Mingjie and Wang, Shaobo and Zhang, Quanshi},
  booktitle = {Advances in Neural Information Processing Systems},
  volume = {34},
  pages = {6594--6607},
  year = {2021},
  url = {https://proceedings.neurips.cc/paper/2021/hash/33ebd5b07dc7e407752fe773eed20635-Abstract.html}
}