Tsinghua - Jin Xu

I am currently leading the audio group at Qwen Team, Alibaba, responsible for research on audio understanding, real-time multimodal interaction, speech synthesis, general audio synthesis, and chat models centered on audio. Prior to this, I was a Ph.D. student of Institute for Interdisciplinary Information Sciences (IIIS) at Tsinghua University (Beijing), researching large model automatic architecture search, low-resource speech synthesis and recognition, repetition problems in autoregressive language models, and applications of graph models. My doctoral advisor was Associate Professor Prof. Jian Li. I got BSc degree from Beijing of Posts and Telecommunication University in 2018. During my undergraduate, I ranked first (1/565) and obtained the Special Scholarship (1/1600). Currently, I have published dozens of papers at top international AI conferences such as ICLR, ICML, NeurIPS, and KDD. My representative project is Qwen2.5-Omni, Qwen2-Audio and Qwen-Audio.

News: We are looking for interns or FTEs working for ASR, TTS, multimodality (video with audio) real-time interation. Besides, we are seeking engineers for real-time multimodality interaction (RTC/Websocket). Please send the email to jxu3425 dot gmail dot com

Internship

2022.02 - 2022.10 Siri, Apple. Full-time Research Intern
Supervisor: Xiaojiang Liu
2019.09 - 2020.10 Microsoft Research Asia. Full-time Research Intern
Supervisor: Xu Tan, Tao Qin
2018.07 - 2019.02 Business Intelligence Lab, Baidu. Full-time Research Intern
Supervisor: Jingbo Zhou, Hui Xiong

Award

2020 Rank 1st - KDDCUP AutoGraph Competition
2015 First Prize - Mathematical Contest in Modeling
2015 First Prize - University Students Physics Competition in Parts of the Country

Publications & Preprints (see here for full list)

2025

Qwen2.5-Omni Technical Report
Arxiv Preprint
Qwen Team
[PDF]

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training
Arxiv Preprint
Dingdong Wang*, Jin Xu*, Ruihang Chu, Zhifang Guo, Xiong Wang, Jincenzi Wu, Dongchao Yang, Shengpeng Ji, Junyang Lin
[PDF]

Qwen2.5-vl Technical Report
Arxiv Preprint
Qwen Team
[PDF]

Qwen2.5 Technical Report
Arxiv Preprint
Qwen Team
[PDF]

2024

Qwen2-Audio Technical Report
Arxiv Preprint
Yunfei Chu*, Jin Xu*, Qian Yang*, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
[PDF]

Qwen2 Technical Report
Arxiv Preprint
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
[PDF]

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension
ACL 2024
Qian Yang*, Jin Xu*, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou
[PDF]

Understanding In-Context Learning from Repetitions
ICLR
Jianhao Yan, Jin Xu, Chiyu Song, Chenming Wu, Yafu Li, Yue Zhang
[PDF]

2023

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
Arxiv Preprint
Yunfei Chu*, Jin Xu*, Xiaohuan Zhou*, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou
[PDF]

Qwen technical report
Arxiv Preprint
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
[PDF]

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
Arxiv Preprint
Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang
[PDF]

DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding
COLING
Jianhao Yan, Jin Xu, Fandong Meng, Jie Zhou, Yue Zhang
[PDF]

Effective Graph Learning with Adaptive Knowledge Exchange
CIKM
Liang Zeng*, Jin Xu*, Zijun Yao, Yanqiao Zhu, Jian Li
[PDF]

2022

Learning to Break the Loop: Analyzing and Mitigating Repetitions for Neural Text Generation
NeurlPS 2022
Jin Xu, Xiaojiang Liu, Jianhao Yan, Deng Cai, Huayang Li, Jian Li
[PDF]

Analyzing and Mitigating Interference in Neural Architecture Search
ICML, Spotlight
Jin Xu, Xu Tan, Kaitao Song, Renqian Luo, Yichong Leng, Tao Qin, Tie-Yan Liu, Jian Li
[PDF]

AutoHEnsGNN: Winning Solution to AutoGraph Challenge for KDD Cup 2020
ICDE
Jin Xu*, Mingjian Chen*, Jianqiang Huang, Xingyuan Tang, Ke Hu, Jian Li, Jia Cheng, Jun Lei
[PDF]

2021

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search
KDD
Jin Xu, Xu Tan, Renqian Luo, Kaitao Song, Jian Li, Tao Qin, Tie-Yan Liu
[PDF]

FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition
EMNLP Findings
Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Wenjie Liu, Linquan Liu, Xiang-Yang Li, Tao Qin, Edward Lin, Tie-Yan Liu
[PDF]

FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition
NeurIPS
Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu, Tao Qin, Xiang-Yang Li, Ed Lin, Tie-Yan Liu
[PDF]

Speech-T: Transducer for Text to Speech and Beyond
NeurIPS
Jiawei Chen, Xu Tan, Yichong Leng, Jin Xu, Guihua Wen, Tao Qin, Tie-Yan Liu
[PDF]

MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition
ICASSP
Linghui Meng, Jin Xu, Xu Tan, Jindong Wang, Tao Qin, Bo Xu
[PDF]

2020

LRSpeech: Extremely low-resource speech synthesis and recognition
KDD
Jin Xu, Xu Tan, Yi Ren, Tao Qin, Jian Li, Sheng Zhao, Tie-Yan Liu
[PDF]

An Adaptive Master-Slave Regularized Model for Unexpected Revenue Prediction Enhanced with Alternative Data
ICDE, Oral
Jin Xu, Jingbo Zhou, Yongpo Jia, Jian Li, Xiong Hui
[PDF]

Multispeech: Multi-speaker text to speech with transformer
InterSpeech
Mingjian Chen, Xu Tan, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin, Tie-Yan Liu
[PDF]

2019

A collaborative learning framework to tag refinement for points of interest
KDD
Jingbo Zhou, Shan Gou, Renjun Hu, Dongxiang Zhang, Jin Xu, Airong Jiang, Ying Li, Hui Xiong
[PDF]

Jin XU (徐进)