清华 - 徐进

我目前是阿里巴巴通义千问语音负责人, 组内代表项目为Qwen2.5-Omni, Qwen2-Audio和Qwen-Audio。我们致力于通用音频理解，音视频理解，实时音视频交互，大规模语音合成，通用音频合成以及围绕音频多模态的Chat模型研究。在此之前，我是清华大学交叉信息研究院的博士生(2018-2023)，研究大模型自动架构搜索，低资源语音合成与识别，自回归语言模型重复问题的优化以及图模型应用等。博士生导师是李建教授。本科毕业于北京邮电大学通信工程专业(2014-2018, 排名1/565)，获北京邮电大学特等奖学金。目前，我在ICLR、ICML、NeurIPS、KDD等国际人工智能顶级会议上发表论文数十篇。

News: 通义千问语音与音视频交互组正在招1.音视频协同理解 2.语音合成/识别 3. 音视频交互工程师 (RTC等交互链路) 校招/社招/实习，欢迎联系我 (jxu3425 dot gmail dot com)。

实习经历

2022.02 - 2022.10 Siri, 苹果公司. 算法研究实习生. 导师: 刘晓江
2019.09 - 2020.10 微软亚洲研究院. 算法研究实习生. 导师: 谭旭, 秦涛
2018.07 - 2019.02 百度,商业智能实验室. 算法研究实习生. 导师: 周景博, 熊辉

获奖

2020 冠军 - KDDCUP AutoGraph 竞赛
2016 铜牌 - 全国大学生数学竞赛(总决赛)
2015 一等奖 - 全国大学生数学竞赛
2015 一等奖 - 全国大学生部分地区物理竞赛

Publications & Preprints (see here for full list)

2025

Qwen2.5-Omni Technical Report
Arxiv Preprint
Qwen Team
[PDF]

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training
Arxiv Preprint
Dingdong Wang*, Jin Xu*, Ruihang Chu, Zhifang Guo, Xiong Wang, Jincenzi Wu, Dongchao Yang, Shengpeng Ji, Junyang Lin
[PDF]

Qwen2.5-vl Technical Report
Arxiv Preprint
Qwen Team
[PDF]

Qwen2.5 Technical Report
Arxiv Preprint
Qwen Team
[PDF]

2024

Qwen2-Audio Technical Report
Arxiv Preprint
Yunfei Chu*, Jin Xu*, Qian Yang*, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou
[PDF]

Qwen2 Technical Report
Arxiv Preprint
An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhihao Fan
[PDF]

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension
ACL 2024
Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou
[PDF]

Understanding In-Context Learning from Repetitions
ICLR
Jianhao Yan, Jin Xu, Chiyu Song, Chenming Wu, Yafu Li, Yue Zhang
[PDF]

2023

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
Arxiv Preprint
Yunfei Chu*, Jin Xu*, Xiaohuan Zhou*, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou
[PDF]

Qwen technical report
Arxiv Preprint
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, Binyuan Hui, Luo Ji, Mei Li, Junyang Lin, Runji Lin, Dayiheng Liu, Gao Liu, Chengqiang Lu, Keming Lu, Jianxin Ma, Rui Men, Xingzhang Ren, Xuancheng Ren, Chuanqi Tan, Sinan Tan, Jianhong Tu, Peng Wang, Shijie Wang, Wei Wang, Shengguang Wu, Benfeng Xu, Jin Xu, An Yang, Hao Yang, Jian Yang, Shusheng Yang, Yang Yao, Bowen Yu, Hongyi Yuan, Zheng Yuan, Jianwei Zhang, Xingxuan Zhang, Yichang Zhang, Zhenru Zhang, Chang Zhou, Jingren Zhou, Xiaohuan Zhou, Tianhang Zhu
[PDF]

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
Arxiv Preprint
Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang
[PDF]

DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding
COLING
Jianhao Yan, Jin Xu, Fandong Meng, Jie Zhou, Yue Zhang
[PDF]

Effective Graph Learning with Adaptive Knowledge Exchange
CIKM
Liang Zeng*, Jin Xu*, Zijun Yao, Yanqiao Zhu, Jian Li
[PDF]

2022

Learning to Break the Loop: Analyzing and Mitigating Repetitions for Neural Text Generation
NeurlPS 2022
Jin Xu, Xiaojiang Liu, Jianhao Yan, Deng Cai, Huayang Li, Jian Li
[PDF]

Analyzing and Mitigating Interference in Neural Architecture Search
ICML, Spotlight
Jin Xu, Xu Tan, Kaitao Song, Renqian Luo, Yichong Leng, Tao Qin, Tie-Yan Liu, Jian Li
[PDF]

AutoHEnsGNN: Winning Solution to AutoGraph Challenge for KDD Cup 2020
ICDE
Jin Xu*, Mingjian Chen*, Jianqiang Huang, Xingyuan Tang, Ke Hu, Jian Li, Jia Cheng, Jun Lei
[PDF]

2021

NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search
KDD
Jin Xu, Xu Tan, Renqian Luo, Kaitao Song, Jian Li, Tao Qin, Tie-Yan Liu
[PDF]

FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition
EMNLP Findings
Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Wenjie Liu, Linquan Liu, Xiang-Yang Li, Tao Qin, Edward Lin, Tie-Yan Liu
[PDF]

FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition
NeurIPS
Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu, Tao Qin, Xiang-Yang Li, Ed Lin, Tie-Yan Liu
[PDF]

Speech-T: Transducer for Text to Speech and Beyond
NeurIPS
Jiawei Chen, Xu Tan, Yichong Leng, Jin Xu, Guihua Wen, Tao Qin, Tie-Yan Liu
[PDF]

MixSpeech: Data Augmentation for Low-resource Automatic Speech Recognition
ICASSP
Linghui Meng, Jin Xu, Xu Tan, Jindong Wang, Tao Qin, Bo Xu
[PDF]

2020

LRSpeech: Extremely low-resource speech synthesis and recognition
KDD
Jin Xu, Xu Tan, Yi Ren, Tao Qin, Jian Li, Sheng Zhao, Tie-Yan Liu
[PDF]

An Adaptive Master-Slave Regularized Model for Unexpected Revenue Prediction Enhanced with Alternative Data
ICDE, Oral
Jin Xu, Jingbo Zhou, Yongpo Jia, Jian Li, Xiong Hui
[PDF]

Multispeech: Multi-speaker text to speech with transformer
InterSpeech
Mingjian Chen, Xu Tan, Yi Ren, Jin Xu, Hao Sun, Sheng Zhao, Tao Qin, Tie-Yan Liu
[PDF]

2019

A collaborative learning framework to tag refinement for points of interest
KDD
Jingbo Zhou, Shan Gou, Renjun Hu, Dongxiang Zhang, Jin Xu, Airong Jiang, Ying Li, Hui Xiong
[PDF]

Jin XU (徐进)