publications

publications by categories in reversed chronological order. generated by jekyll-scholar.

2026

Preprint

On the Complexity of Offline Reinforcement Learning with Q^*-Approximation and Partial Coverage

(α-β) Haolin Liu, Braham Snyder, and Chen-Yu Wei

2026

PDF
ICLR

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

(α-β) Haolin Liu, Chen-Yu Wei, and Julian Zimmert

ICLR, 2026

PDF
ICLR

CDE: Curiosity-driven Exploration for Efficient Reinforcement Learning in Large Language Models

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, and 1 more author

ICLR, 2026

PDF

2025

MATH-AI

Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, and Dong Yu

NeurIPS 2025 MATH-AI Workshop, 2025

PDF
MATH-AI

One Token to Fool LLM-as-a-Judge

Yulai Zhao^*, Haolin Liu^*, Dian Yu, S.Y. Kung, Haitao Mi, and Dong Yu

NeurIPS 2025 MATH-AI Workshop, 2025

PDF
Preprint

RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation

Guangzhi Xiong^*, Qiao Jin^*, Xiao Wang, Yin Fang, Haolin Liu, Yifan Yang, Fangyuan Chen, Zhixing Song, Dengyu Wang, Minjia Zhang, and 2 more authors

2025

PDF
COLT

Decision Making in Hybrid Environments: A Model Aggregation Approach

(α-β) Haolin Liu, Chen-Yu Wei, and Julian Zimmert

COLT, 2025

PDF
AAAI

Sample Complexity of Opinion Formation on Networks (Oral)

(α-β) Haolin Liu, Rajmohan Rajaraman, Ravi Sundaram, Anil Vullikanti, Omer Wasim, and Haifeng Xu

AAAI, 2025

PDF

2024

NeurIPS

Beating Adversarial Low-Rank MDPs with Unknown Transition and Bandit Feedback

(α-β) Haolin Liu, Zakaria Mhammedi, Chen-Yu Wei, and Julian Zimmert

NeurIPS, 2024

PDF
NeurIPS

Corruption-Robust Linear Bandits: Minimax Optimality and Gap-Dependent Misspecification

(α-β) Haolin Liu, Artin Tajdini, Andrew Wagenmaker, and Chen-Yu Wei

NeurIPS, 2024

PDF
ICLR

Towards Optimal Regret in Adversarial Linear MDPs with Bandit Feedback (Spotlight)

(α-β) Haolin Liu, Chen-Yu Wei, and Julian Zimmert

ICLR, 2024

PDF

2023

NeurIPS

Bypassing the simulator: Near-optimal adversarial linear contextual bandits

(α-β) Haolin Liu, Chen-Yu Wei, and Julian Zimmert

NeurIPS, 2023

PDF
AAMAS/ECAI

Diffusion multi-unit auctions with diminishing marginal utility buyers

Haolin Liu^*, Xinyuan Lian^*, and Dengji Zhao

AAMAS (also in ECAI), 2023

PDF