Nan Jiang

Associate Professor@University of Illinois at Urbana-Champaign·美国·OpenReview

研究方向

predictive state representation · reinforcement learning · state abstraction · markov decision processes · off-policy evaluation · pac · offline reinforcement learning · batch reinforcement learning

Nan Jiang

A Unifying View of Coverage in Linear Off-policy Evaluation

On the Tension Between Optimality and Adversarial Robustness in Policy Optimization

Multi-Level Regression for Nonlinear Contextual Bandits and RL: Second-order and Horizon-free Regret Bounds

Efficient and Robust Behavior Policy Search for Online Off-policy Evaluation through Transition Gradients

Softmax for Continuous Actions: Optimality, MCMC Sampling, and Actor-Free Control

A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

Improving LLM General Preference Alignment via Optimistic Online Mirror Descent

Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment

Thinking vs. Doing: Improving Agent Reasoning by Scaling Test-Time Interaction

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol

Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol