影响力指数

60.74/100

前 4.7%

全站排名 #2,995

发表论文7 篇

平均评分5.7

年均产出2.3 篇/年

Yuheng Zhang

PhD student@University of Illinois, Urbana Champaign·美国·OpenReview

研究方向

Online Learning and Bandits · Reinforcement Learning · Active Learning

Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse

ICLR 2026Withdrawn

Improving LLM General Preference Alignment via Optimistic Online Mirror Descent

NeurIPS 2025Spotlight

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPs

ICLR 2025Poster

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

合作者 (20)

博士导师5 篇