影响力指数

39.63/100

前 14.7%

全站排名 #9,452

发表论文5 篇

平均评分5.2

年均产出2.5 篇/年

Hanyang Zhao

PhD student@Columbia University·美国·OpenReview

研究方向

Reinforcement Learning from Human Feedback · Diffusion Generative Models · Reinforcement Learning

DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning

ICLR 2026Rejected

Understanding Sampler Stochasticity in Training Diffusion Models for RLHF

ICLR 2026Rejected

MallowsPO: Fine-Tune Your LLM with Preference Dispersions

ICLR 2025Poster

Score as Action: Fine Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning

ICML 2025Poster

RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization

ICLR 2025Poster

合作者 (12)

博士导师5 篇

博士导师5 篇