影响力指数

43.76/100

前 11.8%

全站排名 #7,582

发表论文8 篇

平均评分5.2

年均产出2.7 篇/年

Bei Li

Researcher@Meituan·中国·OpenReview

研究方向

DPO/PPO algorithms · Large Language Models · Architecture Improvement · Machine Translation · Sequence Generation · Deep Transformer models

Libra: Assessing and Improving Reward Model by Learning to Think

ICLR 2026Rejected

FuseNorm: Achieving the Best of Both Worlds from PreNorm and PostNorm

ICLR 2026Rejected

MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization

NeurIPS 2025Poster

Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective

ICLR 2025Poster

GRAM: A Generative Foundation Reward Model for Reward Generalization

ICML 2025Poster

InteractiveCOT: Aligning Dynamic Chain-of-Thought Planning for Embodied Decision-Making

ICLR 2025Rejected

合作者 (20)

博士导师4 篇

Chunliang Zhang