影响力指数

23.72/100

前 33.5%

全站排名 #21,592

发表论文4 篇

平均评分5.1

年均产出2.0 篇/年

Lihong Li

AI Research Scientist@Facebook·美国·OpenReview

研究方向

large language models · conversational systems · contextual bandit · reinforcement learning

SFT Doesn’t Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

ICLR 2026Poster

Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse

ICLR 2026Withdrawn

Ask a Strong LLM Judge when Your Reward Model is Uncertain

NeurIPS 2025Poster

Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only

COLM 2025Poster

合作者 (20)