影响力指数

23.67/100

前 33.7%

全站排名 #21,686

发表论文3 篇

平均评分5.4

年均产出1.5 篇/年

Shivam Singhal

Researcher@Meta·美国·OpenReview

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

ICLR 2025Spotlight

Reliability-Aware Preference Learning for LLM Reward Models

ICLR 2025Withdrawn

Preventing Reward Hacking with Occupancy Measure Regularization

ICLR 2024Rejected

合作者 (2)

Cassidy Laidlaw