影响力指数

-/100

发表论文1 篇

平均评分3.0

年均产出1.0 篇/年

Joe Needham

Researcher@ML Alignment and Theory Scholars (MATS)·英国·OpenReview

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack

ICLR 2025Rejected

合作者 (4)

Christoph Sträter

Maria Angelica Martinez