Paper
Hub
搜索
Toggle language
Joe Needham
~Joe_Needham1
1
论文总数
1.0
年均投稿
3.0
平均评分
接收情况
0
/
1
会议分布
ICLR
1
发表论文 (1 篇)
2025
1 篇
3.0
3
Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack
ICLR 2025
Rejected
合作者 (4)
CS
Christoph Sträter
1 篇
LM
Leo McKee-Reid
1 篇
MM
Maria Angelica Martinez
1 篇
MB
Mikita Balesni
1 篇