Paper
Hub
搜索
Toggle language
Luna Mendez
~Luna_Mendez1
1
论文总数
1.0
年均投稿
3.0
平均评分
接收情况
0
/
1
会议分布
ICLR
1
发表论文 (1 篇)
2024
1 篇
3.0
3
Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders
ICLR 2024
withdrawn
合作者 (5)
AA
Amir Abdullah
1 篇
FB
Fazl Barez
1 篇
LM
Luke Marks
1 篇
PT
Philip Torr
1 篇
RA
Rauno Arike
1 篇