Paper
Hub
搜索
Toggle language
Johannes Ackermann
~Johannes_Ackermann1
1
论文总数
1.0
年均投稿
6.8
平均评分
接收情况
1
/
1
会议分布
COLM
1
发表论文 (1 篇)
2025
1 篇
6.8
4
Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback
COLM 2025
Poster
合作者 (2)
MS
Masashi Sugiyama
1 篇
TI
Takashi Ishida
1 篇