影响力指数

-/100

发表论文2 篇

平均评分4.1

年均产出2.0 篇/年

Juan J Vazquez

Researcher@Arb Research·英国·OpenReview

Steering Language Models with Activation Engineering

ICLR 2025Rejected

Evaluating Oversight Robustness with Incentivized Reward Hacking

ICLR 2025Withdrawn

合作者 (9)

Alexander Matt Turner

Monte MacDiarmid

McKenna Fitzgerald