影响力指数

62.7/100

前 4.1%

全站排名 #2,635

发表论文9 篇

平均评分5.9

年均产出3.0 篇/年

Fabien Roger

Researcher@Anthropic·英国·OpenReview

研究方向

AI safety · natural language processing

All Code, No Thought: Language Models Struggle to Reason in Ciphered Language

ICLR 2026Poster

Steering Language Models with Weight Arithmetic

ICLR 2026Poster

Unsupervised Elicitation of Language Models

ICLR 2026Rejected

Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment

ICLR 2026Rejected

Why Do Some Language Models Fake Alignment While Others Don't?

NeurIPS 2025Spotlight

Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models

NeurIPS 2025Poster

Quantifying Elicitation of Latent Capabilities in Language Models

NeurIPS 2025Poster

Do Unlearning Methods Remove Information from Language Model Weights?

ICLR 2025Rejected

合作者 (20)

Alex Troy Mallen

Abhay Sheshadri