影响力指数

53.53/100

前 6.9%

全站排名 #4,457

发表论文6 篇

平均评分6.2

年均产出2.0 篇/年

Can Rager

Independent@None·德国·OpenReview

研究方向

interpretability · alignment · editing · steering

Priors in time: Missing inductive biases for language model interpretability

ICLR 2026Poster

Discovering Forbidden Topics in Language Models

ICLR 2026Rejected

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals

ICLR 2025Poster

SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability

ICML 2025Poster

合作者 (20)

Jannik Brinkmann

Ekdeep Singh Lubana