影响力指数

90.03/100

前 0.6%

全站排名 #371

发表论文22 篇

平均评分5.9

年均产出7.3 篇/年

David Bau

Assistant Professor@Northeastern University·美国·OpenReview

研究方向

deep network interpretability

LLMs Process Lists With General Filter Heads

ICLR 2026Poster

Discovering Forbidden Topics in Language Models

ICLR 2026Rejected

In-Context Algebra

ICLR 2026Poster

Language Models Use Lookbacks to Track Beliefs

ICLR 2026Poster

Eliciting and evaluating generalizable explanations from large reasoning models

ICLR 2026Rejected

In-Context Learning Without Copying

ICLR 2026Rejected

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

LLMs Encode Harmfulness and Refusal Separately

NeurIPS 2025Poster

One-Step is Enough: Sparse Autoencoders for Text-to-Image Diffusion Models

NeurIPS 2025Poster

The Dual-Route Model of Induction

COLM 2025Poster

NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals

ICLR 2025Poster

Erasing Conceptual Knowledge from Language Models

NeurIPS 2025Poster

MIB: A Mechanistic Interpretability Benchmark

ICML 2025Poster

When Are Concepts Erased From Diffusion Models?

NeurIPS 2025Poster

Art-Free Generative Models: Exploring Art Creation Without Prior Artistic Knowledge

ICLR 2025Withdrawn

Erasing Conceptual Knowledge from Language Models

ICLR 2025Rejected

合作者 (20)

Arnab Sen Sharma

Rohit Gandikota

Yonatan Belinkov

Sheridan Feucht