影响力指数

91.3/100

前 0.5%

全站排名 #311

发表论文32 篇

平均评分5.5

年均产出10.7 篇/年

David Krueger

Assistant Professor@Montreal Institute for Learning Algorithms, University of Montreal, Université de Montréal·加拿大·OpenReview

研究方向

Deep Learning · AI alignment · AI safety · Recurrent Neural Networks

Fresh in memory: Training-order recency is linearly encoded in language model activations

ICLR 2026Poster

Deep-Cover Agents: Long-Horizon Prompt Injections on Production LLM Systems

ICLR 2026Rejected

Measuring Sparse Autoencoder Feature Space Similarities Across Large Language Models

ICLR 2026Withdrawn

Unified Neural Scaling Laws

ICLR 2026Rejected

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Influence Functions for Scalable Data Attribution in Diffusion Models

From Dormant to Deleted: Tamper-Resistant Unlearning Through Weight-Space Regularization

NeurIPS 2025Poster

Distributional Training Data Attribution: What do Influence Functions Sample?

NeurIPS 2025Spotlight

Towards Interpreting Visual Information Processing in Vision-Language Models

ICLR 2025Poster

Detecting High-Stakes Interactions with Activation Probes

NeurIPS 2025Poster

Rethinking Safety in LLM Fine-tuning: An Optimization Perspective

COLM 2025Poster

The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret

ICML 2025Poster

Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models

ICLR 2025Rejected

The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret

ICLR 2025Rejected

Input Space Mode Connectivity in Deep Neural Networks

ICLR 2025Poster

Protecting against simultaneous data poisoning attacks

ICLR 2025Poster

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

ICLR 2025Rejected

Adversarial Robustness of In-Context Learning in Transformers for Linear Regression

ICLR 2025Rejected

PoisonBench: Assessing Language Model Vulnerability to Poisoned Preference Data

ICML 2025Poster

Mitigating Goal Misgeneralization via Minimax Regret

ICLR 2025Rejected

Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders

ICLR 2025Rejected

Towards Meta-Models for Automated Interpretability

ICLR 2025Withdrawn

合作者 (20)

Dmitrii Krasheninnikov

Bruno Kacper Mlodozeniec

Richard E. Turner