影响力指数

65.59/100

前 3.5%

全站排名 #2,233

发表论文9 篇

平均评分6.4

年均产出4.5 篇/年

Jing Huang

PhD student@Stanford University·美国·OpenReview

研究方向

interpretability · memorization · generalization

Eliciting Behaviors in Multi-Turn Conversations

ICLR 2026Rejected

GIM: Improved Interpretability for Large Language Models

ICLR 2026Rejected

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

ICML 2025Spotlight

Blackbox Model Provenance via Palimpsestic Membership Inference

NeurIPS 2025Spotlight

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

COLM 2025Poster

Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors

ICML 2025Poster

LLMs Encode Harmfulness and Refusal Separately

NeurIPS 2025Poster

HyperDAS: Towards Automating Mechanistic Interpretability with Hypernetworks

ICLR 2025Poster

MIB: A Mechanistic Interpretability Benchmark

ICML 2025Poster

合作者 (20)

Christopher Potts

博士导师4 篇

博士导师3 篇

Karel D'Oosterlinck