影响力指数

77.25/100

前 1.7%

全站排名 #1,070

发表论文19 篇

平均评分5.6

年均产出6.3 篇/年

Himabindu Lakkaraju

Senior Staff Research Scientist@Google·美国·OpenReview

研究方向

Interpetability · Fairness · and Safety in Machine Learning · Causality · Counterfactual Inference

Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability

Can Trustworthiness Generalize? Leveraging Weak Supervision for Stronger Models

ICLR 2026Withdrawn

EvoLM: In Search of Lost Language Model Training Dynamics

NeurIPS 2025Oral

How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence

COLM 2025Poster

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness

Inference-Time Reward Hacking in Large Language Models

NeurIPS 2025Spotlight

Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models

NeurIPS 2025Poster

Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems

ICLR 2025Poster

Quantifying Generalization Complexity for Large Language Models

ICLR 2025Poster

Towards Unifying Interpretability and Control: Evaluation via Intervention

ICLR 2025Rejected

On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models

ICLR 2025Rejected

Weak-to-Strong Trustworthiness: Eliciting Trustworthiness with Weak Supervision

ICLR 2025Rejected

Generalized Group Data Attribution

ICLR 2025Rejected

合作者 (20)

Martin Pawelczyk

Alex Oesterling