影响力指数

43.86/100

前 11.7%

全站排名 #7,543

发表论文3 篇

平均评分6.9

年均产出1.0 篇/年

Aleksandar Makelov

Researcher@OpenAI·美国·OpenReview

研究方向

Mechanistic interpretability · Adversarial attacks and defenses

Persona Features Control Emergent Misalignment

ICLR 2026Poster

Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control

ICLR 2025Poster

合作者 (13)

Achyuta Rajaram

Daniel P Mossing

Jeffrey George Wang

Johannes Heidecke