影响力指数

16.42/100

超过 49.5%

全站排名 #32,505

发表论文5 篇

平均评分4.7

年均产出1.7 篇/年

Stephen Casper

Graduate Student@Massachusetts Institute of Technology·美国·OpenReview

研究方向

AI Governance · AI Policy · Machine Unlearning · Sociotechnical AI Safety · AI Safety · Red-Teaming

Obfuscated Activations Bypass LLM Latent-Space Defenses

ICLR 2026Poster

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

ICLR 2026Poster

TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering

ICLR 2026Rejected

Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs

ICLR 2025Rejected

合作者 (20)

Abhay Sheshadri

Dylan Hadfield-Menell

博士导师2 篇

Punya Syon Pandey

Samanvay Vajpayee