影响力指数

35.2/100

前 18.7%

全站排名 #12,039

发表论文4 篇

平均评分6.2

年均产出2.0 篇/年

Maxwell Lin

Undergrad student@University of California, Berkeley·OpenReview

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

ICLR 2025Poster

Tamper-Resistant Safeguards for Open-Weight LLMs

ICLR 2025Poster

Improving Alignment and Robustness with Circuit Breakers

NeurIPS 2024Poster

Teaching Large Language Models to Self-Debug

ICLR 2024Poster

合作者 (20)

Maksym Andriushchenko

Matt Fredrikson