Paper
Hub
搜索
Toggle language
Maxwell Lin
~Maxwell_Lin1
4
论文总数
2.0
年均投稿
6.2
平均评分
接收情况
4
/
4
会议分布
ICLR
3
NeurIPS
1
发表论文 (4 篇)
2025
2 篇
6.8
4
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
ICLR 2025
Poster
5.8
6
Tamper-Resistant Safeguards for Open-Weight LLMs
ICLR 2025
Poster
2024
2 篇
6.0
4
Teaching Large Language Models to Self-Debug
ICLR 2024
Poster
6.4
5
Improving Alignment and Robustness with Circuit Breakers
NeurIPS 2024
Poster
合作者 (20)
AZ
Andy Zou
3 篇
DH
Dan Hendrycks
3 篇
JW
Justin Wang
3 篇
LP
Long Phan
2 篇
DD
Derek Duenas
2 篇
JK
J Zico Kolter
2 篇
MA
Maksym Andriushchenko
2 篇
MF
Matt Fredrikson
2 篇
查看全部 20 位合作者