影响力指数

36.87/100

前 16.9%

全站排名 #10,912

发表论文4 篇

平均评分5.5

年均产出2.0 篇/年

Aaron Jiaxun Li

PhD student@University of California, Berkeley·美国·OpenReview

研究方向

Large Language Models · Interpretability · Trustworthy Machine Learning

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness

Improving Prototypical Part Networks with Reward Reweighing, Reselection, and Retraining

ICLR 2024Rejected

Certifying LLM Safety against Adversarial Prompting

COLM 2024Poster

Certifying LLM Safety against Adversarial Prompting

ICLR 2024Rejected

合作者 (8)

Himabindu Lakkaraju

Satyapriya Krishna