影响力指数

61.2/100

前 4.5%

全站排名 #2,913

发表论文8 篇

平均评分6.4

年均产出4.0 篇/年

Xiangyu Qi

Member of Technical Staff@OpenAI·美国·OpenReview

研究方向

Adversarial Machine Learning · AI Safety · AI Alignment · Large Language Models

Safety Alignment Should be Made More Than Just a Few Tokens Deep

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

ICLR 2025Poster

On Evaluating the Durability of Safeguards for Open-Weight LLMs

ICLR 2025Poster

Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak Attacks

ICLR 2025Withdrawn

Lottery Ticket Adaptation: Mitigating Destructive Interference in LLMs

ICLR 2025Withdrawn

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

BaDExpert: Extracting Backdoor Functionality for Accurate Backdoor Input Detection

ICLR 2024Poster

BackdoorAlign: Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment

NeurIPS 2024Poster

合作者 (20)

博士导师6 篇

Peter Henderson

博士导师4 篇