影响力指数

26.59/100

前 28.8%

全站排名 #18,526

发表论文4 篇

平均评分5.6

年均产出2.0 篇/年

Alex Beutel

First-Person Fairness in Chatbots

ICLR 2025Spotlight

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

ICLR 2025Rejected

Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning

ICLR 2025Rejected

Rule Based Rewards for Language Model Safety

NeurIPS 2024Poster

合作者 (19)

Johannes Heidecke

Kai Yuanqing Xiao

Ian D Kivlichan