影响力指数

41.04/100

前 13.7%

全站排名 #8,833

发表论文5 篇

平均评分6.1

年均产出2.5 篇/年

Lilian Weng

Research Scientist@OpenAI·OpenReview

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

First-Person Fairness in Chatbots

ICLR 2025Spotlight

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

ICLR 2025Rejected

Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning

ICLR 2025Rejected

Rule Based Rewards for Language Model Safety

NeurIPS 2024Poster

合作者 (20)

Johannes Heidecke

Kai Yuanqing Xiao

Aleksander Madry