影响力指数

5.41/100

超过 17%

全站排名 #53,444

发表论文3 篇

平均评分4.3

年均产出1.5 篇/年

Mikita Balesni

Researcher@Apollo Research·英国·OpenReview

研究方向

large language models · artificial intelligence safety

The Two-Hop Curse: LLMs trained on A→B, B→C fail to learn A→C

ICLR 2025Rejected

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack

ICLR 2025Rejected

The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

ICLR 2024Poster

合作者 (10)

Asa Cooper Stickland

Maximilian Kaufmann

Christoph Sträter