影响力指数

52.92/100

前 7.1%

全站排名 #4,598

发表论文4 篇

平均评分6.6

年均产出1.3 篇/年

Xinpeng Wang

PhD student@Ludwig-Maximilians-Universität München·德国·OpenReview

研究方向

deep learning · natural language processing · computer vision

Is it Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

Refusal Direction is Universal Across Safety-Aligned Languages

NeurIPS 2025Poster

Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation

ICLR 2025Poster

合作者 (11)

Hinrich Schuetze