Yaodong Yang

~Yaodong_Yang1

38

论文总数

19.0

年均投稿

5.6

平均评分

接收情况23/38

会议分布

ICLR

24

NeurIPS

11

ICML

3

发表论文 (38 篇)

202520 篇

Random Feature Models with Learnable Activation Functions

ICLR 2025Rejected

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization

ICLR 2025Poster

Mixed Hierarchical Oracle and Multi-Agent Benchmark in Two-player Zero-sum Games

ICLR 2025withdrawn

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models

ICLR 2025Poster

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

ICML 2025Poster

Risk-aware Direct Preference Optimization under Nested Risk Measure

ICML 2025Rejected

Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Games

ICLR 2025withdrawn

Risk-aware Direct Preference Optimization under Nested Risk Measure

NeurIPS 2025Poster

Iterative Training of Language Models with Opponent Modeling for Red Teaming Data Generation

ICLR 2025Rejected

SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

NeurIPS 2025Spotlight

In-Context Editing: Learning Knowledge from Self-Induced Distributions

ICLR 2025Poster

Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs

ICLR 2025Poster

Social World Model-Augmented Mechanism Design Policy Learning

NeurIPS 2025Poster

Generative RLHF-V: Learning Principles from Multi-modal Human Preference

NeurIPS 2025Poster

STAR: Efficient Preference-based Reinforcement Learning via Dual Regularization

NeurIPS 2025Poster

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

NeurIPS 2025Spotlight

Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment

ICLR 2025Poster

Falcon: Fast Visuomotor Policies via Partial Denoising

ICML 2025Poster

Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback

NeurIPS 2025Poster

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

NeurIPS 2025Poster

202418 篇

Reason to Behave: Achieving Human-Like Task Execution for Physics-Based Characters

ICLR 2024withdrawn

Boosting Multi-Agent Reinforcement Learning via Transition-Informed Representations

ICLR 2024Rejected

Measuring Value Understanding in Language Models through Discriminator-Critique Gap

ICLR 2024withdrawn

Planning with Theory of Mind for Few-Shot Adaptation in Sequential Social Dilemmas

ICLR 2024Rejected

Open-Ended Learning in General-Sum Games: The Role of Diversity in Correlated Equilibrium

ICLR 2024Rejected

BATTLE: Towards Behavior-oriented Adversarial Attacks against Deep Reinforcement Learning

ICLR 2024Rejected

SafeDreamer: Safe Reinforcement Learning with World Models

ICLR 2024Poster

Scalable Constrained Policy Optimization for Safe Multi-agent Reinforcement Learning

NeurIPS 2024Poster

Masked Pretraining for Multi-Agent Decision Making

ICLR 2024withdrawn

MultiReAct: Multimodal Tools Augmented Reasoning-Acting Traces for Embodied Agent Planning

ICLR 2024Rejected

Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models

ICLR 2024withdrawn

Maximum Entropy Heterogeneous-Agent Reinforcement Learning

ICLR 2024Spotlight

Panacea: Pareto Alignment via Preference Adaptation for LLMs

NeurIPS 2024Poster

Byzantine Robust Cooperative Multi-Agent Reinforcement Learning as a Bayesian Game

ICLR 2024Poster

Safe RLHF: Safe Reinforcement Learning from Human Feedback

ICLR 2024Spotlight

Heterogeneous Value Alignment Evaluation for Large Language Models

ICLR 2024withdrawn

Aligner: Efficient Alignment by Learning to Correct

NeurIPS 2024Oral

CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

ICLR 2024Spotlight

合作者 (20)

Chengdong Ma7 篇

Jiaming Ji7 篇

Fengshuo Bai6 篇

Zhaowei Zhang5 篇

Yifan Zhong5 篇

Song-Chun Zhu5 篇

Xuehai Pan4 篇