影响力指数

96.86/100

前 0.2%

全站排名 #102

发表论文53 篇

平均评分5.3

年均产出17.7 篇/年

Yang Yu

Professor@Nanjing University·中国·OpenReview

研究方向

reinforcement learning · derivative-free optimization · ensemble learning

A Study on PAVE Specification for Learnware

ICLR 2026Poster

ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation

ICLR 2026Poster

Hierarchical Value-Decomposed Offline Reinforcement Learning for Whole-Body Control

ICLR 2026Poster

Off-Policy Token Clipped Supervised Fine-Tuning Yields a Robust Cold-Start

ICLR 2026Rejected

On the Representation Degradation in Vision-Language-Action Models

ICLR 2026Rejected

EMFuse: Energy-based Model Fusion for Decision Making

ICLR 2026Poster

MiniOpt: Reasoning to Model and Solve General Optimization Problems with Limited Resources

ICLR 2026Withdrawn

MOBA: Model-Based Offline Reinforcement Learning with Adaptive Contextual Penalties

ICLR 2026Rejected

Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning

ICLR 2026Rejected

Planning with Unified Multimodal Models

ICLR 2026Rejected

Proactive Cost Generation for Offline Safe Reinforcement Learning Without Unsafe Data

ICLR 2026Withdrawn

Learning Disentangled Multi-Agent World Model for Decentralized Control

ICLR 2026Withdrawn

ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation

ICLR 2026Withdrawn

ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts

ICLR 2026Withdrawn

Long CoT In-Context Learning Can Empower Pre-trained LLMs

ICLR 2026Rejected

Focus-Then-Reuse: Fast Adaptation in Visual Perturbation Environments

NeurIPS 2025Poster

Adaptable Safe Policy Learning from Multi-task Data with Constraint Prioritized Decision Transformer

NeurIPS 2025Poster

LLM-Assisted Semantically Diverse Teammate Generation for Efficient Multi-agent Coordination

ICML 2025Poster

Efficient Multi-agent Offline Coordination via Diffusion-based Trajectory Stitching

ICLR 2025Poster

Uncertainty-Sensitive Privileged Learning

NeurIPS 2025Poster

On the Optimization Landscape of Low Rank Adaptation Methods for Large Language Models

ICLR 2025Poster

Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning

ICML 2025Poster

Semantic Temporal Abstraction via Vision-Language Model Guidance for Efficient Reinforcement Learning

ICLR 2025Poster

Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation

ICLR 2025Poster

Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning

ICLR 2025Poster

SOO-Bench: Benchmarks for Evaluating the Stability of Offline Black-Box Optimization

ICLR 2025Poster

Safe Multi-task Pretraining with Constraint Prioritized Decision Transformer

ICLR 2025Rejected

Improving Reward Model Generalization from Adversarial Process Enhanced Preferences

ICML 2025Poster

LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch

ICLR 2025Poster

Controlling Large Language Model with Latent Action

ICML 2025Poster

Multi-Agent Imitation by Learning and Sampling from Factorized Soft Q-Function

NeurIPS 2025Poster

Learning to Reuse Policies in State Evolvable Environments

ICML 2025Poster

Learning View-invariant World Models for Visual Robotic Manipulation

ICLR 2025Poster

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

ICLR 2025Rejected

Haland: Human-AI Coordination via Policy Generation from Language-guided Diffusion

ICLR 2025Rejected

Boosting Offline Multi-Objective Reinforcement Learning via Preference Conditioned Diffusion Models

ICLR 2025Withdrawn

Learning Generalizable Environment Models via Discovering Superposed Causal Relationships

ICLR 2025Rejected

Diffusion-Guided Safe Policy Optimization From Cost-Label-Free Offline Dataset

ICLR 2025Withdrawn

Whale-X: Learning Scalable Embodied World Models with Enhanced Generalizability

ICLR 2025Withdrawn

合作者 (20)

Zongzhang Zhang