影响力指数

74.59/100

前 1.9%

全站排名 #1,254

发表论文19 篇

平均评分5.6

年均产出6.3 篇/年

Yi Wu

Assistant Professor@Tsinghua University·中国·OpenReview

研究方向

machine learning system · multi-agent learning · reinforcement learning · human-ai interaction

6.0

AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

NeurIPS 2025Poster

通讯

6.8

Reasoning Is Not a Race: When Stopping Early Beats Going Deeper

NeurIPS 2025Poster

通讯

6.8

What Can RL Bring to VLA Generalization? An Empirical Study

NeurIPS 2025Poster

6.0

Few-shot In-context Preference Learning using Large Language Models

ICLR 2025Rejected

6.0

Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps

NeurIPS 2025Rejected

6.0

How Far Are We from Optimal Reasoning Efficiency?

NeurIPS 2025Poster

通讯

5.2

On Designing Effective RL Reward at Training Time for LLM Reasoning

ICLR 2025Rejected

通讯

4.8

FlightBench: Benchmarking Learning-based Methods for Ego-vision-based Quadrotors Navigation

ICLR 2025Withdrawn

3.8

Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization

合作者 (20)

Yi Wu

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Unlocking Long-Horizon Agentic Search with Large-Scale End-to-End RL

Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps

Extending Test-Time Scaling: A 3D Perspective with Context, Batch, and Turn

VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments

AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Reasoning Is Not a Race: When Stopping Early Beats Going Deeper

What Can RL Bring to VLA Generalization? An Empirical Study

Few-shot In-context Preference Learning using Large Language Models

Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps

How Far Are We from Optimal Reasoning Efficiency?

On Designing Effective RL Reward at Training Time for LLM Reasoning

FlightBench: Benchmarking Learning-based Methods for Ego-vision-based Quadrotors Navigation

Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization