影响力指数

97.61/100

前 0.1%

全站排名 #70

发表论文39 篇

平均评分5.9

年均产出13.0 篇/年

Aviral Kumar

Assistant Professor@Carnegie Mellon University·美国·OpenReview

研究方向

Deep Reinforcement Learning · Reinforcement Learning and Control · LLM Post Training

floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

ICLR 2026Poster

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

ICLR 2026Poster

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

ICLR 2026Poster

TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks

ICLR 2026Poster

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

ICLR 2026Poster

Teaching LLMs When to Stop Seeking and Start Acting

ICLR 2026Rejected

Learning to Reason on Hard Problems with Privileged On-Policy Exploration

ICLR 2026Rejected

RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks

ICLR 2026Poster

Horizon Reduction Makes RL Scalable

NeurIPS 2025Spotlight

Training Language Models to Self-Correct via Reinforcement Learning

Grounded Reinforcement Learning for Visual Reasoning

NeurIPS 2025Poster

Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Parameters for Reasoning

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

NeurIPS 2025Poster

Compute-Optimal Scaling for Value-Based Deep RL

NeurIPS 2025Poster

Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

ICLR 2025Spotlight

Optimizing Test-Time Compute via Meta Reinforcement Finetuning

ICML 2025Poster

What Do Learning Dynamics Reveal About Generalization in LLM Mathematical Reasoning?

ICML 2025Poster

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

ICLR 2025Poster

RRM: Robust Reward Model Training Mitigates Reward Hacking

ICLR 2025Poster

Reasoning as an Adaptive Defense for Safety

NeurIPS 2025Poster

Thinking vs. Doing: Improving Agent Reasoning by Scaling Test-Time Interaction

NeurIPS 2025Poster

Scaling Test-Time Compute Without Verification or RL is Suboptimal

ICML 2025Spotlight

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

ICLR 2025Poster

Value-Based Deep RL Scales Predictably

ICML 2025Poster

Generative Verifiers: Reward Modeling as Next-Token Prediction

ICLR 2025Poster

Digi-Q: Learning VLM Q-Value Functions for Training Device-Control Agents

ICLR 2025Poster

Vision-Language Models Provide Promptable Representations for Reinforcement Learning

ICLR 2025Withdrawn

Improving the Efficiency of Test-Time Search in LLMs with Backtracking

ICLR 2025Rejected

Parameterization Agnostic RL

ICLR 2025Rejected

Pre-Memorization Train Accuracy Reliably Predicts Generalization in LLM Reasoning

ICLR 2025Rejected

合作者 (20)

博士导师17 篇

Rishabh Agarwal