影响力指数

59.8/100

前 4.9%

全站排名 #3,131

发表论文7 篇

平均评分5.9

年均产出3.5 篇/年

Remi Munos

Researcher@Meta·法国·OpenReview

研究方向

RLHF · large language models · deep reinforcement learning · bandit theory · reinforcement learning

Temporal Difference Flows

Beyond Verifiable Rewards: Scaling Reinforcement Learning in Language Models to Unverifiable Data

NeurIPS 2025Poster

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards

NeurIPS 2025Poster

Optimizing Language Models for Inference Time Objectives using Reinforcement Learning

ICML 2025Poster

Local and Adaptive Mirror Descents in Extensive-Form Games

NeurIPS 2024Poster

Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model

NeurIPS 2024Poster

Multi-turn Reinforcement Learning with Preference Human Feedback

NeurIPS 2024Poster

合作者 (20)

Vianney Perchet

Alessandro Lazaric