影响力指数

82.58/100

前 1.2%

全站排名 #745

发表论文17 篇

平均评分5.5

年均产出5.7 篇/年

Aldo Pacchiano

Assistant Professor@Boston University, Boston University·美国·OpenReview

研究方向

Reinforcement Learning · Online Learning · Bandits · Optimization · Fairness

5.6

In-Context Learning for Pure Exploration

ICLR 2026Poster

三作

5.0

Post-training Large Language Models for Diverse High-Quality Responses

ICLR 2026Poster

通讯

4.5

Select the Right Agent: Data-Driven Online Model Selection in Reinforcement Learning

ICLR 2026Rejected

二作

3.5

Learning with Coupled Uncertainty

ICLR 2026Rejected

三作

2.5

Learning to Undo: Transfer Reinforcement Learning under State Space Transformations

ICLR 2026Withdrawn

二作

8.2

Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward

NeurIPS 2025Poster

二作

6.6

ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

ICLR 2025Poster

三作

5.5

Multiple-policy Evaluation via Density Estimation

ICML 2025Poster

二作

5.5

Adaptive Exploration for Multi-Reward Multi-Policy Evaluation

ICML 2025Poster

二作

4.0

Sample Efficient Multiple-policy Evaluation in Reinforcement Learning

合作者 (20)

Aldo Pacchiano

In-Context Learning for Pure Exploration

Post-training Large Language Models for Diverse High-Quality Responses

Select the Right Agent: Data-Driven Online Model Selection in Reinforcement Learning

Learning with Coupled Uncertainty

Learning to Undo: Transfer Reinforcement Learning under State Space Transformations

Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward

Feasible Action Search for Bandit Linear Programs via Thompson Sampling

A Theoretical Framework for Partially-Observed Reward States in RLHF

Second Order Bounds for Contextual Bandits with Function Approximation

High Probability Contextual Bandits for Optimal Dosage Selection

Language Model Personalization via Reward Factorization

ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

Multiple-policy Evaluation via Density Estimation

Adaptive Exploration for Multi-Reward Multi-Policy Evaluation

Sample Efficient Multiple-policy Evaluation in Reinforcement Learning