Souradip Chakraborty

PhD student@University of Maryland, College Park·美国·OpenReview

研究方向

Uncertainty & Bayesian methods for Foundational Models · Reinforcement Learning from Human Feedback · Large Language Models & Generative Model Alignment · Deep Reinforcement Learning · Bayesian Optimization · Multimodal learning and Image Captioning · Representation Learning · Language Models and Information Retrieval

Souradip Chakraborty

Direct Preference Optimization for Primitive-Enabled Hierarchical RL: A Bilevel Approach

Repair Aware Forgetting: An Iterative Approach to Unlearning in T2I Diffusion Models

Post-training Large Language Models for Diverse High-Quality Responses

TEST-TIME SCALING IN DIFFUSION LLMS VIA HIDDEN SEMI-AUTOREGRESSIVE EXPERTS

Cut the Overcredit: Precision First Process Rewards for Reasoning LLMs

Multi-Level Multi-Turn RL Outperforms GRPO: Reasoning with Textual Feedback

TRAM: Test-time Risk Adaptation with Mixture of Agents

Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models via Distributional Regularization

HEART: Emotionally-driven test-time scaling of Language Models

A Principled Approach to Chain-of-Thought Monitorability in Reasoning Models

SafeThink: A Key to Safety in Multi-Modal Large Reasoning Models

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

On the Global Optimality of Policy Gradient Methods in General Utility Reinforcement Learning

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

SAIL: Self-improving Efficient Online Alignment of Large Language Models

Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction

Aligning Large Language Models With Preference Privacy

LIAR: Leveraging Inverse Alignment to Jailbreak LLMs in Seconds

On the Sample Complexity of a Policy Gradient Algorithm with Occupancy Approximation for General Utility Reinforcement Learning

DIPPER: Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning

AIME: AI System Optimization via Multiple LLM Evaluators