Min Lin

Principal Researcher@Sea AI Lab·新加坡·OpenReview

研究方向

XLA Compiler · Quantum Chemistry · Information Theory · Bayesian Deep Learning · Generative Models · Continual Learning · Deep Learning Systems · Dynamical Systems · GAN · Convolutional Neural Networks

Min Lin

Variational Reasoning for Language Models

Revisiting Parameter Server in LLM Post-Training

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

GEM: A Gym for Generalist LLMs

Reinforcing Query-Level Meta-Agents

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Flow-Distorted Plane Waves

Nonparametric Data Attribution for Diffusion Models

Sample-Efficient Alignment for LLMs

Reinforcing General Reasoning Without Verifiers

Understanding R1-Zero-Like Training: A Critical Perspective

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

When Attention Sink Emerges in Language Models: An Empirical View

RegMix: Data Mixture as Regression for Language Model Pre-training

Continual Reinforcement Learning by Planning with Online World Models

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

Scaling up Masked Diffusion Models on Text

Lifelong Safety Alignment for Language Models

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

PipeOffload: Improving Scalability of Pipeline Parallelism with Memory Optimization

LLM-based Multi-Agents System Attack via Continuous Optimization with Discrete Efficient Search

A Closer Look at Machine Unlearning for Large Language Models

Bootstrapping Language Models with DPO Implicit Rewards

Sample-Efficient Alignment for LLMs

SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction

Sample Efficient Alignment for LLMs

Test-Time Backdoor Attacks on Multimodal Large Language Models

Denial-of-Service Poisoning Attacks against Large Language Models

Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts