Kunhao Zheng

PhD student@Meta FAIR·法国·OpenReview

研究方向

Code Generation · Reasoning · Large Language Model · Deep Learning Compiler Optimization · Density Functional Theory · Video Understanding · Neural Theorem Proving

7.0

Optimizing Language Models for Inference Time Objectives using Reinforcement Learning

合作者 (19)

Kunhao Zheng

What Makes Large Language Models Reason in (Multi-Turn) Code Generation?

The KoLMogorov Test: Compression by Code Generation

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Improving Diversity in Language Models: When Temperature Fails, Change the Loss

PILAF: Optimal Human Preference Sampling for Reward Modeling

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Optimizing Language Models for Inference Time Objectives using Reinforcement Learning