Dhruv Malik

PhD student@Carnegie Mellon University·OpenReview

研究方向

reinforcement learning · theory · optimization · zero order · derivative-free · non-convex · convex · bandits · policy regret

发表论文（1 篇）

合作者 (4)