Hengshuang Zhao

Assistant Professor@The University of Hong Kong·中国香港·OpenReview

研究方向

Image/Video/3D Understanding · Classification · Segmentation · Detection · Representation Learning · Multi-model Learning · Unified Architecture Design · Generative Modeling · Visual Content Creation · Generation · Manipulation · Autonomous Driving · Embodied AI · Robot Learning · LLM Applications

Hengshuang Zhao

Anime-Ready: Controllable 3D Anime Character Generation with Body-Aligned Component-Wise Garment Modeling

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

SpatialHand: Generative Object Manipulation from 3D Prespective

Depth Anything with Any Prior

SigLIP-HD by Fine-to-Coarse Supervision

Diffusion Fine-Tuning: Iterative Refinement for Advanced Grounding with Diffusion Large Language Models

Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

Seeing Beyond Points: Adaptive Gaussian Primitives for 3D Perception

Visual Spatial Tuning

From Noisy Traces to Stable Gradients: Bias--Variance Optimized Preference Optimization for Aligning Large Reasoning Models

PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

MVGE: Scale-invariant and Temporal-consistent Monocular Video Geometry Estimation

Bowtie-flow: Efficient High-Resolution Video Generation with Prior Preservation

Orient Anything V2: Unifying Orientation and Rotation Understanding

PlayerOne: Egocentric World Simulator

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

BOOD: Boundary-based Out-Of-Distribution Data Generation

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

Seg-VAR:Image Segmentation with Visual Autoregressive Modeling

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

ROSE: Remove Objects with Side Effects in Videos

HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding

LiteReality: Graphic-Ready 3D Scene Reconstruction from RGB-D Scans

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

VIP: Vision Instructed Pre-training for Robotic Manipulation

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

BOOD: Boundary-based Out-Of-Distribution Data Generation

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Effective LLM Knowledge Learning Requires Rethinking Generalization

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

VIRT: Vision Instructed Transformer for Robotic Manipulation