Wenhai Wang

Postdoc@The Chinese University of Hong Kong·中国香港·OpenReview

研究方向

Panoptic Segmentation · Vision-Language Model · Autonomous Driving Perception · Object Detection · Instance Segmentation · Semantic Segmentation · Image Classification · Text Detection and Recognition

Wenhai Wang

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

GenExam: A Multidisciplinary Text-to-Image Exam

ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding

Sequential Diffusion Language Models

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

BridgEAD: A Vision-Language Framework for Action Modeling in End-to-End Autonomous Driving

AnyCap: Omni-Modal Captioning with Instruction Alignment

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost

OPMapper: Enhancing Open-Vocabulary Semantic Segmentation with Multi-Guidance Information

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

CoMemo: LVLMs Need Image Context with Image Memory

CycleVTON: Improving Diffusion-Based Virtual Try-On with Cycle-Consistent Training