Xiangtai Li

Researcher@ByteDance Inc.·新加坡·OpenReview

研究方向

Generative AI · Point Cloud Analysis · Vision and Language · Video Analysis/Video Segmentation/Detection/Tracking · Vision Transformer · Semantic/Instance/Panoptic Segmentation

Xiangtai Li

EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking

So-Fake: Benchmarking Social Media Image Forgery Detection

D$^2$GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction

Beyond Text-to-Image: Liberating Generation with a Unified Discrete Diffusion Model

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Method

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

Reasoning to Edit: Hypothetical Instruction-Based Image Editing with Visual Reasoning

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Towards Explainable Bilingual Multimodal Misinformation Detection and Localization

PairUni: Pairwise Training for Unified Multimodal Language Models

Visual Spatial Tuning

CyberV: A Cybernetic Framework for Enhancing Logical Reasoning in Video Understanding

UMC: A Unified Approach for Resilient Control of Legged Robots Across Masked Malfunction Training

DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation

On Path to Multimodal Generalist: General-Level and General-Bench

MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation

RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

OmniAudio: Generating Spatial Audio from 360-Degree Video

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Three-Dimensional Trajectory Prediction with 3DMoTraj Dataset

PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners

RelationBooth: Towards Relation-Aware Customized Object Generation

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control