Kaipeng Zhang

Principal Researcher@Shanda AI Research·中国·OpenReview

研究方向

large language models · multimodal large language models · video&image generation · deep learning · face analysis · few-shot learning · metric learning

Kaipeng Zhang

A High Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

Towards Human-Level Reasoning Benchmarks for Multimodal Language Models

Dialogue as Discovery: Navigating Human Intent Through Principled Inquiry

DD-Ranking: Rethinking the Evaluation of Dataset Distillation

TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

Enhance-A-Video: Better Generated Video for Free

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning

Search-T2I: Internet-Augmented Text-to-Image Generation

From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration

MAIG: Multi-agent system for Academic Illustration Generation based on deep search and reflection

Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping

To Think or Not To Think: A Study of Thinking in Rule-Based Visual Reinforcement Fine-Tuning

Neural-Driven Image Editing

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

REPA Works Until It Doesn’t: Early-Stopped, Holistic Alignment Supercharges Diffusion Training

LLaMA Decoder As Vision Transformer

SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

ZipAR: Parallel Autoregressive Image Generation through Spatial Locality

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

Prioritize Alignment in Dataset Distillation

Improving Autoregressive Image Generation by Mitigating Gradient Bias in Softmax

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

HRVMamba: High-Resolution Visual State Space Model for Dense Prediction

Simple and Fast CNN for Vision

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

MatchMask: Mask-Centric Generative Data Augmentation for Label-Scarce Semantic Segmentation

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models