影响力指数

86.44/100

前 0.8%

全站排名 #530

发表论文38 篇

平均评分5.6

年均产出12.7 篇/年

Di ZHANG

VP@Kuaishou Technology·中国·OpenReview

研究方向

Machine Learning · Recommended System · LLM & MLLM · Image & Video Generation Model

6.5

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

ICLR 2026Poster

6.0

Unified In-Context Video Editing

ICLR 2026Poster

5.5

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

ICLR 2026Poster

5.3

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

ICLR 2026Poster

5.3

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

ICLR 2026Rejected

5.0

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

ICLR 2026Poster

4.5

Towards Subject-Consistent and Text-Aligned Personalized Image Generation via Precise Attribute Learning

ICLR 2026Rejected

4.5

FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

ICLR 2026Poster

4.5

Interpreting Any Condition to Caption for Controllable Video Generation

ICLR 2026Withdrawn

4.5

Physical Dynamics as Next Geometric Graph Prediction

ICLR 2026Rejected

4.5

Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

ICLR 2026Withdrawn

4.5

PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis

ICLR 2026Rejected

通讯

9.1

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

NeurIPS 2025Spotlight

7.8

MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

ICML 2025Spotlight

7.5

Flow-GRPO: Training Flow Matching Models via Online RL

NeurIPS 2025Poster

7.3

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

NeurIPS 2025Poster

6.8

Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models

NeurIPS 2025Poster

6.8

Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization

NeurIPS 2025Poster

6.8

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

ICLR 2025Poster

6.5

Stable Segment Anything Model

ICLR 2025Poster

6.4

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

ICLR 2025Poster

6.4

Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control

ICLR 2025Poster

6.0

TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types

ICLR 2025Poster

通讯

5.9

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

ICLR 2025Poster

通讯

5.5

SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance

ICLR 2025Rejected

5.0

Geometric Spatiotemporal Transformer to Simulate Long-Term Physical Dynamics

ICLR 2025Rejected

4.5

Kinda-45M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content

ICLR 2025Withdrawn

通讯

4.3

Explicit-Constrained Single Agent for Enhanced Task-Solving in LLMs

ICLR 2025Withdrawn

通讯

3.5

DMQR-RAG: Diverse Multi-Query Rewriting in Retrieval-Augmented Generation

ICLR 2025Withdrawn

3.5

Recipes for Unbiased Reward Modeling Learning: An Empirically Study

ICLR 2025Withdrawn

2.0

Generate explorative goals with large language model guidance

ICLR 2025Withdrawn

-1

EVLM: An Efficient Vision-Language Model for Visual Understanding

ICLR 2025Desk Rejected

合作者 (20)

Di ZHANG

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Unified In-Context Video Editing

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

Towards Subject-Consistent and Text-Aligned Personalized Image Generation via Precise Attribute Learning

FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

Interpreting Any Condition to Caption for Controllable Video Generation

Physical Dynamics as Next Geometric Graph Prediction

Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

Flow-GRPO: Training Flow Matching Models via Online RL

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models

Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Stable Segment Anything Model

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

Improving Video Generation with Human Feedback

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Motion Inversion for Video Customization

Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control

TaskGalaxy: Scaling Multi-modal Instruction Fine-tuning with Tens of Thousands Vision Task Types

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance

Geometric Spatiotemporal Transformer to Simulate Long-Term Physical Dynamics

Kinda-45M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content

Explicit-Constrained Single Agent for Enhanced Task-Solving in LLMs

DMQR-RAG: Diverse Multi-Query Rewriting in Retrieval-Augmented Generation

Recipes for Unbiased Reward Modeling Learning: An Empirically Study

Generate explorative goals with large language model guidance

EVLM: An Efficient Vision-Language Model for Visual Understanding