影响力指数

93.18/100

前 0.4%

全站排名 #243

发表论文40 篇

平均评分5.8

年均产出13.3 篇/年

Renrui Zhang

Researcher@ByteDance Inc.·美国·OpenReview

研究方向

3D Point cloud · MAE Pre-training · Segment Anything Model · Multi-modal Large Language Models

Generative Universal Verifier as Multimodal Meta-Reasoner

Spiking Discrepancy Transformer for Point Cloud Analysis

ICLR 2026Poster

GLEAM: Learning to Match and Explain in Cross-View Geo-Localization

ICLR 2026Withdrawn

MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models

ICLR 2026Poster

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

ICLR 2026Rejected

Exploring the Potential of Encoder-free Architectures in 3D LMMs

ICLR 2026Poster

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

ICLR 2026Withdrawn

Evolvable Safety Benchmarking: Multi-agent Pipeline for LVLMs

ICLR 2026Withdrawn

HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

ICLR 2026Poster

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

ICLR 2026Withdrawn

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

ICLR 2026Withdrawn

UniCTokens-R1: Boosting Unified Personalization via Reinforcement Learning

ICLR 2026Withdrawn

Can World Models Benefit VLMs for World Dynamics?

ICLR 2026Withdrawn

Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

NeurIPS 2025Poster

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

NeurIPS 2025Poster

LLaVA-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

ICLR 2025Spotlight

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

NeurIPS 2025Poster

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning

NeurIPS 2025Poster

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

ICLR 2025Spotlight

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

NeurIPS 2025Poster

What We Miss Matters: Learning from the Overlooked in Point Cloud Transformers

NeurIPS 2025Poster

MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine

ICLR 2025Poster

MMSearch: Unveiling the Potential of Large Models as Multi-modal Search Engines

ICLR 2025Poster

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

NeurIPS 2025Poster

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025Poster

AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation

NeurIPS 2025Poster

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

ICLR 2025Poster

HybridVLA: Collaborative Autoregression and Diffusion in a Unified Vision-Language-Action Model

NeurIPS 2025Rejected

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

ICML 2025Poster

PointACL: Point Cloud Understanding via Attention-Driven Contrastive Learning

ICLR 2025Withdrawn

TerDiT: Ternary Diffusion Models with Transformers

ICLR 2025Withdrawn

合作者 (20)

博士导师16 篇

Shanghang Zhang