影响力指数

92.96/100

前 0.4%

全站排名 #250

发表论文34 篇

平均评分5.6

年均产出11.3 篇/年

Jifeng Dai

Associate Professor@Tsinghua University, Tsinghua University·中国·OpenReview

研究方向

network architecture design · deep learning · object detection · semantic segmentation

6.0

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

ICLR 2026Poster

5.5

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

ICLR 2026Poster

5.0

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

ICLR 2026Poster

5.0

VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models

ICLR 2026Poster

4.5

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

NeurIPS 2025Poster

通讯

8.0

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

ICLR 2025Spotlight

7.5

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

ICLR 2025Spotlight

通讯

7.0

MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost

ICML 2025Poster

6.8

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

NeurIPS 2025Poster

6.4

GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing

NeurIPS 2025Poster

6.0

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

ICLR 2025Poster

6.0

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

NeurIPS 2025Poster

5.8

Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuning

ICLR 2025Poster

5.5

CoMemo: LVLMs Need Image Context with Image Memory

ICML 2025Poster

通讯

5.3

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

ICLR 2025Withdrawn

4.8

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

ICLR 2025Withdrawn

4.3

Diffusion Transformer Policy

ICLR 2025Withdrawn

4.0

big.LITTLE Vision Transformer for Efficient Visual Recognition

合作者 (20)

Jifeng Dai

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models

GenExam: A Multidisciplinary Text-to-Image Exam

Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space

Sequential Diffusion Language Models

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

AnyCap: Omni-Modal Captioning with Instruction Alignment

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuning

CoMemo: LVLMs Need Image Context with Image Memory

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Diffusion Transformer Policy

big.LITTLE Vision Transformer for Efficient Visual Recognition