影响力指数

96.69/100

前 0.2%

全站排名 #106

发表论文107 篇

平均评分5.5

年均产出35.7 篇/年

Yu Qiao

Principal Researcher@Shanghai Aritifcal Intelligence Laboratory·中国·OpenReview

研究方向

AI safety · Multimodal Large Models · foundation models · video action recognition and detection · face analysis and modeling

6.8

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

ICLR 2026Oral

6.7

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

ICLR 2026Poster

三作

6.5

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

ICLR 2026Poster

5.3

RRVF: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback

ICLR 2026Rejected

通讯

5.0

Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision

ICLR 2026Rejected

5.0

PICABench: How Far are We from Physical Realistic Image Editing?

ICLR 2026Poster

5.0

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

ICLR 2026Poster

5.0

VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models

ICLR 2026Poster

5.0

GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling

ICLR 2026Rejected

通讯

5.0

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

ICLR 2026Poster

4.5

GenExam: A Multidisciplinary Text-to-Image Exam

ICLR 2026Rejected

4.5

Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale

ICLR 2026Rejected

4.5

RE-Searcher: Robust Agentic Search via Goal-oriented Planning and Self-reflection

ICLR 2026Rejected

通讯

4.4

ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding

ICLR 2026Withdrawn

4.0

LIA-X: Interpretable Latent Portrait Animator

ICLR 2026Withdrawn

4.0

UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

ICLR 2026Rejected

4.0

Benchmarking Visual Knowledge in Multimodal Large Language Models

ICLR 2026Withdrawn

4.0

Lightning Video: Building Compact Diffusion Transformers for High-Fidelity On-Device Video Generation

ICLR 2026Withdrawn

4.0

Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation

ICLR 2026Rejected

4.0

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

ICLR 2026Rejected

4.0

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning

ICLR 2026Withdrawn

4.0

Sequential Diffusion Language Models

ICLR 2026Rejected

3.3

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

ICLR 2026Withdrawn

8.0

REEF: Representation Encoding Fingerprints for Large Language Models

ICLR 2025Oral

8.0

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

ICLR 2025Spotlight

7.8

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

NeurIPS 2025Poster

7.5

DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes

ICLR 2025Spotlight

7.5

OS-ATLAS: Foundation Action Model for Generalist GUI Agents

ICLR 2025Spotlight

通讯

7.5

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

ICLR 2025Spotlight

7.3

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

NeurIPS 2025Poster

7.2

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

ICLR 2025Spotlight

6.8

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

NeurIPS 2025Poster

6.5

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

ICLR 2025Poster

6.4

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

NeurIPS 2025Poster

通讯

6.3

An Intelligent Agentic System for Complex Image Restoration Problems

ICLR 2025Poster

6.3

DocGenome: A Large Benchmark for Multi-Modal Language Models in Real-World Academic Document Understanding

ICLR 2025Rejected

通讯

6.0

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

ICLR 2025Rejected

6.0

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

ICLR 2025Poster

6.0

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

ICLR 2025Poster

6.0

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

NeurIPS 2025Poster

5.8

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

ICLR 2025Poster

5.8

Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuning

ICLR 2025Poster

5.5

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

ICLR 2025Poster

5.3

Derail Yourself: Multi-turn LLM Jailbreak Attack through self-discovered clues

ICLR 2025Withdrawn

5.3

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

ICLR 2025Withdrawn

5.3

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

ICLR 2025Withdrawn

5.3

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

ICLR 2025Rejected

通讯

5.2

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

ICLR 2025Rejected

5.0

VEnhancer: Generative Space-Time Enhancement for Video Generation

ICLR 2025Rejected

4.8

Linear Attention Sequence Parallelism

ICLR 2025Withdrawn

4.5

ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human Gaussians with Animatable Garments

ICLR 2025Withdrawn

4.3

Diffusion Transformer Policy

ICLR 2025Withdrawn

4.3

OASIS: Open Agents Social Interaction Simulations on a Large Scale

ICLR 2025Rejected

4.0

Aligning Anything: Hierarchical Motion Estimation for Video Frame Interpolation

ICLR 2025Withdrawn

4.0

I-Lora: Iterative Merging of Routing-Tuned Low-Rank Adapters for Multi-task Learning

ICLR 2025Withdrawn

4.0

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

ICLR 2025Withdrawn

3.4

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

ICLR 2025Withdrawn

影响力指数

96.69/100

前 0.2%

全站排名 #106

发表论文107 篇

平均评分5.5

年均产出35.7 篇/年

年度接收趋势

共 60 篇接收

ICLR

NeurIPS

教育与工作经历

Principal Researcher

Shanghai Aritifcal Intelligence Laboratory

2020 - Present

Professor

Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

2016 - 2020

Researcher

Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Chinese Academy of Sciences

2010 - 2016

合作者 (20)

合作者 (20)

Yu Qiao

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models

RRVF: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback

Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision

PICABench: How Far are We from Physical Realistic Image Editing?

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

VisualPRM400K: An Effective Dataset for Training Multimodal Process Reward Models

GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

GenExam: A Multidisciplinary Text-to-Image Exam

Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale

RE-Searcher: Robust Agentic Search via Goal-oriented Planning and Self-reflection

ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding

LIA-X: Interpretable Latent Portrait Animator

UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

Benchmarking Visual Knowledge in Multimodal Large Language Models

Lightning Video: Building Compact Diffusion Transformers for High-Fidelity On-Device Video Generation

Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning

Sequential Diffusion Language Models

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

REEF: Representation Encoding Fingerprints for Large Language Models

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes

OS-ATLAS: Foundation Action Model for Generalist GUI Agents

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT

An Intelligent Agentic System for Complex Image Restoration Problems

DocGenome: A Large Benchmark for Multi-Modal Language Models in Real-World Academic Document Understanding

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuning

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Derail Yourself: Multi-turn LLM Jailbreak Attack through self-discovered clues

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

VEnhancer: Generative Space-Time Enhancement for Video Generation

Linear Attention Sequence Parallelism

ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human Gaussians with Animatable Garments

Diffusion Transformer Policy

OASIS: Open Agents Social Interaction Simulations on a Large Scale

Aligning Anything: Hierarchical Motion Estimation for Video Frame Interpolation

I-Lora: Iterative Merging of Routing-Tuned Low-Rank Adapters for Multi-task Learning

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding