影响力指数

91.41/100

前 0.5%

全站排名 #306

发表论文49 篇

平均评分5.0

年均产出16.3 篇/年

Jiaqi Wang

Research Scientist@Shanghai AI Laboratory·中国·OpenReview

研究方向

Large Vision Language Model (LVLM) · Object Detection

Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models

ICLR 2026Poster

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

ICLR 2026Poster

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

ICLR 2026Poster

SIM-CoT: Supervised Implicit Chain-of-Thought

ICLR 2026Poster

DiCache: Let Diffusion Model Determine Its Own Cache

ICLR 2026Poster

Advancing Complex Video Object Segmentation via Progressive Concept Construction

ICLR 2026Poster

Diffusion Fine-Tuning: Iterative Refinement for Advanced Grounding with Diffusion Large Language Models

ICLR 2026Desk Rejected

GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

ICLR 2026Poster

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

ICLR 2026Poster

ScaleCap: Scalable Image Captioning via Dual-Modality Debiasing

ICLR 2026Poster

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

ICLR 2026Rejected

GeometryZero: Advancing LLM Geometry Solving via Group Contrastive Policy Optimization

ICLR 2026Withdrawn

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

ICLR 2026Poster

Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

ICLR 2026Rejected

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

ICLR 2026Withdrawn

Unified Reward Model for Multimodal Understanding and Generation

ICLR 2026Withdrawn

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

ICLR 2026Rejected

$\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models

ICLR 2026Withdrawn

Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

ICLR 2026Withdrawn

Edit-then-Consolidate for Reliable Knowledge Editing

ICLR 2026Rejected

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

ICLR 2026Withdrawn

SPARK: Synergistic Policy And Reward Co-Evolving Framework

ICLR 2026Withdrawn

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

ICLR 2026Withdrawn

Tri-Factor Saliency: A Low-Dimensional Representation for Efficient and Diversity-Aware Video Token Pruning

ICLR 2026Withdrawn

BoostStep: Boosting Mathematical Capability of Large Language Models via Step-aligned In Context Learning

ICLR 2026Rejected

Adaptive Fast-and-Slow Visual Program Reasoning for Long-Form VideoQA

ICLR 2026Withdrawn

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

NeurIPS 2025Poster

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

ICLR 2025Poster

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

NeurIPS 2025Poster

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

ICLR 2025Poster

RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition

ICLR 2025Rejected

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

ICML 2025Poster

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

ICLR 2025Poster

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

ICLR 2025Withdrawn

SAM2Long: Enhancing SAM2 for Long Video Segmentation with a Training-Free Memory Tree

ICLR 2025Withdrawn

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

ICLR 2025Withdrawn

DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models

ICLR 2025Withdrawn

SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation

ICLR 2025Rejected

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

ICLR 2025Withdrawn

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

ICLR 2025Withdrawn

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

ICLR 2025Withdrawn

合作者 (20)

博士导师32 篇