影响力指数

85.56/100

前 0.9%

全站排名 #570

发表论文31 篇

平均评分5.4

年均产出10.3 篇/年

Zhengyuan Yang

Researcher@Microsoft·美国·OpenReview

研究方向

Vision Language

OR-PRM: A Process Reward Model for Algorithmic Problem in Operations Research

ICLR 2026Poster

EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing

ICLR 2026Poster

3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis

ICLR 2026Rejected

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

ICLR 2026Poster

TextAtlas5M: A Large-Scale Dataset for Long and Structured Text Image Generation

ICLR 2026Rejected

InfoAgent: Advancing Autonomous Information‑Seeking Agents

ICLR 2026Rejected

V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models

ICLR 2026Withdrawn

Where do Reasoning Models Make a Difference? Follow the Reasoning Leader for Efficient Decoding

ICLR 2026Withdrawn

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation

ICLR 2026Rejected

MV-Diffus3R: Refining Multi-View Diffusions for Geometric Coherence 3D Reconstruction

ICLR 2026Rejected

Shanks: Simultaneous Hearing and Thinking for Spoken Language Models

ICLR 2026Withdrawn

Computer-Use Agents as Judges for Automatic GUI Design

ICLR 2026Withdrawn

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

ICLR 2025Spotlight

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

NeurIPS 2025Poster

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

NeurIPS 2025Poster

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

NeurIPS 2025Spotlight

EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing

ICLR 2025Poster

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

ICLR 2025Poster

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

NeurIPS 2025Poster

Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation

NeurIPS 2025Poster

GenXD: Generating Any 3D and 4D Scenes

ICLR 2025Poster

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

ICLR 2025Poster

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ICML 2025Poster

OmniContrast: Vision-Language-Interleaved Contrast from Pixels All at once

ICLR 2025Rejected

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

ICLR 2025Withdrawn

合作者 (20)

Chung-Ching Lin

Alex Jinpeng Wang