影响力指数

90.91/100

前 0.5%

全站排名 #333

发表论文29 篇

平均评分5.6

年均产出9.7 篇/年

Lijuan Wang

Principal Researcher@Microsoft·美国·OpenReview

研究方向

computer vision · vision and language · multi-modal

EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing

ICLR 2026Poster

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models

ICLR 2026Poster

TextAtlas5M: A Large-Scale Dataset for Long and Structured Text Image Generation

ICLR 2026Rejected

InfoAgent: Advancing Autonomous Information‑Seeking Agents

ICLR 2026Rejected

V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models

ICLR 2026Withdrawn

Where do Reasoning Models Make a Difference? Follow the Reasoning Leader for Efficient Decoding

ICLR 2026Withdrawn

MV-Diffus3R: Refining Multi-View Diffusions for Geometric Coherence 3D Reconstruction

ICLR 2026Rejected

Shanks: Simultaneous Hearing and Thinking for Spoken Language Models

ICLR 2026Withdrawn

Computer-Use Agents as Judges for Automatic GUI Design

ICLR 2026Withdrawn

The Agent's Marathon: Probing the Limits of Endurance in Long-Horizon Tasks

ICLR 2026Rejected

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

ICLR 2025Spotlight

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

NeurIPS 2025Poster

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

NeurIPS 2025Spotlight

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

NeurIPS 2025Poster

EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing

ICLR 2025Poster

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

ICLR 2025Poster

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

NeurIPS 2025Poster

GenXD: Generating Any 3D and 4D Scenes

ICLR 2025Poster

CertainlyUncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness

ICLR 2025Poster

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

ICLR 2025Poster

合作者 (20)

Chung-Ching Lin