Xiang Yue

Postdoc@Carnegie Mellon University·美国·OpenReview

研究方向

Large Multimodal Models · Vision Language Models · AI Safety · AI Security · Question Answering · Dialogue Systems · Large Language Models · Foundation Models · Evaluations

Xiang Yue

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art

VisCoder2: Building Multi-Language Visualization Coding Agents

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators

Simulating Environments with Large Language Models for Generic Agent Training

Temporal Sampling for Forgotten Reasoning in LLMs

MixEval-X: Any-to-any Evaluations from Real-world Data Mixture

Overtrained Language Models Are Harder to Fine-Tune

Demystifying Long Chain-of-Thought Reasoning

KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

MuPT: A Generative Symbolic Music Pretrained Transformer

Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning

Harnessing Webpage UIs for Text-Rich Visual Understanding

LIME: LESS IS MORE FOR MLLM EVALUATION

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Visual Perception in Text Strings

Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning

Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA

Teach Multimodal LLMs to Comprehend Electrocardiographic Images

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions