影响力指数

95.7/100

前 0.2%

全站排名 #153

发表论文72 篇

平均评分5.3

年均产出24.0 篇/年

Caiming Xiong

Research Scientist@Salesforce Research·美国·OpenReview

研究方向

text summarization · Dialogue learning · self-supervised learning · deep learning for image classification · segmentation · question-answering · memory network · active learning · active clustering · image classification · action recognition

Caiming Xiong

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

Agentic Confidence Calibration

Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

Learning to Reason over Continuous Tokens with Reinforcement Learning

Entropy-Based Block Pruning for Efficient Large Language Models

SWERank: Software Issue Localization with Code Ranking

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

CoAct-1: Computer-using Multi-agent System with Coding Actions

GTA1: GUI Test-time Scaling Agent

Test-Time Adaptation for LLM Agents via Environment Interaction

WALT: Web Agents that Learn Tools

SCUBA: Salesforce Computer Use Benchmark

Scalable Chain of Thoughts via Elastic Reasoning

TrustGen: A Platform of Dynamic Benchmarking on the Trustworthiness of Generative Foundation Models

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

UniDoc-Bench: A Unified Benchmark for Document-Centric Multimodal RAG

SSR: Socratic Self-Refine for Large Language Model Reasoning

UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

Enabling Tool Use of Reasoning Models Without Verifiable Reward via SFT-RL Loop

Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

Fractured Chain-of-Thought Reasoning

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Synthesizing Agentic Data for Web Agent Training with Progressive Difficulty Enhancement

LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

MAS-Zero: Designing Multi-Agent Systems with Zero Supervision

Reasoning Curriculum: Bootstrapping Broad LLM Reasoning from Math

Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows

ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Automatic Curriculum Expert Iteration for Reliable LLM Reasoning

DyMU: Dynamic Merging and Virtual Unmerging for Efficient Variable-Length VLMs

ThinK: Thinner Key Cache by Query-Driven Pruning

SiReRAG: Indexing Similar and Related Information for Multihop Reasoning

GReaTer: Gradients Over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

CodeXEmbed: A Generalist Embedding Model Family for Multilingual and Multi-task Code Retrieval

BingoGuard: LLM Content Moderation Tools with Risk Levels

Bridging the Data Provenance Gap Across Text, Speech, and Video

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

Reward-Guided Speculative Decoding for Efficient LLM Reasoning

BLIP-3-Video: You Only Need 32 Tokens to Represent a Video Even in VLMs

Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

LAM Simulator: Advancing Large Action Model Training for Agent via Online Exploration and Feedback Simulation

FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows"

Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking

GIFT-Eval: A Benchmark for General Time Series Forecasting Model Evaluation

Trust but Verify: Programmatic VLM Evaluation in the Wild

Direct Judgement Preference Optimization

UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting

Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts

MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

Expanding the Web, Smaller Is Better: A Comprehensive Study in Post-training