影响力指数

58.29/100

前 5.2%

全站排名 #3,378

发表论文15 篇

平均评分5.4

年均产出7.5 篇/年

Xianzhi Yu

Researcher@Huawei Technologies Ltd.·中国·OpenReview

研究方向

ai · hpc

5.5

TrimR: Verifier-based Training-Free Thinking Trimming for Efficient Test-Time Scaling

ICLR 2026Poster

5.0

Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling

ICLR 2026Poster

4.4

E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models

ICLR 2026Rejected

通讯

4.0

L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models

NeurIPS 2025Poster

7.3

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

COLM 2025Poster

7.2

FlatQuant: Flatness Matters for LLM Quantization

ICML 2025Poster

7.1

MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE

NeurIPS 2025Spotlight

6.4

AttentionPredictor: Temporal Patterns Matter for KV Cache Compression

NeurIPS 2025Poster

6.0

A Simple Linear Patch Revives Layer-Pruned Large Language Models

NeurIPS 2025Poster

5.7

FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs for Efficient Inference

ICLR 2025Rejected

二作

5.2

FlatQuant: Flatness Matters for LLM Quantization

合作者 (20)

Xianzhi Yu

TrimR: Verifier-based Training-Free Thinking Trimming for Efficient Test-Time Scaling

Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling

E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models

BoundaryDPT: Pushing the Boundaries of Depth Pruning for Vision Transformers

Benchmarking and Advancing Quantization-Aware Training for Reasoning Models

FuseGPT: Prune-and-Fuse Knowledge Redistribution for Efficient Transformers

Analytical Restructuring of Feed-Forward Networks for Accelerated LLM Inference

L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

FlatQuant: Flatness Matters for LLM Quantization

MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE

AttentionPredictor: Temporal Patterns Matter for KV Cache Compression

A Simple Linear Patch Revives Layer-Pruned Large Language Models

FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs for Efficient Inference

FlatQuant: Flatness Matters for LLM Quantization