Shane Bergsma

~Shane_Bergsma1

5

论文总数

2.5

年均投稿

6.3

平均评分

接收情况5/5

会议分布

NeurIPS

4

ICLR

1

发表论文 (5 篇)

20253 篇

Power Lines: Scaling laws for weight decay and batch size in LLM pre-training

NeurIPS 2025Poster

Straight to Zero: Why Linearly Decaying the Learning Rate to Zero Works Best for LLMs

ICLR 2025Poster

Don't be lazy: CompleteP enables compute-efficient deep transformers

NeurIPS 2025Poster

20242 篇

Sparse maximal update parameterization: A holistic approach to sparse training dynamics

NeurIPS 2024Poster

Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers

NeurIPS 2024Poster

合作者 (12)

Joel Hestness5 篇

Nolan Simran Dey4 篇

Gavia Gray3 篇

Daria Soboleva2 篇

Gurpreet Gosal2 篇

Bin Claire Zhang1 篇

Blake Bordelon1 篇

Boris Hanin1 篇