ML Reading List

Curated list of papers I have bookmarked to read/have read, accompanied by a description on why I think it is worth reading. You can click on the tags to filter for only papers in that category.

1. Reducing Activation Recomputation in Large Transformer Models

Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro

Derivation on amount of memory used to store activations in Transformers

Model Training

2022-05-10
2. Mixed Precision Training

Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg et al.

Mixed precision training

Mixed Precision

2017-10-10
3. Deep Learning is Not So Mysterious or Different

Andrew Gordon Wilson

Soft inductive biases

Generalization

2025-03-03
4. An Empirical Model of Large-Batch Training

Sam McCandlish, Jared Kaplan, Dario Amodei, OpenAI Dota Team

Determining batch size

Batch Size

2018-12-14
5. MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu et al.

Lightning attention, and discussion of batch size (section 4.2)

Batch Size

2025-01-14
6. To understand deep learning we need to understand kernel learning

Mikhail Belkin, Siyuan Ma, Soumik Mandal

Oveparameterized kernel methods can fit random labels, and also generalize well when fit on real data

Generalization Kernel Methods Overparameterization

2018-02-05
7. Empirical Analysis of the Hessian of Over-Parametrized Neural Networks

Levent Sagun, Utku Evci, V. Ugur Guney, Yann Dauphin, Leon Bottou

Good generalization from overparameterization

Hessian Overparameterization

2017-06-14
8. On the saddle point problem for non-convex optimization

Razvan Pascanu, Yann N. Dauphin, Surya Ganguli, Yoshua Bengio

Loss surface & saddle points

Loss Surface Optimization

2014-05-19
9. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

Yann Dauphin, Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Surya Ganguli, Yoshua Bengio

Shows there are high number of saddle points in NN optimization

Loss Surface Optimization

2014-06-10
10. Transformers are Efficient Compilers, Provably

Xiyu Zhai, Runlong Zhou, Liao Zhang, Simon Shaolei Du

2024-10-07
11. Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel

Colin Wei, Jason D. Lee, Qiang Liu, Tengyu Ma

NTK RKHS

2018-10-12
12. Gradient Descent Finds Global Minima of Deep Neural Networks

Simon S. Du, Jason D. Lee, Haochuan Li, Liwei Wang, Xiyu Zhai

Shows GD converges to global minimizer with 0 train loss for width m depth L resnet ReLU activations where m=O(n^4 L^2)

Convergence Gradient Descent Optimization

2018-11-09
13. SGD Learns the Conjugate Kernel Class of the Network

Amit Daniely

Function classes learnable via SGD

Deep Learning Theory Expressivity SGD

2017-02-27
14. The Emergence of Spectral Universality in Deep Networks

Jeffrey Pennington, Samuel S. Schoenholz, Surya Ganguli

Studied MLP's Jacobian singular value distribution in the limit of large width

Random Matrix Theory Singular Value Distribution

2018-02-27
15. Free Probability Theory

Roland Speicher

Reference for free probability

Free Probability

2009-10-31
16. Haar Measures

Stephan Tornier

Used in RMT

Free Probability Random Matrix Theory

2020-06-19
17. Scaling Limits of Wide Neural Networks with Weight Sharing: Gaussian Process Behavior, Gradient Independence, and Neural Tangent Kernel Derivation

Greg Yang

NTK

NTK

2019-02-13
18. The Recurrent Neural Tangent Kernel

Sina Alemohammad, Zichao Wang, Randall Balestriero, Richard Baraniuk

NTK for RNNs

NTK

2020-06-18
19. Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Difan Zou, Yuan Cao, Dongruo Zhou, Quanquan Gu

Wide NNs behave as linear models

Overparameterization

2018-11-21
20. The Nonlinearity Coefficient - Predicting Generalization in Deep Neural Networks

George Philipp, Jaime G. Carbonell

Signal progation in NN with random weights

Generalization Signal Propagation

2018-06-01
21. Which Neural Net Architectures Give Rise To Exploding and Vanishing Gradients?

Boris Hanin

Signal progation in NN with random weights

Signal Propagation

2018-01-11
22. Gaussian Process Behaviour in Wide Deep Neural Networks

Alexander G. de G. Matthews, Mark Rowland, Jiri Hron, Richard E. Turner, Zoubin Ghahramani

GP behavior of wide nets

Gaussian Process NN Scaling

2018-04-30
23. Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice

Jeffrey Pennington, Samuel S. Schoenholz, Surya Ganguli

Shows that if Jacobian singular value distribution of a wide NN concentrates around 1 even when network gets deper, error signal largely preserved and all layers get signal to improve

Dynamical Isometry Random Matrix Theory

2017-11-13
24. Dynamical Isometry is Achieved in Residual Networks in a Universal Way for any Activation Function

Wojciech Tarnowski, Piotr Warchoł, Stanisław Jastrzębski, Jacek Tabor, Maciej A. Nowak

Random matrix theory applied to DL

Random Matrix Theory

2018-09-24
25. Spectrum concentration in deep residual learning: a free probability approach

Zenan Ling, Xing He, Robert C. Qiu

Random matrix theory applied to DL

Random Matrix Theory

2018-07-31
26. Tensor Programs II: Neural Tangent Kernel for Any Architecture

Greg Yang

Provides a good overview of NTK. Some nice discussions on Gradient Independence Assumption (GIA). Extends TP I language to RNNs

NTK Tensor Programs

2020-06-25
27. Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes

Greg Yang

Framework for analyzing modern NN architectures. Pretty notation heavy though.

Tensor Programs

2019-10-28
28. Analysis of Boolean Functions

Ryan O'Donnell

Contains results on Hermite polynomials that can be useful for DL

2021-05-21
29. A Mean Field Theory of Batch Normalization

Greg Yang, Jeffrey Pennington, Vinay Rao, Jascha Sohl-Dickstein, Samuel S. Schoenholz

Batchnorm Mean Field Theory Regularization

2019-02-21
30. The dynamics of message passing on dense graphs, with applications to compressed sensing

Mohsen Bayati, Andrea Montanari

Introduces a useful Gaussian conditioning technique

Approximate Message Passing Compressed Sensing

2010-01-20
31. Layer Normalization

Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton

Introduced layer norm

Normalization

2016-07-21
32. Toward Deeper Understanding of Neural Networks: The Power of Initialization and a Dual View on Expressivity

Amit Daniely, Roy Frostig, Yoram Singer

2016-02-18
33. Message Passing Algorithms for Compressed Sensing

David L. Donoho, Arian Maleki, Andrea Montanari

Approximate message passing

Compressed Sensing Message Passing

2009-07-21
34. Path Integral Approach to Random Neural Networks

A. Crisanti, H. Sompolinsky

Random classic spiking networks

2018-09-17
35. Universal Statistics of Fisher Information in Deep Neural Networks: Mean Field Approach

Ryo Karakida, Shotaro Akaho, Shun-ichi Amari

Spectral properties of the empirical Fisher information matrix of random NNs

Fisher Information Natural Gradient

2018-06-04
36. Fisher Information and Natural Gradient Learning of Random Deep Networks

Shun-ichi Amari, Ryo Karakida, Masafumi Oizumi

Spectral properties of the empirical Fisher information matrix of random NNs

Fisher Information Natural Gradient

2018-08-22
37. Mean Field Residual Networks: On the Edge of Chaos

Greg Yang, Samuel S. Schoenholz

Edge of chaos MFT

Mean Field Theory

2017-12-24
38. Deep Information Propagation

Samuel S. Schoenholz, Justin Gilmer, Surya Ganguli, Jascha Sohl-Dickstein

Mean field theory for backprop

Mean Field Theory

2016-11-04
39. Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks

Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein, Samuel S. Schoenholz, Jeffrey Pennington

Training 10k layer CNN w/o batcnorm or skip connections

Initialization

2018-06-14
40. The boundary of neural network trainability is fractal

Jascha Sohl-Dickstein

Boundary between trainable and untrainable NN hyperparameters is fractal, nice visualizations

Art Trainability Boundaries

2024-02-09
41. Exponential expressivity in deep neural networks through transient chaos

Ben Poole, Subhaneil Lahiri, Maithra Raghu, Jascha Sohl-Dickstein, Surya Ganguli

Signal propagation in NNs, NN expressivitiy

Signal Propagation

2016-06-16
42. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

He initialization

Initialization

2015-02-06
43. Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes

Roman Novak, Lechao Xiao, Jaehoon Lee, Yasaman Bahri, Greg Yang, Jiri Hron, Daniel A. Abolafia et al.

Showed equivalence betw infinitely wide CNNs to GPs

Gaussian Process NN Scaling

2018-10-11
44. Deep Neural Networks as Gaussian Processes

Jaehoon Lee, Yasaman Bahri, Roman Novak, Samuel S. Schoenholz, Jeffrey Pennington, Jascha Sohl-Dickstein

Scaling limit for infinite width MLPs

Gaussian Process NN Scaling

2017-11-01
45. Steps Toward Deep Kernel Methods from Infinite Neural Networks

Tamir Hazan, Tommi Jaakkola

GP behavior on wide NNs under other conditions

Gaussian Process NN Scaling

2015-08-20
46. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Sergey Ioffe, Christian Szegedy

Batchnorm paper

Normalization

2015-02-11
47. DeepSeek-V3 Technical Report

DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu et al.

First open model to beat SOTA closed models

DeepSeek Efficient Architectures LLM Training Load Balancing MoE Multi-token Prediction

2024-12-27
48. Feature Learning in Infinite-Width Neural Networks

Greg Yang, Edward J. Hu

Shows that NN parameterizations using Standard/Mean Field/NTK either has feature learning or infinite-width training dynamics given by kernel gradient descent

MUP Mean Field NTK Overparameterization

2020-11-30
49. DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

Huajian Xin, Daya Guo, Zhihong Shao, Zhizhou Ren, Qihao Zhu, Bo Liu, Chong Ruan et al.

Uses autoformalization to create training data

Autoformalization Deepseek Theorem Proving

2024-05-23
50. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu, Chenggang Zhao et al.

Introduces Multi-head Latent Attention (MLA)

Deepseek Efficient Architectures MLA

2024-05-07
51. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang et al.

Introduced Group Relative Policy Optimization (GRPO)

Deepseek GRPO Reasoning

2024-02-05
52. Deep learning versus kernel learning: an empirical study of loss landscape geometry and the time evolution of the Neural Tangent Kernel

Stanislav Fort, Gintare Karolina Dziugaite, Mansheej Paul, Sepideh Kharaghani, Daniel M. Roy, Surya Ganguli

Benefits of feature learning

Feature Learning NTK

2020-10-28
53. On Lazy Training in Differentiable Programming

Lenaic Chizat, Edouard Oyallon, Francis Bach

Shows feature learning is usually beneficial in practical large-scale DL settings

Feature Learning Overparamerization

2018-12-19
54. Meta-Principled Family of Hyperparameter Scaling Strategies

Sho Yaida

Hyperparameter Scaling

2022-10-10
55. Disentangling feature and lazy training in deep neural networks

Mario Geiger, Stefano Spigler, Arthur Jacot, Matthieu Wyart

Feature learning limit for NN dynamics

Feature Learning Overparamerization Training Dynamics

2019-06-19
56. Mean-field theory of two-layers neural networks: dimension-free bounds and kernel limit

Song Mei, Theodor Misiakiewicz, Andrea Montanari

Introduces mean-field theory for analyzing NN training

Mean Field Overparamerization Training Dynamics

2019-02-16
57. Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent

Jaehoon Lee, Lechao Xiao, Samuel S. Schoenholz, Yasaman Bahri, Roman Novak, Jascha Sohl-Dickstein, Jeffrey Pennington

Dynamics of NTK in parameter space

NTK Overparamerization Training Dynamics

2019-02-18
58. Neural Tangent Kernel: Convergence and Generalization in Neural Networks

Arthur Jacot, Franck Gabriel, Clément Hongler

Paper that introduced NTK, nice kernel viewpoint of how NNs evolve during training at the infinite width limit

NTK Overparamerization Training Dynamics

2018-06-20
59. On the distance between two neural networks and the stability of learning

Jeremy Bernstein, Arash Vahdat, Yisong Yue, Ming-Yu Liu

Derived a spectral analysis of feature learning based on perturbation bounds, but obtained wrong scaling relation with network width due to flawed conditioning assumption on gradients

Feature Learning Optimizers

2020-02-09
60. A Spectral Condition for Feature Learning

Greg Yang, James B. Simon, Jeremy Bernstein

Shows that using spectral instead of Frobenius norm to analyze how NNs change during training is the right framing. Good summary & generalization of previous Tensor Program series of work.

MUP NTK Tensor Programs

2023-10-26
61. Trainability and Accuracy of Neural Networks: An Interacting Particle System Approach

Grant M. Rotskoff, Eric Vanden-Eijnden

2018-05-02
62. Limitations of the NTK for Understanding Generalization in Deep Learning

Nikhil Vyas, Yamini Bansal, Preetum Nakkiran

2022-06-20
63. Spectral Normalization for Generative Adversarial Networks

Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida

2018-02-16
64. Layer rotation: a surprisingly powerful indicator of generalization in deep networks?

Simon Carbonnelle, Christophe De Vleeschouwer

2018-06-05
65. Learning by Turning: Neural Architecture Aware Optimisation

Yang Liu, Jeremy Bernstein, Markus Meister, Yisong Yue

2021-02-14
66. Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

Peiyi Wang, Lei Li, Zhihong Shao, R. X. Xu, Damai Dai, Yifei Li, Deli Chen et al.

2023-12-14
67. Scaling Data-Constrained Language Models

Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo et al.

2023-05-25
68. Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li

2023-11-06
69. TIES-Merging: Resolving Interference When Merging Models

Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal

2023-06-02
70. Editing Models with Task Arithmetic

Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi

2022-12-08
71. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao

2024-01-19
72. AttentionXML: Label Tree-based Attention-Aware Deep Model for High-Performance Extreme Multi-Label Text Classification

Ronghui You, Zihan Zhang, Ziye Wang, Suyang Dai, Hiroshi Mamitsuka, Shanfeng Zhu

2018-11-01
73. Jasper and Stella: distillation of SOTA embedding models

Dun Zhang, Jiacheng Li, Ziyang Zeng, Fulong Wang

2024-12-26
74. YaRN: Efficient Context Window Extension of Large Language Models

Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole

2023-08-31
75. Zero Bubble Pipeline Parallelism

Penghui Qi, Xinyi Wan, Guangxing Huang, Min Lin

2023-11-30
76. How Does Critical Batch Size Scale in Pre-training?

Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster et al.

2024-10-29
77. Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve

2024-04-30
78. Pointer Networks

Oriol Vinyals, Meire Fortunato, Navdeep Jaitly

2015-06-09
79. Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang et al.

2024-04-16
80. Recursive Introspection: Teaching Language Model Agents How to Self-Improve

Yuxiao Qu, Tianjun Zhang, Naman Garg, Aviral Kumar

2024-07-25
81. WARM: On the Benefits of Weight Averaged Reward Models

Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret

2024-01-22
82. Dual Operating Modes of In-Context Learning

Ziqian Lin, Kangwook Lee

2024-02-29
83. Combining Induction and Transduction for Abstract Reasoning

Wen-Ding Li, Keya Hu, Carter Larsen, Yuqing Wu, Simon Alford, Caleb Woo, Spencer M. Dunn et al.

2024-11-04
84. Phi-4 Technical Report

Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison et al.

2024-12-12
85. The Impact of Positional Encoding on Length Generalization in Transformers

Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy

2023-05-31
86. RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve

2024-10-02
87. Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs

Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause

2024-10-10
88. HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation

Yuhan Chen, Ang Lv, Jian Luan, Bin Wang, Wei Liu

2024-10-28
89. Stream of Search (SoS): Learning to Search in Language

Kanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman

2024-04-01
90. Quadratic models for understanding catapult dynamics of neural networks

Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin

2022-05-24
91. Catapults in SGD: spikes in the training loss and their impact on generalization through feature learning

Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin

2023-06-07
92. $μ$ LO: Compute-Efficient Meta-Generalization of Learned Optimizers

Benjamin Thérien, Charles-Étienne Joseph, Boris Knyazev, Edouard Oyallon, Irina Rish, Eugene Belilovsky

2024-05-31
93. VeLO: Training Versatile Learned Optimizers by Scaling Up

Luke Metz, James Harrison, C. Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman Agrawal et al.

2022-11-17
94. Probing the Decision Boundaries of In-context Learning in Large Language Models

Siyan Zhao, Tung Nguyen, Aditya Grover

2024-06-17
95. Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers

Gautham Vasan, Mohamed Elsayed, Alireza Azimi, Jiamin He, Fahim Shariar, Colin Bellinger, Martha White et al.

2024-11-22
96. VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search

David Brandfonbrener, Simon Henniger, Sibi Raja, Tarun Prasad, Chloe Loughridge, Federico Cassano, Sabrina Ruixin Hu et al.

2024-02-13
97. xLSTM: Extended Long Short-Term Memory

Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer et al.

2024-05-07
98. Memory-Efficient LLM Training with Online Subspace Descent

Kaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu

2024-08-23
99. Efficient Model-Free Exploration in Low-Rank MDPs

Zakaria Mhammedi, Adam Block, Dylan J. Foster, Alexander Rakhlin

2023-07-08
100. On the Computational Landscape of Replicable Learning

Alkis Kalavasis, Amin Karbasi, Grigoris Velegkas, Felix Zhou

2024-05-24
101. TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications

David Salinas, Nick Erickson

2023-11-06
102. TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

Noah Hollmann, Samuel Müller, Katharina Eggensperger, Frank Hutter

2022-07-05
103. Reinforcement Learning: An Overview

Kevin Murphy

2024-12-06
104. Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi

2024-06-03
105. Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder et al.

2022-03-07
106. Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices

Andres Potapczynski, Shikai Qiu, Marc Finzi, Christopher Ferri, Zixi Chen, Micah Goldblum, Bayan Bruss et al.

2024-10-03
107. Compute Better Spent: Replacing Dense Layers with Structured Matrices

Shikai Qiu, Andres Potapczynski, Marc Finzi, Micah Goldblum, Andrew Gordon Wilson

2024-06-10
108. CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra

Andres Potapczynski, Marc Finzi, Geoff Pleiss, Andrew Gordon Wilson

2023-09-06
109. Theoretical Foundations of Conformal Prediction

Anastasios N. Angelopoulos, Rina Foygel Barber, Stephen Bates

2024-11-18
110. AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning

Shirley Wu, Shiyu Zhao, Qian Huang, Kexin Huang, Michihiro Yasunaga, Kaidi Cao, Vassilis N. Ioannidis et al.

2024-06-17
111. Mechanism of feature learning in convolutional neural networks

Daniel Beaglehole, Adityanarayanan Radhakrishnan, Parthe Pandit, Mikhail Belkin

2023-09-01
112. Average gradient outer product as a mechanism for deep neural collapse

Daniel Beaglehole, Peter Súkeník, Marco Mondelli, Mikhail Belkin

2024-02-21
113. Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation

Mikhail Belkin

2021-05-29
114. The duality structure gradient descent algorithm: analysis and applications to neural networks

Thomas Flynn

2017-08-01
115. Old Optimizer, New Norm: An Anthology

Jeremy Bernstein, Laker Newhouse

2024-09-30
116. Investigating the Limitations of Transformers with Simple Arithmetic Tasks

Rodrigo Nogueira, Zhiying Jiang, Jimmy Lin

2021-02-25
117. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou et al.

2023-08-03
118. Evaluating Language Models for Mathematics through Interactions

Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz et al.

2023-06-02
119. Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

Tiedong Liu, Bryan Kian Hsiang Low

2023-05-23
120. Continual Pre-Training of Large Language Models: How to (re)warm your model?

Kshitij Gupta, Benjamin Thérien, Adam Ibrahim, Mats L. Richter, Quentin Anthony, Eugene Belilovsky, Irina Rish et al.

2023-08-08
121. Functional Data Analysis: An Introduction and Recent Developments

Jan Gertheiss, David Rügamer, Bernard X. W. Liew, Sonja Greven

2023-12-09
122. On Calibration of Modern Neural Networks

Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger

2017-06-14
123. How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

Guan Zhe Hong, Nishanth Dikkala, Enming Luo, Cyrus Rashtchian, Xin Wang, Rina Panigrahy

2024-11-06
124. LoRA vs Full Fine-tuning: An Illusion of Equivalence

Reece Shuttleworth, Jacob Andreas, Antonio Torralba, Pratyusha Sharma

2024-10-28
125. The Description Length of Deep Learning Models

Léonard Blier, Yann Ollivier

2018-02-20
126. ADOPT: Modified Adam Can Converge with Any $β_{2}$ with the Optimal Rate

Shohei Taniguchi, Keno Harada, Gouki Minegishi, Yuta Oshima, Seong Cheol Jeong, Go Nagahara, Tomoshi Iiyama et al.

2024-11-05
127. Denoising Diffusion Probabilistic Models in Six Simple Steps

Richard E. Turner, Cristiana-Diana Diaconu, Stratis Markou, Aliaksandra Shysheya, Andrew Y. K. Foong, Bruno Mlodozeniec

2024-02-06
128. Understanding Optimization in Deep Learning with Central Flows

Jeremy M. Cohen, Alex Damian, Ameet Talwalkar, Zico Kolter, Jason D. Lee

2024-10-31
129. Modular Duality in Deep Learning

Jeremy Bernstein, Laker Newhouse

2024-10-28
130. Unveiling the Hidden Structure of Self-Attention via Kernel Principal Component Analysis

Rachel S. Y. Teo, Tan M. Nguyen

2024-06-19
131. Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective

Kaiyue Wen, Zhiyuan Li, Jason Wang, David Hall, Percy Liang, Tengyu Ma

2024-10-07
132. Impacts of Continued Legal Pre-Training and IFT on LLMs' Latent Representations of Human-Defined Legal Concepts

Shaun Ho

2024-10-15
133. A First Course in Monte Carlo Methods

Daniel Sanz-Alonso, Omar Al-Ghattas

2024-05-25
134. Mixture of Parrots: Experts improve memorization more than reasoning

Samy Jelassi, Clara Mohri, David Brandfonbrener, Alex Gu, Nikhil Vyas, Nikhil Anand, David Alvarez-Melis et al.

2024-10-24
135. The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities

Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid

2024-08-23
136. Agentic Information Retrieval

Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du

2024-10-13
137. nGPT: Normalized Transformer with Representation Learning on the Hypersphere

Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun, Boris Ginsburg

2024-10-01
138. Why Do We Need Weight Decay in Modern Deep Learning?

Francesco D'Angelo, Maksym Andriushchenko, Aditya Varre, Nicolas Flammarion

2023-10-06
139. GLU Variants Improve Transformer

Noam Shazeer

2020-02-12
140. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning

Stefan Elfwing, Eiji Uchibe, Kenji Doya

2017-02-10
141. Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

Amrith Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal et al.

2024-10-10
142. Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

Sihyun Yu, Sangkyung Kwak, Huiwon Jang, Jongheon Jeong, Jonathan Huang, Jinwoo Shin, Saining Xie

2024-10-09
143. Generative Verifiers: Reward Modeling as Next-Token Prediction

Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, Rishabh Agarwal

2024-08-27
144. Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer, Olivier Pietquin, Ahmet Üstün et al.

2024-02-22
145. Round and Round We Go! What makes Rotary Positional Encodings useful?

Federico Barbero, Alex Vitvitskyi, Christos Perivolaropoulos, Razvan Pascanu, Petar Veličković

2024-10-08
146. Large Language Models as Markov Chains

Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko

2024-10-03
147. Searching for Best Practices in Retrieval-Augmented Generation

Xiaohua Wang, Zhenghua Wang, Xuan Gao, Feiran Zhang, Yixin Wu, Zhibo Xu, Tianyuan Shi et al.

2024-07-01
148. Why do Random Forests Work? Understanding Tree Ensembles as Self-Regularizing Adaptive Smoothers

Alicia Curth, Alan Jeffares, Mihaela van der Schaar

2024-02-02
149. Reinforced Self-Training (ReST) for Language Modeling

Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant et al.

2023-08-17
150. eGAD! double descent is explained by Generalized Aliasing Decomposition

Mark K. Transtrum, Gus L. W. Hart, Tyler J. Jarvis, Jared P. Whitehead

2024-08-15
151. A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning

Alicia Curth, Alan Jeffares, Mihaela van der Schaar

2023-10-29
152. Classical Statistical (In-Sample) Intuitions Don't Generalize Well: A Note on Bias-Variance Tradeoffs, Overfitting and Moving from Fixed to Random Designs

Alicia Curth

2024-09-27
153. Contextual Document Embeddings

John X. Morris, Alexander M. Rush

2024-10-03
154. Were RNNs All We Needed?

Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadeghi

2024-10-02
155. Instruction Following without Instruction Tuning

John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning

2024-09-21
156. Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang, Sean Welleck, Chuang Gan

2024-03-14
157. From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

Sean Welleck, Amanda Bertsch, Matthew Finlayson, Hailey Schoelkopf, Alex Xie, Graham Neubig, Ilia Kulikov et al.

2024-06-24
158. Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma

2024-02-20
159. Hardware Acceleration of LLMs: A comprehensive survey and comparison

Nikoletta Koilia, Christoforos Kachris

2024-09-05
160. Diffusion Models Learn Low-Dimensional Distributions via Subspace Clustering

Peng Wang, Huijie Zhang, Zekai Zhang, Siyi Chen, Yi Ma, Qing Qu

2024-09-04
161. White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Hao Bai et al.

2023-11-22
162. Just Say the Name: Online Continual Learning with Category Names Only via Data Generation

Minhyuk Seo, Seongwon Cho, Minjae Lee, Diganta Misra, Hyeonbeom Choi, Seon Joo Kim, Jonghyun Choi

2024-03-16
163. Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang

2023-12-04
164. Code Llama: Open Foundation Models for Code

Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi et al.

2023-08-24
165. #InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models

Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou et al.

2023-08-14
166. Equivariant neural networks and piecewise linear representation theory

Joel Gibson, Daniel Tubbenhauer, Geordie Williamson

2024-08-01
167. Does your data spark joy? Performance gains from domain upsampling at the end of training

Cody Blakeney, Mansheej Paul, Brett W. Larsen, Sean Owen, Jonathan Frankle

2024-06-05
168. Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

2024-08-06
169. Reconciling modern machine learning practice and the bias-variance trade-off

Mikhail Belkin, Daniel Hsu, Siyuan Ma, Soumik Mandal

2018-12-28
170. Moment Matching for Multi-Source Domain Adaptation

Xingchao Peng, Qinxun Bai, Xide Xia, Zijun Huang, Kate Saenko, Bo Wang

2018-12-04
171. Invariant Risk Minimization

Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, David Lopez-Paz

2019-07-05
172. How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks

Divyansh Kaushik, Zachary C. Lipton

2018-08-14
173. Do ImageNet Classifiers Generalize to ImageNet?

Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, Vaishaal Shankar

2019-02-13
174. The Effect of Natural Distribution Shift on Question Answering Models

John Miller, Karl Krauth, Benjamin Recht, Ludwig Schmidt

2020-04-29
175. Causal inference using invariant prediction: identification and confidence intervals

Jonas Peters, Peter Bühlmann, Nicolai Meinshausen

2015-01-06
176. Measuring the Intrinsic Dimension of Objective Landscapes

Chunyuan Li, Heerad Farkhoor, Rosanne Liu, Jason Yosinski

2018-04-24
177. Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

Chen Sun, Abhinav Shrivastava, Saurabh Singh, Abhinav Gupta

2017-07-10
178. No Subclass Left Behind: Fine-Grained Robustness in Coarse-Grained Classification Problems

Nimit S. Sohoni, Jared A. Dunnmon, Geoffrey Angus, Albert Gu, Christopher Ré

2020-11-25
179. Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient for Out-of-Distribution Generalization

Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski

2022-02-14
180. In-Context Learning Learns Label Relationships but Is Not Conventional Learning

Jannik Kossen, Yarin Gal, Tom Rainforth

2023-07-23
181. Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak et al.

2024-04-01
182. Language Models (Mostly) Know What They Know

Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer et al.

2022-07-11
183. A Tutorial on Bayesian Optimization

Peter I. Frazier

2018-07-08
184. Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations

Polina Kirichenko, Pavel Izmailov, Andrew Gordon Wilson

2022-04-06
185. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

2022-10-31
186. The Geometry of Categorical and Hierarchical Concepts in Large Language Models

Kiho Park, Yo Joong Choe, Yibo Jiang, Victor Veitch

2024-06-03
187. When Representations Align: Universality in Representation Learning Dynamics

Loek van Rossem, Andrew M. Saxe

2024-02-14
188. Scaling Synthetic Data Creation with 1,000,000,000 Personas

Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu

2024-06-28
189. A Theory of Interpretable Approximations

Marco Bressan, Nicolò Cesa-Bianchi, Emmanuel Esposito, Yishay Mansour, Shay Moran, Maximilian Thiessen

2024-06-15
190. BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment

Wenda Xu, Jiachen Li, William Yang Wang, Lei Li

2024-06-18
191. A Tutorial on Thompson Sampling

Daniel Russo, Benjamin Van Roy, Abbas Kazerouni, Ian Osband, Zheng Wen

2017-07-07
192. Beyond the Black Box: A Statistical Model for LLM Reasoning and Inference

Siddhartha Dalal, Vishal Misra

2024-02-05
193. Transcendence: Generative Models Can Outperform The Experts That Train Them

Edwin Zhang, Vincent Zhu, Naomi Saphra, Anat Kleiman, Benjamin L. Edelman, Milind Tambe, Sham M. Kakade et al.

2024-06-17
194. Step-by-Step Diffusion: An Elementary Tutorial

Preetum Nakkiran, Arwen Bradley, Hattie Zhou, Madhu Advani

2024-06-13
195. Text Embeddings Reveal (Almost) As Much As Text

John X. Morris, Volodymyr Kuleshov, Vitaly Shmatikov, Alexander M. Rush

2023-10-10
196. Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks

Giovanni Luca Marchetti, Christopher Hillar, Danica Kragic, Sophia Sanborn

2023-12-13
197. Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

Sander Land, Max Bartolo

2024-05-08
198. Customizing Text-to-Image Models with a Single Image Pair

Maxwell Jones, Sheng-Yu Wang, Nupur Kumari, David Bau, Jun-Yan Zhu

2024-05-02
199. Self-Play Preference Optimization for Language Model Alignment

Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu

2024-05-01
200. Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

Shreya Shankar, J. D. Zamfirescu-Pereira, Björn Hartmann, Aditya G. Parameswaran, Ian Arawjo

2024-04-18
201. U-Nets as Belief Propagation: Efficient Classification, Denoising, and Diffusion in Generative Hierarchical Models

Song Mei

2024-04-29
202. On the Bottleneck of Graph Neural Networks and its Practical Implications

Uri Alon, Eran Yahav

2020-06-09
203. How Can We Know What Language Models Know?

Zhengbao Jiang, Frank F. Xu, Jun Araki, Graham Neubig

2019-11-28
204. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam et al.

2017-12-15
205. Why do tree-based models still outperform deep learning on tabular data?

Léo Grinsztajn, Edouard Oyallon, Gaël Varoquaux

2022-07-18
206. On the Complexity of Best Arm Identification in Multi-Armed Bandit Models

Emilie Kaufmann, Olivier Cappé, Aurélien Garivier

2014-07-16
207. Random Utility Theory for Social Choice

Hossein Azari Soufiani, David C. Parkes, Lirong Xia

2012-11-11
208. Black-box Dataset Ownership Verification via Backdoor Watermarking

Yiming Li, Mingyan Zhu, Xue Yang, Yong Jiang, Tao Wei, Shu-Tao Xia

2022-08-04
209. Decoupled Weight Decay Regularization

Ilya Loshchilov, Frank Hutter

2017-11-14
210. Efficient Training of Language Models to Fill in the Middle

Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey, Jerry Tworek, Mark Chen

2022-07-28
211. From $r$ to $Q^{*}$ : Your Language Model is Secretly a Q-Function

Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn

2024-04-18
212. Large Language Models Can Self-Improve

Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han

2022-10-20
213. How to Train Data-Efficient LLMs

Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee et al.

2024-02-15
214. Co-training Improves Prompt-based Learning for Large Language Models

Hunter Lang, Monica Agrawal, Yoon Kim, David Sontag

2022-02-02
215. How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden et al.

2023-06-07
216. Learning Transformer Programs

Dan Friedman, Alexander Wettig, Danqi Chen

2023-06-01
217. Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

Noam Shazeer, Mitchell Stern

2018-04-11
218. Learning Overparameterized Neural Networks via Stochastic Gradient Descent on Structured Data

Yuanzhi Li, Yingyu Liang

2018-08-03
219. A Convergence Theory for Deep Learning via Over-Parameterization

Zeyuan Allen-Zhu, Yuanzhi Li, Zhao Song

2018-11-09
220. Generalization Guarantees for Neural Networks via Harnessing the Low-rank Structure of the Jacobian

Samet Oymak, Zalan Fabian, Mingchen Li, Mahdi Soltanolkotabi

2019-06-12
221. Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta

2020-12-22
222. STaR: Bootstrapping Reasoning With Reasoning

Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

2022-03-28
223. Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks

Hao Chen, Jindong Wang, Ankit Shah, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama et al.

2023-09-29
224. The Barron Space and the Flow-induced Function Spaces for Neural Network Models

Weinan E, Chao Ma, Lei Wu

2019-06-18
225. Deep Equilibrium Based Neural Operators for Steady-State PDEs

Tanya Marwah, Ashwini Pokle, J. Zico Kolter, Zachary C. Lipton, Jianfeng Lu, Andrej Risteski

2023-11-30
226. Parametric Complexity Bounds for Approximating PDEs with Neural Networks

Tanya Marwah, Zachary C. Lipton, Andrej Risteski

2021-03-03
227. Simple linear attention language models balance the recall-throughput tradeoff

Simran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou et al.

2024-02-28
228. Chain-of-Thought Reasoning Without Prompting

Xuezhi Wang, Denny Zhou

2024-02-15
229. Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti

2024-03-14
230. Evolutionary Optimization of Model Merging Recipes

Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha

2024-03-19
231. An Invitation to Deep Reinforcement Learning

Bernhard Jaeger, Andreas Geiger

2023-12-13
232. Deep Neural Networks Tend To Extrapolate Predictably

Katie Kang, Amrith Setlur, Claire Tomlin, Sergey Levine

2023-10-02
233. Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi et al.

2024-03-05
234. Is Cosine-Similarity of Embeddings Really About Similarity?

Harald Steck, Chaitanya Ekanadham, Nathan Kallus

2024-03-08
235. Language Modeling with Gated Convolutional Networks

Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier

2016-12-23
236. GLU Variants Improve Transformer

Noam Shazeer

2020-02-12
237. On the Measure of Intelligence

François Chollet

2019-11-05
238. Asymmetry in Low-Rank Adapters of Foundation Models

Jiacheng Zhu, Kristjan Greenewald, Kimia Nadjahi, Haitz Sáez de Ocáriz Borde, Rickard Brüel Gabrielsson, Leshem Choshen, Marzyeh Ghassemi et al.

2024-02-26
239. Scalable Diffusion Models with Transformers

William Peebles, Saining Xie

2022-12-19
240. In-Context Learning for Extreme Multi-Label Classification

Karel D'Oosterlinck, Omar Khattab, François Remy, Thomas Demeester, Chris Develder, Christopher Potts

2024-01-22
241. Matryoshka Representation Learning

Aditya Kusupati, Gantavya Bhatt, Aniket Rege, Matthew Wallingford, Aditya Sinha, Vivek Ramanujan, William Howard-Snyder et al.

2022-05-26
242. Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization

Elan Rosenfeld, Andrej Risteski

2023-11-07
243. Diffusion Models for Generative Artificial Intelligence: An Introduction for Applied Mathematicians

Catherine F. Higham, Desmond J. Higham, Peter Grindrod

2023-12-21
244. In-context Learning and Induction Heads

Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann et al.

2022-09-24
245. Characterizing Implicit Bias in Terms of Optimization Geometry

Suriya Gunasekar, Jason Lee, Daniel Soudry, Nathan Srebro

2018-02-22
246. Scaling Instruction-Finetuned Language Models

Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li et al.

2022-10-20
247. Textbooks Are All You Need II: phi-1.5 technical report

Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee

2023-09-11
248. Data Selection for Language Models via Importance Resampling

Sang Michael Xie, Shibani Santurkar, Tengyu Ma, Percy Liang

2023-02-06
249. Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn

2023-05-29
250. Data Movement Is All You Need: A Case Study on Optimizing Transformers

Andrei Ivanov, Nikoli Dryden, Tal Ben-Nun, Shigang Li, Torsten Hoefler

2020-06-30
251. Transformers are uninterpretable with myopic methods: a case study with bounded Dyck grammars

Kaiyue Wen, Yuchen Li, Bingbin Liu, Andrej Risteski

2023-12-03
252. Accelerating LLM Inference with Staged Speculative Decoding

Benjamin Spector, Chris Re

2023-08-08
253. Accelerating Large Language Model Decoding with Speculative Sampling

Charlie Chen, Sebastian Borgeaud, Geoffrey Irving, Jean-Baptiste Lespiau, Laurent Sifre, John Jumper

2023-02-02
254. Fast Inference from Transformers via Speculative Decoding

Yaniv Leviathan, Matan Kalman, Yossi Matias

2022-11-30
255. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer

2022-08-15
256. Masked Autoencoders Are Scalable Vision Learners

Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick

2021-11-11
257. One Wide Feedforward is All You Need

Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan

2023-09-04
258. A Mean Field View of the Landscape of Two-Layers Neural Networks

Song Mei, Andrea Montanari, Phan-Minh Nguyen

2018-04-18
259. Sharpness-Aware Minimization for Efficiently Improving Generalization

Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur

2020-10-03
260. Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability

Jeremy M. Cohen, Simran Kaur, Yuanzhi Li, J. Zico Kolter, Ameet Talwalkar

2021-02-26
261. The large learning rate phase of deep learning: the catapult mechanism

Aitor Lewkowycz, Yasaman Bahri, Ethan Dyer, Jascha Sohl-Dickstein, Guy Gur-Ari

2020-03-04
262. Label Noise SGD Provably Prefers Flat Global Minimizers

Alex Damian, Tengyu Ma, Jason D. Lee

2021-06-11
263. Gradient Descent Maximizes the Margin of Homogeneous Neural Networks

Kaifeng Lyu, Jian Li

2019-06-13
264. Deep Double Descent: Where Bigger Models and More Data Hurt

Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever

2019-12-04
265. The generalization error of random features regression: Precise asymptotics and double descent curve

Song Mei, Andrea Montanari

2019-08-14
266. Exploring Generalization in Deep Learning

Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, Nathan Srebro

2017-06-27
267. Understanding deep learning requires rethinking generalization

Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals

2016-11-10
268. On Exact Computation with an Infinitely Wide Neural Net

Sanjeev Arora, Simon S. Du, Wei Hu, Zhiyuan Li, Ruslan Salakhutdinov, Ruosong Wang

2019-04-26
269. Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

Zeyuan Allen-Zhu, Yuanzhi Li, Yingyu Liang

2018-11-12
270. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Jonathan Frankle, Michael Carbin

2018-03-09
271. A Simple Framework for Contrastive Learning of Visual Representations

Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton

2020-02-13
272. Big Transfer (BiT): General Visual Representation Learning

Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby

2019-12-24
273. A Fourier Perspective on Model Robustness in Computer Vision

Dong Yin, Raphael Gontijo Lopes, Jonathon Shlens, Ekin D. Cubuk, Justin Gilmer

2019-06-21
274. Certified Adversarial Robustness via Randomized Smoothing

Jeremy M Cohen, Elan Rosenfeld, J. Zico Kolter

2019-02-08
275. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al.

2020-10-22
276. Vision Transformers are Robust Learners

Sayak Paul, Pin-Yu Chen

2021-05-17
277. On the Adversarial Robustness of Vision Transformers

Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh

2021-03-29
278. Extracting Training Data from Large Language Models

Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts et al.

2020-12-14
279. Supervised Contrastive Learning

Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot et al.

2020-04-23
280. Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu, Karan Goel, Christopher Ré

2021-10-31