Contents
편의상 Frquency와 Wavelength는 프리퀀시와 파장으로 번역
프로젝트 깃 허브 레포지토리에서 최대 128k 컨텍스트 길이까지의 모델을 사용할 수 있음.
1 서론
Transformer 기반 대규모 언어모델(LLMs)은 많은 자연어 처리(NLP) 작업에서 거의 필수적인 선택이 되었습니다. 이런 작업들에서, pre-training된 LLM의 최대 시퀀스 길이(context window)는 주요 제한 중 하나입니다. 훈련 과정에서 결정된 context window을 동적으로 확장할 수 있는 능력은 점점 더 바람직해지고 있습니다. 이를 위해, 트랜스포머의 위치 인코딩이 중요한 논의의 중심이 되었습니다.
기존의 Transformer 아키텍처는 절대적인 사인 위치 인코딩을 사용했으며, 이는 학습 가능한 절대 위치 인코딩으로 개선되었습니다. 이후 상대적 위치 인코딩 스키마가 Transformer의 성능을 더욱 향상시켰습니다. 현재 가장 유명한 상대적 위치 인코딩은 T5 상대적 편향, RoPE, XPos, ALiBi 등입니다.
위치 인코딩의 반복되는 제한 사항은 훈련 중에 본 context window을 넘어서 일반화하는 능력의 부족입니다. 일부 방법들은 제한된 일반화를 할 수 있지만, ALiBi와 같은 방법은 pre-trained 길이보다 훨씬 긴 시퀀스로 일반화할 수 없습니다.
이런 제한을 극복하기 위해 몇 가지 작업이 수행되었습니다. [9]와 [21]은 위치 보간(PI)을 통해 RoPE를 약간 수정하고 소량의 데이터에 대해 파인튜닝을 함으로써 컨텍스트 길이를 확장할 것을 제안했습니다. 대안으로, [6]은 하이-프리퀀시의 손실을 고려한 “NTK-aware” 보간을 제안했습니다. 이후 “NTK-aware” 보간의 두 가지 개선이 제안되었으며, 각기 다른 강조점을 두고 있습니다.
“NTK-aware” 보간과 “Dynamic NTK” 보간은 이미 Code Llama [31] (NTK-aware 보간 사용) 및 Qwen 7B [2] (Dynamic NTK 사용)와 같은 오픈 소스 모델에서 그 존재감을 드러내고 있습니다.
이 논문에서는 이전에 발표되지 않은 “NTK-aware”, “Dynamic NTK”, 및 “NTK-by-parts” 보간에 대한 전체적인 설명을 제공하고, RoPE를 사용하여 훈련된 모델의 context window을 효율적으로 확장할 수 있는 개선된 방법, YaRN (Yet another RoPE extensioN method)을 제시합니다.
YaRN은 원래 pre-training 데이터의 약 0.1% 미만으로 파인튜닝한 후 context window 확장에서 최고의 성능을 달성합니다. 동시에, 인퍼런스 시간 기법인 Dynamic Scaling과 결합함으로써, Dynamic-YaRN은 어떠한 파인튜닝 없이도 2배 이상의 context window 확장을 가능하게 합니다.
2 배경 및 관련 작업
2.1 Rotary Position Embeddings
선행연구와의 비교
항목 | 선행 연구(RoPE 및 기타 확장) | YaRN 방법의 개선점 |
---|---|---|
문제점 | context window 확장 시 일반화 부족 | 효율적인 context window 확장 및 외삽 가능성 향상 |
기술적 접근 | 위치 보간(PI), “NTK-aware” 보간 사용 | “NTK-by-parts” 보간 및 동적 스케일링 사용 |
성능 | 제한된 컨텍스트에서의 일반화 | 파인튜닝된 데이터셋 제한을 뛰어넘어 훨씬 더 긴 컨텍스트에서 효과적인 외삽 |
효율성 | 하이-프리퀀시 정보의 손실 및 training dataset 요구량 | 훈련 단계 및 데이터 요구량 감소로 더 높은 효율성 달성 |
본 연구의 기초는 [34]에서 소개된 Rotary Position Embedding (RoPE)입니다. 숨겨진 뉴런의 집합이
다음으로, attention 가중치는 다음과 같이 계산됩니다.
임베딩
실수 좌표에서, RoPE는 다음과 같은 함수를 사용하여 작성할 수 있습니다.
따라서
2.2 위치 보간(Position Interpolation)
언어 모델은 일반적으로 고정된 컨텍스트 길이로 사전 훈련됩니다. 따라서 RoPE를 위치 인코딩으로 사용하는 언어 모델의 경우, 상대적으로 적은 양의 데이터에 파인튜닝을 함으로써 컨텍스트 길이를 확장하는 방법이 자연스럽습니다. Chen et al. [9] 및 kaiokendev [21]은 위치 보간(PI)을 제안하여 pre-trained 한계를 넘어 컨텍스트 길이를 확장했습니다. 직접적인 외삽은
2.3 추가 표기법(Additional Notation)
확장된 컨텍스트 길이와 원래의 컨텍스트 길이 사이의 비율은 특별한 중요성을 가지며, 다음과 같이
또한 Eq. 10을 다음과 같은 일반 형식으로 재작성하고 간소화합니다.
후속 섹션에서 새로운 보간 방법을 소개할 때, 함수
파장은 RoPE 임베딩이
일부 보간 방법(e.g., PI)은 차원의 파장을 고려하지 않지만, 다른 방법들은 고려합니다(e.g., YaRN). 이런 방법들을 “맹목적” 보간 방법과 “표적” 보간 방법으로 분류할 것입니다.
3 방법
PI는 모든 RoPE 차원을 동등하게 늘리지만, PI가 설명하는 이론적인 보간 경계는 RoPE와 LLM의 내부 임베딩 사이의 복잡한 state를 예측하는 데 불충분하다는 것을 발견했습니다.
3.1 Loss of High Frequency Information - “NTK-aware” Interpolation
RoPE를 정보 인코딩의 관점에서만 본다면, [36]에서 사용된 Neural Tangent Kernel (NTK) 이론을 통해, 입력 차원이 낮고 해당 임베딩이 하이-프리퀀시 구성요소를 결여할 경우 심층 신경망이 하이-프리퀀시 정보 학습에 어려움을 겪는다는 것이 입증되었습니다. 유사점을 볼 수 있습니다. 토큰의 위치 정보는 일차원이며, RoPE는 이를
PI [9]에서 더 큰 컨텍스트 크기에 대한 파인튜닝 후 짧은 컨텍스트 크기에 대한 복잡도가 약간 증가하는 것과 관련이 있을 수 있다고 가설을 세웠습니다. 이상적인 상황에서 더 큰 컨텍스트 크기에 대한 파인튜닝이 더 작은 컨텍스트 크기의 성능을 저하시킬 이유는 없습니다.
RoPE 임베딩을 보간할 때 하이-프리퀀시 정보 손실 문제를 해결하기 위해 [6]에서 “NTK-aware” 보간이 개발되었습니다. 모든 RoPE 차원을
정의 1: “NTK-aware” 보간은 Eq. 12를 사용하여 RoPE을 수정한 것입니다.
[6]의 결과에 따르면, 이 방법은 PI [9]에 비해 파인튜닝되지 않은 모델의 컨텍스트 크기를 확장하는 데 훨씬 더 나은 성능을 보입니다. 그러나 이 방법의 주요 단점 중 하나는 단순한 보간 체계가 아니라 일부 차원이 “범위를 벗어난” 값으로 약간 외삽되기 때문에, “NTK-aware” 보간 [6]으로 파인튜닝하면 PI [9]에 비해 열등한 결과를 낳습니다. 또한 “범위를 벗어난” 값으로 인해 이론적인 스케일 인자
3.2 Loss of Relative Local Distances - “NTK-by-parts” Interpolation
PI와 “NTK-aware” 보간과 같은 맹목적인 보간 방법에서는 모든 RoPE 향상된을 동등하게 처리합니다(즉, 네트워크에 동일한 영향을 미칩니다). 그러나, 표적 보간 방법이 필요하다는 강력한 단서가 있습니다. 이 절에서는 RoPE의 공식에서 정의된 파장
RoPE 임베딩의 흥미로운 관찰 중 하나는 주어진 컨텍스트 크기
또한, 모든 RoPE 차원을 스케일
이 문제를 해결하기 위해, 이전에 발견한 두 가지 관찰을 고려하여, 높은 프리퀀시 차원은 전혀 보간하지 않으면서 낮은 프리퀀시 차원은 항상 보간하기로 결정했습니다. 특히,
결과적으로, 원래 컨텍스트 크기
위에서 설명한 다양한 보간 전략의 경계를 정의하기 위해, 추가적으로 두 개의 파라미터
램프 함수의 도움으로 “NTK-by-parts” 방법은 다음과 같이 설명될 수 있습니다.
정의 2: “NTK-by-parts” 보간은 Eq. 12를 사용하여 RoPE을 수정한 것입니다.
3.3 Dynamic Scaling - “Dynamic NTK” Interpolation
다양한 사용 사례에서, 1부터 최대 컨텍스트 크기까지 다양한 시퀀스 길이를 가진 여러 순방향 패스가 수행됩니다. 자동 회귀 생성과 같은 전형적인 예에서 시퀀스 길이는 각 단계마다 1씩 증가합니다. 스케일 인자
첫 번째 방법의 문제점은 모델이
특히 주목할 만한 사실은 “Dynamic NTK” 보간이 파인튜닝 없이
반복되는 순방향 패스에서는 kv-caching [8]이 적용되어 이전 키-값 벡터를 재사용하여 전체 효율성을 개선합니다. RoPE 임베딩이 캐시될 때는 동적 스케일링을 위해 RoPE를 수정하기 전에 kv-임베딩을 캐시해야 합니다. 이는
3.4 YaRN
이전의 보간 기술에 더해, 주의 깊게 관찰한 결과 로짓에 온도
보다 정확하게는, Eq. 2 대신에 attention weights 계산을 수정하여 다음과 같이 표현합니다.
RoPE를 2D 행렬 집합으로 재구성하는 것은 이런 attention scaling의 구현에 분명한 이점을 제공합니다. 단순히 복소 RoPE 임베딩을 동일한 비율로 스케일링함으로써
정의 3: “YaRN 방법”은 Eq. 21에서 소개된 attention scaling과 3.2절에서 소개된 “NTK-by-parts” 보간의 결합을 의미합니다.
LLaMA 및 Llama 2 모델에 대해서는 다음과 같은 값을 권장합니다.
위의 방정식은 “NTK-by-parts” 방법(3.2절)을 사용하여 LLaMA 7b, 13b, 33b 및 65b 모델에서 다양한 요인
YaRN 방법은 모든 발견을 결합하고 파인튜닝 및 파인튜닝되지 않은 시나리오 모두에서 이전의 모든 방법들을 능가할 수 있음을 확인합니다. YaRN은 Flash Attention 2 [13]과 같은 attention mechanism을 수정하는 라이브러리와 직접 호환됩니다.
4 실험
YaRN 모델은 RoPE 위치 임베딩을 활용하여 언어 모델의 context window을 확장하는 것을 성공적으로 보여주며, 이는 단지 모델의 원래 전처리 코퍼스의 0.1%에 해당하는 400 훈련 단계로 달성되었습니다. 이는 Rozière 등[31]의 연구보다 10배, Chen 등[9]의 연구보다 2.5배 줄인 결과입니다. 결과 모델을 평가하기 위해 장문의 문서에 대한 퍼플렉시티를 계산하고 설정된 벤치마크에서 점수를 매기며, 모든 기타 context window 확장 방법들을 초과하는 성능을 발견하였습니다.
4.1 훈련
LLaMA 2 모델의 7B 및 13B 파라미터 버전을 사용하여 훈련을 진행하였습니다. LLaMA 모델 아키텍처에는 다른 변경 사항 없이, 3.4에서 설명한 대로 임베딩 프리퀀시의 계산만 추가되었습니다. 학습률은
4.2 외삽 및 전이 학습
Code Llama[31]는 16k 컨텍스트의 데이터셋을 사용하고, 스케일 인자를
YaRN 또한 3.1 및 Rozière 등[31]과 유사하게 데이터셋 길이보다 더 높은 스케일 인자
컴퓨트 제약으로 인해
[참고자료 1] 선행 연구와 YaRN 방법 비교
내삽과 외삽은 모델이 보지 못한 새로운 데이터나 컨텍스트 길이에 대응하는 능력을 개선하는 데 기여하는 걸로 알려져있습니다.
내삽(Interpolation)은 모델이 training dataset 범위 내에서 미묘한 패턴이나 특징을 더 잘 이해하도록 돕는 반면, 외삽(extrapolation)은 모델이 training dataset 범위를 넘어서는 새로운 상황에 대응하게 합니다.
선행 연구의 접근 방법
선행 연구들은 주로 Rotary Position Embeddings(RoPE)를 사용하고, 위치 인코딩을 보간(PI) 및 “NTK-aware” 방법으로 조정하여 언어 모델의 context window을 확장하는 방법을 개발하였습니다.
YaRN 방법의 접근 방법
YaRN은 이런 기존 방법을 통합하고, 보다 정교하게 위치 인코딩을 조정합니다. 다음은 YaRN 방법에서 사용되는 수학적 변환들입니다.
이는 프리퀀시별로 다음과 같이 표현됩니다.
스케일링 인자
성능 향상의 근거
선행연구와의 비교
기법 | 프리퀀시 처리 | 데이터 범위 | 성능 향상의 근거 |
---|---|---|---|
PI | 일관된 스케일링 | 내삽 | 컨텍스트 길이 확장 가능 |
NTK-aware 보간 | 프리퀀시별 스케일링 | 내삽 및 외삽 | 고주파 정보 보존 |
YaRN (“NTK-by-parts”) | 프리퀀시별 차별 조정 | 내삽 및 외삽 | 고주파 및 로우프리퀀시 정보의 최적화 및 동적 스케일링 |
YaRN 방법의 수학적 설명 및 연계 이론
YaRN은 기존의 RoPE 방식을 개선하여, 효율적으로 context window을 확장하는 새로운 방법들을 제시하였는데, 그 중 “NTK-by-parts” 보간을 위주로 살펴보면 다음과 같습니다.
YaRN은 이런 수학적 접근을 통해 기존 방법에 비해 더 넓은 범위의 컨텍스트에서 모델을 일반화할 수 있으며, 계산 효율성도 향상시켰다고 보고합니다.
[참고자료 2] 외삽(extrapolation) 및 프리퀀시(frequency) 컨셉의 정의와 응용
1. 문제 정의 및 기존 기술의 한계
2. 프리퀀시 개념의 도입
3. 외삽 기법의 필요성 및 개발
4. 외삽과 프리퀀시 조정의 구체적 방법
5. 논문의 주장과 그 근거
Transformer-based Large Language Models[40] (LLMs) have become the near-ubiquitous choice for many natural language processing (NLP) tasks where long-range abilities such as in-context learning (ICL) has been crucial. In performing the NLP tasks, the maximal length of the sequences (the context window) determined by its training processes has been one of the major limits of a pretrained LLM. Being able to dynamically extend the context window via a small amount of fine-tuning (or without fine-tuning) has become more and more desirable. To this end, the position encodings of transformers are the center of the discussions.
The original Transformer architecture used an absolute sinusoidal position encoding, which was later improved to a learnable absolute position encoding [15]. Since then, relative positional encoding schemes [32] have further increased the performance of Transformers. Currently, the most popular relative positional encodings are T5 Relative Bias [30], RoPE [34], XPos [35], and ALiBi [27].
One reoccurring limitation with positional encodings is the inability to generalize past the context window seen during training. While some methods such as ALiBi are able to do limited generalization, none are able to generalize to sequences significantly longer than their pre-trained length [22].
Some works have been done to overcome such limitation. [9] and concurrently [21] proposed to extend the context length by slightly modifying RoPE via Position Interpolation (PI) and fine-tuning on a small amount of data. As an alternative, [6] proposed the “NTK-aware” interpolation by taking the loss of high frequency into account. Since then, two improvements of the “NTK-aware” interpolation have been proposed, with different emphasis:
The “NTK-aware” interpolation and the “Dynamic NTK” interpolation have already seen their presence in the open-source models such as Code Llama [31] (using “NTK-aware” interpolation) and Qwen 7B [2] (using “Dynamic NTK”).
In this paper, in addition to making a complete account of the previous unpublished works on the “NTK-aware”, the “Dynamic NTK” and the “NTK-by-part” interpolations, we present YaRN (Yet another RoPE extensioN method), an improved method to efficiently extend the context window of models trained with Rotary Position Embeddings (RoPE) including the LLaMA [38], the GPT-NeoX [5], and the PaLM [10] families of models.
YaRN reaches state-of-the-art performances in context window extensions after fine-tuning on less than ∼0.1% of the original pre-training data. In the meantime, by combining with the inference-time technique called Dynamic Scaling, the Dynamic-YaRN allows for more than 2x context window extension without any fine-tuning.
The basis of our work is the Rotary Position Embedding (RoPE) introduced in [34]. We work on a hidden layer where the set of hidden neurons are denoted by
Next, the attention weights are calculated as
where
To convert embeddings
where
In real coordinates, the RoPE can be written using the following function
so that
As language models are usually pre-trained with a fixed context length, it is natural to ask how to extend the context length by fine-tuning on a relatively small amount of data. For language models using RoPE as the position embedding, Chen et al. [9], and concurrently kaiokendev [21] proposed the Position Interpolation (PI) to extend the context length beyond the pre-trained limit. While a direct extrapolation does not perform well on sequences
where
The ratio between the extended context length and the original context length has been of special importance, and we introduce the notation
and we call
We also rewrite and simplify Eq. 10 into the following general form:
where
Additionally, we define
The wavelength describes the length of tokens needed in order for the RoPE embedding at dimension
Given that some interpolation methods (e.g., PI) do not care about the wavelength of the dimensions, we will refer to those methods as “blind” interpolation methods, while others do (e.g., YaRN), which we will classify as “targeted” interpolation methods.
ReRoPE [33] also aims to extend the context size of existing models pre-trained with RoPE, and claims “infinite” context length without needing any fine-tuning. This claim is backed by a monotonically decreasing loss with increasing context length up to 16k on the Llama 2 13B model. It achieves context extension by modifying the attention mechanism and thus is not purely an embedding interpolation method. Since it is currently not compatible with Flash Attention 2 [13] and requires two attention passes during inference, we do not consider it for comparison.
Concurrently with our work, LM-Infinite [16] proposes similar ideas to YaRN, but focuses on “on-the-fly” length generalization for non-fine-tuned models. Since they also modify the attention mechanism of the models, it is not an embedding interpolation method and is not immediately compatible with Flash Attention 2.
Whereas PI stretches all RoPE dimensions equally, we find that the theoretical interpolation bound described by PI [9] is insufficient at predicting the complex dynamics between RoPE and the LLM’s internal embeddings. In the following subsections, we describe the main issues with PI we have individually identified and solved, so as to give the readers the context, origin, and justifications of each method which we use in concert to obtain the full YaRN method.
If we look at RoPE only from an information encoding perspective, it was shown in [36], using Neural Tangent Kernel (NTK) theory, that deep neural networks have trouble learning high-frequency information if the input dimension is low and the corresponding embeddings lack high-frequency components. Here we can see the similarities: a token’s positional information is one-dimensional, and RoPE expands it to an
We hypothesize that the slight increase of perplexity for short context sizes after fine-tuning on larger context sizes seen in PI [9] might be related to this problem. Under ideal circumstances, there is no reason that fine-tuning on larger context sizes should degrade the performance of smaller context sizes.
In order to resolve the problem of losing high-frequency information when interpolating the RoPE embeddings, the “NTK-aware” interpolation was developed in [6]. Instead of scaling every dimension of RoPE equally by a factor
Definition 1: The “NTK-aware” interpolation is a modification of RoPE by using Eq. 12 with the following functions:
Given the results from [6], this method performs much better at extending the context size of non-fine-tuned models compared to PI [9]. However, one major disadvantage of this method is that given it is not just an interpolation scheme, some dimensions are slightly extrapolated to “out-of-bound” values, thus fine-tuning with “NTK-aware” interpolation [6] yields inferior results to PI [9]. Furthermore, due to the “out-of-bound” values, the theoretical scale factor
In the case of blind interpolation methods like PI and “NTK-aware” interpolation, we treat all the RoPE hidden dimensions equally (as in they have the same effect on the network). However, there are strong clues that point us towards the need for targeted interpolation methods. In this section, we think heavily in terms of the wavelengths
One interesting observation of RoPE embeddings is that given a context size
Moreover, when we stretch all the RoPE dimensions either by a scale
In order to remedy this issue, given the two previous observations that we have found, we choose not to interpolate the higher frequency dimensions at all while always interpolating the lower frequency dimensions. In particular,
As a result, it is more convenient to introduce the ratio
In order to define the boundary of the different interpolation strategies as above, we introduce two extra parameters
With the help of the ramp function, the “NTK-by-parts” method can be described as follows.
Definition 2: The “NTK-by-parts” interpolation is a modification of RoPE by using Eq. 12 with the following functions:
The values of
In a lot of use cases, multiple forward-passes are performed with varying sequence lengths from 1 to the maximal context size. A typical example is the autoregressive generation where the sequence lengths increment by 1 after each step. There are two ways of applying an interpolation method that uses a scale factor
The problem of (1) is that the model may experience a performance discount at a length less than
One notable fact is that the “Dynamic NTK” interpolation works exceptionally well on models pre-trained on
Often in the repeated forward-passes, the kv-caching [8] is applied so that we can reuse the previous key-value vectors and improve the overall efficiency. We point out that in some implementations when the RoPE embeddings are cached, some care has to be taken in order to modify it for Dynamic Scaling with kv-caching. The correct implementation should cache the kv-embeddings before applying RoPE, as the RoPE embedding of every token changes when
In addition to the previous interpolation techniques, we also observe that introducing a temperature
The reparametrization of RoPE as a set of 2D matrices has a clear benefit on the implementation of this attention scaling: we can instead use a “length scaling” trick which scales both
Definition 3: By the “YaRN method”, we refer to a combination of the attention scaling in Eq. 21 and the “NTK-by-parts” interpolation introduced in Section 3.2.
For LLaMA and Llama 2 models, we recommend the following values:
The equation above is found by fitting
The YaRN method combines all our findings and surpasses all previous methods in both fine-tuned and non-fine-tuned scenarios. Thanks to its low footprint, YaRN allows for direct compatibility with libraries that modify the attention mechanism such as Flash Attention 2 [13].
We show that YaRN successfully achieves context window extension of language models using RoPE as its position embedding. Moreover, this result is achieved with only 400 training steps, representing approximately 0.1% of the model’s original pre-training corpus, a 10x reduction from Rozière et al. [31] and 2.5x reduction in training steps from Chen et al. [9], making it highly compute-efficient for training with no additional inference costs. We calculate the perplexity of long documents and score on established benchmarks to evaluate the resulting models, finding that they surpass all other context window extension methods.
We broadly followed the training and evaluation procedures as outlined in [9].
For training, we extended the Llama 2 [39] 7B and 13B parameter models. No changes were made to the LLaMA model architecture other than the calculation of the embedding frequencies as described in 3.4 with
In Code Llama [31], a dataset with 16k context was used with a scale factor set to
We show in 4.3.1 that the
The evaluations focus on three aspects:
To evaluate the long sequence language modeling performances, we use the GovReport [18] and Proof-pile [4] datasets, both of which contain many long sequence samples. For all evaluations, the test splits of both datasets were used exclusively. All perplexity evaluations were calculated using the sliding window method from Press et al. [27] with
Firstly, we evaluated how the model performed as the context window increased. We selected 10 random samples from Proof-pile with at least 128k tokens each and evaluated the perplexity of each of these samples when truncated at 2k steps from a sequence length of 2k tokens through 128k tokens.
Table 1 shows a side-by-side comparison of Llama-2 model extended from 4096 to 8192 context length via PI (LLongMA-2 7b), “NTK-aware” and YaRN. Note that PI and “NTK-aware” models were trained using the methodology in Chen et al. [9], while YaRN used the same methodology but 2.5x less training steps and data, as described in 4.
LLongMA-2 7b [28] is fine-tuned from Llama-2 7b, trained at 8k context length with PI using the RedPajama dataset [12].
Extension Method | Trained Tokens | Context Window | 2048 | 4096 | 6144 | 8192 | 10240 |
---|---|---|---|---|---|---|---|
PI(s=2) | 1B | 8k | 3.92 | 3.51 | 3.51 | 3.34 | 8.07 |
NTK(θ=20k) | 1B | 8k | 4.20 | 3.75 | 3.74 | 3.59 | 6.24 |
YaRN(s=2) | 400M | 8k | 3.91 | 3.50 | 3.51 | 3.35 | 6.04 |
Table 1: Sliding window perplexity (S=256) often 128k Proof-pile documents over Llama-2 extended via PI, NTK and YaRN
We further evaluated YaRN at the scale factor s=16, 32 and compared them against a few open source models fine-tuned from Llama-2 and extended to more than 32k context window such as Together.ai[37] and “NTK-aware” CodeLlama[31]. The results are summarized in Table 2 (with a more detailed plot in Figure 1).
Model Size | Model Name | Context Window | Extension Method | 8192 | 32768 | 65536 | 98304 | 131072 |
---|---|---|---|---|---|---|---|---|
7B | Together | 32k | PI | 3.50 | 2.64 | >10^2 | >10^3 | >10^4 |
7B | CodeLlama | 100k | NTK | 3.71 | 2.74 | 2.55 | 2.54 | 2.71 |
7B | YaRN(s=16) | 64k | YaRN | 3.51 | 2.65 | 2.42 | >10^1 | >10^1 |
7B | YaRN(s=32) | 128k | YaRN | 3.56 | 2.70 | 2.45 | 2.36 | 2.37 |
13B | CodeLlama | 100k | NTK | 3.54 | 2.63 | 2.41 | 2.37 | 2.54 |
13B | YaRN(s=16) | 64k | YaRN | 3.25 | 2.50 | 2.29 | >10^1 | >10^1 |
13B | YaRN(s=32) | 128k | YaRN | 3.29 | 2.53 | 2.31 | 2.23 | 2.24 |
Table 2: Sliding window perplexity (S=256) often 128k Proof-pile documents truncated to evaluation context window size
We observe that the model exhibits strong performance across the entire targeted context size, with YaRN interpolation being the first method to successfully extend the effective context size of Llama 2 to 128k. Of particular note are the YaRN(s=32) models, which show continued declining perplexity through 128k, despite the fine-tuning data being limited to 64k tokens in length, demonstrating that the model is able to generalize to unseen context lengths.
Furthermore, in Appendix B.1, we show the results of the average perplexity on 50 untruncated GovReport documents with at least 16k tokens per sample evaluated on the setting of 32k maximal context window without Dynamic Scaling in Table 4. Similar to the Proof-pile results, the GovReport results show that fine-tuning with YaRN achieves good performance on long sequences.
The passkey retrieval task as defined in [25] measures a model’s ability to retrieve a simple passkey (i.e., a five-digit number) from amongst a large amount of otherwise meaningless text. For our evaluation of the models, we performed 10 iterations of the passkey retrieval task with the passkey placed at a random location uniformly distributed across the evaluation context window on different context window sizes ranging from 8k to 128k. Both 7b and 13b models fine-tuned using YaRN at 128k context size passes the passkey retrieval task with very high accuracy (>99%) within the entire context window size. We show detailed results in Appendix B.2.
The Hugging Face Open LLM Leaderboard [19] compares a multitude of LLMs across a standardized set of four public benchmarks. Specifically, we use 25-shot ARC-Challenge [11], 10-shot HellaSwag [41], 5-shot MMLU [17], and 0-shot TruthfulQA [23]. To test the degradation of model performance under context extension, we evaluated our models using this suite and compared it to established scores for the Llama 2 baselines as well as publicly available PI and “NTK-aware” models. The results are summarized in Table 3.
Model Size | Model Name | Context Window | Extension Method | ARC-c | Hellaswag | MMLU | TruthfulQA |
---|---|---|---|---|---|---|---|
7B | Llama2 | 4k | None | 53.1 | 77.8 | 43.8 | 39.0 |
7B | Together | 32k | PI | 47.6 | 76.1 | 43.3 | 39.2 |
7B | CodeLlama | 100k | NTK | 39.9 | 60.8 | 31.1 | 37.8 |
7B | YaRN(s=16) | 64k | YaRN | 52.3 | 78.8 | 42.5 | 38.2 |
7B | YaRN(s=32) | 128k | YaRN | 52.1 | 78.4 | 41.7 | 37.3 |
13B | Llama2 | 4k | None | 59.4 | 82.1 | 55.8 | 37.4 |
13B | CodeLlama | 100k | NTK | 40.9 | 63.4 | 32.8 | 43.8 |
13B | YaRN(s=16) | 64k | YaRN | 58.1 | 82.3 | 52.8 | 37.8 |
13B | YaRN(s=32) | 128k | YaRN | 58.0 | 82.2 | 51.9 | 37.3 |
Table 3: Performance of context window extensions methods on the Hugging Face Open LLM benchmark suite compared with original Llama 2 baselines
We observe that there is minimal performance degradation between the YaRN models and their respective Llama 2 baselines. We also observe that there was on average a 0.49% drop in scores between the YaRN s=16 and s=32 models. From this we conclude that the iterative extension from 64k to 128k results in negligible performance loss.
In conclusion, we have shown that YaRN improves upon all existing RoPE interpolation methods and can act as a drop-in replacement to PI, with no downsides and minimal implementation effort. The fine-tuned models preserve their original abilities on multiple benchmarks while being able to attend to a very large context size. Furthermore, YaRN allows efficient extrapolation with fine-tuning on shorter datasets and can take advantage of transfer learning for faster convergence, both of which are crucial under compute-constrained scenarios. Finally, we have shown the effectiveness of extrapolation with YaRN where it is able to “train short, and test long”.
To aid in reproducibility, we provide, as supplementary material, the entirety of of the code used to train the YaRN models in Table 2, as well as the evaluation code that produced Figure 1 and Tables 1, 2, 3, 4, and 5. The code also contains implementations of various extension methods referenced throughout the paper. For training YaRN, we used the publicly available PG19 dataset [29] tokenized to 64k tokens.