이 논문은 스위치 트랜스포머의 구조적 간소화와 효율성 증대에 초점을 맞추며, 크고 복잡한 데이터셋를 처리하는 데 필요한 계산 비용을 줄이는 방법을 제시합니다. 이는 효율적인 모델 스케일링과 벤치마킹에 대한 깊은 이해를 바탕으로 수행됩니다.
1. 서론
대규모 훈련이 유연하고 강력한 신경 언어 모델로 이어지며, 복잡한 알고리즘보다 간단한 구조가 더 효과적임을 지지하는 증거가 제시됩니다. 이에 힘입어 스파스한 활성화 전문가 모델인 스위치 트랜스포머를 제안하며, 이는 대규모 훈련 및 효율적인 계산을 목표로 합니다.
2. 스위치 트랜스포머
스위치 트랜스포머는 트랜스포머 모델의 파라미터 수를 최대화하면서 단순하고 계산적으로 효율적인 방법을 제공하며, 본 연구는 모델 크기, 데이터셋 크기 및 계산 예산이 모델 성능에 미치는 영향을 체계적으로 조사합니다.
2.1 스파스 라우팅의 단순화
스위치 트랜스포머에서의 핵심적인 특징은 스파스 라우팅(sparse routing)으로, 이는 각 토큰을 최적의 전문가(expert)에게만 할당하는 방식으로, 이런 접근 방식의 수학적 모델은 다음과 같습니다.
입력 토큰 $x$에 대해, 라우터 $W_r$은 $x$와의 내적을 통해 로짓 벡터 $h(x)$를 생성
\[h(x) = W_r \cdot x\]위 수식에서 $h(x)$는 softmax 함수를 통해 각 전문가에 대한 확률 분포로 정규화되고,
\[p_i(x) = \frac{\exp(h_i(x))}{\sum_{j=1}^N \exp(h_j(x))}\]이 확률값들 중 최대값을 갖는 전문가에게만 토큰이 할당되고, 그 결과는 다음과 같이 계산됩니다.
\[y = \sum_{i \in T} p_i(x)E_i(x)\]위 수식에서 $T$는 선택된 전문가의 집합이며, 일반적으로 최고의 확률값을 가진 하나의 전문가만 포함합니다.
배경 지식 및 연구
이런 스파스 라우팅 방식은 연산량을 크게 줄이면서도 모델의 성능을 유지할 수 있도록 하는데, 이는 모델의 파라미터 수를 늘리면서도 각 예시에 대한 연산량(FLOPs)은 일정하게 유지하는 전략과도 일치합니다. 이런 접근은 하드웨어 자원의 효율적 사용과 직결되며, 특히 TPU와 같은 밀집 행렬 연산에 최적화된 하드웨어에서 높은 효율성을 발휘할 수 있습니다.
2.2 효율적인 스파스 라우팅
Mesh-TensorFlow를 사용하여 효율적인 분산 데이터 및 모델 병렬 구조를 구현합니다. 이 라이브러리는 물리적 코어 집합을 논리적 메시로 추상화하여, 텐서와 연산을 명명된 차원별로 쉽게 분할할 수 있게해 모델의 크기 확장성과 유연성을 크게 향상시킬 수 있습니다.
실험 및 적용
실제 실험에서는 이런 분산 구조를 활용하여 모델의 전문가 용량을 동적으로 조절한 뒤 전문가의 수에 비례하여 토큰이 할당되며, 전문가의 용량은 불균형을 최소화하면서도 연산 효율을 극대화하는 방식으로 설정했다고 합니다.
2.3 통합 및 최적화
스위치 트랜스포머의 성능을 극대화하기 위해, C4 데이터셋을 사용하여 pre-training을 수행하고, 이후 다양한 downstream 작업에 대한 파인튜닝을 진행합니다.
이 과정에서 고려되는 주요 수학적 요소는 손실(loss)의 최적화이며, 손실은 각 전문가에게 할당된 토큰의 균등 분포를 목표로 최소화됩니다.
\[\mathcal{L}_\text{aux} = N \cdot \alpha \cdot \vec{f} \cdot \vec{P}^\top\]위 수식에서 $\vec{f}$는 각 전문가에게 할당된 토큰의 비율을 나타내며, $\vec{P}$는 예상되는 이상적 분포를 나타내는데, 이 손실 함수는 모델 학습 중 전문가 간의 부하를 균등하게 분배하는 데 중요한 역할을 하게 됩니다.
적용 및 결과
스위치 트랜스포머는 모델의 파라미터 수를 크게 늘리면서도 연산 효율을 유지하여, 기존의 밀집 모델 및 다른 MoE 모델들보다 우수한 성능을 달성하였는데, 특히 대규모 모델에서의 메모리 제약 조건 하에서 더욱 두드러지게 나타났습니다.
2.4 훈련 및 파인튜닝 기술 개선
스파스 전문가 모델의 훈련 안정성을 개선하기 위해 선택적 Precision와 파라미터 초기화 기법을 도입합니다. 또한, 더 큰 드롭아웃 비율을 적용하여 파인튜닝 시 오버피팅을 방지합니다.
훈련의 어려움
스파스 전문가 모델은 기본 트랜스포머 대비 훈련 시 안정성 문제를 일으킬 수 있습니다. 각 레이어에서의 하드 스위칭(라우팅) 결정은 모델 불안정의 주요 원인입니다. 또한, 낮은 Precision 형식인 bfloat16은 라우터의 소프트맥스 계산 시 문제를 악화시킬 수 있습니다.
선택적 Precision
이런 문제를 해결하기 위해, 모델의 특정 부분만 float32 Precision로 캐스팅하여 안정성을 확보하면서도, float32 텐서의 비용이 많이 드는 통신 비용을 발생시키지 않도록 설계했습니다. 이는 현대의 혼합 Precision 훈련 전략과 일치합니다. 결과적으로, 접근 방식은 bfloat16 훈련과 거의 동등한 속도를 유지하면서 훈련의 안정성을 높입니다.
파라미터 초기화의 중요성
스위치 트랜스포머에 적합한 초기화는 깊은 학습에서 성공적인 훈련을 위해 중요합니다. 가중치 행렬을 초기화할 때 평균이 \(\mu = 0\)이고 표준 편차가 \(\sigma = \sqrt{s/n}\)인 절단 정규 분포에서 요소를 추출합니다. 위 수식에서 \(s\)는 스케일 하이퍼파라미터이고, \(n\)은 가중치 텐서의 입력 유닛 수입니다. 불안정성을 추가로 줄이기 위해 기본 트랜스포머 초기화 스케일 \(s = 1.0\)을 10분의 1로 줄이는 것을 권장합니다.
스파스 모델의 규제
대규모 코퍼스에서 사전 훈련 후, 요약이나 질문 응답과 같은 더 작은 downstream 작업에 파인튜닝을 적용하는 일반적인 NLP 접근 방식을 고려합니다. 표준 트랜스포머와 비교할 때 스위치 트랜스포머는 훨씬 많은 파라미터를 가지고 있으므로 이런 작은 downstream 작업에서 더 심각한 오버피팅 문제가 발생할 수 있습니다. 이 문제를 해결하기 위해 전문가 레이어에서 드롭아웃율을 크게 늘리는 것을 제안합니다. 이런 전문가 드롭아웃은 훈련 동안 성능을 향상시킵니다.
3. 스위치 트랜스포머의 규모 확장 속성 분석
3.1 스텝 기반 규모 확장 결과
스위치 트랜스포머의 핵심 전략 중 하나는 토큰당 하나의 전문가만을 선택하여 연산 비용을 고정시키는 것으로, 이 접근 방식은 다음 수식으로 표현될 수 있습니다.
\[\text{Cost} = O(d_{\text{model}} \times \text{num experts})\]상기 수식에서 \(d_{\text{model}}\)은 토큰 간 전달되는 임베딩 차원을 나타내며, 이는 전문가의 수에 비례하여 증가하게 됩니다.
이 모델은 큰 데이터셋인 C4 코퍼스를 사용하여 훈련되었으며, 토큰의 수는 180B에 달합니다.
수학적 배경과 논리
이 모델은 다음과 같은 수학적 원리에 기초하여 설계되었습니다.
이런 결과는 트랜스포머의 샘플 효율성이 증가함을 보여줍니다.
이는 토큰당 고정된 FLOPS를 유지하면서 모델의 전문가 수를 증가시킬 때, 학습 속도가 7.5배 가량 향상됨을 의미합니다.
3.2 시간 기반 규모 확장 결과
이 섹션에서는 시간 대비 성능을 측정하여, 동일한 연산 예산을 가진 밀집 모델과 비교합니다. 스위치 트랜스포머는 추가적인 라우팅 메커니즘과 장치 간의 통신 비용에도 불구하고, 단계별 성능 향상을 보여줍니다.
\[\text{Training time efficiency} = \frac{\text{Performance}}{\text{Time}}\]스위치 트랜스포머는 동일한 훈련 시간과 계산 예산을 사용하여 밀집 트랜스포머 Baseline Model보다 7배 빠른 시간 안에 동일한 성능을 달성합니다.
3.3 더 큰 밀집 모델과의 비교
스위치 트랜스포머와 비교하여 더 큰 밀집 모델을 훈련시키는 시나리오를 고려해 본다. T5-Large 모델은 토큰당 3.5배 더 많은 FLOPS를 사용하며, 스위치-베이스는 여전히 더 높은 샘플 효율성을 보여주며 2.5배 빠른 속도를 제공합니다.
4 Downstream task 결과
4.1 파인튜닝
기본선 및 스위치 모델의 파인튜닝
T5-Base (223M 파라미터)와 T5-Large (739M 파라미터)는 기존 연구(Raffel et al., 2019)의 향상된 C4 코퍼스에서 pre-trained 후 다양한 NLP 태스크에 파인튜닝되었습니다. 이들 기본선과 비교하여, FLOP 수치가 일치하는 스위치 트랜스포머 모델을 설계하여 더 많은 파라미터를 사용하였습니다. 스위치 레이어를 제외한 모든 레이어에서는 0.1의 드롭아웃 비율을 사용하고, 스위치 레이어에서는 0.4의 드롭아웃 비율을 적용하였습니다. 파인튜닝은 각 태스크별로 1M의 배치 크기로 16k 스텝 동안 수행되며, 200 스텝마다 모델의 품질을 평가하여 검증 세트에서의 최고 성능을 보고합니다.
\[\text{Dropout rate:}\quad p_{\text{other}} = 0.1, \quad p_{\text{switch}} = 0.4\]파인튜닝 태스크 및 데이터셋
언어 능력을 평가하기 위한 태스크로는 질문 응답, 요약, World Knowledge 등이 포함되며, 이런 태스크는 GLUE 및 SuperGLUE 벤치마크를 통해 평가되었습니다. 이 벤치마크는 감정 분석, 단어 의미 구별, 문장 유사성, 자연어 인퍼런스 등 다양한 하위 태스크를 포함합니다. 또한, 문서 요약 능력은 CNNDM 및 BBC XSum 데이터셋를 통해, 질문 응답 능력은 SQuAD 및 ARC Reasoning Challenge를 통해 평가되었습니다.
파인튜닝 결과
GLUE와 SuperGLUE에서의 개선이 두드러졌으며, 스위치 변형 모델이 T5-Base 및 T5-Large 대비 각각 4.4 및 2 퍼센트 포인트 향상되었습니다. 또한, Winogrande, Trivia QA, XSum에서 큰 향상을 보였습니다. 이런 결과는 스위치 아키텍처가 단순히 사전 훈련에서 우수한 성능을 나타내는 것뿐만 아니라, 파인튜닝을 통해 Downstream task 태스크에서도 품질 향상을 실현할 수 있음을 입증합니다.
4.2 증류(Distillation) 이 섹션에서 소개하는 증류는 대규모 스파스 모델(sparse models)을 조밀한 모델로 증류하는 것을 의미하며, 실험 결과 스파스 모델의 비전문가 레이어에서 초기화된 조밀 모델은 약간의 성능 향상을 보였으며, 이는 모든 모델이 FLOP 수치가 일치하기 때문에 가능한 방법이였다고 합니다. teacher 확률 0.25와 실제 레이블 0.75의 혼합을 사용한 증류는 큰 스파스 모델의 약 30% 품질 향상을 조밀 모델로 이전할 수 있었습니다.
\[\text{Teacher probability:}\quad \alpha = 0.25, \quad \text{Actual label:}\quad \beta = 0.75\]가능한 압축률
스위치 베이스 모델을 다양한 크기의 조밀 모델로 증류할 때, 1.1B 파라미터 모델의 품질 향상 37%를 유지하며 82% 압축하는 결과를 얻었습니다. 더 극단적인 경우, 모델을 99% 압축하더라도 teacher 모델의 28% 성능 향상을 유지할 수 있었습니다.
4.3 다국어 학습
모델 품질 및 속도 절충 분석
101가지 다양한 언어에 대한 사전 훈련을 통해 모델 품질과 속도 절충을 측정하였습니다. mT5의 최근 연구를 기반으로 다국어 T5 확장 버전인 mSwitch-Base를 개발하였습니다. 1M 스텝 동안의 사전 훈련 후, 모든 101개 언어에서 기본 모델 대비 최종 음의 로그 우도에서의 품질 개선을 확인하였습니다. 이는 스위치 트랜스포머가 다양한 태스크 및 다국어 학습에서 효과적임을 입증합니다.
5. 데이터, 모델 및 전문가 병렬 처리를 활용한 모델 설계
5.1 데이터 병렬성
데이터 병렬 모델은 분산 훈련의 표준 방법으로, 모든 코어가 데이터 병렬 차원에 할당됩니다(\(n = N\), \(m = 1\)). 이 구성은 모든 전진 및 후진 패스가 완료될 때까지 통신이 필요 없다는 장점이 있으며, gradient는 전체 패스가 끝난 후에만 집계됩니다.
5.2 모델 병렬성
모델 병렬 차원에 모든 코어를 할당할 때(\(n = 1\), \(m = N\)), 각 코어는 전체 \(\mathcal{B}\) 토큰을 유지하며 각 코어는 가중치의 고유한 슬라이스를 포함합니다. 이 구조는 모든 전진 및 후진 패스에 통신 비용을 발생시키며, 분할된 차원이 합산되어야 할 때마다 전방 및 후방 패스에 all-reduce 연산을 추가합니다.
5.3 모델 및 데이터 병렬성
큰 규모의 모델에는 일반적으로 모델 및 데이터 병렬성이 혼합됩니다. 총 코어 수 \(N = n \times m\)가 되며, 이제 각 코어는 \(\mathcal{B}/n\) 토큰과 \(d_\text{ff}/m\)의 가중치 및 중간 활성화를 담당합니다. 각 패스에서 각 코어는 크기가 \([\mathcal{B}/n, d_\text{model}]\)인 텐서를 통신하며 all-reduce 연산을 수행합니다.
5.4 전문가 및 데이터 병렬성
전문가 및 데이터 병렬 차원 \(n\)에 모든 코어를 할당하며, 이는 모델의 전문가 수와도 일치합니다. 각 코어는 로컬로 전문가에 대한 할당을 계산하고, 결과는 크기가 \([n, \mathcal{B}/n, E, C]\)인 이진 행렬로 나타나며, 이는 첫 번째 차원을 따라 분할됩니다. 이 이진 행레을 통해 입력 텐서와 행렬 곱셈을 수행하여 최종 텐서 \([n, E, C, d_\text{model}]\)을 형성합니다.
5.5 전문가, 모델 및 데이터 병렬성
모델의 최적 설계에서는 토큰당 FLOPs와 파라미터 수를 균형있게 조정합니다. 전문가 수 \(E\)를 증가시키면 파라미터 수는 증가하지만 토큰당 FLOPs는 변경되지 않습니다. FLOPs를 증가시키기 위해서는 \(d_\text{ff}\) 차원을 증가시켜야 합니다. 이는 파라미터 수를 증가시키지만, 더 느린 비율로 증가합니다. \(d_\text{ff}\)를 증가시키면 코어 당 메모리가 부족해지므로 \(m\)을 증가시켜야 합니다. 그러나 코어 수 \(N\)이 고정되어 있으므로, \(n\)을 감소시켜야 하며 이는 코어 당 더 작은 배치 크기를 강제합니다.
수학적 인퍼런스 및 논증
\[\begin{align*} \text{Let } \mathcal{B} &\text{ be the batch size, } d_\text{model} \text{ and } d_\text{ff} \text{ be model dimensions, and } N \text{ be total cores.} \\ \text{Then, for data parallelism: } &n = N \text{ and } m = 1, \text{ no inter-core communication is required until gradient aggregation.} \\ \text{For model parallelism: } &n = 1 \text{ and } m = N, \text{ inter-core communication is required for each pass.} \\ \text{For expert and data parallelism: } &n = \text{number of experts, } E = \text{expert capacity. Each core calculates its own expert assignments locally.} \\ \text{In combining model and expert parallelism, } &\text{communication costs arise from token routing and internal model communications.} \end{align*}\]이런 모든 전략은 계산 및 메모리 효율성을 최대화하면서 복잡한 모델을 효과적으로 학습하는 데 중요하며, 각 차원과 할당 전략의 수학적 이해가 필수적입니다.
6. 관련 연구
이 섹션에서는 신경망의 규모 확장과 관련된 다양한 기존 연구와 그 방법을 소개하고, 조건부 계산을 사용하여 이를 효과적으로 구현하는 현대적 접근 방식을 분석했습니다.
배경 및 선행연구
신경망에서 규모의 중요성은 널리 인식되어 왔으며, 파라미터가 수십억에 이르는 모델을 확장하는 여러 접근 방식이 제안되었습니다.
특히 모델 병렬 처리는 여러 코어에 가중치와 텐서를 분할하여 계산 부담을 분산시키는 방법으로 사용됩니다(Shazeer et al., 2018; Rajbhandari et al., 2019; Raffel et al., 2019; Brown et al., 2020; Shoeybi et al., 2019).
또한, Harlap et al. (2018)과 Huang et al. (2019)은 파이프라인 기반의 모델 병렬 처리를 제안하여 다른 레이어를 다른 디바이스에 분할하고 마이크로 배치를 파이프라인으로 처리하는 방식을 소개했습니다.
문제 정의 및 접근 방법
본 연구는 입력에 기반하여 동적으로 계산 결정을 내리는 조건부 계산 방식을 사용하는 특정 모델 클래스를 연구합니다.
이전 연구들에서 Cho와 Bengio (2014)는 모델의 hidden state에서 발생하는 특정 비트 패턴에 기반하여 가중치를 선택적으로 사용하는 방법을 제안했습니다.
또한, Eigen et al. (2013)은 밀집 행렬 곱셈과 ReLU 활성화를 통해 전문가 층을 쌓아 MNIST와 단조로운 음성 데이터에 대해 유망한 결과를 보여주었습니다.
컴퓨터 비전 분야에서는 Puigcerver et al. (2020)이 upstream 사전 훈련 동안 의미적 클래스에 기반하여 토큰을 수동으로 라우팅하고, downstream task 작업에 따라 관련 전문가를 선택적으로 사용하는 방법을 연구했습니다.
방법 및 수학적 논증
전문가 혼합(Mixture of Experts, MoE) 방식은 현대 심층 학습 구조에서 효과적임이 입증되었습니다(Shazeer et al., 2017). 이 연구에서는 LSTM 층 사이에 MoE 층을 추가하여 토큰을 전문가 조합으로 별도 라우팅하였으며, 이는 언어 모델링 및 기계 번역 벤치마크에서 최고의 결과를 달성했습니다. 이 MoE 층은 나중에 Transformer 구조로 재도입되었으나 NLP 결과는 동반되지 않았습니다(Shazeer et al., 2018). 최근의 머신러닝 인프라 발전을 통해 GShard(Lepikhin et al., 2020)는 XLA 컴파일러를 확장하여 100개 언어에 걸친 기계 번역을 향상시켰습니다. Fan et al. (2021)은 모델 파라미터를 언어 그룹별로 겹치지 않게 분할하는 다른 결정적 MoE 전략을 선택했습니다.
연구 결과 및 시사점
Transformer의 시퀀스 길이 차원에서의 희소성은 성공적인 기술로, Attention의 복잡성을 \(O(L^2)\)에서 감소시켜 이전에 가능했던 것보다 더 긴 시퀀스의 학습을 가능하게 했습니다(Child et al., 2019; Correia et al., 2019; Sukhbaatar et al., 2019; Kitaev et al., 2020; Zaheer et al., 2020; Beltagy et al., 2020). 이번 버전의 Switch Transformer는 Attention의 희소성을 사용하지 않지만, 이 기술은 보완적이며, 장기적으로 이를 결합하여 long context을 요구하는 작업에서 학습을 개선할 가능성이 있습니다.
스위치 트랜스포머는 규모 확장성이 뛰어나며, 추가적인 통신 비용과 라우팅 계산에도 불구하고 다양한 언어와 태스크에서 더 빠른 학습 속도와 높은 성능을 보였습니다.
