00:00:00

Share Your Feedback 🏝️

Semiparametric Token-Sequence

Semiparametric Token-Sequence

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Model, MoE | DeepSeek-v2 Next: Spectral Editing of Activations for Large Language Model Alignment

Semiparametric Token-Sequence

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-05-05

Semiparametric Token-Sequence Co-Supervision

  • url: https://arxiv.org/abs/2403.09024
  • pdf: https://arxiv.org/pdf/2403.09024
  • html https://arxiv.org/html/2403.09024v1
  • github: https://github.com/deepseek-ai/DeepSeek-V2
  • abstract: In this work, we introduce a semiparametric token-sequence co-supervision training method. It trains a language model by simultaneously leveraging supervision from the traditional next token prediction loss which is calculated over the parametric token embedding space and the next sequence prediction loss which is calculated over the nonparametric sequence embedding space. The nonparametric sequence embedding space is constructed by a separate language model tasked to condense an input text into a single representative embedding. Our experiments demonstrate that a model trained via both supervisions consistently surpasses models trained via each supervision independently. Analysis suggests that this co-supervision encourages a broader generalization capability across the model. Especially, the robustness of parametric token space which is established during the pretraining step tends to effectively enhance the stability of nonparametric sequence embedding space, a new space established by another language model.

Contents

TL;DR


  1. 다중 임베딩 공간 활용: 언어 모델의 표현력을 확장하기 위해 파라메트릭 토큰 임베딩과 비파라메트릭 시퀀스 임베딩을 동시에 사용하는 반중첩 토큰-시퀀스 공동 감독 방법을 제안.
  2. 다음 토큰 예측(NTP)과 다음 시퀀스 예측(NSP)을 결합하여 모델의 일반화 능력과 견고성을 향상.
  3. KILT와 ALCE 벤치마크 실험에서 반중첩 공동 감독을 통해 훈련된 모델이 개별 감독 모델보다 우수한 성능을 보임.

1. 기존 연구 및 배경

언어 모델은 특히 다양한 모델을 정렬하는 방법에 대한 연구가 활발히 이루어져 왔습니다. 예를 들어, 시각적 모델과 언어 모델을 연결하거나 다국어 모델을 통해 다양한 언어 간의 연결을 구현하는 등 여러 멀티모달 작업이 진행되었습니다. 또한, 비파라메트릭 임베딩을 통합하는 방법이 언어 모델의 표현력을 증가시키고, 정확하고 사실적인 내용 생성에 도움을 주며, 드문 사례나 보이지 않는 경우에 우수한 성능을 보이는 것으로 나타났습니다.

1.1. 다음 토큰 예측 (Next Token Prediction, NTP)

다음 토큰 예측은 언어 모델의 기본적인 작동 원리입니다. 언어 모델은 주어진 토큰 시퀀스 \(t_1, \dots, t_k\)를 입력받아, 다음 토큰 \(t\)에 대한 확률 분포를 예측합니다. 이 과정은 모델의 hidden state \(q_k\)를 통해 수행되며, 각 토큰은 어휘 사전 \(V\)에 속합니다. 수식으로 표현하면 다음과 같습니다.

\(q_k = \text{LM}(t_1, \dots, t_k)\) \(P(t | t_1, \dots, t_k) = \text{softmax}(W_V q_k)\)

수식에서 \(W_V\)는 어휘 사전의 크기에 해당하는 임베딩 매트릭스입니다. 이는 언어 모델 헤드에 의해 계산됩니다.

1.2. 다음 시퀀스 예측 (Next Sequence Prediction, NSP)

다음 시퀀스 예측은 언어 모델을 확장하여 비파라메트릭 시퀀스 임베딩 공간 \(W_C\)를 사용합니다. 이 공간은 다른 언어 모델 \(\text{Embseq}\)에 의해 구성되며, 전체 입력 텍스트를 대표하는 단일 임베딩으로 압축됩니다. 이는 다음과 같이 수식으로 표현됩니다.

\(s = \text{Embseq}(C)\) \(P(s | t_1, \dots, t_k) = \text{softmax}(W_C q_k)\)

수식에서 \(C\)는 가능한 모든 시퀀스의 집합을 나타내며, \(W_C\)는 시퀀스 임베딩 매트릭스입니다.

1.3. 공동 감독 (Co-Supervision)

공동 감독은 NTP와 NSP를 통합하여 언어 모델 \(\text{Gen}\)을 동시에 훈련시키는 방법입니다. 이 방법은 다음과 같이 두 가지 손실 함수를 사용합니다.

NTP 손실 (L_NTP):

\[L_{\text{NTP}} = -\sum_{t_i \in X} \log P_{\text{Gen}}(t_i | t_{<i})\]

NSP 손실 (L_NSP) - InfoNCE 손실 사용:

\[L_{\text{NSP}} = -\log \frac{\exp(\text{sim}(q, c_+))}{\exp(\text{sim}(q, c_+)) + \sum_{j=1}^{M-1} \exp(\text{sim}(q, c_{-j}))}\]

상기 수식에서 \(c_+\)는 관련 시퀀스 임베딩, \(c_{-j}\)는 관련 없는 시퀀스 임베딩을 나타냅니다. \(\text{sim}\)은 두 임베딩 간의 유사도를 계산하는 함수입니다.

1.4. 총 손실 계산

최종적으로 언어 모델의 손실은 NTP 손실과 NSP 손실의 가중합으로 계산됩니다.

\[L_{\text{co-supervision}} = L_{\text{NTP}} + \lambda L_{\text{NSP}}\]

수식에서 \(\lambda\)는 두 손실 간의 균형을 맞추는 가중치로, 이런 수학적 접근은 모델이 양쪽 임베딩 공간에서 얻은 지식을 효과적으로 통합하여 사용하도록 함으로써, 언어 모델의 일반화 능력을 높이고 robust하게 만드는 데 기여할 수 있습니다.


2. 반중첩 토큰-시퀀스 공동 감독의 도입

이 연구에서 제안하는 방법은 기존의 다음 토큰 예측(NTP)과 함께 비파라메트릭 시퀀스 임베딩 공간에서 계산되는 다음 시퀀스 예측(NSP)을 통해 언어 모델을 훈련합니다. 이 두 감독 신호는 모델이 토큰과 시퀀스 수준에서 지식을 동시에 활용할 수 있게 하여, 모델의 일반화 능력과 견고성을 크게 향상시킵니다.


3. 구현 및 실험

실험은 KILT와 ALCE 벤치마크의 10개 정보 탐색 데이터셋을 사용하여 수행되었습니다. 결과는 반중첩 공동 감독을 통해 훈련된 모델이 개별적인 감독으로 훈련된 모델보다 우수한 성능을 보이는 것을 확인하였습니다. 특히, 모델은 비파라메트릭 공간에서 얻은 지식을 활용하여 생성 작업을 수행할 때 더 효과적이었습니다.


4. 결론 및 향후 연구 방향

반중첩 토큰-시퀀스 공동 감독은 언어 모델의 파라메트릭 및 비파라메트릭 임베딩 공간을 효과적으로 통합하여 모델의 성능을 향상시킬 수 있는 우수한 메커니즘을 제공합니다.

Previous: Model, MoE | DeepSeek-v2 Next: Spectral Editing of Activations for Large Language Model Alignment

post contain ""

    No matching posts found containing ""