00:00:00

Share Your Feedback 🏝️

Model | Yi Tech Report

Model | Yi Tech Report

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: LLM Multilingualism** Next: Model | Orca Math

Model | Yi Tech Report

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-03-08

Yi: Open Foundation Models by 01.AI

url: https://arxiv.org/abs/2403.04652 pdf: https://arxiv.org/pdf/2403.04652 html: https://arxiv.org/html/2403.04652v1 abstract: We introduce the Yi model family, a series of language and multimodal models that demonstrate strong multi-dimensional capabilities. The Yi model family is based on 6B and 34B pretrained language models, then we extend them to chat models, 200K long context models, depth-upscaled models, and vision-language models. Our base models achieve strong performance on a wide range of benchmarks like MMLU, and our finetuned chat models deliver strong human preference rate on major evaluation platforms like AlpacaEval and Chatbot Arena. Building upon our scalable super-computing infrastructure and the classical transformer architecture, we attribute the performance of Yi models primarily to its data quality resulting from our data-engineering efforts. For pretraining, we construct 3.1 trillion tokens of English and Chinese corpora using a cascaded data deduplication and quality filtering pipeline. For fine-tuning, we polish a small scale (less than 10K) instruction dataset over multiple iterations such that every single instance has been verified directly by our machine learning engineers. For vision-language, we combine the chat language model with a vision transformer encoder and train the model to align visual representations to the semantic space of the language model. We further extend the context length to 200K through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. We show that extending the depth of the pretrained checkpoint through continual pretraining further improves performance. We believe that given our current results, continuing to scale up model parameters using thoroughly optimized data will lead to even stronger frontier models.

TL;DR


  1. 문제와 해결 방법: 대규모 언어모델의 성능과 효율성 간의 균형을 맞추기 위해 Yi 모델 시리즈(6B 및 34B) 개발.
  2. 수학적 접근: 최적의 데이터 및 모델 규모 설정을 통해 효율적인 학습과 인퍼런스를 달성.
  3. 주요 방법: 데이터 정제, 모델 양자화, 다양한 벤치마크 평가로 성능 확인.

서론

대규모 언어모델의 최신 혁신은 AI 분야 전체에 혁명을 일으키고 있으며, 이는 인류 사회 전반에 걸쳐 광범위하게 영향을 미치고 있다. 대규모 언어모델이 차세대 컴퓨팅 플랫폼이 되어 커뮤니티에 크게 확장된 지능을 제공할 수 있도록 하는 비전을 가지고 있다. 이를 위한 첫걸음으로, 3.1조개의 정교한 데이터로 pre-training된 6B 및 34B 언어 모델인 Yi 모델 시리즈를 소개한다. 이 모델은 소량의 고도로 정제된 데이터로 파인튜닝되어 GPT-3.5 수준의 벤치마크 점수와 휴먼 선호(human preference)도를 달성한다.


문제 정의 및 연구 동기

문제 정의

대규모 언어모델은 성능과 비용 사이의 균형을 맞추기 어려운 과제가 있다. 특히, 소비자급 하드웨어에서의 인퍼런스 가능성을 고려할 때 모델의 크기와 데이터의 질, 그리고 학습 방법의 최적화를 필요로 한다.

연구 동기

기존의 모델들은 크기와 성능 간의 균형을 맞추기 위해 다양한 접근 방식을 시도했으나, 높은 비용과 성능 저하의 문제가 있었다. 따라서, 성능을 유지하면서도 비용을 절감할 수 있는 모델을 개발하고자 한다.


선행 연구

기존 연구에서는 대규모 언어모델의 성능을 개선하기 위해 다양한 방법이 제안되었다. 특히, Chinchilla, LLaMA와 같은 모델들은 데이터의 양과 모델의 크기를 최적화하여 성능을 개선하려고 했다. 그러나 이들 모델들은 여전히 비용이 높고, 데이터 품질 관리에 대한 체계적인 접근이 부족했다.


연구 방법

모델 스케일링

Yi 모델 시리즈는 34B 모델을 선택하여 성능과 비용의 균형을 맞추었다. 이는 RTX 4090과 같은 소비자급 하드웨어에서 인퍼런스 가능하도록 설계되었다.

데이터 처리

Yi 모델의 사전 훈련에 사용된 데이터는 3.1T 토큰에 달하는 대규모 데이터셋으로, 세밀한 데이터 정제 과정을 거쳤다. 이 과정은 언어 식별, 문서 길이, 중복 제거 등 여러 단계로 구성된다. 예를 들어, 문서의 복잡성을 평가하기 위해 MinHash와 정확한 일치를 기반으로 중복을 제거하는 과정은 다음과 같은 수학적 원리에 기반한다.

\[\text{MinHash}(A) = \min(\text{hash}(x)) \quad \forall x \in A\]

상기 식에서 \(A\)는 문서의 집합, \(x\)는 문서 내의 단어이다. 이런 수학적 접근은 중복된 내용을 효과적으로 식별하고 제거하는데 핵심적인 역할을 한다.

데이터 스케일링

34B 모델은 Chinchilla와 LLaMA보다 작은 크기를 가지므로, 3.1조개의 토큰으로 pre-training하여 연산 성능 저하를 보완하였다.

데이터 품질 관리

데이터 품질을 보장하기 위해 정교한 데이터 클리닝 파이프라인을 사용하였고, 데이터 중복 제거를 강화하였다. 이를 통해 데이터의 양보다는 질을 우선시하는 접근을 취하였다.

모델 아키텍처

Yi 모델은 표준 Transformer 아키텍처를 기반으로 하며, Grouped-Query Attention(GQA), SwiGLU 활성화 함수, RoPE ABF를 사용하였다. 이런 설계는 최신 연구 결과들을 반영한 것이다.

각 레이어는 다음의 수학적 표현을 사용하여 구성된다.

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\text{QK^T}{\sqrt{d_k}}\right)V\]

상기 식에서 \(Q, K, V\)는 각각 쿼리, 키, 밸류를 나타내며, \(d_k\)는 키 벡터의 차원이다.

데이터 정제

데이터 정제는 언어, 텍스트의 특성, 복잡성, 주제, 안전성 등을 기반으로 한 필터링과 중복 제거로 구성된다. 예를 들어, 다음과 같은 필터링 방법을 사용하였다.

\[\text{Quality Score} = \sum_{i=1}^{n} w_i x_i\]

상기 수식에서 $w_i$는 각 필터링 조건의 가중치이고, $x_i$는 해당 조건의 점수이다. 이 점수가 일정 기준 이상인 데이터만을 학습에 사용하였다.

학습 방법

사전 훈련은 정제된 고품질 데이터를 사용하여 진행되었다. 훈련 과정에서는 손실 함수를 최소화하는 방향으로 모델 파라미터를 조정한다.

\[L( ext) = -\sum_{i} \log P(w_i | w_{i-1}, ..., w_1; \theta)\]

상기 식에서 \(L( ext)\)는 손실 함수, \(P\)는 조건부 확률, \(w_i\)는 단어, \(\theta\)는 모델 파라미터이다.

Yi 모델의 학습은 다음과 같은 수식으로 표현된다.

\[L( ext) = -\sum_{i=1}^{N} \log P_\theta(y_i \\| x_i)\]

상기 수식에서 $L( ext)$는 손실 함수이고, $P_\theta(y_i | x_i)$는 주어진 입력 $x_i$에 대한 출력 $y_i$의 확률로, 손실 함수를 최소화하는 방향으로 모델을 학습시켰다.

Previous: LLM Multilingualism** Next: Model | Orca Math

post contain ""

    No matching posts found containing ""