00:00:00

Share Your Feedback 🏝️

Analyzing | Pythia

Analyzing | Pythia

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: DPO | Token DPO** Next: Survey | A Survey on Knowledge Distillation LLM

Analyzing | Pythia

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-04-24

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

  • url: https://arxiv.org/abs/2304.01373
  • pdf: https://arxiv.org/pdf/2304.01373
  • abstract: How do large language models (LLMs) develop and evolve over the course of training? How do these patterns change as models scale? To answer these questions, we introduce \textit{Pythia}, a suite of 16 LLMs all trained on public data seen in the exact same order and ranging in size from 70M to 12B parameters. We provide public access to 154 checkpoints for each one of the 16 models, alongside tools to download and reconstruct their exact training dataloaders for further study. We intend \textit{Pythia} to facilitate research in many areas, and we present several case studies including novel results in memorization, term frequency effects on few-shot performance, and reducing gender bias. We demonstrate that this highly controlled setup can be used to yield novel insights toward LLMs and their training dynamics. Trained models, analysis code, training code, and training data can be found at URL.

Contents

TL;DR


대규모 언어모델 분석을 위한 Pythia 스위트

  • 핵심 기능: 다양한 크기의 디코더 전용 자기회귀 언어 모델을 제공하여 과학적 연구를 촉진
  • 데이터 및 중간 체크포인트: 모든 데이터와 모델 학습 체크포인트를 공개적으로 제공

1. 서론

최근 대규모 트랜스포머 모델은 자연어 처리뿐만 아니라 이미지 생성, 단백질 모델링, 프로그래밍 등 여러 분야에서 우수한 성능을 보여주었습니다. 그러나 이런 모델들이 왜, 어떻게 효과적인지에 대한 이해는 아직 초기 단계에 있습니다. 특히, 이런 모델들의 학습 동작과 스케일링 동작을 연결짓는 연구는 제한적입니다. 이런 연구 공백을 메우기 위해, 본 논문에서는 과학적 연구를 위한 공개 언어 모델 스위트인 Pythia를 소개합니다.

2. 방법

2.1. Pythia 모델 스위트의 특징

  • 모델 범위: 70M에서 12B 파라미터에 이르는 다양한 크기의 모델 제공
  • 일관된 training dataset: 모든 모델이 동일한 데이터를 동일한 순서로 학습
  • 공개 접근성 및 중간 체크포인트 제공: 연구자들이 이론을 테스트할 수 있도록 설계

2.2. 데이터셋 및 학습 절차

모든 모델은 ‘더 파일’(The Pile)이라는 공개 데이터셋에서 학습되었는데, 이 데이터셋은 광범위하게 사용되며, 고품질의 영어 텍스트를 포함하고 있습니다. 학습은 두 가지 버전의 데이터셋에서 수행되었는데, 하나는 원본 데이터셋이고 다른 하나는 중복 제거된 데이터셋입니다.

[The Pile 활용 색인마킹]

2.3. 학습 아키텍처 및 하이퍼파라미터

Pythia는 최신 트레이닝 기법을 적용하여 모든 모델에 대해 일관된 아키텍처 및 학습 프로토콜을 사용하였습니다. 주목할만한 특징으로는 Flash Attention, Rotation Positional Embedding, 병렬화된 attention 및 피드포워드 네트워크가 있습니다.

3. 연구 결과 및 향후 방향

3.1. 성 편향 완화

Pythia를 사용하여 성 편향이 언어 모델 학습에 어떻게 영향을 미치는지 조사했습니다. 실험을 통해, 모델 training dataset의 성별 용어 빈도를 조정함으로써 모델의 성 편향을 줄일 수 있음을 확인했습니다.

3.2. 암기 현상

데이터의 위치가 모델에 의한 암기 가능성에 영향을 미치는지 여부를 조사했습니다. 결과적으로, training dataset의 순서가 암기에 미치는 영향은 거의 없다는 것을 발견했습니다.

3.3. pre-training 빈도와 작업 성능의 상관관계

모델의 크기와 학습 과정에서 pre-training 용어 빈도가 특정 작업에서 모델의 성능에 미치는 영향을 분석했습니다. 큰 모델에서 더 명확한 상관관계가 관찰되었습니다.

Previous: DPO | Token DPO** Next: Survey | A Survey on Knowledge Distillation LLM

post contain ""

    No matching posts found containing ""