00:00:00

Share Your Feedback 🏝️

Model | YAYI 2 (Multilingual)

Model | YAYI 2 (Multilingual)

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Model | Qwen Audio Next: Model, MoE | DeepSeekMoE

Model | YAYI 2 (Multilingual)

  • Related Project: Private
  • Category: Paper Review
  • Date: 2023-12-23

YAYI 2: Multilingual Open-Source Large Language Models

  • url: https://arxiv.org/abs/2312.14862
  • pdf: https://arxiv.org/pdf/2312.14862
  • abstract: As the latest advancements in natural language processing, large language models (LLMs) have achieved human-level language understanding and generation abilities in many real-world tasks, and even have been regarded as a potential path to the artificial general intelligence. To better facilitate research on LLMs, many open-source LLMs, such as Llama 2 and Falcon, have recently been proposed and gained comparable performances to proprietary models. However, these models are primarily designed for English scenarios and exhibit poor performances in Chinese contexts. In this technical report, we propose YAYI 2, including both base and chat models, with 30 billion parameters. YAYI 2 is pre-trained from scratch on a multilingual corpus which contains 2.65 trillion tokens filtered by our pre-training data processing pipeline. The base model is aligned with human values through supervised fine-tuning with millions of instructions and reinforcement learning from human feedback. Extensive experiments on multiple benchmarks, such as MMLU and CMMLU, consistently demonstrate that the proposed YAYI 2 outperforms other similar sized open-source models.

[Multilingual 다국어 관련 파인튜닝 회복(Recovery) 등 색인마킹]


TL;DR


  • 다국어 대규모 언어모델(YAYI 2)의 학습과 최적화: YAYI 2는 다양한 언어와 데이터 포맷에 대응하기 위해 설계된 30B 모델이며, 토크나이저와 어텐션 메커니즘을 사용한다.
  • 수학적 논리와 수식의 적용: Byte-Pair Encoding (BPE) 알고리즘을 통해 토크나이저를 학습시키며, MQA와 SwiGLU를 활용하여 모델의 학습 효율과 정확성을 높인다.
  • 성능 평가 및 Fine-Tuning: 다양한 벤치마크와 휴먼의 피드백을 통해 모델의 응답을 조정하고, 특히 긴 문맥과 멀티턴 대화에서의 성능을 강화한다.

크게 주목할 내용은 없지만, 토크나이저 변경 이후 성능 회복 등에 대한 것을 체크할 수 있음.

토크나이저 변경 후 추가 학습한 것 관련 내용 확인


1. 서론 및 모델 개요

YAYI 2는 다국어 대응이 가능하며, 강력한 training dataset와 최신 어텐션 메커니즘을 이용하여 빠른 학습 속도와 높은 효율을 자랑한다. 모델의 주요 목표는 다양한 언어와 전문적인 지식을 습득하는 것이며, 이를 위해 인터넷 데이터와 도메인 특화 데이터를 활용한다.

2. 프리트레이닝 과정

2.1 프리트레이닝 데이터

데이터는 240TB의 원시 데이터에서 시작하여 정제 과정을 거쳐 10.6TB의 고품질 데이터로 축소된다. 데이터 정제 과정은 정규화, 휴리스틱 클리닝, 다단계 중복 제거, 독성 필터링으로 구성된다. 이 과정은 데이터의 질을 크게 향상시킨다.

2.2 토크나이저 및 어휘 사전

YAYI 2의 토크나이저는 80,000개의 어휘를 포함하고 있으며, Byte-Pair Encoding (BPE) 알고리즘을 사용하여 학습된다. 이는 다양한 언어에 대한 모델의 이해도를 높이고, 수학적 인퍼런스를 용이하게 한다.

3. 모델 아키텍처 및 트레이닝

3.1 모델 아키텍처

Transformer 기반의 디코더-온리 구조를 사용하며, MQA와 RoPE 위치 인코딩 방식을 통해 효율적인 학습과 인퍼런스가 가능하다.

3.2 트레이닝 전략

1000개 이상의 A800 GPU를 사용하는 대규모 클러스터에서 학습되며, Zero Redundancy Optimizer (ZeRO)와 AdamW 옵티마이저를 사용하여 메모리 효율성과 학습 속도를 최적화한다.

4. Fine-Tuning 및 휴먼 피드백을 통한 강화 학습

4.1 Supervised Fine-Tuning (SFT)

고품질의 지시 데이터를 사용하여 모델을 파인튜닝하며, 다양한 지시 유형과 언어 범주에서 데이터를 샘플링한다.

4.2 Reinforcement Learning from Human Feedback (RLHF)

사람의 피드백을 바탕으로 보상 모델을 학습하고, 이를 통해 모델의 응답을 휴먼의 선호에 더 잘 맞춘다.

5. 결론 및 향후 연구

YAYI 2 모델은 다양한 언어 및 데이터에 대한 깊은 이해와 효율적인 대응 능력을 갖추고 있으며, 미래에는 더 많은 언어와 복잡한 문맥에서의 성능 개선을 목표로 한다.


Previous: Model | Qwen Audio Next: Model, MoE | DeepSeekMoE

post contain ""

    No matching posts found containing ""