00:00:00

Share Your Feedback 🏝️

LLM FineTune | Training with MXFP4

LLM FineTune | Training with MXFP4

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Kafka KRaft Next: OpenAI | GPT-4.5 System Card

LLM FineTune | Training with MXFP4

  • Related Project: Private
  • Category: Paper Review
  • Date: 2025-03-06

Introducing Instella: New State-of-the-art Fully Open 3B Language Models

  • url: <https://arxiv.org/abs/2502.20586>
  • abstract: AMD is excited to announce Instella, a family of fully open state-of-the-art 3-billion-parameter language models (LMs) trained from scratch on AMD Instinct™ MI300X GPUs. Instella models outperform existing fully open models of similar sizes and achieve competitive performance compared to state-of-the-art open-weight models such as Llama-3.2-3B, Gemma-2-2B, and Qwen-2.5-3B, including their instruction-tuned counterparts.

Our journey with Instella builds upon the foundation laid by our previous 1-billion-parameter LMs, AMD OLMo which helped showcase the feasibility of training LMs end-to-end on AMD GPUs. With Instella, we have scaled our efforts by transitioning from a 1-billion-parameter model trained on 64 AMD Instinct MI250 GPUs using 1.3T tokens to a 3-billion-parameter model trained on 128 Instinct MI300X GPUs using 4.15T tokens. While we compared our previous model with similarly sized fully open models only, Instella not only surpasses existing fully open models but also achieves overall competitive performance as compared to state-of-the-art open-weight models (Figure 1 [1].), marking a significant step in bridging this gap.

Scaling performance image

Figure 1: Comparing Instella Performance: Pareto frontier of pre-training tokens vs average performance for pre-trained and instruction-tuned models.

By training Instella from scratch on Instinct MI300X GPUs, we highlight our hardware’s capability and scalability in handling demanding large-scale AI training workloads, offering a viable alternative in the AI hardware landscape. In line with AMD’s commitment to open source, we are releasing all artifacts related to Instella models here, including the model weights, detailed training configurations, datasets, and code, enabling the AI community to collaborate, replicate, and innovate, thereby accelerating progress.

This blog will introduce you to our new family of Instella LMs. You will find out how to access these new models, learn, in details, how we trained them, and see how AMD’s new Instella LMs benchmark with other models. Follow the Additional Resources section to get started with using Instella models.


AMD Instella: 최첨단 오픈 소스 3B 언어 모델 기술 분석

서론

2025년 3월 5일, AMD는 Instella라는 완전 개방형 최첨단 30억 파라미터 규모의 언어 모델 제품군을 발표했다. 이 모델은 AMD Instinct™ MI300X GPU를 활용하여 처음부터 학습되었으며, 유사한 크기의 기존 오픈 모델보다 우수한 성능을 보이고 Llama-3.2-3B, Gemma-2-2B, Qwen-2.5-3B와 같은 최신 오픈 웨이트 모델들과 경쟁력 있는 성능을 달성했다는 점에서 주목할 만하다.

기술 명세 및 아키텍처

Instella 모델의 주요 특징은 다음과 같다:

  • 파라미터 수: 30억 개
  • 아키텍처: 자기회귀식(autoregressive) 트랜스포머 기반
  • 디코더 레이어: 36개
  • 어텐션 헤드: 레이어당 32개
  • 컨텍스트 윈도우: 4,096 토큰
  • 어휘 크기: 약 50,000 토큰 (OLMo 토크나이저 사용)

계산 최적화 기법

학습 과정에서 다음과 같은 최적화 기술들이 활용되었다:

  • FlashAttention-2: 메모리 사용량과 계산 복잡도를 줄이는 최적화된 어텐션 구현
  • Torch Compile: PyTorch 연산 가속화를 위한 JIT 컴파일
  • bfloat16 혼합 정밀도 학습: 수치 안정성을 유지하면서 메모리 사용량 감소
  • 하이브리드 샤딩을 갖춘 완전 샤딩 데이터 병렬화(FSDP): 노드 내에서는 파라미터, 그래디언트, 옵티마이저 상태가 샤딩되고 노드 간에는 복제되어 메모리 효율성과 통신 오버헤드 간의 균형 유지

학습 인프라

Instella 모델은 다음 환경에서 학습되었다:

  • 128개의 AMD Instinct MI300X GPU
  • GPU 8개씩 탑재된 16개 노드
  • 학습 코드베이스: 오픈 소스 OLMo 코드베이스를 AMD 하드웨어에 최적화하여 수정

다단계 학습 파이프라인

Instella 학습 파이프라인은 모델의 능력을 점진적으로 향상시키는 4개의 연속 단계로 구성되어 있다:

1단계: 초기 사전 학습 (Instella-3B-Stage1)

  • 토큰 수: 4.065조
  • 데이터 소스: OLMoE-mix-0924 (DCLM-baseline과 Dolma 1.7의 조합)
  • 데이터 도메인: 코딩, 학술, 수학, 웹 크롤링을 통한 일반 지식
  • 목적: 기본적인 언어 이해 능력 확립

2단계: 고급 사전 학습 (Instella-3B)

  • 추가 토큰 수: 575.75억
  • 데이터 소스:
    • Dolmino-Mix-1124
    • SmolLM-Corpus (python-edu)
    • Deepmind Mathematics
    • 대화형 데이터셋 (Tülu-3-SFT-Mixture, OpenHermes-2.5, WebInstructSub, Code-Feedback, Ultrachat 200k)
    • 수학 문제에 초점을 맞춘 자체 제작 합성 데이터셋 (2,850만 토큰)
  • 합성 데이터 생성 프로세스:
    1. 수치값을 함수 매개변수로 추상화
    2. 수학 문제를 해결하는 Python 프로그램 생성 (Qwen2.5-72B-Instruct 활용)
    3. 수치값을 대체값으로 교체
    4. 매개변수에 새로운 값을 할당하고 해당 답변 계산
  • 학습 접근법: 서로 다른 랜덤 시드로 3회 반복 학습 후 모델 가중치를 결합하여 최종 사전 학습 모델 생성

3단계: 지도 미세 조정 (Instella-3B-SFT)

  • 토큰 수: 89.02억 (3 에폭 학습)
  • 데이터 소스:
    • SmolTalk (104만 샘플)
    • OpenMathinstruct-2 (100만 서브셋)
    • Tulu 3 Instruction Following (3만 샘플)
    • MMLU auxiliary train set
    • o1-journey
  • 목적: 지시 따르기 능력 구현

4단계: 직접 선호도 최적화 (Instella-3B-Instruct)

  • 토큰 수: 7.6억
  • 데이터 소스: OLMo 2 1124 7B Preference Mix
  • 목적: 모델을 인간의 선호도에 맞게 정렬하고 대화 능력 강화

성능 및 벤치마킹

사전 학습 성능

Instella-3B는 기존의 완전 개방형 사전 학습 모델보다 평균 8.08% 우수한 성능을 보이며, 여러 벤치마크에서 상당한 개선을 보였다:

  • ARC Challenge: +8.02%
  • ARC Easy: +3.51%
  • Winnograde: +4.7%
  • OpenBookQA: +3.88%
  • MMLU: +13.12%
  • GSM8K: +48.98%

2단계 사전 학습은 1단계 대비 전체 평균 성능을 5.26% 향상시켰으며, Instella-3B와 비공개 소스 모델 간의 격차를 크게 감소시켰다:

  • Llama-3.2-3B보다 평균 4.08% 우수
  • Gemma-2-2B보다 평균 7.25% 우수
  • 대부분의 벤치마크에서 Qwen-2.5-3B와 경쟁력 있는 성능

지시 조정 성능

Instella-3B-Instruct는 평가된 모든 벤치마크에서 다른 완전 개방형 모델보다 평균 14.37% 더 우수한 성능을 보였으며, 특히 대화 벤치마크에서 상당한 차이를 보였다:

  • MMLU: +13%
  • TruthfulQA: +7.57%
  • BBH: +7.43%
  • GPQA: +4.46%
  • IFEval: +37.15%
  • Alpaca 2: +10.08%
  • MT-Bench: +1.2%

최첨단 오픈 웨이트 지시 조정 모델과 비교해도 동등하거나 더 나은 성능을 보인다:

  • Llama-3.2-3B-Instruct와 비교: TruthfulQA (+5.24%), GPQA (+0.45%), MT-Bench (+0.1%)에서 우수
  • Qwen2.5-3B-Instruct와 비교: GPQA (+2.01%)와 IFEval (+8.87%)에서 우수
  • Gemma-2-2B-Instruct보다 평균 5.83% 더 우수한 성능

핵심 학습 방법론의 기술적 배경

FlashAttention-2

FlashAttention-2는 어텐션 메커니즘을 최적화하는 기술로, 메모리 사용량과 계산 시간을 크게 줄인다. 트랜스포머의 표준 어텐션 메커니즘은 다음과 같이 정의된다:

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

여기서 $Q$, $K$, $V$는 쿼리, 키, 값 행렬이며, $d_k$는 키의 차원이다.

FlashAttention-2의 핵심 혁신은 메모리 관리 접근 방식에 있다. 전통적인 어텐션 구현은 일반적으로:

  1. 시퀀스 길이 $N$에 대해 $O(N^2)$ 메모리가 필요한 전체 어텐션 행렬 $QK^T$ 계산
  2. 소프트맥스 적용
  3. $V$와 곱셈

반면 FlashAttention-2는:

  1. 계산을 블록으로 나눔
  2. GPU의 고속 메모리(SRAM)에서 각 블록 처리
  3. 전체 어텐션 행렬을 저장하지 않기 위해 스트리밍 방식 사용

이로 인한 결과:

  • 메모리 대역폭 요구 사항 감소
  • GPU 활용도 향상
  • 특히 긴 시퀀스에서 더 빠른 계산 가능

완전 샤딩 데이터 병렬화 (FSDP)

FSDP는 모델 파라미터, 그래디언트, 옵티마이저 상태를 여러 장치에 샤딩함으로써 전통적인 데이터 병렬화를 확장하는 고급 분산 학습 기술이다. 표준 데이터 병렬화에서는:

  1. 각 GPU가 모델의 완전한 복사본을 가짐
  2. 각 GPU가 서로 다른 배치의 데이터를 처리
  3. 장치 간 그래디언트 평균화

반면 FSDP는:

  1. 모델 파라미터, 그래디언트, 옵티마이저 상태를 장치 간에 샤딩
  2. 순방향/역방향 패스에 필요할 때 파라미터를 동적으로 수집
  3. 계산 후 파라미터 재샤딩

Instella에서 사용된 하이브리드 샤딩 접근법의 균형 요소:

  • 노드 내 효율성: 노드 내에서 파라미터, 그래디언트, 옵티마이저 상태 샤딩
  • 노드 간 통신: 통신 오버헤드를 줄이기 위해 노드 간에 모델 파라미터 복제

이는 $D$ 장치에 분산된 파라미터 $\theta$를 가진 모델에 대해 수학적으로 다음과 같이 표현할 수 있다: \(\theta_d = \{\theta_i | i \mod D = d\}\)

여기서 $\theta_d$는 장치 $d$에 저장된 파라미터의 부분집합을 나타낸다.

직접 선호도 최적화 (DPO)

DPO는 명시적인 보상 함수를 모델링하지 않고도 인간의 선호도에 맞게 언어 모델을 직접 최적화하는 정렬 기술이다. 이 접근 방식은 다음과 같이 작동한다:

  1. 동일한 프롬프트 $x$에 대한 응답 쌍 $(y_w, y_l)$ 사용, 여기서 $y_w$가 $y_l$보다 선호됨
  2. 선호되는 응답을 생성할 확률을 최대화하도록 모델 파라미터 최적화

DPO 손실 함수는 다음과 같이 정의될 수 있다:

\[\mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

여기서:

  • $\pi_\theta$는 학습 중인 정책
  • $\pi_{\text{ref}}$는 참조 정책 (일반적으로 정렬 전 기본 모델)
  • $\beta$는 온도 매개변수
  • $\mathcal{D}$는 선호도 쌍의 데이터셋
  • $\sigma$는 시그모이드 함수

이 접근법을 통해 모델은 별도의 보상 모델을 학습하는 복잡성 없이 인간의 선호도로부터 학습할 수 있다.

학습 기술의 역사적 맥락

어텐션 메커니즘의 진화

  1. 표준 어텐션(2017): “Attention Is All You Need” 논문에서 처음 소개된 이 방식은 트랜스포머 모델의 기초를 형성했지만 메모리 집약적이었다.
  2. FlashAttention(2022): Tri Dao 등이 도입한 이 기술은 GPU 메모리 계층을 활용하여 첫 번째 주요 최적화를 제공했다.
  3. FlashAttention-2(2023): 더 나은 작업 분할과 병렬성으로 알고리즘을 더욱 개선했다.

분산 학습 방법의 발전

  1. 데이터 병렬화(2010년대 초): 각 GPU가 모델의 완전한 복사본을 갖는 가장 단순한 형태
  2. 모델 병렬화(2010년대 중반): 모델 레이어를 장치 간에 분할
  3. 파이프라인 병렬화(2018): GPipe에서 도입되어 모델의 다른 단계가 다른 장치에서 실행되도록 함
  4. 제로 중복 옵티마이저(ZeRO, 2019): Microsoft가 제안한 분산 학습에서 메모리 중복을 제거하는 기술
  5. 완전 샤딩 데이터 병렬화(2021): ZeRO에서 발전하여 PyTorch에 구현되어 대규모 분산 학습을 더 접근하기 쉽게 만듦

모델 정렬 기술의 발전

  1. 인간 피드백으로부터의 강화 학습(RLHF, 2017): 처음에는 시뮬레이션 환경에서 에이전트를 훈련하기 위해 제안됨
  2. InstructGPT/ChatGPT(2022): 언어 모델에 대한 RLHF를 대중화했으며, 보상 모델링을 포함한 복잡한 학습 파이프라인 필요
  3. Constitutional AI(2022): RLHF를 헌법적 제약 조건으로 확장
  4. 직접 선호도 최적화(2023): 명시적인 보상 모델링의 필요성을 제거하여 정렬 프로세스를 단순화
  5. 반복적 정렬(2023-2024): 모델 동작을 개선하기 위해 여러 정렬 기술을 순차적으로 결합

모델 가용성 및 오픈 소스 기여

AMD는 Instella 모델과 관련된 모든 산출물을 공개했다:

  • 모델 가중치: Hugging Face에서 이용 가능
    • 사전 학습 모델: Instella-3B-Stage1, Instella-3B
    • 지시 조정 모델: Instella-3B-SFT, Instella-3B-Instruct
  • 학습 구성: 상세한 하이퍼파라미터 및 설정
  • 데이터셋: 합성 GSM8k 데이터셋 포함 (amd/Instella-GSM8K-synthetic)
  • 코드: GitHub에서 이용 가능 (AMD-AIG-AIMA/Instella)

이 모델들은 ResearchRAIL 라이선스 하에 학술 및 연구 목적으로 라이선스가 부여되어 있다.

한계점 및 향후 방향

인상적인 성능에도 불구하고 Instella 모델에는 몇 가지 한계가 있다:

  • 연구 전용 라이선스: 실제 응용 프로그램에 사용할 수 없음
  • 안전성 보장 없음: 사용자는 자체 안전 필터링 메커니즘을 구현해야 함
  • 유해 콘텐츠 생성 가능성: 사실적으로 부정확하거나 유해하거나 독성 있는 콘텐츠를 생성할 수 있음
  • 제한된 다국어 테스트: 다양한 언어에 대한 능력이 철저히 평가되지 않음

AMD는 다음과 같은 여러 차원에서 모델을 향상시킬 계획이다:

  • 확장된 컨텍스트 길이 기능
  • 개선된 추론 능력
  • 멀티모달 기능
  • 모델 크기와 학습 데이터셋 확장
  • 다양한 아키텍처 접근법 탐색

Technical Review of AMD’s Instella: State-of-the-Art Open 3B Language Models

Introduction

On March 5, 2025, AMD announced the release of Instella, a family of fully open state-of-the-art 3-billion-parameter language models (LMs) trained from scratch on AMD Instinct™ MI300X GPUs. This represents a significant advancement in open-source language models, as the Instella models outperform existing fully open models of similar sizes and achieve competitive performance compared to state-of-the-art open-weight models such as Llama-3.2-3B, Gemma-2-2B, and Qwen-2.5-3B, including their instruction-tuned counterparts.

Technical Specifications and Architecture

Instella models feature:

  • Parameter count: 3 billion parameters
  • Architecture: Autoregressive transformer-based
  • Decoder layers: 36
  • Attention heads: 32 per layer
  • Context window: 4,096 tokens
  • Vocabulary size: ~50,000 tokens (using OLMo tokenizer)

Computational Optimizations

The training utilized several optimization techniques:

  • FlashAttention-2: An optimized attention implementation that reduces memory usage and computational complexity
  • Torch Compile: JIT compilation for PyTorch to accelerate operations
  • bfloat16 mixed-precision training: Reduced memory usage while maintaining numerical stability
  • Fully Sharded Data Parallelism (FSDP) with hybrid sharding: Parameters, gradients, and optimizer states are sharded within a node and replicated across nodes to balance memory efficiency and communication overhead

Training Infrastructure

The Instella models were trained on:

  • 128 AMD Instinct MI300X GPUs
  • 16 nodes with 8 GPUs per node
  • Training codebase: Adapted from the open-source OLMo codebase, optimized for AMD hardware

Multi-Stage Training Pipeline

The Instella training pipeline is comprised of four sequential stages, each building upon the previous stage to enhance the model’s capabilities:

Stage 1: Initial Pre-training (Instella-3B-Stage1)

  • Tokens: 4.065 trillion
  • Data source: OLMoE-mix-0924, a combination of DCLM-baseline and Dolma 1.7
  • Data domains: Coding, academics, mathematics, and general world knowledge from web crawls
  • Purpose: Establish foundational language understanding

Stage 2: Enhanced Pre-training (Instella-3B)

  • Additional tokens: 57.575 billion
  • Data sources:
    • Dolmino-Mix-1124
    • SmolLM-Corpus (python-edu)
    • Deepmind Mathematics
    • Conversational datasets (Tülu-3-SFT-Mixture, OpenHermes-2.5, WebInstructSub, Code-Feedback, Ultrachat 200k)
    • In-house synthetic dataset focused on mathematical problems (28.5 million tokens)
  • Synthetic data generation process:
    1. Abstract numerical values as function parameters
    2. Generate Python programs to solve math questions (using Qwen2.5-72B-Instruct)
    3. Replace numerical values with alternatives
    4. Assign new values to parameters and compute corresponding answers
  • Training approach: Three iterations with different random seeds, with model weights combined for the final pre-trained model

Stage 3: Supervised Fine-Tuning (Instella-3B-SFT)

  • Tokens: 8.902 billion (trained for 3 epochs)
  • Data sources:
    • SmolTalk (1.04M samples)
    • OpenMathinstruct-2 (1M subset)
    • Tulu 3 Instruction Following (30k samples)
    • MMLU auxiliary train set
    • o1-journey
  • Purpose: Enable instruction-following capabilities

Stage 4: Direct Preference Optimization (Instella-3B-Instruct)

  • Tokens: 760 million
  • Data source: OLMo 2 1124 7B Preference Mix
  • Purpose: Align the model with human preferences and strengthen chat capabilities

Performance and Benchmarking

Pre-training Performance

Instella-3B outperforms existing fully open pre-trained models by an average of 8.08%, with significant improvements across multiple benchmarks:

  • ARC Challenge: +8.02%
  • ARC Easy: +3.51%
  • Winnograde: +4.7%
  • OpenBookQA: +3.88%
  • MMLU: +13.12%
  • GSM8K: +48.98%

The second stage pre-training increased overall average performance by 5.26% relative to stage 1, significantly narrowing the gap between Instella-3B and closed-source models:

  • Outperforms Llama-3.2-3B by 4.08% on average
  • Outperforms Gemma-2-2B by 7.25% on average
  • Competitive with Qwen-2.5-3B on most benchmarks

Instruction Tuning Performance

Instella-3B-Instruct outperforms other fully open models across all evaluated benchmarks by an average of 14.37%, with substantial margins across chat benchmarks:

  • MMLU: +13%
  • TruthfulQA: +7.57%
  • BBH: +7.43%
  • GPQA: +4.46%
  • IFEval: +37.15%
  • Alpaca 2: +10.08%
  • MT-Bench: +1.2%

It performs comparably to or better than state-of-the-art open-weight instruction-tuned models:

  • Compared to Llama-3.2-3B-Instruct: Better in TruthfulQA (+5.24%), GPQA (+0.45%), and MT-Bench (+0.1%)
  • Compared to Qwen2.5-3B-Instruct: Better in GPQA (+2.01%) and IFEval (+8.87%)
  • Significantly outperforms Gemma-2-2B-Instruct with an average lead of 5.83%

Technical Background on Key Training Methods

FlashAttention-2

FlashAttention-2 is an optimization technique for attention mechanisms that significantly reduces memory usage and computational time. The standard attention mechanism in transformers is defined as:

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

Where $Q$, $K$, and $V$ are the query, key, and value matrices, and $d_k$ is the dimension of the keys.

The key innovation in FlashAttention-2 is its approach to memory management. Traditional attention implementations typically:

  1. Compute the full attention matrix $QK^T$, which requires $O(N^2)$ memory for sequence length $N$
  2. Apply softmax
  3. Multiply by $V$

FlashAttention-2 instead:

  1. Divides the computation into blocks
  2. Processes each block in GPU’s fast memory (SRAM)
  3. Uses a streaming approach to avoid storing the full attention matrix

This results in:

  • Reduced memory bandwidth requirements
  • Better GPU utilization
  • Faster computation, especially for longer sequences

Fully Sharded Data Parallelism (FSDP)

FSDP is an advanced distributed training technique that extends traditional data parallelism by sharding model parameters, gradients, and optimizer states across devices. In standard data parallelism:

  1. Each GPU has a complete copy of the model
  2. Each processes a different batch of data
  3. Gradients are averaged across devices

In contrast, FSDP:

  1. Shards the model parameters, gradients, and optimizer states across devices
  2. Dynamically gathers parameters when needed for forward/backward passes
  3. Re-shards parameters after computation

The hybrid sharding approach used in Instella balances:

  • Intra-node efficiency: Parameters, gradients, and optimizer states are sharded within a node
  • Inter-node communication: Model parameters are replicated across nodes to reduce communication overhead

This can be represented mathematically for a model with parameters $\theta$ distributed across $D$ devices as: \(\theta_d = \{\theta_i | i \mod D = d\}\)

Where $\theta_d$ represents the subset of parameters stored on device $d$.

Direct Preference Optimization (DPO)

DPO is an alignment technique that directly optimizes a language model to align with human preferences without explicitly modeling a reward function. The approach works by:

  1. Using pairs of responses $(y_w, y_l)$ to the same prompt $x$, where $y_w$ is preferred over $y_l$
  2. Optimizing the model parameters to maximize the probability of generating preferred responses

The DPO loss function can be defined as:

\[\mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right]\]

Where:

  • $\pi_\theta$ is the policy being trained
  • $\pi_{\text{ref}}$ is a reference policy (typically the base model before alignment)
  • $\beta$ is a temperature parameter
  • $\mathcal{D}$ is the dataset of preference pairs
  • $\sigma$ is the sigmoid function

This approach allows the model to learn from human preferences without the complexity of training a separate reward model.

Historical Context of Training Techniques

Evolution of Attention Mechanisms

  1. Standard Attention (2017): Introduced in the original “Attention Is All You Need” paper, it formed the foundation of transformer models but was memory-intensive
  2. FlashAttention (2022): Introduced by Tri Dao et al., providing the first major optimization by leveraging GPU’s memory hierarchy
  3. FlashAttention-2 (2023): Further improved the algorithm with better work partitioning and parallelism

Development of Distributed Training Methods

  1. Data Parallelism (Early 2010s): The simplest form where each GPU has a full copy of the model
  2. Model Parallelism (Mid 2010s): Dividing model layers across devices
  3. Pipeline Parallelism (2018): Introduced in GPipe, allowing different stages of the model to run on different devices
  4. Zero Redundancy Optimizer (ZeRO, 2019): Proposed by Microsoft, eliminating memory redundancies in distributed training
  5. Fully Sharded Data Parallelism (2021): Evolved from ZeRO, implemented in PyTorch to make large-scale distributed training more accessible

Evolution of Model Alignment Techniques

  1. Reinforcement Learning from Human Feedback (RLHF, 2017): Initially proposed for training agents in simulated environments
  2. InstructGPT/ChatGPT (2022): Popularized RLHF for language models, requiring a complex training pipeline with reward modeling
  3. Constitutional AI (2022): Extended RLHF with constitutional constraints
  4. Direct Preference Optimization (2023): Simplified the alignment process by eliminating the need for explicit reward modeling
  5. Iterative Alignment (2023-2024): Combining multiple alignment techniques in sequence to refine model behavior

Model Availability and Open-Source Contributions

AMD has released all artifacts related to the Instella models, including:

  • Model weights: Available on Hugging Face
    • Pre-trained models: Instella-3B-Stage1, Instella-3B
    • Instruction-tuned models: Instella-3B-SFT, Instella-3B-Instruct
  • Training configurations: Detailed hyperparameters and setup
  • Datasets: Including the synthetic GSM8k dataset (amd/Instella-GSM8K-synthetic)
  • Code: Available on GitHub (AMD-AIG-AIMA/Instella)

The models are licensed for academic and research purposes under a ResearchRAIL license.

Limitations and Future Directions

Despite their impressive performance, the Instella models have several limitations:

  • Research-only license: Not intended for production applications
  • No safety guarantees: Users must implement their own safety filtering mechanisms
  • Potential for generating harmful content: May produce factually inaccurate, harmful, or toxic content
  • Limited multilingual testing: Abilities across different languages have not been thoroughly evaluated

AMD plans to enhance the models across multiple dimensions:

  • Extended context length capabilities
  • Improved reasoning abilities
  • Multimodal capabilities
  • Scaling up both model size and training datasets
  • Exploring diverse architectural approaches

Conclusion

The Instella family of language models represents a significant advancement in open-source AI, demonstrating the viability of training competitive language models on AMD hardware. By outperforming existing fully open models and achieving competitive results compared to state-of-the-art open-weight models, Instella narrows the gap between fully open and proprietary language models.

The multi-stage training approach, combined with carefully curated datasets and efficient training techniques, has proven effective in developing models with strong language understanding, instruction-following capabilities, and alignment with human preferences. The full open-sourcing of models, training configurations, and code contributes to transparency and reproducibility in AI research.

As AMD continues to develop and scale these models, the Instella family has the potential to accelerate innovation in open-source language models and provide accessible alternatives to proprietary models for research and academic applications.

Previous: Kafka KRaft Next: OpenAI | GPT-4.5 System Card

post contain ""

    No matching posts found containing ""