TL;DR
주로 MXFP6에 대한 연구들 속에서 MXFP4 논문이 나왔습니다.
MXFP4와 같은 저정밀 데이터 타입은 GEMM 연산 가속과 학습 비용 절감을 가능하게 하지만, BF16 대신 직접 사용할 경우 모델 품질이 크게 저하됩니다. 본 연구는 MXFP4 GEMM을 활용한 무손실에 가까운 학습 레시피를 제시하며, 확률적 반올림(SR)을 통해 편향 없는 그래디언트 추정을 수행하고, 무작위 하다마드 변환으로 SR의 분산을 제어하여 GPT 모델(최대 6.7B 파라미터) 학습 시 BF16 대비 미미한 성능 저하와 백프로파게이션 단계에서 1.7배 이상의 속도 향상을 보일 수 있다고 보고하고 있습니다. 그러나 GPT 1.3에 한정된 연구고 큰 모델에서의 실증적인 후속 연구들이 나와야 시도해볼 수 있을 것 같고, 학습 프레임워크에서의 호환도 고려해야될 것 같습니다.