00:00:00

Share Your Feedback 🏝️

Model | Gemma

Model | Gemma

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: LongRoPE Next: OlympiadBench

Model | Gemma

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-02-21

Welcome Gemma - Google’s new open LLM

TL;DR


수학적 인퍼런스에 초점을 맞춘 Gemma 모델의 개발 및 평가

  • Gemma: Google의 Gemini 모델 기반의 오픈 모델
  • 다양한 벤치마크에서 혁신적인 성능을 보이는 2B 및 7B 파라미터 모델 제공
  • 안전하고 책임감 있는 배포를 위한 방안과 모델의 한계점 및 장점에 대한 토론 포함

1. 서론

최근 인공지능 기술의 발전으로 인해 대규모 언어모델(Large Language Models, LLMs)이 다양한 과제에서 인상적인 성과를 보여주고 있습니다. 본 연구에서는 Google의 Gemini 모델을 기반으로 한 새로운 오픈 모델 패밀리인 Gemma를 소개합니다. 이 모델들은 언어 이해, 인퍼런스, 그리고 안전성 측면에서 우수한 성능을 발휘하며, 특히 수학적 문제 해결 능력에서 두각을 나타냅니다. 이 논문은 Gemma 모델의 아키텍처, 훈련 인프라, 사전 훈련 및 파인튜닝 절차에 대한 자세한 설명과 함께, 모델의 안전한 배포에 대한 접근 방식을 다룹니다.


2. Gemma 모델

2.1 모델 아키텍처

Gemma 모델은 Transformer 디코더 구조를 기반으로 합니다. (Vaswani et al., 2017) 모델의 주요 파라미터는 다음과 같습니다.

  • $d_{\text{model}} = 3072$ (7B 모델)
  • 레이어 수: 28
  • 피드포워드 히든 차원: 49152
  • 어텐션 헤드 수: 16

이런 구조는 텍스트 및 수학 문제에 대한 깊은 이해와 복잡한 인퍼런스 능력을 가능하게 합니다. 특히, RoPE(Rotary Positional Embeddings)와 GeGLU(Gated Gated Linear Units) 활성화 함수를 사용하여 위치 정보와 비선형 문제 해결 능력을 강화했습니다.

2.2 훈련 및 파인튜닝

Gemma는 최대 6T 토큰의 텍스트 데이터로 사전 훈련되었습니다. 훈련 과정에서는 TPUv5e를 사용하여 효율적으로 대규모 데이터를 처리하였습니다. 파인튜닝 단계에서는 휴먼의 피드백을 기반으로 한 강화 학습을 통해 모델의 성능을 최적화하였습니다.


3. 벤치마크 및 평가

Gemma 모델은 다양한 텍스트 기반 작업에서 우수한 성능을 보였습니다. 특히 수학 및 과학 문제 해결에서는 다른 동일 규모의 오픈 모델들을 상당한 차이로 앞질렀습니다. 예를 들어, GSM8K 및 MATH 벤치마크에서 Gemma 7B 모델은 각각 46.4% 및 24.3%의 정확도를 달성하여 높은 수학적 인퍼런스 능력을 입증했습니다.

4. 안전하고 책임감 있는 배포

모델 배포에 있어서 Gemma 팀은 사용자의 안전을 최우선으로 고려하고 있습니다. 데이터셋의 필터링, 평가 세트 유출 방지, 민감한 정보의 확산 최소화 등을 통해 모델의 안전성을 강화했습니다.

5. 결론 및 향후 연구 방향

Gemma 모델은 언어 이해와 수학적 인퍼런스 능력을 갖춘 획기적인 도구입니다. 이 모델들은 연구, 감사 및 제품 개발을 위한 귀중한 자원이 될 것입니다. 향후 연구에서는 Gemma 모델의 효과를 더욱 확대하고, AI 안전 연구 및 커뮤니티 혁신을 장려하기 위한 방안을 모색할 예정입니다.

Previous: LongRoPE Next: OlympiadBench

post contain ""

    No matching posts found containing ""