MinWoo(Daniel) Park | Tech Blog
Read moreEntiGraph를 사용한 합성 지속 사전학습의 개요
\(\text{Acc}(\mathbf{M}_t) \sim p + C(1 - \sum_{k=1}^\infty \mu(k)(1-a_k)^t)\)
\((1-a_k)^t\): 시간에 따른 exponential decay
이 모델은 EntiGraph가 어떻게 지식을 재배열하여 학습에 더 적합한 형태로 만드는지 설명합니다. 초기에는 빠르게 성장하다가 점차 느려지고 최종적으로 평탄화되는 과정을 확인합니다.
주요 방법
EntiGraph의 주요 방법에 대한 단계별 이해
1. 기본 개념 설정
먼저, EntiGraph의 기본 개념을 이해하기 위해 몇 가지 정의를 하겠습니다.
이런 설정은 실제 문서 집합을 간단한 확률 모델로 추상화한 것입니다. 예를 들어, 문서에서 “사과”와 “빨간색”이라는 두 엔티티가 함께 언급될 확률을 \(p\)로 볼 수 있습니다.
예시: 과일에 관한 문서 집합
이 예시에서, \(\mathcal{D}_\text{source}\)는 다음과 같은 관계 쌍을 포함할 것입니다. {(사과, 빨간색), (사과, 달콤한), (사과, 신맛의), (바나나, 노란색), (바나나, 달콤한), (오렌지, 달콤한), (오렌지, 신맛의)}
\(p\)는 이런 관계 쌍이 문서에 나타날 확률을 나타냅니다. 예를 들어, \(p = 7 / (7 \times 6) \approx 0.167\)입니다 (가능한 모든 관계 쌍의 수는 7 × 6 = 42).
2. 지식 표현 모델
언어 모델의 지식을 행렬 \(\mathbf{M} \in \{0,1\}^{V \times V}\)로 표현합니다.
\[\mathbf{M}(x,y) = \begin{cases} 1 & \text{모델이 } (x,y) \text{ 관계를 알고 있음} \\ 0 & \text{그렇지 않음} \end{cases}\]이 표현 방식은 지식 그래프와 유사합니다. 예를 들어, \(\mathbf{M}(\text{"사과"}, \text{"빨간색"}) = 1\)은 모델이 “사과는 빨간색이다”라는 지식을 가지고 있음을 의미합니다.
예시
행렬 \(\mathbf{M}\)을 사용한 지식 표현은 그래프 이론과 밀접한 관련이 있습니다. 이는 인접 행렬(adjacency matrix) 개념과 유사합니다.
예를 들어, 위의 과일 예시에 대한 초기 지식 행렬 \(\mathbf{M}_0\)는 다음과 같을 수 있습니다.
\[\mathbf{M}_0 = \begin{bmatrix} 0 & 0 & 0 & 1 & 0 & 1 & 1 \\ 0 & 0 & 0 & 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{bmatrix}\]행과 열은 순서대로 [사과, 바나나, 오렌지, 빨간색, 노란색, 달콤한, 신맛의]를 나타냅니다.
3. EntiGraph 알고리즘
EntiGraph 알고리즘은 그래프 이론의 전이적 폐포(transitive closure) 개념을 기반으로 합니다. 전이적 폐포는 그래프에서 도달 가능한 모든 노드 쌍을 연결하는 과정입니다.
이론적 배경
EntiGraph 알고리즘은 다음과 같은 반복적인 과정을 통해 합성 데이터를 생성합니다.
각 \(t = 1, 2, \ldots\)에 대해,
(c) 경로가 존재하면 새로운 관계 추가 만약 \((x_t, z_t^1, z_t^2, \ldots, z_t^{k_t}, y_t)\) 경로가 존재한다면,
\[\mathcal{D}_t = \{(x_t, z_t^1), (x_t, z_t^2), \ldots, (x_t, z_t^{k_t}), (x_t, y_t)\} \cup \mathcal{D}_{t-1}\]상기 식에서 \(\mathcal{D}_0 = \mathcal{D}_\text{source}\)
(d) 모델 업데이트
\[\mathbf{M}_t = \mathbf{M}_{t-1} + \sum_{(x,y) \in \mathcal{D}_t \backslash \mathcal{D}_{t-1}} \mathbf{I}_{xy}\]\(\mathbf{I}_{xy}\)는 \((x,y)\) 위치만 1이고 나머지는 0인 이진 행렬입니다.
이 과정은 원본 문서에 명시적으로 나타나지 않은 잠재적 관계를 발견하고 추가하는 것을 목표로 합니다.
4. 정확도(Accuracy) 정의
모델의 성능을 평가하기 위해 링크 밀도(또는 정확도)를 다음과 같이 정의합니다.
\[\text{Acc}(\mathbf{M}_t) = \frac{\mathbb{E}[\\\|\mathbf{M}_t\\\|_1 \\| \mathbf{M}_0]}{V(V-1)}\]\(\\\|\mathbf{M}_t\\\|_1 = \sum_{i,j} \\|M_{t,i,j}\\|\)입니다.
이 정의는 모델이 알고 있는 관계의 비율을 나타냅니다. 예를 들어, \(\text{Acc}(\mathbf{M}_t) = 0.7\)은 모델이 가능한 모든 관계 중 70%를 알고 있다는 의미입니다.
정확도 정의에 사용된 기대값 \(\mathbb{E}[\\\|\mathbf{M}_t\\\|_1 \\| \mathbf{M}_0]\)는 조건부 기대값 개념을 사용합니다.
이 정의는 초기 지식 상태 \(\mathbf{M}_0\)가 주어졌을 때, t 시점에서의 평균적인 지식 상태를 측정합니다.
5. 이론적 분석
EntiGraph의 성능을 분석하기 위해, \(\text{Acc}(\mathbf{M}_t)\)의 상한과 하한을 도출합니다.
정리 1: 임의의 시간 \(t \geq 1\)과 \(\epsilon > 0\)에 대해, 링크 밀도는 다음을 만족한다.
\[(p + C_\lambda(1 - C_{LB}^t))(1-\epsilon) \leq \text{Acc}(\mathbf{M}_t) \leq (p + C_\lambda(1 - C_{UB}^t))(1+\epsilon)\]이 정리는 \(V \to \infty\)일 때 확률 1로 성립합니다.
이 정리는 EntiGraph 알고리즘의 성능이 지수적으로 개선되며, 그 개선 속도가 특정 범위 내에 있음을 보여줍니다.
DPO가 상한과 하한을 조금 더 좁혀준다는 이론적 맥락과도 유사
6. 분석적 공식(이론적 해석)
더 정확한 분석을 위해, Poisson 분기 과정 근사를 사용하여 다음과 같은 형태의 근사식을 얻습니다.
\[\text{Acc}(\mathbf{M}_t) \sim p + C_\lambda\left(1 - \sum_{\ell=0}^\infty \frac{\lambda-1}{\lambda^{\ell+1}} \sum_{k=1}^\infty p_\ell(k)\left(1-\frac{k}{V(V-1)}\right)^t\right)\]\(p_\ell(k)\)는 레벨 \(\ell\)에서의 Poisson(\(\lambda\)) 분기 과정의 총 자손 수의 확률 질량 함수
식의 각 부분
이 복잡한 형태는 다음과 같은 더 일반적인 혼합 지수 형태로 간소화될 수 있습니다.
\[\text{Acc}(\mathbf{M}_t) \sim p + C\left(1 - \sum_{k=1}^\infty \mu(k)(1-a_k)^t\right)\]이 형태는 EntiGraph의 성능 향상이 여러 지수 함수의 혼합으로 이루어짐을 보여주며, 각 지수 함수는 서로 다른 속도로 감쇠하며, 이는 다양한 “난이도”의 관계가 존재함을 의미합니다.
다양한 난이도에 대한 여러 해석이 있고, 이를 분류하여 성능을 올리기 위한 시도가 최근에 구글에도 있었음.
위 이론적 해석에서 Poisson 분기 과정 근사는 다음과 같은 이유로 사용됩니다.
7. 정성적 설명(학습 이론과의 연관성)
마지막으로, 이 혼합 지수 형태는 세 가지 뚜렷한 단계로 구성되며 세 단계 학습 과정은 휴먼의 학습 이론과도 유사성을 보입니다.
\(T = tV(V-1)\)는 편의를 위한 변수 변환
이런 이론적 모델은 EntiGraph가 휴먼의 학습 과정과 유사한 패턴을 따른다는 것을 보여줍니다. 이는 EntiGraph가 효과적인 지식 습득 방법임을 시사하며, 동시에 인공지능 학습과 휴먼 학습 사이의 흥미로운 연관성을 제시합니다.
이 세 단계는 EntiGraph의 학습 과정을 잘 설명합니다.
이런 이론적 분석은 EntiGraph가 어떻게 작은 코퍼스에서 효과적으로 지식을 추출하고 확장할 수 있는지를 설명합니다. 또한 이 분석은 실험적으로 관찰된 성능 향상 패턴과 일치하며, EntiGraph의 작동 원리에 대한 깊은 이해를 제공합니다. (그 외 논문의 맨 마지막에 제약에 대해서 자세히 확인)
1. 서론
언어 모델은 비구조화된 텍스트로부터 지식을 습득하는 놀라운 능력을 보여왔습니다. 이는 다음 토큰 예측 목표와 대규모 인터넷 데이터의 조합을 통해 가능해졌습니다. 그러나 이 방식은 데이터 효율성이 낮다는 문제가 있습니다. 예를 들어, 13세 휴먼은 1억 개 미만의 토큰으로부터 지식을 습득하지만, 최신 오픈소스 언어 모델은 15조 개의 토큰으로 학습됩니다.
이런 문제는 소규모 코퍼스로부터 학습할 때 더욱 두드러집니다. 대규모 사전학습 모델이 이미 공통 지식의 대부분을 포착하고 있기 때문에, 향후 발전을 위해서는 분포의 꼬리 부분에서 학습해야 합니다. 즉, 작은 비공개 도메인이나 인터넷에 한두 번만 등장하는 틈새 데이터로부터 학습해야 합니다.
이 논문에서는 소규모 코퍼스로부터 지식을 효율적으로 습득하기 위해 ‘합성 지속 사전학습(synthetic continued pretraining)’이라는 새로운 접근 방식을 제안합니다. 이 방법은 다음과 같은 단계로 구성됩니다.
이를 통해 소규모 코퍼스의 한계를 극복하고 효과적인 지식 습득이 가능해집니다.
2. 방법
2.1 문제 설정
목표는 소규모 텍스트 코퍼스 \(\mathcal{D}_\text{source}\)로부터 파라미터적 지식을 학습하는 것입니다. 구체적으로, 언어 모델이 틈새 문서 코퍼스의 지식을 획득하도록 지속 사전학습하는 것이 목표입니다.
단순히 \(\mathcal{D}_\text{source}\)에 대해 지속 사전학습을 수행하는 것은 효과적이지 않음을 관찰했습니다. 이는 \(\mathcal{D}_\text{source}\)가 압축되어 있고(e.g., 실험에서 130만 토큰) 지식 표현의 다양성이 부족하기 때문입니다.
이 문제를 해결하기 위해 2단계로 구성된 ‘합성 지속 사전학습’ 절차를 제안합니다.
합성 데이터 생성 알고리즘 \(\mathcal{A}_\text{synth}\)를 적용하여 소규모 코퍼스 \(\mathcal{D}_\text{source}\)를 합성 코퍼스 \(\mathcal{D}_\text{synth}\)로 변환:
\[\mathcal{A}_\text{synth}: \mathcal{D}_\text{source} \mapsto \mathcal{D}_\text{synth}\]\(\mathcal{D}_\text{source}\) 대신 \(\mathcal{D}_\text{synth}\)에 대해 지속 사전학습 수행
실제로 \(\mathcal{A}_\text{synth}\)를 구현할 때는 언어 모델을 사용합니다. 이때 언어 모델이 잘못된 지식을 생성할 수 있다는 우려가 있습니다. 따라서 원본 문서에 조건화된 생성 프로세스를 사용하여 합성 데이터의 충실도를 향상시키는 데 중점을 둡니다.
평가를 위해 \(\mathcal{D}_\text{source}\)에 대한 지식을 테스트하는 쿼리 집합 \(\mathcal{Q}_\text{test}\)를 준비합니다. 파라미터적 지식을 테스트하기 위해, 테스트 시 모델이 \(\mathcal{D}_\text{source}\)에 접근할 수 없도록 합니다. 따라서 쿼리는 \(\mathcal{D}_\text{source}\) 없이도 모호하지 않아야 합니다.
성공 기준으로, 검색 기반 접근 방식을 상한선으로 삼습니다. 즉, 지속 사전학습된 모델의 \(\mathcal{Q}_\text{test}\)에 대한 성능이 테스트 시 \(\mathcal{D}_\text{source}\)에 접근 가능한 검색 접근 방식의 성능에 근접하면 \(\mathcal{A}_\text{synth}\)가 성공적이라고 간주합니다.
2.2 EntiGraph
다음으로, 합성 데이터 증강 알고리즘 \(\mathcal{A}_\text{synth}\)의 구체적인 구현인 EntiGraph를 소개합니다. EntiGraph는 프롬프팅된 언어 모델을 사용하여 \(\mathcal{D}_\text{source}\)의 지식 그래프 표현을 합성함으로써 소규모 코퍼스 \(\mathcal{D}_\text{source}\)로부터 다양한 지식 표현을 생성합니다.
실제로 EntiGraph는 각 원본 문서 \(D_i \in \mathcal{D}_\text{source}\)에 독립적으로 적용되는 연산입니다. 따라서 이후에는 주어진 문서를 \(D\)로 표기하겠습니다. 각 문서 \(D\)에 대해 EntiGraph는 프롬프팅된 언어 모델 \(\text{LM}_\text{aug}\)를 사용하여 문서의 엔티티들에 대한 지식 그래프를 자연어로 생성합니다.
EntiGraph는 세 단계로 구성됩니다.
이런 계층적 프롬프팅 전략은 다양한 합성 텍스트 생성 문제를 코퍼스 문서에 등장하는 다양한 엔티티들을 관련짓는 그래프라는 조합적 구조로 외부화합니다.
각 단계를 자세히 살펴보겠습니다.
엔티티 추출 먼저 EntiGraph는 entity_extraction 프롬프트를 사용하여 문서 \(D\)에서 중요한 엔티티 목록 \(\{E_1, E_2, \ldots, E_n\}\)을 추출합니다.
\[\{E_1, E_2, \ldots, E_n\} \sim \text{LM}_\text{aug}(\text{entity\_extraction}(D))\]단일 엔티티 설명 다음으로, 추출된 각 엔티티 \(E_i\)에 대해 원본 문서 \(D\)의 맥락에서 추가 정보를 생성합니다. 지식 그래프 관점에서 이는 각 엔티티가 무엇인지 언어 모델이 학습할 수 있는 데이터를 생성하는 것입니다. EntiGraph는 추출된 엔티티 \(E_i, i \in \{1, \ldots, n\}\)에 대해 반복하며 entity_description 프롬프트를 적용하여 엔티티 \(E_i\)의 역할에 초점을 맞춘 합성 문서 \(\tilde{D}_{E_i}\)를 생성합니다.
\[\tilde{D}_{E_i} \sim \text{LM}_\text{aug}(\text{entity\_description}(D, E_i))\]관계 분석 마지막 단계에서는 엔티티 부분집합 간의 관계를 분석합니다. 이는 원본 문서 \(D\)에 내재된 지식 그래프의 엣지를 철저히 탐색하는 것과 유사합니다. relation_analysis 프롬프트를 적용하여 원본 문서 \(D\)의 맥락에서 \(k \leq n\)개 엔티티의 부분집합이 어떻게 관련되어 있는지 설명하는 합성 문서 \(\tilde{D}_{E_{i_1}\ldots E_{i_k}}\)를 얻습니다.
\[\tilde{D}_{E_{i_1}\ldots E_{i_k}} \sim \text{LM}_\text{aug}(\text{relation\_analysis}(D, E_{i_1}, E_{i_2}, \ldots, E_{i_k}))\]실제로는 \(n\)개 추출된 엔티티의 모든 가능한 부분집합을 열거하는 것은 비현실적이므로, 실험에서는 모든 쌍 \(\tilde{D}_{E_iE_j}\)와 삼중항 \(\tilde{D}_{E_iE_jE_k}\)를 생성하는 것으로 제한합니다.
최종적으로, (3)과 (4)에서 샘플링된 모든 합성 텍스트를 수집하여 EntiGraph 알고리즘의 출력 \(\tilde{D} = \{\tilde{D}_{E_1}, \ldots, \tilde{D}_{E_{i_1}\ldots E_{i_k}}, \ldots\}\)을 원본 문서 \(D\)에 대해 얻습니다. 이 절차를 각 문서 \(D \in \mathcal{D}_\text{source}\)에 적용하고, 모든 합성 텍스트의 집합을 \(\mathcal{D}_\text{EntiGraph} = \{\tilde{D}_1, \tilde{D}_2, \ldots\}\)로 표기합니다.
이렇게 하여 소규모 원본 문서 코퍼스를 더 큰 합성 코퍼스 \(\mathcal{D}_\text{EntiGraph}\)로 매핑하는 합성 데이터 증강 알고리즘을 설명했습니다.
이런 방법을 통해 소규모 코퍼스의 한계를 극복하고, 언어 모델이 틈새 도메인의 지식을 효과적으로 습득할 수 있도록 합니다. 다음 섹션에서는 이 방법의 효과성을 평가하기 위한 실험 설정과 결과를 살펴보겠습니다.
3. 실험 설정
이 섹션에서는 주어진 데이터 증강 알고리즘 \(\mathcal{A}_\text{synth}\)를 어떻게 평가하는지 자세히 설명합니다. 문제 설정(§2.1)에서 설명한 대로, 이런 알고리즘 \(\mathcal{A}_\text{synth}\)를 평가하기 위해 그 출력 합성 코퍼스 \(\mathcal{A}_\text{synth}(\mathcal{D}_\text{source})\)로 지속 사전학습된 언어 모델이 원본 문서 \(\mathcal{D}_\text{source}\)에 대한 테스트 쿼리 \(\mathcal{Q}_\text{test}\)에 정확하게 답할 수 있는지 평가합니다.
주요 실험에서는 원본 문서 \(\mathcal{D}_\text{source}\) 없이도 모호하지 않은 쿼리를 사용하고, 모델이 쿼리 \(\mathcal{Q}_\text{test}\)에 답하는 동안 \(\mathcal{D}_\text{source}\)에 접근하지 못하게 합니다(§2.1). 이를 통해 어떤 데이터 증강 알고리즘이 합성 지속 사전학습(synthetic CPT)을 통해 파라미터적 지식 획득을 가장 잘 촉진하는지 평가할 수 있습니다. 후에 §5에서는 모델이 원본 문서 \(\mathcal{D}_\text{source}\)와 테스트 쿼리 \(\mathcal{Q}_\text{test}\)에 동시에 접근할 수 있는 오픈북 설정을 고려하여, 합성 지속 사전학습을 통해 획득한 파라미터적 지식이 검색을 통한 비파라미터적 지식 접근과 어떻게 결합되는지 테스트합니다.
실험에 사용하는 소규모 코퍼스와 관련 테스트 쿼리 \((\mathcal{D}_\text{source}, \mathcal{Q}_\text{test})\)의 쌍을 소개합니다.
QuALITY 코퍼스 \(\mathcal{D}_\text{source}\)
코퍼스와 테스트 쿼리는 장문 이해 벤치마크인 QuALITY 데이터셋(Pang et al., 2022)을 기반으로 합니다. QuALITY 코퍼스 \(\mathcal{D}_\text{source}\)는 과학 소설부터 저널리즘까지 다양한 장르의 265개 기사와 짧은 책으로 구성되며, 평균 길이는 약 5,000 토큰입니다.
QuALITY 테스트 쿼리 \(\mathcal{Q}_\text{test}\)
테스트 쿼리 \(\mathcal{Q}_\text{test}\)의 소스로, QuALITY의 각 기사에 동반된 10-20개의 객관식 문제를 사용합니다. 이 질문들은 \(\mathcal{D}_\text{source}\)에 대한 고품질 지식 프로브 역할을 하지만, 쿼리 표현은 종종 읽기 이해 맥락을 전제로 합니다(e.g., “저자는 …에 대해 어떻게 생각합니까?”). 각 쿼리가 모호하지 않도록 하기 위해 해당 기사 참조로 맥락화합니다. “‘{article_name}’의 맥락에서 {author_name}은 …에 대해 어떻게 생각합니까?”. 총 4,609개의 모호하지 않은 쿼리 \(\mathcal{Q}_\text{test}\)를 얻어 지속 사전학습된 언어 모델의 파라미터적 지식을 테스트합니다. 4,609개 중 2,316개의 쿼리는 데이터셋 큐레이터에 의해 “어려움”으로 분류되어 있어, “어려움”과 “쉬움” 분할에 대한 결과도 보고합니다.
지시 튜닝된 요약에 대한 평가
위의 테스트 쿼리 \(\mathcal{Q}_\text{test}\)를 사용한 평가 외에도, 지속 사전학습된 LM들을 지시 튜닝하고 더 일반적인 instruction following 쿼리에 대해 평가합니다. 구체적으로, 지시 튜닝된 모델의 클로즈드북 요약 능력을 평가하기 위해 QuALITY 기사의 제목과 저자만 주고 요약을 생성하도록 프롬프팅합니다.
강력한 API 기반 LLM의 성능
지속 사전학습 설정을 위해 표준 사전training dataset셋에 잘 표현되지 않은 코퍼스 \(\mathcal{D}_\text{source}\)를 선택해야 합니다. QuALITY 코퍼스 \(\mathcal{D}_\text{source}\)의 희소성 초기 테스트로, GPT-3.5(Brown et al., 2020)와 GPT-4(OpenAI et al., 2024)를 \(\mathcal{Q}_\text{test}\)에 대해 평가합니다. 클로즈드북 설정에서 GPT-3.5의 정확도는 44.81%, GPT-4의 정확도는 51.30%입니다(표 2). 오픈북 설정, 즉 전체 기사를 프롬프트에 넣었을 때 GPT-3.5의 정확도는 72.60%, GPT-4의 정확도는 86.09%입니다(표 4). \(\mathcal{D}_\text{source}\)를 제공했을 때 큰 향상(약 30%)이 있다는 점을 바탕으로, QuALITY 코퍼스 \(\mathcal{D}_\text{source}\)가 적절한 테스트베드로 사용하기에 충분히 니치하다고 결론 내립니다.
4. 주요 실험
이 섹션에서는 주요 실험 결과를 제시합니다. GPT-4를 프롬프팅된 모델 \(\text{LM}_\text{aug}\)로 사용하여 130만 토큰의 QuALITY 코퍼스 \(\mathcal{D}_\text{source}\)에 EntiGraph를 적용하여 6억 토큰의 합성 코퍼스를 생성합니다. 이후 전자를 “Raw 코퍼스”, 후자를 “EntiGraph 코퍼스”라고 부릅니다.
Llama 3 8B(Dubey et al., 2024)를 6억 토큰의 EntiGraph 코퍼스로 표준 인과적 언어 모델링을 사용하여 지속 사전학습합니다. §4.1에서는 지속 사전학습 절차를 설명하고 두 가지 자연스러운 베이스라인을 소개합니다. §4.2에서는 모든 방법을 QuALITY 테스트 쿼리 \(\mathcal{Q}_\text{test}\)로 평가하고, EntiGraph를 사용한 합성 지속 사전학습이 두 베이스라인을 크게 능가함을 발견합니다. 또한 정확도가 EntiGraph 합성 데이터의 양에 따라 6억 토큼까지 로그 선형으로 증가함을 보입니다. §4.3에서는 EntiGraph를 사용한 합성 지속 사전학습이 downstream 지시 튜닝과 호환됨을 보입니다.
4.1 지속 사전학습 절차
모든 실험에서 Llama 3 8B Base 모델을 2048의 컨텍스트 길이와 16의 배치 크기로 지속 사전학습합니다. 총 스텝의 5%동안 선형 학습률 웜업을 적용한 후 코사인 감소를 사용하며, 최대 학습률은 5e-6입니다. 완전 분할 데이터 병렬(FSDP, Zhao et al. (2023))로 전체 파라미터 훈련을 수행합니다. 사전학습된 지식의 망각을 완화하기 위해 10억 RedPajama 토큰(TogetherAI, 2023)을 사용하여 0.1의 비율로 리플레이를 수행합니다.
EntiGraph CPT: 주요 지속 사전학습 실험에서는 Llama 3 8B Base를 6억 토큰 EntiGraph 코퍼스로 2 에포크 동안 지속 사전학습합니다. 이후 이 지속 사전학습된 모델을 “EntiGraph CPT”라고 부릅니다.
Raw CPT 베이스라인
첫 번째 자연스러운 베이스라인은 Llama 3 8B Base를 Raw 코퍼스(원본 QuALITY 기사 \(\mathcal{D}_\text{source}\))로 지속 사전학습하는 것입니다. Raw 코퍼스는 130만 토큰밖에 없기 때문에, 에포크 수(반복 계수)와 RedPajama 리플레이 비율을 QuALITY QA 검증 분할의 정확도에 대해 공동으로 튜닝합니다. 선택된 하이퍼파라미터 구성은 4 에포크와 0.1 리플레이 비율을 사용합니다. Raw 코퍼스로 지속 사전학습된 이 모델을 “Raw CPT”라고 부릅니다.
Rephrase CPT 베이스라인
§1에서 언급했듯이, 간단한 합성 데이터 증강 절차는 일반적인 패러프레이징 프롬프트로 QuALITY 기사를 다시 표현하는 것입니다. Maini et al. (2024)와 Ovadia et al. (2024)는 이 아이디어의 체계적인 확장을 실행합니다. 특히 Maini et al. (2024)는 실제 사전training dataset를 쉬움, 중간, 어려움, QA의 네 가지 스타일로 다시 표현하고, 다시 표현된 데이터로 LM을 처음부터 사전학습합니다. 이 합성 데이터 증강 알고리즘을 소규모 코퍼스 설정에 맞게 조정하여, EntiGraph와 동일한 프롬프팅된 모델 \(\text{LM}_\text{aug}\)(gpt-4-turbo)를 사용합니다. 이를 “Rephrase 베이스라인”이라고 부릅니다. \(\mathcal{D}_\text{source}\)의 모든 문서에 네 가지 프롬프트를 각각 적용하여 약 90만 토큰을 생성합니다. 이 프롬프트로 \(\text{LM}_\text{aug}\)의 다양성이 제한되어 같은 프롬프트로 더 많은 개선을 얻기 어려워, 총 180만 토큰의 두 번째 패스 후에 중단했습니다. 이 데이터를 Rephrase 코퍼스라고 부릅니다. 위와 동일한 하이퍼파라미터 튜닝 절차를 사용하여 Llama 3 8B Base를 이 코퍼스로 지속 사전학습합니다. 이 모델을 “Rephrase CPT”라고 부릅니다.
4.2 질의응답 평가
다음으로 QuALITY 테스트 쿼리 \(\mathcal{Q}_\text{test}\)를 사용한 클로즈드북 QA 평가의 자세한 설정을 제공하고 결과를 제시합니다.
평가 절차: 각 QuALITY 질문은 4지선다 단일 정답 객관식 문제입니다(MMLU와 유사, Hendrycks et al. (2021)). 4-샷 사고 연쇄 프롬프팅(Brown et al., 2020; Wei et al., 2024)으로 평가하며, 프롬프트는 Appendix D.1에 제공합니다. 퓨샷 예시로는 수동으로 작성하고 사실 확인한 QA 쌍을 사용합니다. QuALITY 책들에 대한 정보 유출을 피하기 위해 잘 알려져 있고 QuALITY 테스트 세트에 포함되지 않은 책들을 사용합니다.
EntiGraph 스케일링
6억 토큰 EntiGraph 코퍼스로 지속 사전학습하면 클로즈드북 QA 정확도가 39.49%(Llama 3 8B Base)에서 56.42%로 향상됨을 발견했습니다(Figure 2, 표 2). 자연스럽게 EntiGraph로 더 많은 토큰을 합성하고 훈련할 때 성능이 어떻게 확장되는지 궁금해집니다. 이를 테스트하기 위해 EntiGraph 코퍼스를 다양한 샘플 크기로 무작위 비복원 추출하고, 각 하위 샘플에 대해 Llama 3 8B Base를 지속 사전학습한 후, Figure 2에 샘플 크기에 대한 QuALITY 정확도를 플롯했습니다. 지속 사전학습에 사용된 합성 토큰 수에 따라 정확도가 6억 토큰까지 로그 선형으로 확장되는 것을 관찰했습니다. EntiGraph의 확장 특성을 §6에서 수학적으로 자세히 조사할 것입니다. 대략적으로, QuALITY 정확도가 지수 혼합 형태를 따르며 세 단계를 거친다고 가정합니다. (i) 선형 성장, (ii) 로그 선형 성장, (iii) 점근적 플래토.
베이스라인과의 비교
표 2는 모든 테스트 쿼리 \(\mathcal{Q}_\text{test}\)(All), 그리고 Easy와 Hard 분할에 대한 QuALITY 정확도를 보여줍니다. 왼쪽 열 집합은 다양한 데이터 소스로 지속 사전학습된 Llama 3 8B이고, 오른쪽 열 집합은 QuALITY 관련 데이터로 파인튜닝되지 않은 기본 모델과 API 기반 LLM입니다. EntiGraph CPT가 Rephrase와 Raw CPT 베이스라인을 능가합니다.
대조적으로, Rephrase CPT는 43.08%의 정확도를 얻습니다. 각 QuALITY 기사에 네 가지 다시 표현 프롬프트를 적용하면 90만 토큰만 생성되며, Rephrase CPT의 성능은 90만 토큰 임계값 근처에서 플래토에 도달합니다(Figure 2). 이 플래토를 더 명확히 보여주기 위해, 이 합성 데이터 생성 과정을 반복하여 총 180만 토큰의 Rephrase 코퍼스를 얻었고, 90만 토큰 모델과 거의 동일한 성능을 발견했습니다. 대조적으로, EntiGraph CPT 정확도는 180만 토큰 지점을 지나 6억 토큰까지 계속 증가합니다.
Raw CPT는 Llama 3 8B Base보다도 더 나쁜 성능을 보입니다(Figure 2의 점선 검은색 선, 표 2). 이에 대해 두 가지 이유를 추측합니다. (i) Raw 코퍼스는 Llama 3 8B 사전학습 코퍼스보다 더 좁고 다른 분포를 따르며, 이런 토큰들에 대해 과도하게 훈련하면 모델의 전반적인 영어 능력을 해칠 수 있습니다. (ii) Raw 코퍼스의 제한된 지식 표현 다양성으로 인해 반전 저주(Berglund et al., 2023)와 같은 문제로 제한된 지식 획득이 이루어집니다.
결과 논의
지속 사전학습 실험에서 두 가지 중요한 점을 강조합니다. 첫째, 원본 문서 코퍼스 \(\mathcal{D}_\text{source}\)가 작고 따라서 그 지식이 압축된 표현으로 제시될 때, 다음 토큰 예측을 통한 지속 사전학습은 심지어 과도한 반복에도 불구하고 모델에 \(\mathcal{D}_\text{source}\)의 지식을 가르치는 데 실패합니다. 둘째, \(\mathcal{D}_\text{source}\)의 원본 문서에 근거한 더 큰 합성 데이터셋을 생성하면 지속 사전학습된 모델이 \(\mathcal{D}_\text{source}\)의 지식을 학습할 수 있게 됩니다. 그러나 합성 지속 사전학습이 확장되려면 합성 데이터가 충분히 다양해야 합니다. EntiGraph는 계층적 프롬프팅 전략을 사용하여 이 문제를 해결하며, 이는 다양성을 엔티티 지식 그래프에 인코딩된 조합적 관계로 외부화합니다.
4.3 instruction following 평가
이 섹션에서는 QuALITY 테스트 쿼리 \(\mathcal{Q}_\text{test}\) 이외의 더 일반적인 테스트 쿼리를 탐구합니다. 구체적으로, EntiGraph CPT에 지시 튜닝을 수행하여 EntiGraph Instruct를 훈련합니다. EntiGraph 코퍼스에 대한 합성 지속 사전학습이 지시 튜닝과 호환됨을 보여줍니다. 특히, EntiGraph Instruct는 QuALITY 책과 기사 \(\mathcal{D}_\text{source}\)에 대한 테스트 시간 접근 없이도 합성 지속 사전학습 동안 얻은 지식을 instruction following 작업에서 직접 사용할 수 있습니다.
지시 튜닝 세부사항
Huggingface 팀(Tunstall et al., 2023)이 필터링한 UltraChat 지시 튜닝 데이터셋(Ding et al., 2023)을 지시 튜닝 데이터로 사용합니다. Llama 3.1 8B Instruct(Dubey et al., 2024)의 채팅 템플릿을 사용하여 UltraChat 대화를 포맷팅하여 2억 5천만 토큰의 지시 튜닝 데이터셋을 얻습니다. 선형 학습률 웜업 후 코사인 감소를 0으로 적용하고 최대 학습률은 5e-6입니다. 512의 배치 크기와 2048의 컨텍스트 윈도우로 1 에포크 동안 모델을 훈련합니다. 지시 튜닝 절차의 건전성을 확인하기 위해 GPT-4에 대한 AlpacaEval(Li et al., 2023a) 승률을 측정하고 0%에서 6.35%로 향상됨을 발견했는데, 이는 Llama 2 Chat 13B의 7.7% 기준 승률과 비교할 만합니다.
지시 튜닝 정성적 예시
EntiGraph Instruct의 QuALITY 기사 관련 지시를 따르는 능력을 보여주기 위해 몇 가지 정성적 예시를 제시합니다. 첫 번째 테스트로, 모델에게 제목과 저자에 대한 명시적 참조는 주지만 기사 자체에 대한 접근 없이 QuALITY 기사를 요약하도록 요청합니다(표 3, 상단 행). 다음으로, 제목과 저자에 대한 명시적 참조 없이도 기사에 대한 지식이 모델의 파라미터에 저장되어 있고 그 행동에 영향을 미칠 수 있음을 보여줍니다(표 3, 중간 행). 마지막으로, 모델이 두 기사에 걸친 지식을 사용하여 비교를 수행하는 예시를 제공합니다(표 3, 하단 행). 인위적이긴 하지만, 이는 EntiGraph가 여러 기사를 동시에 포함하는 데이터를 합성하지 않았음에도 불구하고 모델이 파라미터적 지식을 사용하여 상호작용에 대해 인퍼런스할 수 있음을 보여줍니다.
클로즈드북 요약에 대한 평가 메트릭
잘 연구된 instruction following 작업인 요약에 대한 정량적 메트릭도 제시합니다. EntiGraph Instruct의 QuALITY 기사 요약을 sQuALITY(Wang et al., 2022)의 휴먼 작성 요약과 비교합니다. ROUGE(Lin, 2004)나 BERTScore(Zhang* et al., 2020)와 같은 일반적인 스칼라 요약 메트릭은 주로 요약과 원본 기사 간의 텍스트 유사성을 평가하며, 추상적 시스템의 요약 품질을 정확히 반영하지 못할 수 있습니다(Zhang et al., 2024b).
피라미드 평가(Nenkova et al., 2007; Gao et al., 2019)의 아이디어를 기반으로 한 간단한 자동화된 평가 메트릭을 사용합니다. 이 메트릭은 동시에 환각 비율과 요약이 원본 기사의 중요한 주장을 얼마나 잘 포착하는지를 측정합니다. 구체적으로, 세 단계로 구성된 평가 절차를 설계합니다. (i) 첫 번째 단계에서는 GPT-4를 사용하여 요약을 원자적 주장으로 분해합니다(Min et al. (2023)과 유사). (ii) 두 번째 단계에서는 주장 목록과 원본 기사를 판단 모델(역시 GPT-4)에 제공합니다. 판단 모델에게 원본 기사를 기반으로 각 주장이 참인지 거짓인지 판단하도록 요청합니다. 주장이 참이라면, 추가로 그 주장이 중요한지(기사의 주요 메시지에 기여하는지) 아니면 표면적인지(주요 메시지 이해에 도움이 되지 않는 사실적 세부사항인지) 판단하도록 요청합니다. (iii) 마지막으로, 각 요약에 대해 거짓 주장과 중요한 주장의 수를 얻고 이를 휴먼 요약의 해당 수로 정규화합니다. QuALITY 코퍼스 기사 전체에 걸친 이런 정규화된 메트릭의 평균을 Figure 3에 보고합니다.
정량적 요약 결과 논의
Figure 3에서 세 가지 요약기를 비교합니다. EntiGraph Instruct, Rephrase Instruct, Raw Instruct. 후자 두 개는 Rephrase CPT와 Raw CPT에 위의 지시 튜닝 절차를 적용하여 얻은 것입니다. 각 요약기에 세 가지 다른 프롬프트(짧음, 중간, 긴)를 제공하여 점진적으로 더 자세한 요약을 요청합니다. 정확한 프롬프트는 Appendix D.2에 제공합니다. Rephrase Instruct와 Raw Instruct는 요약이 길어질수록 일관되게 환각을 일으키고 더 많은 거짓 주장을 생성하며, 중요한 주장의 수는 거의 개선되지 않습니다. 반면에 EntiGraph Instruct는 요약이 길어짐에 따라 더 많은 중요한 주장을 생성할 수 있으며, 거짓 주장의 수는 약간만 증가합니다. 중요한 주장과 거짓 주장 비율의 차이가 충분히 크기 때문에, 이런 결과는 특정 메트릭을 넘어서도 유효할 것 같습니다.
추가 정성적 요약 결과
위의 자동화된 평가 메트릭을 보완하기 위해 Appendix D.2에 여러 정성적 예시를 제공합니다. 상기 식에서 EntiGraph Instruct, Raw Instruct, Rephrase Instruct의 짧은 요약을 휴먼 요약과 비교합니다. EntiGraph Instruct 요약의 내용이 휴먼 요약과 잘 일치하는 반면, Raw와 Rephrase Instruct 요약에는 명확한 환각이 포함되어 있음을 관찰합니다. 정성적 예시에서 얻은 결론은 자동화된 평가 결과와 일치합니다.
이런 실험 결과들을 종합하여 다음과 같은 중요한 결론을 도출할 수 있습니다.
EntiGraph를 사용한 합성 지속 사전학습(synthetic CPT)은 소규모 코퍼스로부터 효과적으로 지식을 습득할 수 있습니다. 이는 단순히 원본 코퍼스를 반복하거나 일반적인 패러프레이징을 사용하는 것보다 훨씬 우수한 성능을 보입니다.
EntiGraph CPT의 성능은 합성 데이터의 양에 따라 로그 선형적으로 확장됩니다. 이는 더 많은 합성 데이터를 생성할수록 모델의 성능이 지속적으로 향상될 수 있음을 시사합니다.
합성 지속 사전학습을 통해 획득한 지식은 지시 튜닝과 호환되며, downstream 작업(e.g., 요약)에서 효과적으로 활용될 수 있습니다.
EntiGraph Instruct는 원본 문서에 접근하지 않고도 복잡한 지시를 따르고 정확한 요약을 생성할 수 있습니다. 이는 모델이 합성 데이터로부터 실제로 유용한 지식을 획득했음을 보여줍니다.
자동화된 평가 메트릭과 정성적 분석 모두에서 EntiGraph 기반 모델이 베이스라인보다 우수한 성능을 보입니다. 특히 요약의 정확성과 관련성 측면에서 큰 개선을 보입니다.
이런 결과는 EntiGraph가 소규모 코퍼스로부터의 효율적인 지식 습득 문제에 대한 유망한 해결책임을 시사합니다. 엔티티 기반의 지식 그래프 생성 접근 방식은 단순한 패러프레이징이나 반복보다 더 다양하고 풍부한 합성 데이터를 생성할 수 있으며, 이는 모델의 지식 습득 능력을 크게 향상시킵니다.
다음 단계로는 EntiGraph의 확장성을 더 큰 코퍼스와 다양한 도메인에 대해 조사하고, 합성 데이터 생성 과정을 더욱 최적화하여 계산 효율성을 높이는 것이 될 수 있습니다. 또한 EntiGraph로 학습된 모델의 지식 표현을 더 깊이 분석하여 어떤 종류의 지식이 가장 잘 습득되는지, 그리고 이 접근 방식의 한계가 무엇인지 이해하는 것도 중요한 연구 방향이 될 것입니다.
5. 오픈북 실험
이 섹션에서는 테스트 시 도메인 특화 코퍼스 \(\mathcal{D}_\text{source}\)를 사용할 수 있는 오픈북 설정을 고려합니다. 이 widespread 설정에서는 검색 증강 생성(RAG; Lewis et al., 2020; Gao et al., 2024)이 주요 접근 방식입니다. RAG는 강력한 도구, 파인튜닝 불필요, 시간에 따른 코퍼스 업데이트 지원, 높은 재현율 등의 장점이 있습니다.
따라서 EntiGraph를 사용한 합성 지속 사전학습을 통해 학습된 파라미터적 지식이 RAG를 통해 테스트 시 접근되는 비파라미터적 지식을 보완하는지 확인하는 것이 자연스러운 질문입니다. 이 섹션에서는 최신 RAG 파이프라인을 Entigraph CPT 사용 여부에 따라 비교하여 이 질문에 답합니다.
5.1 RAG 평가 설정
RAG 파이프라인은 확립된 모범 사례를 따릅니다. 문서 청크를 인덱싱하는 오프라인 단계와 인퍼런스 시 검색, 재순위화, 그리고 해당 청크를 few-shot LM 프롬프트에 배치하는 단계로 구성됩니다.
구체적으로, 인덱싱 단계에서는 주어진 코퍼스의 문서를 청크로 나누고, API 기반 임베딩 모델을 사용하여 각 청크의 밀집 벡터 임베딩을 얻은 후, (임베딩, 청크) 쌍을 인덱싱합니다. 인퍼런스 시에는 API 기반 임베딩 모델로 쿼리를 임베딩하고, 근사 최근접 이웃 검색을 사용하여 \(K\)개의 문서 청크를 검색한 후, API 기반 재순위화기를 사용하여 가장 관련성 높은 \(k < K\)개의 청크를 선택합니다.
5.2 결과
표 4는 오픈북 RAG 설정에서의 결과를 보여줍니다.
EntiGraph 지속 사전학습이 RAG를 보완함 EntiGraph CPT가 지속 사전학습의 기반이 된 Llama 3 8B Base보다 우수한 성능을 보입니다. 이는 합성 지속 사전학습을 통해 내재화된 지식이 RAG 중 접근되는 지식을 보완함을 보여줍니다. 이로써 소규모 코퍼스 QA를 위한 새로운 경쟁력 있는 방법이 제시됩니다. (1) 합성 데이터 증강, (2) 지속 사전학습, (3) RAG.
EntiGraph 지속 사전학습만으로도 RAG 성능에 근접 이 결과는 클로즈드북, 파라미터적 지식 설정에서 EntiGraph의 효과성을 맥락화합니다. 표 2와 4를 비교하면, Llama 3 8B Base에 RAG를 추가하면 20.86%의 절대적 정확도 향상(39.49% → 60.35%)이 있습니다. 반면, Llama 3 8B Base를 EntiGraph 코퍼스로 지속 사전학습하면 16.93%의 절대적 정확도 향상(39.49% → 56.42%)이 있습니다. 따라서 EntiGraph 지속 사전학습은 RAG 재현율이 거의 완벽한 소규모 코퍼스 설정에서도 RAG의 절대적 성능 향상의 80% 이상을 제공합니다.
종합하면, 이 결과는 EntiGraph 지속 사전학습을 통해 획득한 파라미터적 지식이 현실적인 지식 집약적 QA 파이프라인과 잘 결합됨을 보여줍니다. 또한 EntiGraph 지속 사전학습만으로도 - 인퍼런스 시 코퍼스 접근 없이 - 강력한 RAG 베이스라인과 거의 경쟁력이 있음을 보여줍니다.
6. EntiGraph 스케일링에 대한 이론적 분석
EntiGraph 데이터 증강 알고리즘이 \(\mathcal{D}_\text{source}\) 외의 새로운 사실 정보를 명시적으로 추가하지 않음에도 불구하고 성능이 향상되는 것은 놀라울 수 있습니다. 이 섹션에서는 이 현상을 설명하기 위해 그래프 상의 확률 과정을 기반으로 한 수학적 모델을 구축합니다.
6.1 토이 모델 설정
Anthropic Toy Model 관련 내용 검색해서 참고
이 모델에서 \(\mathcal{V}\)는 엔티티 집합을 나타내고, 원본 문서 \(\mathcal{D}_\text{source}\)는 알려진 관계 쌍 \(\mathcal{D}_\text{source} \subset \{(x,y) \in \mathcal{V}^2 : x \neq y\}\)로 표현됩니다. 각 관계 쌍이 \(\mathcal{D}_\text{source}\)에 독립적으로 확률 \(p\)로 나타난다고 가정합니다. 수학적으로, \(\mathbb{P}[(x,y) \in \mathcal{D}_\text{source}] = p\)입니다(모든 \(x \in \mathcal{V}\), \(y \in \mathcal{V}\), \(x \neq y\)에 대해). \(V = \\|\mathcal{V}\\|\)라 하고 \(p = \lambda/V\)라고 가정합니다(\(\lambda > 1\)은 상수).
학습을 기억화로 모델링
사실적 지식의 학습을 기억화 과정으로 모델링합니다. 모델은 명시적으로 훈련된 관계를 기억하지만 그 이상으로 의미 있게 일반화하지 않습니다. 언어 모델의 지식은 행렬 \(\mathbf{M} \in \{0,1\}^{V \times V}\)로 표현되며, \(\mathbf{M}(x,y) = 1\)이면 모델이 \((x,y)\) 관계를 “알고” 있음을 나타냅니다.
EntiGraph 합성 데이터 증강
\(\mathcal{D}_\text{source}\)가 주어졌을 때, 다음과 같은 반복적 합성 데이터 생성 절차를 정의합니다.
각 \(t = 1,2,\ldots\)에 대해,
이 과정은 EntiGraph 합성 데이터 증강 알고리즘의 관계 분석 단계를 모방합니다. 인덱스 \(t\)는 모델이 생성한 합성 토큰 수에 해당하며, 모델의 지식은 행렬 \(\mathbf{M}_t\)에 포함된 1의 개수로 포착됩니다.
6.2 엄밀한 상한과 하한
\(\text{Acc}(\mathbf{M}_t)\)의 스케일링 트렌드에 대한 엄밀한 상한과 하한을 도출합니다. \(\text{Acc}(\mathbf{M}_t)\)가 \(t\)의 함수로서 서로 다른 성장률을 가진 두 지수 함수에 의해 위아래로 경계지어질 수 있음을 보입니다.
6.3 분석적 공식
포아송 분기 과정 근사를 사용하여 \(\text{Acc}(\mathbf{M}_t)\)를 분석합니다. 이 접근 방식은 다음과 같은 형태의 근사를 산출합니다.
\[\text{Acc}(\mathbf{M}_t) \sim p + C_\lambda\left(1 - \sum_{\ell=0}^\infty \frac{\lambda-1}{\lambda^{\ell+1}} \sum_{k=1}^\infty p_\ell(k)\left(1-\frac{k}{V(V-1)}\right)^t\right)\]상기 식에서 \(p_\ell\)은 레벨 \(\ell\)에서의 포아송(\(\lambda\)) 분기 과정의 총 자손 \(Y_\ell\)의 확률 질량 함수입니다.
질적으로, 일반적인 \(\mathcal{D}_\text{source}\) 표현에 대해서도 여전히 혼합 지수 스케일링 트렌드를 관찰할 것으로 예상됩니다.
\[\text{Acc}(\mathbf{M}_t) \sim p + C\left(1 - \sum_{k=1}^\infty \mu(k)(1-a_k)^t\right)\]이 혼합 지수 함수적 형태는 세 가지 뚜렷한 단계로 구성됩니다. 빠른 성장 단계, 느린 성장 단계, 플래토 단계. 이 세 단계는 Figure 5에서 시뮬레이션을 통해 예시되어 있습니다.
이 이론적 분석은 EntiGraph가 원본 데이터의 지식을 학습에 더 용이한 레이아웃으로 “재배열”함으로써 성능 향상을 달성한다는 가설을 뒷받침합니다. 또한 이 분석은 EntiGraph CPT의 경험적으로 관찰된 스케일링 트렌드와 잘 일치하는 정량적 예측을 제공합니다.
7. 논의
주요 논의 인사이트 핵심 색인마킹
7.1 한계점
EntiGraph는 프롬프팅된 언어 모델을 사용하여 데이터를 합성하기 때문에, 존재하지 않는 엔티티 간 관계를 환각하거나 조작할 위험이 있습니다. 합성 데이터 생성 과정은 식 (3)과 (4)에서와 같이 원본 문서에 근거하지만, \(\text{LM}_\text{aug}\)가 \(\mathcal{D}_\text{source}\)에 조건화되었을 때 충실한 합성 데이터를 생성할 수 있다는 것은 가정입니다.
QuALITY 책들에 대한 실험에서, 몇 권의 책을 수동으로 읽고 그 책들에 대해 생성된 합성 데이터의 일부를 사실 확인했습니다. 사실적으로 부정확한 합성 텍스트를 발견하지 못했습니다. 이는 충분히 강력한 프롬프팅된 모델 \(\text{LM}_\text{aug}\) (gpt-4-turbo)를 사용했기 때문이라고 추측합니다. 그러나 EntiGraph를 복잡한 연구 논문과 같은 더 어려운 내용에 적용한다면, 프롬프팅된 모델이 환각에 더 취약할 수 있습니다.
반면에, 합성 데이터 생성에 유능한 프롬프팅된 언어 모델인 gpt-4-turbo를 사용하기 때문에, 성능 향상이 프롬프팅된 LM의 지식을 증류하는 것에서 온다고 우려할 수 있습니다. 그러나 클로즈드북 결과는 증류 효과만으로는 우리 접근 방식의 성능을 설명할 수 없음을 보여줍니다(GPT-4의 클로즈드북 성능을 초과합니다). 하지만 접근 방식은 아직 작은 목표 도메인에 대해 모델이 자체적으로 합성 데이터를 생성하는 부트스트래핑을 가능하게 하지는 않습니다. 이는 흥미로운 향후 연구 방향입니다.
7.2 향후 연구 방향
실제 데이터를 넘어선 지속적인 확장
휴먼이 작성한 텍스트의 큰 but 유한한 본체가 빠르게 소비되고 있습니다. Villalobos et al. (2024)은 SOTA 언어 모델들이 2028년에 모든 공개된 휴먼 생성 텍스트를 소진할 것이라고 예측합니다. 데이터가 풍부한 체제에서 데이터 제약 체제로 전환함에 따라(Kaplan et al., 2020; Muennighoff et al., 2023), 추가적인 확장을 위해서는 기존 데이터에서 더 많은 지식을 추출해야 할 것입니다.
EntiGraph를 사용한 합성 지속 사전학습이 작은 코퍼스에서 효과적으로 더 많은 지식을 추출한다는 것을 보여주었습니다. 이는 독점 데이터셋이나 인터넷에 한두 번만 나타나는 꼬리 지식을 학습하는 데 도움이 될 수 있습니다. EntiGraph와 같은 합성 데이터 생성 방법이 표준 사전training dataset에 대해 더 일반적으로 데이터 효율성을 개선할 수 있는지, 그리고 더 강력한 프롬프팅된 모델에 의존하지 않고도 이를 달성할 수 있는지는 열린 질문입니다.
긴 컨텍스트 언어 모델의 대안
최근 연구는 주의 메커니즘의 효율적인 구현(Dao et al., 2022; Liu et al., 2023; Gemini, 2024)이나 컨텍스트 길이에 준이차적인 대안 아키텍처(Tay et al., 2022; Gu et al., 2022; Gu & Dao, 2024; Sun et al., 2024)를 사용하여 긴 사용자 쿼리(e.g., 1M-10M+ 토큰)를 처리합니다.
많은 쿼리가 동일한 긴 접두사를 공유하는 설정(e.g., 기업의 독점 문서나 프롬프트 캐싱을 사용하는 다른 사용 사례(Anthropic, 2024a))에서는 대신 접두사에 대해 지속 사전학습을 수행하여 그 지식을 내재화한 다음, 더 짧은 쿼리에 대해 표준 이차 주의를 수행할 수 있습니다. 이 접근 방식은 접두사의 지식을 모델의 가중치로 상각하기 위해 고정된 훈련 비용을 지불한 다음 더 짧은 컨텍스트 길이의 이점을 누립니다(Gururangan et al., 2020; Snell et al., 2022).
합성 지속 사전학습 접근 방식은 지속 사전학습 패러다임을 10B-100B 토큰에서 130만 토큰으로 적응시킴으로써, 훨씬 더 작고 실용적인 토큰 수에서 공유 텍스트 접두사의 비지도 학습을 가능하게 할 수 있습니다.
7.3 결론
다음 토큰 예측을 통한 지속 사전학습은 사전학습된 언어 모델에 새로운 지식을 가르치는 데 놀라울 정도로 효과적이지만, 지금까지는 10B-100B+ 토큰의 광범위하고 데이터가 풍부한 도메인에만 성공적으로 적용되었습니다. 합성 지속 사전학습을 사용하여 지속 사전학습을 약 1M 토큰의 작고 특화된 코퍼스로 축소했습니다. 작은 코퍼스를 다양한 지식 표현을 가진 큰 합성 코퍼스로 변환하고, 그것에 대해 지속 사전학습을 수행합니다.
이 접근 방식을 지식 그래프에서 영감을 받은 합성 데이터 증강 알고리즘인 EntiGraph를 사용하여 구현했습니다. EntiGraph를 사용한 합성 지속 사전학습은 600M 토큰 합성 코퍼스까지 downstream 클로즈드북 QA 성능에서 일관된 스케일링을 보여주는 반면, 작은 코퍼스나 합성 패러프레이즈에 대한 지속 사전학습과 같은 베이스라인은 개선을 보이지 않거나 조기에 점근선에 도달합니다.
더욱이, 획득된 파라미터적 지식은 오픈북 설정에서 지시 튜닝 및 검색된 비파라미터적 지식과 조화를 이룹니다. 마지막으로, EntiGraph의 단순화된 수학적 모델을 제시하고 그 스케일링 트렜드에 대한 함수 형태를 도출했으며, 이는 경험적 트렌드와 밀접하게 일치합니다.
EntiGraph의 합성 데이터 생성 과정을 조합적 구조(이 경우 엔티티에 대한 지식 그래프)로 “외부화”하는 것이 다양한 데이터를 합성하는 데 일반적으로 유용한 전략이며 향후 연구의 유망한 대상이라고 가정합니다.
[참고자료] 폐포(Closure)
폐포는 집합론과 관계 이론에서 중요한 개념으로, 본 논문의 EntiGraph 알고리즘의 기본 원리를 이해하는 데 핵심적입니다. 이 다음 참고자료에서는 전이적 폐포와 EntiGraph에 대해서 자세히 다룹니다.
요약
1. 폐포의 종류와 특징
폐포 종류 | 수학적 정의 | 설명 | 예시 (R = {(1,2), (2,3)}) |
---|---|---|---|
반사 폐포 | R’ = R ∪ {(a,a) | a ∈ A} | 모든 원소에 자기 자신과의 관계 추가 | R’ = {(1,1), (1,2), (2,2), (2,3), (3,3)} |
대칭 폐포 | R’ = R ∪ {(b,a) | (a,b) ∈ R} | 모든 관계에 대해 역관계 추가 | R’ = {(1,2), (2,1), (2,3), (3,2)} |
전이 폐포 | R’ = R ∪ {(a,c) | ∃b((a,b) ∈ R ∧ (b,c) ∈ R)} | 추론 가능한 새로운 관계 모두 추가 | R’ = {(1,2), (2,3), (1,3)} |
2. 전이 폐포 계산 과정
단계 | 설명 | 행렬 표현 |
---|---|---|
1. 초기 관계 | R = {(1,2), (2,3)} | \(M_0 = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\) |
2. R^2 계산 | R^2 = R ○ R | \(M_1 = M_0 + M_0^2 = \begin{bmatrix} 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\) |
3. R^3 계산 | R^3 = R ○ R^2 (이 경우 추가 없음) | \(M_2 = M_1 + M_1^2 = \begin{bmatrix} 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\) |
3. 전통적 전이 폐포와 EntiGraph 비교
특성 | 전통적 전이 폐포 | EntiGraph 확장 |
---|---|---|
기본 원리 | (a,b) ∈ R 이고 (b,c) ∈ R 이면, (a,c)를 R’에 추가 | (a,b) ∈ R 이고 (b,c) ∈ R 이면, (a,c)를 R’에 추가하고 추가 정보 포함 |
저장 정보 | 관계의 존재 여부만 저장 | 관계의 존재, 설명, 연관 정보 저장 |
결과 예시 | R’ = {(사과, 빨간색), (빨간색, 따뜻한), (사과, 따뜻한)} | R’ = { (사과, 빨간색, “사과는 빨간색이다”), (빨간색, 따뜻한, “빨간색은 따뜻한 색이다”), (사과, 따뜻한, “사과는 따뜻한 느낌을 줄 수 있다”), (사과, 과일, “사과는 과일이다”), … } |
확장성 | 제한적 | 높음 (새로운 관계와 정보를 지속적으로 추가 가능) |
4. EntiGraph 알고리즘 단계
단계 | 설명 | 예시 |
---|---|---|
1. 엔티티 추출 | 문서에서 주요 엔티티 식별 | 사과, 빨간색, 과일, 달콤한 |
2. 단일 엔티티 설명 | 각 엔티티에 대한 상세 정보 생성 | “사과는 둥근 형태의 과일이다.” |
3. 관계 분석 | 엔티티 간 관계 탐색 및 설명 | “사과는 빨간색이며, 달콤한 맛이 난다.” |
4. 지식 그래프 구축 | 발견된 모든 관계를 연결하여 그래프 형성 | (사과) -[색상]-> (빨간색) (사과) -[종류]-> (과일) (사과) -[맛]-> (달콤한) |
5. 추론 | 기존 관계를 바탕으로 새로운 관계 추론 | “빨간 과일은 달콤할 가능성이 높다.” |
1. 폐포의 정의
폐포는 어떤 집합이나 관계에 특정 성질을 부여하기 위해 최소한으로 추가해야 하는 요소들의 집합입니다.
정의: R이 집합 A에 대한 이항 관계일 때, R의 P-폐포는 다음 조건을 만족하는 가장 작은 관계 R’이다.
2. 폐포의 종류
주요 폐포의 종류와 그 정의를 살펴보겠습니다.
a) 반사 폐포 (Reflexive Closure) 정의: R’ = R ∪ {(a,a) | a ∈ A} 설명: 모든 원소에 대해 자기 자신과의 관계를 추가합니다.
b) 대칭 폐포 (Symmetric Closure) 정의: R’ = R ∪ {(b,a) | (a,b) ∈ R} 설명: 모든 관계에 대해 그 역관계를 추가합니다.
c) 전이 폐포 (Transitive Closure) 정의: R’ = R ∪ {(a,c) | ∃b((a,b) ∈ R ∧ (b,c) ∈ R)} 설명: 두 관계를 통해 추론 가능한 새로운 관계를 모두 추가합니다.
3. 폐포의 수학적 표현
폐포를 수학적으로 표현하고 계산하는 방법을 살펴보겠습니다.
a) 반사 폐포 R’ = R ∪ E, 여기서 E는 항등 관계 {(a,a) | a ∈ A}입니다.
예시: A = {1, 2, 3}, R = {(1,2), (2,3)}일 때, R’ = {(1,1), (1,2), (2,2), (2,3), (3,3)}
b) 대칭 폐포 R’ = R ∪ R^(-1), 여기서 R^(-1)은 R의 역관계입니다.
예시: R = {(1,2), (2,3)}일 때, R’ = {(1,2), (2,1), (2,3), (3,2)}
c) 전이 폐포 R’ = R ∪ R^2 ∪ R^3 ∪ … ∪ R^n, 여기서 n은 관계의 정의역 크기입니다.
예시: R = {(1,2), (2,3)}일 때, R^2 = {(1,3)} R^3 = ∅ R’ = {(1,2), (2,3), (1,3)}
4. 폐포의 계산 과정
전이 폐포를 예로 들어 계산 과정을 단계별로 설명합니다.
Step 1: 초기 관계 행렬 설정
R = {(1,2), (2,3)}
\[M_0 = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\]Step 2: R^2 계산
R^2 = R ○ R (관계의 합성)
\[M_1 = M_0 + M_0^2 = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix} + \begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix} = \begin{bmatrix} 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\]Step 3: R^3 계산 (이 경우 추가되는 관계 없음)
\[M_2 = M_1 + M_1^2 = \begin{bmatrix} 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\]따라서, R의 전이 폐포 R’는 {(1,2), (2,3), (1,3)}입니다.
5. EntiGraph에서의 폐포 개념 확장
EntiGraph는 전이 폐포의 개념을 확장하여 사용합니다:
a) 기존 전이 폐포: (a,b) ∈ R 이고 (b,c) ∈ R 이면, (a,c)를 R’에 추가
b) EntiGraph 확장: (a,b) ∈ R 이고 (b,c) ∈ R 이면,
예를 들어, R = {(사과, 빨간색), (빨간색, 따뜻한)}일 때,
기존 전이 폐포: R’ = {(사과, 빨간색), (빨간색, 따뜻한), (사과, 따뜻한)}
EntiGraph 확장 R’ = { (사과, 빨간색, “사과는 빨간색이다”), (빨간색, 따뜻한, “빨간색은 따뜻한 색이다”), (사과, 따뜻한, “사과는 따뜻한 느낌을 줄 수 있다”), (사과, 과일, “사과는 과일이다”), … }
이러한 방식으로 EntiGraph는 단순한 관계의 존재뿐만 아니라, 관계의 의미와 추가적인 연관 정보까지 포함하는 풍부한 지식 그래프를 구축합니다.
[참고자료] EntiGraph와 전이적 폐포(Transitive Closure)
1. 전이적 폐포의 정의
전이적 폐포는 주어진 이진 관계 R에 대해, R을 포함하면서 전이적(transitive) 성질을 만족하는 가장 작은 관계입니다.
정의: 관계 R의 전이적 폐포 R^+는 다음을 만족하는 가장 작은 관계다.
2. EntiGraph와의 연관성
EntiGraph 알고리즘은 이 전이적 폐포의 개념을 확장하여 사용합니다. 엔티티 간의 관계를 그래프로 표현할 때, 전이적 폐포를 구하는 과정은 간접적으로 연결된 엔티티 간의 관계를 발견하는 것과 유사합니다.
3. 전이적 폐포의 계산
전이적 폐포를 계산하는 방법 중 하나는 연결 관계(connection relation) R*를 사용하는 것입니다.
R* = R ∪ R^2 ∪ R^3 ∪ … ∪ R^n (여기서 n은 관계의 정의역 크기)
단계적 설명
Step 1: 초기 관계 행렬 설정
예를 들어, 다음과 같은 초기 관계 R이 있다고 가정합시다.
\[R = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\]Step 2: R^2 계산
R^2 = R × R (행렬 곱)
\[R^2 = \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix} \times \begin{bmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix} = \begin{bmatrix} 0 & 0 & 1 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix}\]Step 3: R^3 계산
R^3 = R × R^2 𝑀 𝑓 𝑖 𝑛 𝑎 𝑙 = [ 0 1 1 1 0 0 1 1 0 0 0 1 0 0 0 0 ] 이 과정을 통해 EntiGraph는 “사과는 과일이다”라는 새로운 지식을 유추할 수 있게 됩니다.
이러한 방식으로 EntiGraph는 전이적 폐포의 개념을 확장하여, 단순한 경로 존재 여부를 넘어 복잡한 관계 네트워크를 구축하고 새로운 지식을 추론할 수 있게 됩니다.
Step 4: R*계산
R* = R ∪ R^2 ∪ R^3
\[R* = \begin{bmatrix} 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \end{bmatrix}\]이 R*가 R의 전이적 폐포입니다.
4. EntiGraph에서의 적용
EntiGraph에서는 이 과정을 확장하여 사용합니다. 단순히 경로의 존재 여부뿐만 아니라, 경로를 구성하는 모든 중간 노드와의 관계도 학습합니다.
예를 들어, EntiGraph에서는 R*를 계산할 때 다음과 같은 과정을 거칩니다.
이를 수식으로 표현하면,
\[R* = R \cup \{(a,c) | \exists b : (a,b) \in R \land (b,c) \in R\} \cup \{(a,b), (b,c) | \exists c : (a,b) \in R \land (b,c) \in R\}\]5. EntiGraph에서의 계산 예시
EntiGraph의 지식 행렬 M_t를 다음과 같이 정의했다고 가정해 봅시다.
\[M_0 = \begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{bmatrix}\]여기서 각 행과 열은 엔티티를 나타냅니다. (예: 1=사과, 2=빨간색, 3=단맛, 4=과일)
EntiGraph 알고리즘을 적용하면,
최종 결과
\[M_final = \begin{bmatrix} 0 & 1 & 1 & 1 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{bmatrix}\]이 과정을 통해 EntiGraph는 “사과는 과일이다”라는 새로운 지식을 유추할 수 있게 됩니다.
이러한 방식으로 EntiGraph는 전이적 폐포의 개념을 확장하여, 단순한 경로 존재 여부를 넘어 복잡한 관계 네트워크를 구축하고 새로운 지식을 추론할 수 있게 됩니다.
본질적으로 본 논문이 인간의 추론 과정을 그래프 자료형으로 정리하고, 이를 이론화하면서 이론적 해석까지 했다는 점에서 예전부터 많은 연구자분들이 생각하셨던 것들을 보여주신 것 같습니다.