환각을 줄이기 위한 주요 발견
1. 서론 (Introduction)
대규모 언어모델(Large Language Models, LMs)의 생성 및 예측 능력은 급격히 발전하고 있지만, 여전히 중요한 문제 중 하나는 환각(hallucination) 현상입니다. 환각이란 모델이 존재하지 않는 정보를 생성하는 현상으로, 이는 데이터셋의 모호성이나 훈련 과정의 불확실성으로 인해 발생할 수 있습니다. 본 연구에서는 지식 그래프(Knowledge Graph, KG)를 사용하여 이런 환각을 정의하고, 정량화하며, 환각이 모델의 크기와 데이터셋의 크기와 어떻게 상관되는지를 연구합니다.
지식 그래프는 주체(Subject), 술어(Predicate), 객체(Object)로 구성된 삼중항(triplet)을 포함하고 있으며, 이런 구조화된 데이터를 통해 모델이 훈련 중에 보았던 정보를 명확하게 통제할 수 있습니다. 이는 자연어 기반 데이터와는 달리, 모델이 학습한 정보와 그렇지 않은 정보를 정확히 구분할 수 있는 이점을 제공합니다.
2. 언어 모델의 지식 통제 (Controlling What an LM Knows)
2.1 지식 그래프 데이터셋 (The Knowledge Graph dataset)
지식 그래프(KG)는 정보의 일관성을 보장하고, 현실 세계의 정보 구조를 반영합니다. 본 연구에서는 Google이 제공한 지식 그래프를 사용하여 언어 모델을 훈련합니다. 지식 그래프는 주체, 술어, 객체로 구성된 삼중항을 포함하며, 이들 각각 앞에 특수 토큰을 추가하여 모델이 이를 쉽게 인식할 수 있도록 합니다. 이런 데이터셋을 사용함으로써, 모델이 학습한 정보를 쉽게 검증할 수 있으며, 모델이 예측하는 정보의 정확도를 체계적으로 평가할 수 있습니다.
데이터셋은 세 가지 가시성 수준으로 나뉩니다.
이런 데이터셋을 구성하기 위해, 주체 수준에서 독립적인 분할을 수행합니다. 주체-술어 쌍이 다수의 객체와 연결된 경우, 모든 객체가 동일한 집합에 속하도록 하여 정확한 평가가 가능하도록 합니다. 또한, 일부 주체-술어 쌍은 수백 개의 객체와 연결되어 있으며, 이런 경우 극단적인 길이를 가지는 항목을 제거하여 의미 있는 분석이 가능하도록 했습니다.
2.2 지식 그래프를 활용한 언어 모델 훈련 (Training LMs on the Knowledge Graph)
언어 모델의 훈련은 Transformer 기반의 디코더 전용 모델을 사용하여 진행됩니다. 모델의 크기와 데이터셋의 크기를 다양하게 조절하여 실험을 수행하였으며, 훈련 데이터셋은 1%에서 100%에 이르는 다양한 크기로 구성되었습니다. 훈련 과정에서는 삼중항을 기반으로 자동회귀(Auto-regressive) 방식의 손실 함수, 즉 cross-entropy loss를 최소화하는 방식으로 최적화가 이루어졌습니다.
주목할만한 점은 모델 크기와 훈련 데이터의 크기에 따라 모델의 성능 및 환각 빈도가 어떻게 변화하는지를 분석했다는 것입니다.
\[\mathcal{L}(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \log P_\theta(y_i | x_i)\]\(\mathcal{L}(\theta)\)는 손실 함수, \(N\)은 훈련 샘플의 수, \(y_i\)는 실제 객체, \(x_i\)는 주체와 술어, 그리고 \(P_\theta(y_i \\| x_i)\)는 주어진 주체와 술어에 대해 객체를 예측할 확률
모델의 학습은 Adam 옵티마이저를 사용하여 수행되었으며, 학습률은 선형 웜업(linear warmup)과 코사인 감쇠(cosine decay)를 통해 최적화되었습니다. 모델의 크기 및 학습 반복 횟수에 따라 학습률을 조정하였으며, 이로 인해 다양한 모델 크기와 데이터셋 크기에서 환각 빈도의 변화를 체계적으로 분석할 수 있었습니다.
3. 환각율과 스케일의 관계 (Hallucination Rate and How It Scales)
스케일링 법칙(Scaling Laws)은 모델 크기와 훈련 데이터셋 크기에 따라 언어 모델(LM)의 교차 엔트로피 손실(Cross-Entropy Loss)이 특정 패턴에 따라 감소하는 경험적 현상입니다 (Kaplan et al., 2020; Hoffmann et al., 2022). 교차 엔트로피 손실이 모델 예측의 정확도와 관련이 있는 만큼, 환각률이 유사한 경향을 따를 것이라고 생각할 수 있습니다. 하지만, 본 연구에서 얻은 결과(Figure 2)에 따르면 환각률은 이런 패턴을 따르지 않습니다.
3.1 데이터셋 크기 증가와 환각률의 상관관계
고정된 데이터셋 크기에서, 더 큰 모델이나 훈련을 더 오래 진행한 모델은 일반적으로 환각률이 낮아집니다. 그러나 데이터셋 크기를 증가시키면, 오히려 환각률이 높아지는 현상이 나타납니다. 이는 다음 두 가지 요인 때문입니다.
이런 요인은 특히 훈련 시 보지 못한 데이터에서 50% 이상의 환각률을 보이며, 이는 기억의 필요성을 잘 보여줍니다. 기억이 필요한 예시로는 앨범의 트랙 이름이나 출생 날짜 등이 있습니다.
환각률의 수학적 모델링은 다음과 같은 관계식으로 설명될 수 있습니다.
\[\text{Hallucination Rate} \propto \frac{1}{\text{Model Size}} \times \log(\text{Data Size})\]이 수식은 모델의 크기와 훈련 데이터셋의 크기에 따라 환각률이 어떻게 변할 수 있는지를 보여주며 모델 크기가 커질수록 환각률은 감소하지만, 데이터셋 크기가 증가하면 기억해야 할 정보량이 증가하여 환각률이 다시 상승할 수 있다고 언급합니다.
3.2 훈련 에포크 수와 환각률의 관계
또 다른 중요한 발견은, 20회 이상의 에포크 훈련이 특정 모델 크기에 대해 최소한의 환각률을 달성하기 위해 필요하다는 점입니다. 이는 현재의 일반적인 훈련 방법(e.g., 1~2회 에포크 훈련)과는 크게 대조됩니다 (Chowdhery et al., 2023; Hoffmann et al., 2022; Touvron et al., 2023).
하지만 20회 이상의 에포크 훈련은 훈련 중 보지 못한 데이터에 대한 일반화 능력을 감소시키는 부작용을 초래할 수 있습니다. 이는 Figure 2의 하단 그래프에서 나타나듯, 일정 에포크 이후 환각률이 다시 상승하는 경향에서 확인할 수 있습니다. 이런 현상은 특히 템퍼리처 파라미터 \(temp = 0.0\)에서 더욱 두드러지며, 환각률과 모델의 다른 성능 지표 간의 절충(trade-off)을 나타냅니다.
3.3 템퍼리처와 환각률의 상관관계
템퍼리처(temperature)는 모델의 예측 다양성을 제어하는 중요한 파라미터로, 템퍼리처가 낮을수록 모델의 예측이 더 확실해지지만, 이는 곧 환각률을 낮추는 반면 모델의 예측 다양성(Recall)을 감소시킵니다. 예를 들어, 템퍼리처를 1.0에서 0.0으로 낮추면, 가장 큰 모델에서도 훈련 데이터에서 본 데이터에 대한 환각률이 약 5%에서 1.5%로 줄어듭니다.
이를 수식으로 표현하면,
\[\text{Precision} \propto \frac{1}{\text{Hallucination Rate}}, \quad \text{Recall} \propto \text{Temperature}\]이 수식은 템퍼리처가 낮을수록 Precision(Precision)가 증가하지만, 재현율(Recall)은 감소한다는 것을 의미합니다. Figure 4에서, 템퍼리처 변화에 따른 Precision와 재현율의 변화를 시각화하여 이런 관계를 더욱 명확하게 확인할 수 있습니다.
3.4 모델 크기와 최적화의 상관관계
현재 일반적으로 사용되는 최적의 모델 크기보다 훨씬 큰 모델이 훈련 데이터에서 본 데이터에 대한 환각률을 최소화하기 위해 필요합니다. 이는 현재의 최적화 전략과는 상반되는 결과로, 더 큰 모델이 더 나은 성능을 보이기 위해서는 현재보다 훨씬 더 큰 계산 자원이 필요하다는 것을 시사합니다. 이를 해결하기 위한 대안으로는 Retrieval-Augmentation(Lewis et al., 2020; Borgeaud et al., 2022)이나 모델의 불확실성 표현 방법(Dhuliawala et al., 2023; OpenAI, 2023; Li et al., 2023) 등이 제안될 수 있습니다.
4. 환각 감지 성능과 스케일의 관계 (Hallucination Detectability and How It Scales)
4.1 실험 설정 (Setup)
앞서 살펴본 바와 같이, 환각률은 모델 크기와 훈련 길이에 따라 감소하는 경향이 있습니다. 그러나, 주어진 훈련 데이터셋 크기에 비해 훨씬 큰 모델들도 여전히 약 5%의 환각률을 보이며, 훈련 중 보지 못한 데이터에서는 약 50%의 환각률을 유지합니다(Figure 2). 따라서 다른 방법을 통해 환각률을 추가적으로 줄일 수 있는지에 대한 이해가 필요합니다.
환각 탐지기의 성능은 크게 두 가지로 나뉩니다.
각 탐지기의 성능은 다음과 같은 수학적 수식으로 평가할 수 있습니다.
\[\text{AUC-PR} \propto \frac{1}{\text{Hallucination Rate}}\]이 수식은 모델의 환각률이 낮을수록 환각 탐지기의 AUC-PR이 감소할 수 있음을 나타냅니다.
즉, 더 큰 모델일수록 환각률은 낮아지지만, 이로 인해 환각을 감지하는 것이 더 어려워질 수 있다는 것을 의미합니다.
4.2 실험 결과
Figure 5에서, 사전 훈련된 언어 모델 크기가 전체 감지 정확도에 미치는 영향을 보여줍니다. 예상대로, 풀(Full) 탐지기가 헤드(Head) 탐지기보다 더 나은 성능을 보입니다. 이는 풀 탐지기가 더 유연하기 때문이며, 다른 메트릭에서도 유사한 결과를 보입니다. 토큰 단위 탐지기가 문장 단위 탐지기보다 일반적으로 더 높은 정확도를 제공합니다.
하지만, 이런 결과는 기본 언어 모델의 환각률에 대한 민감성에 의해 혼란스러울 수 있습니다. 예를 들어, 환각률이 5%에 불과한 경우, 모든 환각을 잡는 단순한 탐지기도 95%의 정확도를 달성할 수 있습니다.
5. 한계점
본 연구의 결과는 SOTA(SOTA) 언어 모델의 동작과 일치하지 않을 수 있습니다. 첫째, 지식 그래프는 일반적으로 언어 모델 훈련에 사용되는 데이터와 다릅니다. 둘째, 본 연구에서 훈련된 모델은 SOTA 모델보다 훨씬 작으며, 이에 따라 비례적으로 작은 데이터셋을 사용했습니다. 셋째, 본 연구는 훈련 데이터에 문자 그대로 등장한 정보를 기억하지 못하는 환각만을 연구했습니다. 이런 이유로, 일부 결론은 다른 유형의 환각에 적용되지 않을 수 있습니다.
탐지기 성능 평가에서도 일반적인 경향성에 집중했으며, 특정 방법이 더 나은 결과를 제공할 수 있는 가능성을 배제하지 않았습니다. 그러나 탐지기 성능이 모델 크기에 따라 달라진다는 결과의 일관성은 이런 경향이 일반적인 특성임을 시사합니다. 마지막으로, 데이터셋의 불균형은 환각 탐지기의 성능에 강한 영향을 미쳤으며, 이런 불균형을 조정하기 위한 방법을 실험하지 않았습니다.
이와 같이 본 연구는 언어 모델의 환각률과 그 감지 성능을 모델 크기와 훈련 길이 측면에서 체계적으로 분석하며, 이에 대한 수학적 모델링과 실험적 결과를 제시합니다.