00:00:00

Share Your Feedback 🏝️

FLAME | Factuality-Aware Alignment for Large Language Models

FLAME | Factuality-Aware Alignment for Large Language Models

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Reasoning | Iterative Reasoning Next: Evaluatin | PROMETHEUS 2

FLAME | Factuality-Aware Alignment for Large Language Models

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-05-02

FLAME: Factuality-Aware Alignment for Large Language Models

  • url: https://arxiv.org/abs/2405.01525
  • pdf: https://arxiv.org/pdf/2405.01525
  • html https://arxiv.org/html/2405.01525v1
  • abstract: Alignment is a standard procedure to fine-tune pre-trained large language models (LLMs) to follow natural language instructions and serve as helpful AI assistants. We have observed, however, that the conventional alignment process fails to enhance the factual accuracy of LLMs, and often leads to the generation of more false facts (i.e. hallucination). In this paper, we study how to make the LLM alignment process more factual, by first identifying factors that lead to hallucination in both alignment steps:\ supervised fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that training the LLM on new knowledge or unfamiliar texts can encourage hallucination. This makes SFT less factual as it trains on human labeled data that may be novel to the LLM. Furthermore, reward functions used in standard RL can also encourage hallucination, because it guides the LLM to provide more helpful responses on a diverse set of instructions, often preferring longer and more detailed responses. Based on these observations, we propose factuality-aware alignment, comprised of factuality-aware SFT and factuality-aware RL through direct preference optimization. Experiments show that our proposed factuality-aware alignment guides LLMs to output more factual responses while maintaining instruction-following capability.

Contents

TL;DR


대규모 언어모델의 사실성 개선 연구

  • 사실성과 instruction following 능력의 균형 달성
  • 사실 기반 지시문 분류를 통한 맞춤형 파인튜닝
  • 사실성 보상 모델을 활용한 선호도 최적화

본 논문은 대규모 언어모델(LLM)의 사실성과 instruction following 능력을 동시에 향상시키는 방법을 제안합니다. 기존 LLM 정렬 방식은 종종 모델의 환각(hallucination)을 증가시키는 문제가 있었습니다. 이를 해결하기 위해 연구진은 사실성을 고려한 정렬(factuality-aware alignment) 방법을 개발했습니다.

[문제 정의와 기존 연구의 한계]

대규모 언어모델은 휴먼의 지시를 따르고 도움이 되는 AI 어시스턴트 역할을 수행하도록 정렬(alignment)되어야 합니다. 그러나 기존의 정렬 방식에는 두 가지 주요 문제점이 있었습니다.

  1. 지도 학습 파인튜닝(SFT) 단계에서 휴먼이 작성한 고품질 응답을 사용하면 모델에 새로운 정보가 주입되어 환각을 조장할 수 있습니다.
  2. 강화학습(RL) 단계에서 사용되는 표준 보상 함수는 더 길고 상세한 응답을 선호하는 경향이 있어 거짓 주장을 더 많이 생성하게 만듭니다.

이런 문제들로 인해 기존 정렬 방식은 모델의 사실성을 저하시키는 결과를 초래했습니다.

[제안하는 해결 방법]

연구진은 이런 문제를 해결하기 위해 “사실성을 고려한 정렬(FLAME)” 방법을 제안했습니다. 이 방법의 주요 특징은 다음과 같습니다.

  1. 사실 기반 지시문 분류: LLM을 사용하여 주어진 지시문이 사실적인 응답을 요구하는지 여부를 분류합니다.
  2. 사실성을 고려한 지도 학습 파인튜닝(SFT):
    • 사실 기반 지시문: 사전학습된 LLM 자체의 지식을 활용하여 응답을 생성
    • 비사실 기반 지시문: 휴먼이 생성한 응답 사용
  3. 사실성을 고려한 직접 선호도 최적화(DPO):
    • 사실 기반 지시문에 대해 사실성 보상 모델(RMfact)을 사용하여 선호도 쌍 생성
    • instruction following와 사실성에 대한 별도의 보상 사용

[방법 상세]

  1. 사실 기반 지시문 분류 SFT 모델을 프롬프팅하여 주어진 지시문이 사실적인 응답을 요구하는지 판단합니다. 이를 통해 사실 기반 지시문 집합 $X_{fact}$를 생성합니다.

  2. 사실성을 고려한 SFT: 각 지시문 $x$에 대해:
    • $x \notin X_{fact}$인 경우: $(x, Human(x))$ 형태의 training dataset 사용
    • $x \in X_{fact}$인 경우: $(x, PT(x))$ 형태의 training dataset 사용 수식에서 $Human(x)$는 휴먼이 생성한 응답이고, $PT(x)$는 사전학습된 모델이 생성한 응답 집합입니다.
  3. 사실성을 고려한 DPO
    • instruction following 보상 모델 $RM_{IF}$를 사용하여 $(x, y^+, y^-)$ 형태의 선호도 쌍 생성
    • 사실 기반 지시문에 대해 사실성 보상 모델 $RM_{fact}$를 사용하여 $(x \in X_{fact}, y_{true}, y_{false})$ 형태의 추가 선호도 쌍 생성

    $RM_{fact}$는 다음 두 가지 주요 구성 요소로 이루어집니다.

    • a) 원자적 사실 분해: 응답을 개별 사실 주장으로 분해
    • b) 검색 증강 주장 검증: 외부 지식을 활용하여 각 주장의 정확성 평가

    최종적으로, 다음과 같은 목적함수를 최적화합니다.

    \[\mathcal{L}_{DPO} = \lambda_{IF} \mathcal{L}_{IF} + \lambda_{fact} \mathcal{L}_{fact}\]

    수식에서 \(\mathcal{L}_{IF}\)는 instruction following에 대한 DPO 손실, \(\mathcal{L}_{fact}\)는 사실성에 대한 DPO 손실, \(\lambda_{IF}\)와 \(\lambda_{fact}\)는 각각의 가중치입니다.

[실험 결과]

연구진은 제안한 방법을 Llama-2 70B 모델에 적용하여 평가했습니다. 주요 결과는 다음과 같습니다.

  1. Alpaca Eval에서 instruction following 능력 평가: FLAME으로 훈련된 모델은 Baseline Model(SFT + DPO) 대비 51.2%의 승률을 보여, instruction following 능력이 유지되었습니다.
  2. 사실성 평가: Biography, Alpaca Fact, FAVA 데이터셋에서 FActScore를 사용하여 평가했습니다. FLAME 모델은 모든 데이터셋에서 Baseline Model보다 높은 사실성 점수를 달성했습니다.
  3. TruthfulQA에서의 성능: FLAME으로 훈련된 모델은 더 진실된 응답을 생성하는 것으로 나타났습니다.

[결론]

이 연구는 대규모 언어모델의 사실성과 instruction following 능력을 동시에 향상시키는 새로운 방법을 제시합니다. 사실 기반 지시문을 식별하고, 이에 맞춤화된 훈련 전략을 적용함으로써, 모델의 환각을 줄이면서도 유용성을 유지할 수 있음을 확인합니다.

Previous: Reasoning | Iterative Reasoning Next: Evaluatin | PROMETHEUS 2

post contain ""

    No matching posts found containing ""