Created: 2024-07-17 12:46:31 +0000
Last modified: 2024-09-05
20:56:50 +0900
RAG | RA-ISF
- Related Project: Private
- Category: Paper Review
- Date: 2024-03-11
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback
- url: https://arxiv.org/abs/2403.06840v2
- pdf: https://arxiv.org/pdf/2403.06840v2
- html: https://arxiv.org/html/2403.06840v2
- abstract: Large language models (LLMs) demonstrate exceptional performance in numerous tasks but still heavily rely on knowledge stored in their parameters. Moreover, updating this knowledge incurs high training costs. Retrieval-augmented generation (RAG) methods address this issue by integrating external knowledge. The model can answer questions it couldn’t previously by retrieving knowledge relevant to the query. This approach improves performance in certain scenarios for specific tasks. However, if irrelevant texts are retrieved, it may impair model performance. In this paper, we propose Retrieval Augmented Iterative Self-Feedback (RA-ISF), a framework that iteratively decomposes tasks and processes them in three submodules to enhance the model’s problem-solving capabilities. Experiments show that our method outperforms existing benchmarks, performing well on models like GPT3.5, Llama2, significantly enhancing factual reasoning capabilities and reducing hallucinations.
Contents
TL;DR
- 문제 해결 프레임워크의 개발: 본 논문에서는 Retrieval Augmented Iterative Self-Feedback (RA-ISF)라는 새로운 문제 해결 프레임워크를 제안한다.
- 수식과 알고리즘 구조: 이 프레임워크는 질문의 자체 지식, 관련 문서 검색, 그리고 질문 분해의 세 가지 하위 모듈로 구성된다.
- 향상된 성능 검증: 다양한 대규모 언어모델에 대한 실험을 통해, RA-ISF가 기존 벤치마크를 상회하는 성능을 보여준다.
1. 서론
대규모 언어모델(Large Language Models, LLMs)은 지식 저장소로서 막대한 파라미터를 필요로 하며, 지식을 업데이트하는 비용이 크다. 이를 개선하기 위해 개발된 Retrieval-augmented Generation (RAG) 방법은 외부 지식을 통합하여 질문에 대한 답변을 개선한다. 하지만, 관련 없는 텍스트가 검색될 경우 성능이 저하될 수 있다.
2. 관련 연구
- 검색 증강 언어 모델(Retrieval Augmented Language Model, RAG): 외부 지식의 접근성과 이용을 용이하게 하기 위해 비파라미터 메모리를 사용한다.
- 작업 분해(Task Decomposition): 복잡한 작업을 단일 작업으로 분해하여 문제를 해결하는 방법이다.
3. 방법
RA-ISF는 세 가지 주요 하위 모델을 사용한다. 자체 지식 모델(\(\mathcal{M}_{\text{know}}\)), 문서 관련성 모델(\(\mathcal{M}_{\text{rel}}\)), 그리고 질문 분해 모델(\(\mathcal{M}_{\text{decom}}\)). 이들은 문제 해결 과정에서 순차적으로 작동한다.
3.1 RA-ISF 훈련
각 하위 모델을 훈련하기 위한 데이터 수집과 모델 학습 절차는 다음과 같다.
\[\min_{\mathcal{M}_{\text{sub}}} \mathbb{E}_{(\mathcal{Q}, \mathcal{A}) \sim \mathcal{D}^*} \left[ \log P_{\mathcal{M}_{\text{sub}}}(\mathcal{A} | \mathcal{Q}) \right]\]
$\mathcal{D}^*$는 훈련 데이터를 나타낸다.
3.2 RA-ISF 인퍼런스
질문 $q_{\text{new}}$에 대한 답변을 생성하는 과정은 다음과 같다.
- $\mathcal{M}_{\text{know}}$를 사용하여 질문을 해결할 수 있는지 판단한다.
- $\mathcal{M}_{\text{rel}}$을 사용하여 관련 문서를 검색하고 필터링한다.
- 필요한 경우 $\mathcal{M}_{\text{decom}}$을 사용하여 질문을 분해하고, 각 하위 질문에 대한 답변을 합성한다.
RA-ISF(검색 증강 반복 자기피드백) 프레임워크는 내부 지식 평가, 외부 지식 검색 및 문제 분해를 결합하여 대규모 언어모델(LLMs)의 정확성을 향상시키는 수학 및 알고리즘 구조를 제시한다.
4. RA-ISF의 수학적 접근
4.1. 자체 지식 인퍼런스 (Self-Knowledge Inference)
질문 \(q_{\text{new}}\)이 모델의 내부 지식만으로 해결 가능한지 판단한다. 가능하면 직접적으로 답변 \(A\)를 예측한다. 이 과정은 확률 \(P\)를 최대화하는 답변 \(a\)를 선택하는 것을 포함한다.
\[A = \arg \max_a P(a \mid q_{\text{new}})\]
4.2. 문서 관련성 인퍼런스 (Passages Relevance Inference)
\[A = \arg \max_a P(a \mid q_{\text{new}}, P_{\text{rel}})\]
내부 지식만으로 문제를 해결할 수 없을 때, 검색기를 사용하여 코퍼스에서 가장 적합한 문서들을 검색한다. 검색된 문서들 중에서 관련성이 높은 문서들만을 필터링하여 질문과 함께 모델에 입력한다. 이 때의 답변 예측은 관련 문서들 \(P_{\text{rel}}\)을 포함하여 수행한다.
4.3. 문제 분해 (Problem Decomposition)
\[A = \arg \max_a P(a \mid q_{\text{new}}, A_{\text{sub}}, Q_{\text{sub}})\]
내부 및 외부 지식으로도 문제를 해결할 수 없는 경우, 문제를 보다 단순한 여러 하위 문제로 분해한다. 각 하위 문제는 다시 평가되어 해당 하위 문제의 답변들이 수집한다. 최종 답변은 모든 하위 문제의 답변들을 종합하여 예측한다.
5. 알고리즘 구현
5.1. 문제 해결 함수 (Problem-solving function)
- 입력: 새로운 질문 \(q_{\text{new}}\), 자체 지식 모델 \(\mathcal{M}_{\text{know}}\), 문서 관련성 모델 \(\mathcal{M}_{\text{rel}}\), 문제 분해 모델 \(\mathcal{M}_{\text{decom}}\), 언어 모델 \(\mathcal{M}\), 검색기 \(\mathcal{R}\), 코퍼스 \(\mathcal{C}\)
- 출력: 답변 \(A\)
5.2. 단계별 접근
- 자체 지식을 평가하여 질문이 해결 가능한지 판단
- 해결이 불가능할 경우, 외부 문서를 검색하여 관련성을 평가
- 필요한 경우, 문제를 분해하여 각 하위 문제에 대해 동일한 과정을 반복
- 모든 하위 문제의 답변을 종합하여 최종 답변을 도출
6. 실험 설계 및 결과
RA-ISF 프레임워크의 실험적 검증은 다양한 데이터셋을 통해 이루어졌으며, 기존의 RAG 방법과 비교하여 성능 향상을 입증한다.
RA-ISF 프레임워크의 성능을 평가하기 위해 다음과 같은 데이터셋을 사용한다.
- Natural Question (NQ): 실제 사용자 질문을 포함하고 있어 일반적인 지식 기반 질문에 대한 모델의 대응 능력을 평가할 수 있다.
- TriviaQA: 다양한 트리비아 질문으로 구성되어 일반적인 사실과 정보 검색 능력을 평가한다.
- StrategyQA: 전략적 사고를 필요로 하는 질문들로 구성되어 복잡한 인퍼런스 능력을 평가한다.
- HotpotQA: 문서 간의 연결을 필요로 하는 질문들로 구성되어 깊은 인퍼런스과 문서 간 연계성 평가에 유용하다.
- 2WikiMQA: 다중 문서를 기반으로 하는 질문으로, 광범위한 정보 수집과 통합 능력을 평가한다.
실험 모델
- 예측용 LLM: OpenAI의 GPT-3.5와 Llama2의 다양한 버전을 사용하여 광범위한 언어 모델 성능을 평가한다.
- 하위 모델: 자체 지식 모델(\(\mathcal{M}_{\text{know}}\)), 문서 관련성 모델(\(\mathcal{M}_{\text{rel}}\)), 문제 분해 모델(\(\mathcal{M}_{\text{decom}}\))으로 구성되어 각각의 특정 기능을 평가한다.
성능 분석 방법
- 평가 지표: Exact Match (EM) 점수를 사용하여 모델이 생성한 답변의 정확성을 직접 측정한다.
- 비교 기준 (Baselines):
- 직접 질문 (Direct Prompting): 질문을 직접 모델에 입력하여 답변을 생성하도록 한다.
- 단계별 해결 (Least-to-most): 질문을 단계적으로 분해하여 해결하도록 유도한다.
- RAG (Retrieval-Augmented Generation): 외부 문서 검색을 통해 답변을 생성한다.
성능 결과
- RA-ISF는 모든 데이터셋에서 기존 방법을 능가하는 성능을 보였습니다. 특히, GPT-3.5와 결합했을 때 NQ에서 40.2%의 EM 점수를 달성하며, 기존 RAG의 31.7%보다 월등히 높은 성과를 나타났다.
- RA-ISF는 문제를 효과적으로 분해하고, 관련 문서를 검색하여 정확한 정보를 추출함으로써, 복잡한 질문에 대한 답변의 정확도를 향상시켰다.
- 이런 실험 결과는 RA-ISF가 기존의 검색 증강 방법에 비해 훨씬 더 높은 적응성과 유연성을 갖추고 있음을 입증하며, 연구팀은 특히 문제 분해 및 반복적인 자기 피드백 메커니즘이 모델의 인퍼런스 능력을 향상시키는데 크게 기여하는 것으로 분석했다.
이 실험 결과는 RA-ISF가 복잡한 문제 해결과 지식 기반 질문에 답하는 데 있어서 기존 방법보다 우수한 성능을 발휘할 수 있음을 논리적으로 증명한다. 또한, 다양한 데이터셋에서의 일관된 성능 향상은 이 방법의 범용성을 강조한다.
7. 결론
RA-ISF는 기존의 검색 증강 방법을 개선하여 더 정확하고 효율적인 문제 해결을 가능하게 한다. 향후 연구 방향으로는 더 많은 효율성과 정확성을 달성하기 위한 방법 개발이 있다.