Created: 2024-05-03 14:30:35 +0000
Last modified: 2024-09-05
20:56:50 +0900
Evaluatin | PROMETHEUS 2
- Related Project: Private
- Category: Paper Review
- Date: 2024-05-03
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
- url: https://arxiv.org/abs/2405.01535
- pdf: https://arxiv.org/pdf/2405.01535
- abstract: Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at this https URL.
Contents
TL;DR
- 언어 모델 기반 평가의 통합적 접근
- 직접 평가와 쌍대 순위 평가 방식의 융합
- 가중치 병합을 통한 강건한 평가 모델 개발
1. 서론
최근 언어 모델(Language Models, LMs)의 발전으로 인해 생성된 텍스트의 품질을 평가하는 것이 점점 더 복잡해지고 있습니다. 기존의 평가 방식은 주로 휴먼 평가자나 고정된 메트릭을 사용했지만, 이는 시간과 비용이 많이 들고 다양한 생성 결과를 포괄하기 어렵다는 한계가 있었습니다. 이런 문제를 해결하기 위해 언어 모델 기반 평가 방식이 등장했습니다.
언어 모델 기반 평가는 크게 두 가지 방식으로 나뉩니다.
- (1) 직접 평가(Direct Assessment): 주어진 텍스트의 품질을 직접 점수로 매기는 방식
- (2) 쌍대 순위 평가(Pairwise Ranking): 두 개의 텍스트 중 어느 것이 더 나은지 비교하는 방식
그러나 이 두 가지 방식은 각각 장단점이 있어, 하나의 방식만으로는 완벽한 평가가 어렵습니다. 본 연구에서는 이 두 가지 평가 방식을 통합하여 더 강건하고 유연한 평가 모델을 개발하고자 했습니다.
2. 방법
본 연구의 핵심 아이디어는 직접 평가와 쌍대 순위 평가를 위해 각각 훈련된 모델의 가중치를 병합하는 것입니다. 이를 통해 두 가지 평가 방식의 장점을 모두 활용할 수 있는 통합 평가 모델을 만들고자 했습니다.
2.1 데이터셋 구축
먼저, 직접 평가를 위한 feedback collection과 쌍대 순위 평가를 위한 preference collection이라는 두 개의 데이터셋을 구축했습니다. 특히 preference collection은 1,000개 이상의 세부적인 평가 기준을 포함하여 단순한 유용성이나 무해성을 넘어선 다양한 측면에서의 평가를 가능하게 했습니다.
2.2 모델 훈련
기본 모델로 Mistral-7B와 Mixtral-8x7B를 선택하고, 다음과 같은 방식으로 모델을 훈련했습니다.
1) 직접 평가 모델 ($\theta_d$): feedback collection으로 훈련
2) 쌍대 순위 평가 모델 ($\theta_p$): preference collection으로 훈련
2.3 가중치 병합
두 모델의 가중치를 선형적으로 병합하여 최종 평가 모델 $\theta_{final}$을 얻으며, 실험에서는 $\alpha = 0.5$를 사용합니다. ($\alpha$는 두 모델의 가중치를 조절하는 계수)
\[\theta_{final} = \alpha \times \theta_d + (1 - \alpha) \times \theta_p\]
3. 실험 및 결과
3.1 벤치마크 평가
직접 평가와 쌍대 순위 평가를 위한 여러 벤치마크 데이터셋에서 성능을 평가했습니다. 주요 결과는 다음과 같습니다.
1) 직접 평가 벤치마크에서, PROMETHEUS 2 모델은 기존의 오픈소스 평가 모델들보다 평균 0.2 이상 높은 상관계수를 달성했습니다.
2) 쌍대 순위 평가 벤치마크에서, PROMETHEUS 2 모델은 휴먼 평가자와의 일치도에서 가장 개선된 성능을 보였으며, GPT-4와의 성능 격차를 절반 이상 줄였습니다.
3.2 평가 방식 간 일관성
직접 평가 형식과 쌍대 순위 평가 형식 간의 일관성을 측정했을 때, PROMETHEUS 2 모델은 두 형식 간 성능 차이가 가장 작았습니다. 이는 통합 모델이 두 가지 평가 방식에서 모두 안정적으로 작동함을 보여줍니다.
4. 결론 및 논의
본 연구의 주요 발견은 다음과 같습니다.
- 1) 가중치 병합 방식이 공동 훈련(Joint Training) 방식보다 더 효과적입니다. 공동 훈련은 오히려 부정적인 전이 학습 효과를 보였습니다.
- 2) 가중치 병합의 효과는 단순한 모델 앙상블 효과가 아닙니다. 같은 평가 방식으로 훈련된 모델들을 병합하는 것보다, 서로 다른 평가 방식으로 훈련된 모델들을 병합할 때 더 좋은 성능을 보였습니다.
- 3) 직접 평가와 쌍대 순위 평가는 서로에게 긍정적인 영향을 미치며, 특히 쌍대 순위 평가 모델의 가중치를 병합하는 것이 직접 평가 성능 향상에 더 큰 도움이 되었습니다.
이런 결과는 서로 다른 평가 방식을 통합함으로써 더 강건하고 유연한 평가 모델을 만들 수 있음을 보여줍니다. 이는 향후 언어 모델 평가 연구에 있어 중요한 방향성을 제시합니다.
본 연구의 PROMETHEUS 2 모델은 오픈소스로 공개되어 있어, 향후 연구자들이 독점적인 모델에 의존하지 않고도 공정하고 접근 가능한 평가를 수행할 수 있게 될 것으로 기대합니다.