00:00:00

Share Your Feedback 🏝️

Evaluation | Replacing Judges

Evaluation | Replacing Judges

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Model, Math | DeepSeekMath Next: Benchmark | A Careful Examination

Evaluation | Replacing Judges

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-04-29

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

  • url: https://arxiv.org/abs/2404.18796
  • pdf: https://arxiv.org/pdf/2404.18796
  • abstract: As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model’s freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.

Contents

TL;DR


대규모 언어모델 평가 방법: PoLL (Panel of LLM Evaluators)

  • 문제 정의: 대규모 언어모델(LLM)의 성능 평가 및 정확도 측정의 어려움
  • 해결 방법: 다중 모델 평가 패널(PoLL)을 통한 평가 방법 제안
  • 결과: PoLL은 단일 평가 모델보다 휴먼 판단과의 상관성이 높고, 비용 효율적임

[서론]

대규모 언어모델(LLM)의 생성 능력을 평가하는 것은 어려운 작업입니다. 평가를 위한 적절한 데이터를 찾는 것도 어렵고, 생성된 응답의 정확성을 평가하는 것 자체도 챌린지입니다. 다중 선택 문제처럼 비교적 간단한 평가 방법이 있지만, 이는 자유 형식 생성 작업과는 다른 속성을 평가하는 경우가 많습니다.

최근에는 BLEU, ROUGE, EM과 같은 자동화된 메트릭이 사용되었지만, 이런 단순한 방법은 관심 속성을 제대로 분석하지 못하는 경우가 많습니다. 예를 들어, EM은 부정확한 오탐과 누락이 발생할 수 있습니다. 이를 해결하기 위해 훈련된 모델을 평가자로 사용하는 방법이 제안되었습니다.

이 논문에서는 단일 대규모 모델 대신 다양한 모델 패널(PoLL)을 사용하여 LLM의 출력을 평가하는 방법을 제안합니다. 이를 통해 단일 모델이 가지는 편향성을 줄이고, 휴먼 판단과의 상관성을 높일 수 있습니다.

[문제와 해결 방법]

[문제 정의]

단일 모델 평가의 문제점은 다음과 같습니다.

  1. 편향성: 단일 모델은 자신의 출력물을 다른 모델보다 선호할 수 있습니다.
  2. 비용: 대규모 모델은 평가 비용이 많이 듭니다.

[해결 방법]

PoLL(Pannel of LLM Evaluators)은 여러 모델로 구성된 패널을 사용하여 출력을 평가합니다. 이를 통해 평가의 편향성을 줄이고, 비용을 절감할 수 있습니다. PoLL의 구성 요소는 다음과 같습니다.

  1. 다중 모델 사용: 서로 다른 모델 계열에서 평가자를 선택하여 구성합니다.
  2. 투표 방식: 평가 점수를 집계하여 최종 평가 점수를 도출합니다.

[선행 연구]

다양한 자동 평가 메트릭이 제안되었지만, 단순한 방법은 관심 속성을 제대로 평가하지 못하는 경우가 많습니다. 훈련된 모델을 평가자로 사용하는 방법이 제안되었으나, 단일 모델의 편향성 문제가 남아 있습니다. 따라서 다중 모델 평가 패널을 제안합니다.

[방법]

[PoLL 구성 및 투표 방법]

PoLL은 서로 다른 모델 계열에서 선택된 평가자들로 구성됩니다. 예를 들어, Command R, GPT-3.5, Haiku 모델을 포함할 수 있습니다. 각 평가자가 독립적으로 점수를 매기고, 이를 투표 함수로 집계합니다. 투표 함수는 최대 투표(max voting) 또는 평균 투표(average pooling)를 사용할 수 있습니다.

\[\text{PoLL score} = f (j \in P : j(a))\]

수식에서 $P$는 개별 평가자 $j$로 구성된 패널이고, $f$는 투표 함수입니다.

[평가 실험 설정]

  1. 단일 단계 질문 응답(Single-hop QA): 모델이 질문에 대해 단일 증거를 기반으로 응답을 생성합니다.
  2. 다중 단계 질문 응답(Multi-hop QA): 모델이 여러 단계를 거쳐 증거를 수집하고 응답을 생성합니다.
  3. 챗봇 아레나(Chatbot Arena): 모델 간의 헤드-투-헤드 성능을 평가합니다.

[실험 및 결과]

[휴먼 판단과의 상관성]

Cohen의 카파(Cohen’s $\kappa$)를 사용하여 평가자의 점수와 휴먼 판단 간의 상관성을 측정했습니다. PoLL은 단일 모델 평가자보다 휴먼 판단과의 상관성이 높았습니다.

\[\kappa = \frac{p_o - p_e}{1 - p_e}\]

수식에서 $p_o$는 관찰된 일치 비율이고, $p_e$는 우연에 의한 기대 일치 비율입니다. PoLL은 다양한 QA 작업에서 가장 높은 상관성을 보였습니다.

[챗봇 아레나 평가]

Chatbot Arena에서 PoLL의 랭킹은 휴먼 판단과 높은 상관성을 보였으며, 단일 모델 평가자보다 더 일관된 결과를 도출했습니다.

[비용 및 지연 시간]

PoLL은 단일 GPT-4 평가자보다 비용이 7-8배 저렴했습니다. 이는 다중 소규모 모델을 병렬로 실행함으로써 평가 속도를 높일 수 있음을 의미합니다.

[결론]

PoLL은 단일 모델 평가의 한계를 극복하고, 더 정확하고 비용 효율적인 LLM 평가 방법을 제공합니다.

Previous: Model, Math | DeepSeekMath Next: Benchmark | A Careful Examination

post contain ""

    No matching posts found containing ""