00:00:00

Share Your Feedback 🏝️

Evaluation | MixEval*

Evaluation | MixEval*

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: RAG | PlanRAG Next: Model | Google - Gemma2**

Evaluation | MixEval*

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-06-25

MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

url: https://arxiv.org/abs/2406.06565 pdf: https://arxiv.org/pdf/2406.06565 homepage: https://mixeval.github.io/ github: https://github.com/Psycoy/MixEval/?tab=readme-ov-file abstract: Evaluating large language models (LLMs) is challenging. Traditional ground-truth-based benchmarks fail to capture the comprehensiveness and nuance of real-world queries, while LLM-as-judge benchmarks suffer from grading biases and limited query quantity. Both of them may also become contaminated over time. User-facing evaluation, such as Chatbot Arena, provides reliable signals but is costly and slow. In this work, we propose MixEval, a new paradigm for establishing efficient, gold-standard LLM evaluation by strategically mixing off-the-shelf benchmarks. It bridges (1) comprehensive and well-distributed real-world user queries and (2) efficient and fairly-graded ground-truth-based benchmarks, by matching queries mined from the web with similar queries from existing benchmarks. Based on MixEval, we further build MixEval-Hard, which offers more room for model improvement. Our benchmarks’ advantages lie in (1) a 0.96 model ranking correlation with Chatbot Arena arising from the highly impartial query distribution and grading mechanism, (2) fast, cheap, and reproducible execution (6% of the time and cost of MMLU), and (3) dynamic evaluation enabled by the rapid and stable data update pipeline. We provide extensive meta-evaluation and analysis for our and existing LLM benchmarks to deepen the community’s understanding of LLM evaluation and guide future research directions.

[공식 깃 블로그 주소 안에 분포 차원 축소 맵 핵심색인마킹]

TL;DR


비용 효율적이며, 실제 평가와 유사하며 기존 벤치마크를 포괄할 수 있는 평가방법 확인

  • MixEval은 실제 사용자 쿼리를 기반으로 한 새로운 LLM 평가 시스템으로,
  • 이 시스템은 기존 벤치마크의 한계를 극복하고 더 정확하고 공정하게 평가할 수 있다고 언급합니다.
  • 또한, 기존 벤치마크와의 선형성을 확인하여 MixEval은 비용 효율적이며, 주기적으로 업데이트되는 동적 벤치마크를 제공한다고 합니다.

대규모 언어모델(LLM)을 평가하는 것은 어려운 일입니다. 기존의 지상 진실 기반 벤치마크는 실제 쿼리의 풍부함과 뉘앙스를 포착하지 못하며, LLM-as-judge 벤치마크는 점수 편향과 제한된 쿼리 크기로 인해 어려움을 겪습니다. 또한 두 벤치마크 모두 시간이 지남에 따라 오염될 수 있습니다. 챗봇 아레나와 같은 사용자 대면 평가는 신뢰할 수 있는 신호를 제공하지만 비용이 많이 들고 속도가 느립니다.

이 연구에서는 기성 벤치마크를 전략적으로 혼합하여 효율적인 골드 표준 LLM 평가를 구축하기 위한 새로운 패러다임인 MixEval을 제안합니다.

이는 (1) 풍부하고 잘 분산된 실제 사용자 쿼리와 (2) 웹에서 채굴된 쿼리를 기존 벤치마크의 유사한 쿼리와 매칭하여 효율적이고 공정하게 순위가 매겨진 실측 기반 벤치마크를 연결합니다.

MixEval을 기반으로 더 많은 모델 개선 범위를 제공하는 MixEval-Hard를 추가로 개발합니다.

이 벤치마크의 구체적인 주요 기여는 다음과 같습니다.

  • (1) 공정한 쿼리 분배 및 채점 메커니즘으로 인해 0.96의 모델 순위 상관관계를 보이는 Chatbot Arena,
  • (2) 빠르고 저렴하며 재현 가능한 실행(MMLU의 6%의 시간과 비용),
  • (3) 빠르고 안정적인 데이터 업데이트 파이프라인으로 가능한 동적 평가를 들 수 있습니다.

문제 인식

AI 기술, 특히 대규모 언어모델(LLM)의 발전으로 인해 이들을 평가하는 방법에 대한 필요성이 증가하고 있습니다. 기존의 벤치마크 방법들은 일반적으로 고정된 데이터셋을 사용하여 모델을 평가했으며, 이는 실제 세계의 다양한 쿼리를 충분히 반영하지 못하는 경우가 많았습니다. 이로 인해 발생하는 주요 문제점은 평가의 공정성 및 실제 활용도가 떨어지는 것입니다.

벤치마크의 역할과 중요성

LLM의 발전과 함께, 모델을 평가하는 기준이 되는 벤치마크는 연구 개발의 방향성을 제시하고 기술의 진보를 측정하는 기준점으로 작용합니다. 그러나 선행 연구에서 사용된 자동화된 벤치마크들은 실제 사용자의 요구를 반영하기에는 한계가 있었습니다.

평가 편향의 문제

기존 평가 방식에서 주로 나타나는 문제점은 크게 세 가지로 분류할 수 있습니다.

  1. 쿼리 편향(Query Bias): 평가에 사용된 쿼리가 전체 사용 사례를 충분히 대표하지 못함.
  2. 평가 편향(Grading Bias): 평가 과정에서 주관적 판단이 개입할 가능성이 있음.
  3. 일반화 편향(Generalization Bias): 벤치마크 데이터에 과적합하여 실제 세계에서의 성능이 저하될 수 있음.

따라서, 새로운 평가 시스템의 필요성위의 문제점을 해결하기 위해, 실제 사용자 쿼리를 포함하는 동적이고 객관적인 평가 시스템의 개발이 필요하다는 것이 이 논문의 주된 주장입니다.

MixEval의 구성

MixEval은 다음 두 단계로 구성됩니다.

  1. Wild Query Mining: 웹에서 실제 사용자의 쿼리를 추출하고 분류합하며, 이를 통해 실제 사용 사례를 반영한 쿼리 세트를 생성합니다.
  2. Benchmark Grounding: 추출된 쿼리를 기존 벤치마크와 통합하여 새로운 벤치마크를 생성합니다. 이 과정은 기존 벤치마크의 객관성과 실제 쿼리의 다양성을 결합합니다.
\[\text{MixEval Score} = \frac{1}{N} \sum_{i=1}^{N} \text{Model Score}_{i} \cdot \text{Real-World Relevance}_{i}\]
Previous: RAG | PlanRAG Next: Model | Google - Gemma2**

post contain ""

    No matching posts found containing ""