00:00:00

Share Your Feedback 🏝️

OlympiadBench

OlympiadBench

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Model | Gemma Next: Corpus Curation Using LLM

OlympiadBench

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-02-22

OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

  • url: https://arxiv.org/abs/2402.14008
  • pdf: https://arxiv.org/pdf/2402.14008
  • abstract: Recent advancements have seen Large Language Models (LLMs) and Large Multimodal Models (LMMs) surpassing general human capabilities in various tasks, approaching the proficiency level of human experts across multiple domains. With traditional benchmarks becoming less challenging for these models, new rigorous challenges are essential to gauge their advanced abilities. In this work, we present OlympiadBench, an Olympiad-level bilingual multimodal scientific benchmark, featuring 8,952 problems from Olympiad-level mathematics and physics competitions, including the Chinese college entrance exam. Each problem is detailed with expert-level annotations for step-by-step reasoning. Evaluating top-tier models on OlympiadBench, we implement a comprehensive assessment methodology to accurately evaluate model responses. Notably, the best-performing model, GPT-4V, attains an average score of 17.23% on OlympiadBench, with a mere 11.28% in physics, highlighting the benchmark rigor and the intricacy of physical reasoning. Our analysis orienting GPT-4V points out prevalent issues with hallucinations, knowledge omissions, and logical fallacies. We hope that our challenging benchmark can serve as a valuable resource for helping future AGI research endeavors.

TL;DR


수학적 인퍼런스과 물리학적 인퍼런스를 위한 도전적 다국어 다중모달 벤치마크, OlympiadBench

  • LLM과 LMM의 수학적 및 물리학적 인퍼런스 능력 평가를 위한 도전적 다국어 다중모달 벤치마크 제공
  • 다양한 난이도와 문제 유형을 포함하여 과학적 인퍼런스를 위한 새로운 기준 제시
  • 평가 결과를 통해 현재 모델의 한계 및 발전 방향을 제시

1. 서론

최근 LLM(Large Language Model)과 LMM(Large Multimodal Model)은 자연어 처리, 이미지 인식, 수학적 인퍼런스 등 다양한 분야에서 향상된 성능을 보여주고 있습니다. 이런 모델들은 특히 수학 및 물리 문제를 해결함으로써 휴먼 수준의 능력을 뛰어넘을 가능성을 보여줍니다. 그러나 기존의 벤치마크는 이런 최신 모델들을 충분히 도전할 수 있는 난이도나 다양성을 제공하지 못하고 있습니다. 이를 극복하기 위해, 본 논문에서는 OlympiadBench라는 새로운 다국어 다중모달 벤치마크를 소개합니다. 이 벤치마크는 국제 올림피아드 수준의 문제를 포함하여 모델의 수학 및 물리 인퍼런스 능력을 평가합니다.


2. 관련 연구

LLM과 LMM의 발전에 따라 다양한 벤치마크가 개발되었습니다. 기존의 연구들은 주로 단일 모달(텍스트만 포함)의 문제를 사용하였고, 이는 복잡한 과학적 문제를 해결하는 데 필요한 모델의 능력을 완벽하게 평가하기 어렵게 만들었습니다. 이에 따라, 다중모달 데이터셋과 다양한 난이도를 포함하는 새로운 벤치마크의 필요성이 대두되었습니다. OlympiadBench는 이런 요구를 충족시키기 위해 설계되었습니다.


3. OlympiadBench 벤치마크

3.1 데이터셋 구성

OlympiadBench는 국제 수학 및 물리 올림피아드 문제를 포함하여 8,476개의 문제를 포함합니다. 이 문제들은 다양한 난이도를 포함하고 있으며, 문제마다 상세한 해설이 포함되어 있습니다. 또한, 다양한 언어와 모달(텍스트, 이미지)을 지원하여, 모델이 실제 과학적 문제를 해결하는 능력을 평가할 수 있도록 합니다.

3.2 평가 방법

모델 평가를 위해 자동 점수화 파이프라인이 구축되었습니다. 이 파이프라인은 모델이 생성한 답변을 정답과 자동으로 비교하여 정확도를 측정합니다. 평가는 수학 및 물리 문제 모두에서 수행되며, 다양한 모델의 인퍼런스 능력을 정량적으로 비교할 수 있습니다.


4. 실험 및 결과

OlympiadBench를 사용한 초기 실험에서는 다양한 최신 LMM과 LLM이 참여하였습니다. 이들 모델은 전반적으로 낮은 정확도를 보였으며, 특히 복잡한 물리 문제에서 더 낮은 성능을 보였습니다. 이 결과는 현재 모델이 과학적 인퍼런스를 수행하는 데 있어 여전히 많은 도전이 남아 있음을 시사합니다.


5. 결론 및 향후 연구 방향

OlympiadBench는 과학적 인퍼런스 능력을 평가하기 위한 새로운 기준을 제시하며, 향후 AGI(Artificial General Intelligence)의 발전을 가속화할 수 있는 잠재력이 있으므로 향후 연구에서는 더 많은 과학 분야를 포함하여 벤치마크를 확장할 계획이라고 합니다.

Previous: Model | Gemma Next: Corpus Curation Using LLM

post contain ""

    No matching posts found containing ""