잘 정리된 공식 포스트
Task | GPT-4o | Gemini-1.5 Pro | Sonnet-3 | Sonnet-3.5 |
---|---|---|---|---|
1. 선 교차 계산 | 48.67% | 69.67% | 64.00% | 77.33% |
2. 두 원 판별 | 72.69% | 92.78% | 84.52% | 91.66% |
3. 원으로 표시된 문자 | 70.18% | 92.81% | 73.34% | 89.22% |
4. 겹치는 도형 (원) | 42.50% | 20.83% | 31.66% | 44.16% |
4. 겹치는 도형 (팬타곤) | 19.16% | 9.16% | 11.66% | 75.83% |
5. 중첩된 정사각형 | 48.33% | 80.00% | 55.00% | 87.50% |
6. 격자의 행과 열 (빈 격자) | 26.13% | 25.75% | 25.00% | 59.84% |
6. 격자의 행과 열 (텍스트 격자) | 53.03% | 45.83% | 47.34% | 88.68% |
7. 단일 색상 경로 추적 | 45.89% | 40.01% | 23.78% | 50.18% |
1. 서론
최근 8개월 동안 VLM의 등장, 특히 GPT-4V(ision)이 시작되면서, 이미지-텍스트 처리 애플리케이션에서 많은 새로운 가능성이 열렸습니다. VLM은 장면에서 객체를 정확하게 식별하고, 감지된 객체를 기반으로 복잡한 작업을 수행할 수 있습니다. 예를 들어, 식당의 테이블 위 맥주 가격을 계산하는 것과 같은 작업이 가능합니다. VLM은 이런 기능을 인터넷 규모의 훈련 데이터로부터 학습하여 수행하지만, 현재 벤치마크는 VLM이 이미지를 인식하는 방식이 휴먼과 얼마나 유사한지에 대한 구체적인 한계를 짚어내지 못합니다.
2. 비전 언어 모델
기하학적 원시 형태로 구성된 간단한 이미지를 인식하는 현존하는 최고의 VLM 네 가지를 선택하여 평가합니다. 이 모델들은 여러 최신 멀티모달 비전 벤치마크에서 높은 순위를 차지하고 있으며, 대학 수준의 과목, 과학 다이어그램, 수학 문제 등 다양한 분야에서 높은 성능을 보여 주었습니다.
3. BlindTest 벤치마크
휴먼의 시각 정밀 검사와 유사한 간단하지만 새로운 작업 세트를 디자인하여 VLM의 기본적인 시각 인식 능력을 평가합니다. 이 벤치마크는 휴먼에게는 쉬운 작업이지만, VLM이 시각적 정보를 어떻게 처리하는지를 규명하는 데 중점을 둡니다.
3.1 선의 교차 계산
VLM이 선의 교차를 계산하는 능력을 평가하기 위해, 두 개의 선분으로 이루어진 2D 선 그래프 이미지를 생성하고, 모델에게 이 선들이 교차하는지 여부를 판단하도록 요청했습니다. 각 선은 고정된 x 좌표를 가진 세 점을 사용하여 정의되며, y 좌표는 두 선이 정확히 0, 1 또는 2점에서 교차하도록 무작위로 샘플링됩니다.
\[\text{Number of Intersections} = f(\text{Line Segment}_1, \text{Line Segment}_2)\]3.2 두 원의 관계 판별
이 작업에서는 두 원이 겹치거나 접하는지를 판단합니다. 각 이미지에는 같은 크기의 두 원이 그려져 있으며, 원과 원 사이의 간격은 미리 정의된 값에 따라 다양합니다. 이는 VLM이 두 원 사이의 작은 간격을 얼마나 잘 인식하는지를 평가합니다.
\[\text{Relationship Between Two Circles} = g(\text{Circle}_1, \text{Circle}_2, \text{Distance})\]3.3 원으로 표시된 문자 식별
문자 식별 작업에서는 특정 문자 위에 빨간 원을 그리고, VLM이 어떤 문자가 원으로 표시되었는지를 식별하도록 합니다. 이는 모델이 문자와 그 위의 시각적 마커를 어떻게 동시에 처리하는지를 보여줍니다.
\[\text{Circled Letter} = h(\text{String}, \text{Circle Position})\]3.4 겹치는 도형 계산
이미지에 겹쳐진 여러 도형(e.g., 원, 사각형)이 그려져 있으며, 모델은 겹쳐진 도형의 수를 세어야 합니다. 이는 VLM이 도형들 사이의 공간적 관계를 어떻게 해석하는지를 평가하는 작업입니다.
\[\text{Number of Shapes} = i(\text{Array of Shapes})\]4. 결과
실험 결과, 모든 VLM들은 기본적인 시각 작업에서 휴먼이 쉽게 해결할 수 있는 것들에 대해 예상보다 낮은 정확도를 보였습니다. 특히, 두 선의 교차를 식별하거나, 겹치는 원을 세는 등의 작업에서 모델들은 높은 오류율을 보였습니다. 이런 결과는 VLM이 아직 기본적인 시각 정보를 처리하는 데 어려움을 겪고 있음을 시사합니다.
5. 관련 작업 및 향후 연구
기존의 VLM 벤치마크는 대부분 복잡한 휴먼의 작업을 모방하여 VLM의 성능을 평가하고 있습니다. 그러나 이런 접근 방식은 모델이 이미지 없이도 답을 인퍼런스할 수 있도록 하는 데이터 유출(오염) 문제를 내포하고 있습니다.