abstract: Vision-language models are integral to computer vision research, yet many high-performing models remain closed-source, obscuring their data, design and training recipe. The research community has responded by using distillation from black-box models to label training data, achieving strong benchmark results, at the cost of measurable scientific progress. However, without knowing the details of the teacher model and its data sources, scientific progress remains difficult to measure. In this paper, we study building a Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding. We analyze standard training pipelines without distillation from proprietary models and explore large-scale synthetic data to identify critical data gaps, particularly in detailed video understanding. To bridge these gaps, we release 2.8M human-labeled instances of fine-grained video question-answer pairs and spatio-temporally grounded video captions. Additionally, we introduce PLM-VideoBench, a suite for evaluating challenging video understanding tasks focusing on the ability to reason about “what”, “where”, “when”, and “how” of a video. We make our work fully reproducible by providing data, training recipes, code & models
⚠️ 이는 과학적 진보(Scientific progress)를 측정하기 어렵게 만들고, 모델 구조나 데이터 품질의 기여도 분석이 불가능해짐.
“To build an open-access, reproducible VLM that trains from scratch — without relying on proprietary labels — and can still perform competitively in fine-grained and spatio-temporal video understanding tasks.”
| 단계 | 목적 | 데이터 | 특징 | |——|——|——–|——| | Warmup | 프로젝터 초기화 | 1M synthetic image | Encoder/LLM 고정 | | Midtraining | 대규모 기초 학습 | 64.7M synthetic image/video | 다중 모달 pretraining | | SFT | 고난도 세부 학습 | 3.18M human-labeled | 고해상도 이미지 + 장면기반 비디오 |
목적: 학습 안정화, 초기 시각-언어 연결 구성
- Vision encoder & decoder freeze
- 1M synthetic images (e.g., from SA-1B)로 projector만 학습
목적: 이미지+비디오, 다양한 영역 커버
- 대규모 synthetic dataset (64.7M)
- 입력: 최대 16 tiles 또는 frames (448×448), 평균 풀링 → 256 vision tokens/frame
- 전체 모델 학습 (encoder + decoder + projector)
Fine-grained QA, spatio-temporal captioning 등 고난이도 태스크 학습
- 수작업 라벨이 포함된 데이터 3.2M 사용
- 입력 해상도 및 frame 수 증가 (최대 36 tiles, 32 frames)
목적: 기존 synthetic 데이터로는 커버되지 않는 미세행동/공간/시간 정보 보완
- PLM-FGQA (2.4M): Fine-grained QA (how, where, what)
- 세부 질문 중심 (예: “어디를 잡고 있나?”, “어떤 방향으로 움직이나?”)
- Fine-grained activity understanding
- PLM-STC (476K): Spatio-temporal Captioning (when, where, what)
- Spatio-temporal Captioning: 시간 (when) + 공간 (where) + 동작 서술 (what/how)
- Segmentation Masklet을 통해 특정 객체 추적
해당 포스트 맨 하단 참조
다양한 도메인 (DIY, 요리 등)에서 고해상도 세부 정보 라벨링
각 객체마다 masklet을 통해 temporal-localized caption 제공 (예: 프레임 0–81: 고래 접근, 82–85: 프레임 밖, 86–98: 먹이 주기 시도)
Task | 설명 |
---|---|
FGQA | 미세행동 구분 (e.g., 세로/가로로 붓질) |
SGQA | 스마트글라스 egocentric 영상 기반 질문 응답 |
RCap | 지정된 마스크 영역에 대한 동작 캡션 생성 |
RTLoc | 특정 행동에 대한 시간 구간 추론 |
RDCap | 대상 객체의 시간+공간 기반 상세 캡션 생성 |
Benchmark | PLM vs SOTA |
---|---|
Image QA | Qwen2.5VL 수준 이상 |
Fine-grained Video QA | +3.8p 향상 |
Video Captioning | +39.8 CIDEr |
Video Reasoning | GPT-4o에 필적하는 성능 |
PLM-VideoBench | Open-source 모델 중 최고 성능 |
특히 GPT-4o와 유사한 수준의 자율 비디오 이해 능력을, 오픈소스만으로 달성
논문에서는 다음과 같은 지수 함수 형태의 스케일링 법칙(Power-law scaling)을 통해 성능을 모델링합니다
\[\text{Error} = \beta \cdot (\text{GFLOPs})^{\alpha}\]기호 | 설명 |
---|---|
\(\text{Error}\) | 벤치마크에서 측정된 성능 지표 (정확도의 역량, 즉 오류율) |
\(\text{GFLOPs}\) | 학습에 사용된 총 연산량 (Giga-Floating Point Operations) |
\(\beta\) | 상수 계수 (초기 error scale에 따라 결정됨) |
\(\alpha\) | Scaling exponent, 스케일링 효율도 계수 |
Task | \(\alpha\) 값 | 해석 |
---|---|---|
Video QA | \(-0.15\) | compute 증가 시 error 감소, 꽤 효율적 |
OCR QA | \(-0.20\) | 가장 높은 효율의 스케일링 |
Natural Image QA | \(-0.11\) | 성능 향상 있으나 제한적 |
Fine-grained Hard QA | \(-0.03\) | 거의 효과 없음 → human-labeled data 필요성 시사 |
이 수식은 log-log plot에서 직선 형태로 나타납니다
\[\log(\text{Error}) = \log(\beta) + \alpha \cdot \log(\text{GFLOPs})\]