00:00:00

Share Your Feedback 🏝️

Perception LM

Perception LM

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: d1 Next: Enhancing Non-Reasoning Models with Reasoning Models

Perception LM

  • Related Project: Private
  • Category: Paper Review
  • Date: 2025-04-20

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

  • url: https://arxiv.org/abs/2504.13180
  • pdf: https://arxiv.org/pdf/2504.13180
  • abstract: Vision-language models are integral to computer vision research, yet many high-performing models remain closed-source, obscuring their data, design and training recipe. The research community has responded by using distillation from black-box models to label training data, achieving strong benchmark results, at the cost of measurable scientific progress. However, without knowing the details of the teacher model and its data sources, scientific progress remains difficult to measure. In this paper, we study building a Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding. We analyze standard training pipelines without distillation from proprietary models and explore large-scale synthetic data to identify critical data gaps, particularly in detailed video understanding. To bridge these gaps, we release 2.8M human-labeled instances of fine-grained video question-answer pairs and spatio-temporally grounded video captions. Additionally, we introduce PLM-VideoBench, a suite for evaluating challenging video understanding tasks focusing on the ability to reason about “what”, “where”, “when”, and “how” of a video. We make our work fully reproducible by providing data, training recipes, code & models

  • Code: https://github.com/facebookresearch/perception_models
  • Dataset: https://ai.meta.com/datasets/plm-data

1. Challenge & Motivation

  • ✅ Proprietary Dependence: 대부분의 성능 좋은 VLM은 학습 데이터, 아키텍처, 파인튜닝 방법이 비공개
  • ✅ Distillation from Black-boxes: 공개 연구는 종종 GPT-4, Gemini 같은 블랙박스 모델로부터 생성된 synthetic label을 사용해 성능을 높임
  • ⚠️ 이는 과학적 진보(Scientific progress)를 측정하기 어렵게 만들고, 모델 구조나 데이터 품질의 기여도 분석이 불가능해짐.

  • 문제점
    • 기존 강력한 VLM들은 대부분 비공개(Closed-source): 학습 데이터, 아키텍처, 학습 방법이 공개되지 않음. → 학문적 진보를 정량적으로 측정하기 어려움.
    • 현재 공개 VLM 학습은 대부분 비공개 모델에서 생성한 라벨로 학습 (e.g. GPT-4로 만든 라벨) → 이로 인해 진짜 모델 구조/데이터의 기여도를 분리하기 어려움.
  • 연구 목표

    “To build an open-access, reproducible VLM that trains from scratch — without relying on proprietary labels — and can still perform competitively in fine-grained and spatio-temporal video understanding tasks.”

2. 해결 방법 PLM Framework

Step 1: 오픈 소스 기반 PerceptionLM(PLM) 제안

  • 비공개 모델을 사용하지 않고 이미지·비디오 이해를 위한 VLM을 처음부터 재현 가능한 방식으로 학습

Step 2: 3단계 학습 체계

| 단계 | 목적 | 데이터 | 특징 | |——|——|——–|——| | Warmup | 프로젝터 초기화 | 1M synthetic image | Encoder/LLM 고정 | | Midtraining | 대규모 기초 학습 | 64.7M synthetic image/video | 다중 모달 pretraining | | SFT | 고난도 세부 학습 | 3.18M human-labeled | 고해상도 이미지 + 장면기반 비디오 |

Stage 1: Warmup

목적: 학습 안정화, 초기 시각-언어 연결 구성

  • Vision encoder & decoder freeze
  • 1M synthetic images (e.g., from SA-1B)로 projector만 학습

Stage 2: Midtraining

목적: 이미지+비디오, 다양한 영역 커버

  • 대규모 synthetic dataset (64.7M)
  • 입력: 최대 16 tiles 또는 frames (448×448), 평균 풀링 → 256 vision tokens/frame
  • 전체 모델 학습 (encoder + decoder + projector)

Stage 3: Supervised Finetuning (SFT)

Fine-grained QA, spatio-temporal captioning 등 고난이도 태스크 학습

  • 수작업 라벨이 포함된 데이터 3.2M 사용
  • 입력 해상도 및 frame 수 증가 (최대 36 tiles, 32 frames)

3. 데이터 구성 (Open, Synthetic, Human-annotated)

3.1 Synthetic Data

  • 64.7M 건의 데이터 → 차트, 문서, 자연 이미지, OCR, egocentric/exocentric 영상 포함
  • Llama3를 활용해 hallucination 방지한 캡션 생성
  • Scene Detection + Frame Captioning으로 비디오 QA 자동 생성

3.2 Human-annotated Data

목적: 기존 synthetic 데이터로는 커버되지 않는 미세행동/공간/시간 정보 보완

  • PLM-FGQA (2.4M): Fine-grained QA (how, where, what)
    • 세부 질문 중심 (예: “어디를 잡고 있나?”, “어떤 방향으로 움직이나?”)
    • Fine-grained activity understanding
  • PLM-STC (476K): Spatio-temporal Captioning (when, where, what)
    • Spatio-temporal Captioning: 시간 (when) + 공간 (where) + 동작 서술 (what/how)
    • Segmentation Masklet을 통해 특정 객체 추적

4. 실험 및 인사이트 (Experiments & Insights)

4.1 Scaling Law 실험

  • Synthetic 데이터와 모델 크기(1B/3B/8B) 간 Power Law 관계 존재
    • Video QA: α = -0.15
    • OCR QA: α = -0.20
    • Natural QA: α = -0.11 → 스케일 증가에 따라 성능 점진 향상, 특히 Synthetic의 영향이 정량적으로 입증됨

해당 포스트 맨 하단 참조

4.2 한계: 고난이도 비디오 과제

  • Fine-grained Activity, Long Video Reasoning 등은 synthetic 데이터만으로 성능 향상 거의 없음 (α ≈ -0.03) → Human-labeled 데이터 필요성 명확히 드러남

5. PLM–VideoBench: 신규 벤치마크

  • 한계 해결 방법: Fine-Grained Human Datasets

5.1 PLM–FGQA: Fine-grained QA

다양한 도메인 (DIY, 요리 등)에서 고해상도 세부 정보 라벨링

  • QA 유형: 동작 방향, 반복 횟수, 손 자세 등
  • 8배 이상 기존 QA dataset보다 큼

5.2 PLM–STC: Spatio-temporal Captioning

각 객체마다 masklet을 통해 temporal-localized caption 제공 (예: 프레임 0–81: 고래 접근, 82–85: 프레임 밖, 86–98: 먹이 주기 시도)

Task 설명
FGQA 미세행동 구분 (e.g., 세로/가로로 붓질)
SGQA 스마트글라스 egocentric 영상 기반 질문 응답
RCap 지정된 마스크 영역에 대한 동작 캡션 생성
RTLoc 특정 행동에 대한 시간 구간 추론
RDCap 대상 객체의 시간+공간 기반 상세 캡션 생성
  • 각 task는 단일 이벤트 이상의 정보를 필요로 하며, 기존 벤치마크가 포괄하지 못한 세부적 reasoning 능력을 평가함. → “what”, “how”, “when”, “where” 모두 포괄하는 고난도 VLM 평가 가능

6. 성능 결과 요약

Benchmark PLM vs SOTA
Image QA Qwen2.5VL 수준 이상
Fine-grained Video QA +3.8p 향상
Video Captioning +39.8 CIDEr
Video Reasoning GPT-4o에 필적하는 성능
PLM-VideoBench Open-source 모델 중 최고 성능

특히 GPT-4o와 유사한 수준의 자율 비디오 이해 능력을, 오픈소스만으로 달성

6.1 Image Benchmarks

  • PLM-8B는 InternVL2.5, Qwen2.5VL 대비 유사하거나 우수
  • 특히, BLINK, SEED, VSR 같은 hard perception task에서 우세

6.2 Video Benchmarks

  • PLM-8B는 ActivityNet-QA, MVBench 등에서 최고 성능
  • 기존 오픈 모델 대비 평균 +3~10pt 성능 향상
  • GPT-4o와도 비교 가능한 성능 (특히 region-level 영상 이해)

7. Ablation

  • Synthetic + Human-annotated 조합이 핵심
    • PLM-FGQA 추가 → Fine-grained QA +13.1p
    • PLM-STC 추가 → Spatio-temporal reasoning +6.8p → 단순 synthetic 만으로는 한계, 고품질 수작업 데이터의 결정적 역할 입증

8. 핵심 인사이트

  1. 단순 distillation 중심 학습은 VLM 연구의 한계
  2. 정량적 성과 측정 가능하도록 완전 공개 학습 레시피 제시
  3. 세분화된 영상 QA와 시간-공간 기반 캡션 생성으로 연구의 granularity 확장
  4. PLM-VideoBench는 진정한 ‘비디오 중심 인식능력’ 평가를 가능하게 함
  5. GPT-4o 수준 성능을 공개 모델로 재현, 재현가능성과 연구투명성 모두 달성

Section 5.1–5.2: Scaling Law 분석

실험 목적

  • 대규모 synthetic 데이터를 활용한 학습이 모델 성능(benchmark error)에 어떤 영향을 주는지 정량적으로 분석
  • 특히, 학습 과정 중 사용한 연산량 (FLOPs) 대비 성능 향상(오차 감소)의 관계를 모델 규모(1B, 3B, 8B)에 따라 관찰

수식 설명 (Power Law Scaling)

논문에서는 다음과 같은 지수 함수 형태의 스케일링 법칙(Power-law scaling)을 통해 성능을 모델링합니다

\[\text{Error} = \beta \cdot (\text{GFLOPs})^{\alpha}\]
기호 설명
\(\text{Error}\) 벤치마크에서 측정된 성능 지표 (정확도의 역량, 즉 오류율)
\(\text{GFLOPs}\) 학습에 사용된 총 연산량 (Giga-Floating Point Operations)
\(\beta\) 상수 계수 (초기 error scale에 따라 결정됨)
\(\alpha\) Scaling exponent, 스케일링 효율도 계수

📌 Scaling exponent \(\alpha\)의 해석

  • \(\alpha < 0\)인 경우: GFLOPs가 커질수록 error는 감소 → 더 많은 연산으로 더 나은 성능
  • \(\alpha\) 값이 작을수록 성능 향상이 빠르게 일어남 (즉, 같은 compute 대비 더 큰 성능 향상)
  • 예를 들어,
    • \(\alpha = -0.20\): \(\text{GFLOPs}\)가 10배 증가하면 \(\text{Error}\)는 약 \(10^{-0.20} \approx 0.63\)배로 감소
    • \(\alpha = -0.03\): 동일 조건에서 error 감소율은 \(10^{-0.03} \approx 0.93\) → 거의 효과 없음

논문 내 실험 결과

Task \(\alpha\) 값 해석
Video QA \(-0.15\) compute 증가 시 error 감소, 꽤 효율적
OCR QA \(-0.20\) 가장 높은 효율의 스케일링
Natural Image QA \(-0.11\) 성능 향상 있으나 제한적
Fine-grained Hard QA \(-0.03\) 거의 효과 없음 → human-labeled data 필요성 시사

시각적 의미 (Log-Log 스케일)

이 수식은 log-log plot에서 직선 형태로 나타납니다

\[\log(\text{Error}) = \log(\beta) + \alpha \cdot \log(\text{GFLOPs})\]
  • 즉, \(\log(\text{Error})\)와 \(\log(\text{GFLOPs})\)의 관계를 그리면 기울기 = \(\alpha\), 절편 = \(\log(\beta)\)
  • 직선의 기울기가 완만할수록(즉, \(\alpha\)가 크거나 -값이 작을수록) compute 증가에 따른 성능 개선이 더디다는 의미

해당 논문의 결론

  • 이 실험은 계산량 vs 성능 향상의 관계를 정량화하여, 어떤 태스크에서 synthetic data만으로 충분한지 판단할 수 있는 기준 제공
  • 또한 \(\alpha\) 값이 작거나 0에 가까운 경우, human-labeled, fine-grained data의 필요성을 실험적으로 뒷받침
Previous: d1 Next: Enhancing Non-Reasoning Models with Reasoning Models

post contain ""

    No matching posts found containing ""