00:00:00

Share Your Feedback 🏝️

SkyScript-100M

SkyScript-100M

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Scaling Filter** Next: Performance Law of Large Language Models

SkyScript-100M

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-08-18

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

  • url: https://arxiv.org/abs/2408.09333
  • pdf: https://arxiv.org/pdf/2408.09333
  • html: https://arxiv.org/html/2408.09333v1
  • abstract: Generating high-quality shooting scripts containing information such as scene and shot language is essential for short drama script generation. We collect 6,660 popular short drama episodes from the Internet, each with an average of 100 short episodes, and the total number of short episodes is about 80,000, with a total duration of about 2,000 hours and totaling 10 terabytes (TB). We perform keyframe extraction and annotation on each episode to obtain about 10,000,000 shooting scripts. We perform 100 script restorations on the extracted shooting scripts based on our self-developed large short drama generation model SkyReels. This leads to a dataset containing 1,000,000,000 pairs of scripts and shooting scripts for short dramas, called SkyScript-100M. We compare SkyScript-100M with the existing dataset in detail and demonstrate some deeper insights that can be achieved based on SkyScript-100M. Based on SkyScript-100M, researchers can achieve several deeper and more far-reaching script optimization goals, which may drive a paradigm shift in the entire field of text-to-video and significantly advance the field of short drama video generation. The data and code are available at this https URL.

비디오 하이라이트 탐지, 세계 레이아웃 이해, 암묵적 캐릭터 관계 마이닝 등 광범위한 응용 가능성 제시

alt text

  1. 데이터 수집
    • 6,660개의 인기 단편 드라마 에피소드 수집
    • 총 80,000개의 에피소드, 2,000시간 분량, 10TB 데이터
  2. 키프레임 추출 및 주석 처리
    • 약 10,000,000개의 촬영 대본 획득
  3. 대본 복원
    • SkyReels 모델을 사용하여 100회 대본 복원 수행
    • 최종적으로 1,000,000,000쌍의 대본과 촬영 대본 생성
  4. 주요 전처리 방법

    단계 방법 사용 도구/모델
    1. 키 정보 사전 추출 멀티모달 대규모 언어모델 활용 InternVL2-Llama3-76B
    2. 정보 정제 및 픽셀화 JSON 형식 변환, 얼굴/이름 정보 픽셀화 GPT-4o
    3. 개방 어휘 탐지 키 객체 추출 및 위치 보정 Grounding-DINO 1.0
    4. 주인공 정보 후처리 얼굴 탐지, 나이/성별/감정 예측, 깊이/자세 보정 Deepface, DepthAnything v2, AlphaPose
    5. 데이터 보정 누락 정보 보충, 오류 수정, 중복 제거 12명의 주석 처리자 팀
  5. 새로운 촬영 대본 형식
    • 기존: 기본적인 장면 설명, 카메라 위치/움직임 정보
    • 개선: 캐릭터, 객체, 세계 개념에 대한 상세 정보 포함

1. 서론

단편 드라마 제작 분야에서 AI 기술의 활용이 증가하고 있습니다. 특히 촬영 대본(shooting script) 생성이 중요한 과제로 대두되고 있습니다. 기존의 드라마 제작 파이프라인은 전체 스토리 생성, 초기 대본 작성, 캐릭터 디자인, 촬영 대본 개발 순으로 진행되었습니다. 하지만 이런 방식은 AI 기반 단편 드라마 제작에 최적화되어 있지 않습니다.

본 연구에서는 이런 문제를 해결하기 위해 1,000,000,000쌍의 대본과 촬영 대본을 포함하는 SkyScript-100M 데이터셋을 구축했습니다. 이를 위해 인터넷에서 6,660개의 인기 단편 드라마 에피소드를 수집했으며, 총 80,000개의 에피소드와 2,000시간 분량의 영상을 확보했습니다. 또한 AI 시대에 맞는 새로운 촬영 대본 데이터 구조를 정의했습니다.


2. 관련 연구

2.1 멀티모달 데이터셋

고성능 멀티모달 대규모 언어모델을 구축하기 위해서는 대량의 고품질 시각-텍스트 데이터가 필요합니다. 기존 연구들은 주로 웹 크롤링을 통해 다양한 도메인의 비디오 데이터를 수집하고 주석을 달았습니다. 하지만 이런 접근 방식은 특정 도메인에 집중하기 어렵다는 한계가 있었습니다.

본 연구에서 구축한 SkyScript-100M은 단편 드라마에 특화된 대규모 데이터셋으로, 기존 데이터셋들과 비교했을 때 다음과 같은 특징이 있습니다.

  • 6.6k개의 비디오
  • 100M개의 클립
  • 2k 시간 분량
  • 720P 해상도
  • 드라마 도메인에 특화
  • 수동 주석 처리

이는 기존의 오픈 도메인 데이터셋들과 비교했을 때 훨씬 더 집중적이고 고품질의 데이터를 제공합니다.

2.2 대본 생성

대본 생성은 자연어 처리 연구에서 중요한 과제입니다. 대규모 언어모델 이전에도 많은 연구가 이루어졌습니다. 예를 들어, Fan et al. (2018)은 300K개의 휴먼 작성 스토리와 프롬프트를 쌍으로 하는 WP 데이터셋을 만들어 계층적 스토리 생성을 가능하게 했습니다. Yao et al. (2019)은 오픈 도메인 스토리 생성 문제를 탐구하며 ROC-Stories 기반의 계획-작성 계층적 생성 프레임워크를 제안했습니다.

최근에는 대규모 언어모델을 활용한 대본 생성이 새로운 트렌드로 떠오르고 있습니다. 이는 대규모 언어모델이 더 나은 세계 상식을 제공할 수 있기 때문입니다. 예를 들어, Mirowski et al. (2022)은 기존의 사전 훈련된 대규모 언어모델을 사용하여 긴 대본을 생성하는 dramatron이라는 생성 프레임워크를 제안했습니다.

그러나 단편 드라마 대본 생성 분야에서는 아직 많은 과제가 남아있습니다. 특히 단편 드라마 세계의 많은 상식적 이슈들이 대규모 언어모델의 내부 지식과 일치하지 않아 최종 대본이 현실 세계와 괴리되는 문제가 있습니다.


3. SkyScript-100M 데이터셋

SkyScript-100M 데이터셋은 단편 드라마 비디오 생성 태스크를 위해 구축되었습니다. 전문 시나리오 작가들과 협력하여 촬영 대본에 대한 독특한 설계를 개발했으며, 이는 대규모 프레임 설명(샷 설명, 캐릭터 설명, 객체 설명 포함)과 해당하는 생성된 단편 드라마 비디오 대본을 포함합니다.

alt text

3.1 MLLMs 기반 주요 정보 사전 추출

수동 주석 처리 비용을 줄이기 위해 먼저 멀티모달 대규모 언어모델을 사용하여 예비 사전 주석 처리를 수행했습니다. 여러 모델을 비교한 결과, InternVL2-Llama3-76B를 멀티모달 주요 정보 사전 추출 모델로 선택했습니다.

3.2 주요 정보 정제 및 픽셀화

기본적인 주요 정보 사전 추출 후, 주요 정보를 정제하고 표준 JSON 형식으로 변환했습니다. 이는 후속 처리를 위해 필요한 과정이었습니다. 또한 윤리적 안전을 완전히 보장하기 위해 얼굴 정보와 캐릭터 이름 정보에 대해 픽셀화 처리를 수행했습니다.

3.3 주요 정보를 이용한 개방 어휘 탐지

멀티모달 대규모 언어모델의 환각 문제를 고려하여, 앞서 언급한 정제된 JSON 파일을 기반으로 프레임 내 주요 객체 추출을 수행했습니다. 여러 개방 어휘 탐지 모델을 테스트한 결과, Grounding-DINO 1.0을 최종 탐지 모델로 선택했습니다.

3.4 주인공 정보 후처리

캐릭터 정보를 더욱 정제하고 보정하기 위해 Deepface 프레임워크를 사용하여 얼굴을 탐지하고 전체 프레임에서의 위치를 주석 처리했습니다. 또한 Deepface를 사용하여 주인공의 나이, 성별, 감정, 민족성을 예측했습니다.

추가로 DepthAnything v2를 사용하여 캐릭터의 피사계 심도를 보정하고, AlphaPose를 사용하여 캐릭터의 자세를 판별했습니다. 이를 통해 더욱 풍부하고 정확한 캐릭터 정보 구축을 달성했습니다.

3.5 데이터 보정

12명의 주석 처리자로 구성된 데이터 보정 팀을 구성하여 최종 결과물을 검증했습니다. 이 과정은 누락된 정보 보충, 잘못 레이블링된 정보 수정, 중복 주석 제거 등을 포함했습니다. 최종적으로 90% 이상의 정확도를 달성하여 단편 드라마 제작 요구 사항을 충족시켰습니다.


4. 새로운 단편 드라마 생성 패러다임

전통적인 드라마 생성 파이프라인은 스토리 생성, 대본 생성, 캐릭터 디자인, 촬영 대본 생성의 순서로 구성됩니다. 이 중 촬영 대본 생성이 가장 중요한 부분으로, 최종 생성된 드라마 비디오의 품질을 결정짓습니다.

기존의 촬영 대본은 장면 설명, 카메라 위치, 카메라 움직임, 카메라 움직임 시간 등의 기본 파라미터로 구성되어 있습니다. 그러나 이런 정보를 비디오 생성 모델이 직접 이해하기는 어렵습니다. 따라서 본 연구에서는 더 강력한 비디오 생성 방법을 제안합니다. 이 방법은 단편 드라마 세계의 가능한 많은 정보를 비디오 생성 모델에 제공하여, 생성 세션 동안 단편 드라마 제작자와 동일한 세계 상식을 가질 수 있도록 합니다.

이를 위해 새로운 패러다임의 촬영 대본 형식을 정의했습니다. 이 형식은 가능한 많은 정보를 포함하여, 다중 프레임 생성 세션 동안 캐릭터, 객체, 심지어 세계 개념에 대한 일관된 메모리를 유지할 수 있도록 합니다. 이 과정을 비디오 생성 모델을 단편 드라마 세계와 정렬하는 과정이라고 명명했습니다.

이런 새로운 단편 드라마 생성 패러다임을 대규모 단편 드라마 생성 모델인 SkyReels에 적용하고, 다수의 생성 실험을 통해 이 새로운 패러다임의 효과를 탐구했습니다. SkyReels를 다양한 차원에서 평가했는데, 이는 주제 표현, 캐릭터 발전, 대화 품질, 감정적 영향, 페이싱과 리듬, 갈등 해결, 플롯 일관성, 내러티브 구조 등을 포함합니다.

결과는 SkyReels가 이런 영역에서 다른 LLM들(e.g., GPT-4, Claude 2, PaLM 2 등)과 비교하여 향상된 성능을 보여준다는 것을 나타냅니다. 실험 결과에 따르면, 새로운 패러다임 하의 촬영 대본을 기반으로 생성된 비디오는 캐릭터와 화풍의 일관성을 더 잘 보장하고, 단편 드라마 세계에서의 캐릭터 간 관계와 플롯의 흐름에 대해 더 깊은 이해를 보여줍니다.


5. 단편 드라마에 대한 광범위한 영향

SkyScript-100M의 대량의 “대본-촬영 대본” 쌍 데이터를 기반으로, 다양한 관점에서 단편 드라마 생성에 대한 광범위하고 심층적인 연구를 수행할 수 있게 되었습니다. 이 섹션에서는 예비 탐색적 연구를 수행하고, 이런 발견을 바탕으로 대규모 단편 드라마 생성 모델인 SkyReels를 최적화합니다.

5.1 비디오 하이라이트 탐지

단편 드라마의 폭발적인 성장으로 인해, 단편 드라마를 위한 자동 비디오 하이라이트 탐지 기술의 필요성이 더욱 시급해졌습니다. 하이라이트 탐지는 전체 스토리에서 감정적 절정과 예상치 못한 또는 오랫동안 계획된 플롯을 추출할 수 있어, 단편 드라마의 후반 제작 과정에서 편집과 홍보에 유용합니다.

정확하고 신뢰할 수 있는 하이라이트 주석을 달성하기 위해 Plutchik 감정 이론에서 시작하여 단편 드라마 단일 에피소드에서 캐릭터의 감정을 Valence (V), Arousal (A), Dominance (D)의 관점에서 분석하고, 최종적으로 단편 드라마의 모든 단일 에피소드에서 비디오 하이라이트 점수를 얻었습니다.

주목할 만한 점은, 이전의 단일 프레임 이산 하이라이트 주석과 달리, 단편 드라마의 변화를 평가하기 위한 연속적인 하이라이트 점수 추정기를 설정했다는 것입니다. 이는 데이터를 기반으로 단편 드라마 비디오에 대한 회귀 기반 하이라이트 탐지 방법이 가능해졌음을 의미합니다.

5.2 세계 레이아웃 이해

세계 레이아웃 이해는 화면 생성 태스크의 필수적인 부분입니다. 그러나 대부분의 기존 단편 드라마 생성 모델은 정확하고 신뢰할 수 있는 세계 레이아웃 이해와 캐릭터 위치 계획을 달성하기 어려워, 최종 생성된 비디오에서 비정상적인 캐릭터나 객체 떨림 또는 일시적인 움직임을 초래할 수 있습니다.

이 문제를 해결하기 위해, 전체 단편 드라마에서 캐릭터 위치를 측정하고 추정하여 대략적인 2D 위치를 얻은 후, 다중 뷰 기하학 이론을 사용하여 3D 위치를 역으로 해결하고 3D-2D 변환 행렬을 얻어 새로운 2D 뷰를 재생성합니다. 이 과정은 다음과 같은 수식으로 표현됩니다.

\[\begin{pmatrix} u \\ v \\ 1 \end{pmatrix} = \begin{pmatrix} t_1 & t_2 & t_3 & t_4 \\ t_5 & t_6 & t_7 & t_8 \\ t_9 & t_10 & t_11 & t_12 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \\ 1 \end{pmatrix}\]

($(u, v, 1)$는 2D 이미지 좌표, $(x, y, z, 1)$는 3D 월드 좌표, 그리고 $t_1$ ~ $t_12$는 3D-2D 변환 행렬의 요소)

3D 위치와 위치 계산의 논리적 체인을 기반으로 한 일관성 제약을 통해 화면상의 캐릭터와 객체의 위치가 객관적인 물리적 세계의 법칙을 따르도록 제약을 가하고, 일부 3D 촬영 응용 프로그램에서 자주 발생하는 비정상적인 가림 문제도 정확하고 신뢰할 수 있는 세계 레이아웃 이해를 기반으로 해결할 수 있도록 합니다.

5.3 암묵적 캐릭터 관계 마이닝

전통적인 대본에서 캐릭터 관계는 보통 고정된 명시적 삼중항(triple) 형태로 저장됩니다. 하지만 휴먼의 감정은 계속 변화하고, 많은 명시적 관계는 캐릭터 간의 암묵적 관계를 내포하고 있습니다. 대규모 언어모델의 출현으로 시간에 따라 변화하는 암묵적 캐릭터 관계 마이닝이 가능해졌습니다.

SkyScript-100M의 “대본-촬영 대본” 쌍 데이터를 기반으로 파이프라인을 구축했습니다. 이 과정은 다음과 같습니다.

  1. 스토리의 캐릭터에 대한 엔티티 추출을 수행하여 캐릭터 라이브러리를 구성합니다.
  2. 멀티모달 및 유니모달 대규모 언어모델을 각각 기반으로 이미지와 SkyScript-100M 주석 처리된 텍스트에서 암묵적 관계 정보를 마이닝합니다.

주목할 만한 점은 캐릭터 위치 정보와 연속적인 감정을 주석 처리했기 때문에, 텍스트 기반 마이닝도 높은 인식 정확도를 가질 수 있다는 것입니다.

마이닝된 시간에 따라 변화하는 암묵적 캐릭터 관계를 기반으로, 대본 생성 모델은 단편 드라마 세계의 실제 사회적 장면에서의 플롯의 복잡성과 불확실성을 더 잘 고려할 수 있고, 내러티브 컨텍스트에서의 미묘한 관계를 더 잘 이해할 수 있습니다. 이는 직관적이지 않지만 합리적인 새로운 숨겨진 주요 새 플롯으로 이어질 수 있습니다.


6. 결론

단편 드라마를 위한 멀티모달 데이터셋 구축을 선도했으며, 이 데이터셋을 기반으로 1,000,000,000쌍의 대본과 촬영 대본을 도출하여 SkyScript-100M을 구축했습니다. SkyScript-100M의 구축 과정을 상세히 설명하고, 이를 기반으로 심층 연구를 수행하여 새로운 단편 드라마 생성 패러다임을 제안했습니다.

또한, SkyScript-100M이 단편 드라마에 미치는 광범위한 영향을 탐구하고, 비디오 하이라이트 탐지, 세계 레이아웃 이해, 암묵적 캐릭터 관계 마이닝 등의 주요 포인트를 해결함으로써 단편 드라마 비디오 생성을 발전시킬 수 있는 잠재력을 탐색했습니다.

앞으로도 SkyScript 시리즈를 계속 개선하고, 이를 기반으로 대규모 단편 드라마 생성 모델인 SkyReels를 최적화해 나갈 것입니다. 이런 노력을 통해 AI 기반 단편 드라마 제작의 품질과 효율성을 크게 향상시킬 수 있을 것으로 기대합니다.

Previous: Scaling Filter** Next: Performance Law of Large Language Models

post contain ""

    No matching posts found containing ""