대화형 비디오 생성 모델 Genie: 비디오 데이터만으로 인터랙티브 환경을 생성
1. 서론
최근 AI 기술의 발전으로 생성적 AI가 주목받고 있습니다. 특히, Genie는 대규모 인터넷 게임 비디오 데이터를 기반으로 하여 인터랙티브한 비디오 환경을 생성하는 새로운 패러다임을 제시합니다. 이 모델은 텍스트 또는 이미지 프롬프트로부터 시작하여 사용자의 상호작용에 따라 비디오 프레임을 실시간으로 생성할 수 있습니다.
2. 방법
2.1 모델 구조
Genie는 다음과 같은 주요 컴포넌트로 구성됩니다.
비디오 토크나이저
비디오 프레임을 토큰화하여 차원을 축소합니다. 이는 VQ-VAE 기법을 사용하여 수행
비디오 토크나이저는 고차원의 비디오 데이터를 저차원의 이산적인 토큰으로 변환합니다. 이 과정에서 VQ-VAE(Vector Quantized-Variational AutoEncoder) 기법을 사용하여 비디오 프레임을 효율적으로 압축하고, 동시에 정보 손실을 최소화합니다.
VQ-VAE는 입력 데이터 \(x\)를 저차원 잠재 공간 \(z\)로 인코딩한 후, 이를 다시 디코딩하여 원래 데이터를 복원하는 구조를 가집니다. 수식에서 중요한 점은 잠재 공간의 각 벡터가 사전에 정의된 코드북 벡터 중 하나로 양자화된다는 것입니다.
\(z_q = \text{Quantize}(E(x))\) \(x' = D(z_q)\)
수식에서 \(E\)는 인코더, \(D\)는 디코더, \(z_q\)는 양자화된 잠재 벡터, \(x'\)는 복원된 데이터를 나타냅니다. 손실 함수는 입력 \(x\)와 복원된 \(x'\) 간의 차이(재구성 손실)와 잠재 벡터 \(z\)와 양자화된 벡터 \(z_q\) 간의 차이를 최소화하는 것을 목표로 합니다.
잠재 행동 모델(Latent Action Model, LAM)
연속적인 프레임 사이의 잠재 행동을 비지도 학습 방식으로 인퍼런스
잠재 행동 모델은 연속적인 비디오 프레임 사이에서 발생하는 ‘행동’ 또는 변화를 인퍼런스합니다. 이 모델은 비디오 시퀀스에서 자동으로 중요한 동적 특성을 학습하며, 이는 행동 레이블 없이 비지도 방식으로 수행됩니다.
LAM은 시퀀스의 각 프레임 사이의 변화를 인코딩하는 잠재 행동 \(a_t\)를 학습합니다. 이는 다음과 같은 수식으로 모델링됩니다.
\(a_{t} = \text{Encoder}(x_{t-1}, x_t)\) \(x_{t+1} = \text{Decoder}(x_t, a_t)\)
상기 식에서 \(x_{t-1}\)과 \(x_t\)는 연속적인 비디오 프레임, \(a_t\)는 두 프레임 사이의 잠재 행동, \(x_{t+1}\)는 예측된 다음 프레임입니다.
동적 모델(Dynamics Model)
주어진 잠재 행동과 과거 프레임 토큰을 기반으로 다음 프레임을 예측
동적 모델은 주어진 잠재 행동과 이전 프레임의 토큰화된 정보를 바탕으로 다음 프레임을 예측합니다. 이는 비디오의 시간적 연속성과 일관성을 유지하면서 새로운 비디오 프레임을 생성할 수 있게 합니다.
동적 모델은 autoregressive transformer 구조를 사용하여 이전의 모든 토큰과 잠재 행동을 바탕으로 다음 프레임의 토큰을 예측합니다.
\[z_{t+1} = \text{Transformer}(z_{1:t}, a_{1:t})\]수식에서 \(z_{1:t}\)는 시간 \(t\)까지의 비디오 토큰, \(a_{1:t}\)는 동일한 시간 동안의 잠재 행동, \(z_{t+1}\)는 예측된 다음 프레임의 토큰입니다.
이 모델들은 함께 작동하여 비디오 데이터만으로 인터랙티브하고 동적인 비디오 환경을 생성하는 우수한 시스템을 제공합니다.
2.2 학습 과정
모델은 두 단계에 걸쳐 학습됩니다.
이 과정은 효율적인 비디오 생성을 가능하게 하며, 특히 ST-transformer 구조를 통해 비디오의 시공간적 동적을 처리합니다.
3. 수학적 접근
3.1 동적 모델의 예측
동적 모델은 다음과 같은 수학적 과정을 통해 다음 프레임 토큰을 예측합니다.
\[\hat{z}_{t+1} = f(z_t, a_t)\]수식에서 \(z_t\)는 시간 \(t\)에서의 비디오 토큰, \(a_t\)는 잠재 행동, \(\hat{z}_{t+1}\)는 예측된 다음 프레임 토큰입니다.
3.2 손실 함수
모델의 학습은 다음과 같은 손실 함수를 최소화하여 이루어집니다.
\[L = \sum_{t=1}^{T-1} \text{CrossEntropy}(\hat{z}_{t+1}, z_{t+1})\]위 식은 예측된 토큰과 실제 토큰 사이의 교차 엔트로피를 계산함으로써 성능을 측정합니다.
4. 실험 결과
Genie 모델은 다양한 비디오 데이터셋에서 높은 비디오 생성 품질을 보였습니다. 특히, 11B 파라미터 모델은 플랫포머 게임 비디오에서 우수한 성능을 나타냈습니다. 또한, 로봇 데이터셋에서도 일관된 잠재 행동 학습 능력을 보여주었습니다.
5. 결론 및 향후 연구
Genie는 비디오 데이터만을 사용하여 인터랙티브한 환경을 생성할 수 있는 우수한 모델을 제시합니다. 향후 이 모델은 더 다양한 환경과 상호작용을 생성하여 가상 현실 및 게임 개발에 혁신을 가져올 수 있습니다. 또한, 모델의 확장성 및 상호작용 능력을 더욱 향상시키는 방향으로 연구가 진행될 것입니다.