00:00:00

Data | Improving Data Using PPL****

https://dsdanielpark.github.io https://github.com/dsdanielpark

Data | Improving Data Using PPL****

MinWoo(Daniel) Park | Tech Blog

Created: 2024-09-09 11:45:54 +0000

Last modified: 2024-09-09 20:56:50 +0900

Data | Improving Data Using PPL****

Related Project: Private
Category: Paper Review
Date: 2024-09-09

Improving Pretraining Data Using Perplexity Correlations

url: https://arxiv.org/abs/2409.05816
pdf: https://arxiv.org/pdf/2409.05816
html: https://arxiv.org/html/2409.05816v1
abstract: Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier.

데이터 전처리 정제 및 선택 주요 유사논문 색인마킹**

TL;DR

대규모 언어모델을 위한 pre-training dataset 선택 방법
기존 언어 모델의 손실과 벤치마크 성능 간 상관관계 활용
단일 지수 모델을 통한 데이터 도메인 선택 및 최적화

기존 LLM의 정보를 활용하여 효율적으로 pre-training dataset를 선택함으로써, 비용 효율적이고 성능이 좋은 새로운 LLM을 개발하는 방법을 제시함.

1. 문제 정의

대규모 언어모델(LLM)의 pre-training dataset 선택이 중요하지만,
기존 방법은 비용이 많이 들거나 효과적이지 않음.

2. 제안하는 해결책

기존의 공개된 LLM들을 활용해
LLM의 로그 확률과 벤치마크 성능 간의 상관관계 사용하여 데이터 정제

3. 핵심 아이디어

퍼플렉시티 상관관계를 통한 데이터 선택
상관관계가 높은 도메인의 데이터를 우선 선택

4. 방법

상관관계 계수 $\gamma_j$ 계산 (핵심 섹션)

$\gamma_j = \sum_{1 \leq k, l \leq n \atop k \neq l} \text{sign}(y_k - y_l)(rank_j(x_{k,j}) - rank_j(x_{l,j}))$
- 이 수식은 모델 성능 차이($y_k - y_l$)와 로그 가능도 순위 차이를 비교(성능이 좋은 모델이 특정 도메인에서 더 낮은 퍼플렉시티를 가지면 양의 상관관계)
데이터 선택
- $\gamma_j$ 값이 큰 순서대로 도메인 선택
- 각 도메인에서 가능한 모든 토큰을 한 번씩 선택
- 총 사전 학습 토큰 예산을 채울 때까지 반복
fastText Classfier 훈련
- 선택된 도메인과 나머지를 구분하는 Classfier 학습
- 대규모 데이터셋에 적용 가능하게 함.

5. 이론적 근거

단일 지수 모델 가정

$y_i = f(\langle \boldsymbol{\theta}^*, \mathbf{x}_i \rangle + \epsilon_i)$
- $f$는 알 수 없는 단조 증가 함수
- $\boldsymbol{\theta}^*$는 추정하고자 하는 가중치
상관관계 계수의 이론적 정당화 (핵심 섹션)

$\mathbb{E}[sign(y_i - y_j)(\Phi(\mathbf{x}_i) - \Phi(\mathbf{x}_j))] = \frac{2}{\pi} \sin^{-1}\left(\frac{\boldsymbol{\theta}^*}{\sqrt{2(1+\sigma^2)}}\right)$
- 이 수식은 상관관계 계수가 $\boldsymbol{\theta}^*$와 관련있음을 보여줌.
- $\sin^{-1}$ 함수를 제거하고 순위만 사용하여 간소화
데이터 최적 선택
- 선택된 데이터로 사전 학습 손실을 최소화하면 downstream 성능도 최적화됨을 주장. (중점으로 검증해야 할 부분)

6. 장점

새로운 LLM 학습 없이 데이터 선택 가능
계산 비용 절감
다양한 기존 모델의 정보 활용
이론적으로 정당화된 방법
간단하고 효과적인 알고리즘

데이터 필터링 모델 https://huggingface.co/mlfoundations/fasttext-oh-eli5

본문

1. 서론

대규모 언어모델(LLM)의 학습에 있어 데이터 큐레이션의 중요성이 점점 더 커지고 있습니다. pre-training dataset셋의 규모가 2020년 200B 토큰 미만에서 현재 240T 토큰으로 증가함에 따라, 최고 품질의 LLM을 만들기 위한 최적의 데이터 부분집합을 식별하는 것이 중요해졌습니다. 이에 따라 다양한 데이터 선택 방법들이 등장했지만, 데이터 기반 접근 방식은 일반적으로 비용이 많이 드는 모델 재학습 단계를 포함하여 그 효과성에 제한이 있었습니다.

본 논문에서는 공개된 고성능 LLM들을 활용하여 데이터 평가와 선택을 수행하는 새로운 방법을 제안합니다. 이 방법의 핵심은 다음 두 가지 관찰 가능한 특성을 활용하는 것입니다.

1) 모든 공개 모델은 주어진 텍스트에 대해 인과적 언어 모델링 손실이 발생한다.
2) 모든 모델은 벤치마크에서 평가될 수 있다. (정성적인 결과와 상관도를 얼마나 갖는지 여부와 상관없이)

접근 방식은 퍼플렉시티 상관관계를 통해 데이터를 선택하는 것욿, LLM의 로그 확률과 downstream 벤치마크 성능 간의 상관관계가 높은 데이터 도메인(e.g., wikipedia.org, stackoverflow.com 등)을 선택합니다.

2. 관련 연구

기존의 데이터 선택 방법들은 중복 제거, 퍼플렉시티 필터링, 수작업 큐레이션 등을 넘어서기 위해 다양한 접근 방식을 제시했습니다. 이들은 크게 두 가지 범주로 나눌 수 있습니다.

1) 경량 접근 방식: n-gram 중복(Xie et al., 2023- 또는 임베딩 유사도(Everaert & Potts, 2024)를 사용하여 주어진 벤치마크와 유사한 training dataset를 선택합니다.
2) 고비용 접근 방식: 다양한 데이터 혼합물에 대해 프록시 LLM을 학습시키는 방법 (Ilyas et al., 2022; Xie et al., 2023a; Engstrom et al., 2024; Liu et al., 2024; Llama Team, 2024)

그러나 이런 방법들은 여전히 한계가 있어, Li et al. (2024)의 조사에 따르면 현재 많은 작업에서 SOTA 성능을 보이는 것은 여전히 단순한 fastText Classfier(Joulin et al., 2016)와 영어 필터의 조합입니다.

3. 문제 설정

목표는 pre-training dataset 분포가 downstream 벤치마크 성능에 미치는 영향을 예측하는 모델을 구축하고, 이를 통해 더 나은 언어 모델을 만드는 것입니다. 그러나 이 작업은 계산적으로 비용이 많이 듭니다.

전통적인 접근 방식은 다음과 같습니다.

1) $N$개의 서로 다른 사전 학습 분포 $\{\mathbf{p}_i: i \in [N], \mathbf{p}_i \in \mathbb{R}^D_+\}$를 얻습니다. ($D \gg N$는 도메인의 수)
2) 각 분포에 대해 모델을 사전 학습하고 목표 벤치마크에서의 오류 $y_i \in [0,1]$를 측정한 뒤,
3) $\mathbf{p} \rightarrow y$의 모델을 학습합니다.

이 방법은 $N$번의 LLM 학습을 필요로 하며, 특히 MMLU와 같은 어려운 벤치마크의 경우 수천만에서 수억 달러의 비용이 들 수 있습니다.

각 LLM의 Pre-training 데이터 추적(대리 함수)

접근 방식은 이와 달리 관찰적 설정을 고려합니다.

1) $N$개의 사전 학습된 고성능 LLM을 얻습니다. 이 모델들은 pre-training dataset, 토크나이저, 아키텍처, 규모 등이 다양합니다.
2) 그러나 이 모델들의 training dataset $\mathbf{p}$는 알 수 없습니다.

상기 식에서 핵심 아이디어는 관찰 불가능한 $p_{i,j}$ (모델 $i$의 데이터 선택 정책이 문서 $j$를 샘플링할 확률)를 관찰 가능한 대리변수 $x_{i,j}$로 대체하는 것입니다. $x_{i,j}$는 모델 $i$에서의 문서 $j$의 음의 로그 가능도입니다.

이를 통해 음의 로그 가능도 $\mathbf{x}_i$와 벤치마크 오류 $y_i$ 사이의 관계를 모델링하는 회귀 모델을 구축할 수 있습니다. 이 모델을 사용하여 손실 $x_{i,j}$를 감소시키면 오류 $y_i$가 빠르게 감소할 것으로 예측되는 도메인 $j$의 pre-training dataset를 선택할 수 있습니다.

LLM training dataset 추정 대리 함수 색인마킹*

퍼플렉시티-성능 가설을 단일 지수 모델(SIM)로 공식화합니다.

\[y_i = f(\langle \boldsymbol{\theta}^*, \mathbf{x}_i \rangle + \epsilon_i)\]

$f: \mathbb{R} \mapsto \mathbb{R}$은 알려지지 않은 단조 증가 단변량 함수
$\epsilon_i$는 $\mathbf{x}$와 독립인 평균 0의 노이즈
$\boldsymbol{\theta}^* \in \mathbb{R}^D$는 $D$ 도메인에 대한 알려지지 않은 가중치

이 단일 지수 모델의 장점은 다음과 같습니다.

1) 임의의 단조 함수 $f$로 인해 유연하다.
2) 모델 성능을 최적화하는 것이 목표라면 비선형 함수 $f$를 추정할 필요가 없다.

이는 $f$의 단조성으로부터 직접 볼 수 있습니다.

\[\langle \boldsymbol{\theta}^*, \mathbf{x}_i \rangle + \epsilon_i < \langle \boldsymbol{\theta}^*, \mathbf{x}_j \rangle + \epsilon_j \Leftrightarrow f(\langle \boldsymbol{\theta}^*, \mathbf{x}_i \rangle + \epsilon_i) < f(\langle \boldsymbol{\theta}^*, \mathbf{x}_j \rangle + \epsilon_j).\]

퍼플렉시티 상관관계를 통한 데이터 선택 (핵심 섹션)

가중치 $\boldsymbol{\theta}^*$는 어떤 도메인의 퍼플렉시티가 downstream 성능과 상관관계가 있는지 알려줍니다. 그러나 이것만으로는 데이터 선택에 충분하지 않습니다. 모델 가능도가 모델 성능과 어떻게 관련되는지 알더라도, 데이터 선택이 가능도에 어떤 영향을 미치는지는 알 수 없습니다. 더욱이 이 데이터 혼합물에서 가능도로의 관계는 관찰적으로 학습될 수 없습니다. 왜냐하면 어떤 모델의 데이터 혼합물도 알지 못하기 때문입니다.

그럼에도 불구하고, 데이터 혼합물을 최적화하는 깔끔한 접근 방식이 있습니다. 핵심 관찰은 다음과 같습니다. 만약 비음수 $\boldsymbol{\theta}^*$를 찾는다면, $\boldsymbol{\theta}^*$에 비례하여 샘플링하는 것이 항상 좋은 선택입니다.

이를 형식적으로 표현하면 다음과 같습니다.

명제 1: $\boldsymbol{\theta}^*$ 가중치가 비음수라고 가정합시다. 그러면 관련 가능도가 $\mathbf{x} \in \mathcal{X} \subset \mathbb{R}^D$인 모델에 대해, $\boldsymbol{\theta}^*$ 샘플링 분포에 대한 사전 학습 손실 $\mathbb{E}_{j\sim\boldsymbol{\theta}^*}[x_j]$의 최소화기는 단일 지수 모델에 따른 예상 downstream 오류도 가장 낮습니다.

\[\arg\min_{\mathbf{x}\in\mathcal{X}} \mathbb{E}_{j\sim\boldsymbol{\theta}^*}[x_j] = \arg\min_{\mathbf{x}\in\mathcal{X}} \mathbb{E}[f(\langle\boldsymbol{\theta}^*, \mathbf{x}\rangle + \epsilon)].\]

이 관찰은 비음수 $\boldsymbol{\theta}^*$를 분포로 정규화할 수 있다는 사실에서 직접 따릅니다(정규화 상수를 $f$로 이동시킬 수 있음). 이를 통해 단일 지수 모델의 내적을 예상 사전 학습 손실의 단조 함수로 쓸 수 있습니다.

\[y = f(\langle\boldsymbol{\theta}^*, \mathbf{x}\rangle + \epsilon) = f(\mathbb{E}_{j\sim\boldsymbol{\theta}^*}[x_j] + \epsilon).\]

명제 1은 목표 가능도에 대한 최적의 데이터 혼합물을 찾는 작업을 완전히 피할 수 있게 해줍니다. 대신, 사전 학습 손실을 예측된 downstream 오류의 단조 함수로 만드는 샘플링 분포를 선택합니다. 그 후에는 손실을 최적화하는 능력에 의존하여 downstream 성능을 최적화할 수 있습니다.

이 관점은 데이터 선택을 위한 명확한 로드맵을 제공합니다. 1) 손실과 downstream 벤치마크 성능이 높은 상관관계를 가지는 도메인 집합을 추정하고, 2) $\boldsymbol{\theta}^*$ 추정치를 pre-training dataset 샘플링 분포로 제한합니다.

이런 접근 방식은 기존의 데이터 선택 방법들과 비교하여 다음과 같은 장점을 가집니다. 1) 새로운 LLM을 학습시킬 필요가 없어 비용 효율적이며, 2) 이미 존재하는 다양한 고성능 모델들의 정보를 활용할 수 있습니다. 3) 단일 지수 모델을 통해 수학적으로 정당화된 방법을 제공합니다.

4. 방법

4.1 알고리즘

$\boldsymbol{\theta}^*$ 추정

$\theta_j^*$ 파라미터는 도메인 $j$의 로그 가능도와 downstream 성능 간의 관계를 측정합니다. 이로 인해 $\theta_j^*$가 $x$와 $y$ 사이의 비선형 상관 계수와 관련이 있을 것으로 자연스럽게 예상할 수 있습니다. 연구는 다음과 같은 간단한 상관 측정을 사용합니다.

\[\gamma_j = \sum_{1 \leq k, l \leq n \atop k \neq l} \text{sign}(y_k - y_l)(rank_j(x_{k,j}) - rank_j(x_{l,j}))\]

상기 식에서 $rank_j(x)$는 $\{x_{1,j} \ldots x_{N,j}\}$ 중 $x$의 순위로 이 공식은 직관적입니다. 모델 $k$가 모델 $l$보다 성능이 좋을 때, 모델 $k$의 로그 가능도는 모델 $l$의 로그 가능도에 비해 어떤 백분위에 있을까요? 이는 유일한 좋은 성능을 보이는 상관 계수는 아니지만(Appendix E 참조), 이 함수 형태는 $\boldsymbol{\theta}^*$의 원칙적인 추정치라는 추가적인 이점이 있습니다. 특히, 아래 섹션에서 기대값 상으로 $\boldsymbol{\gamma}$의 도메인 순위가 $\boldsymbol{\theta}^*$의 순위와 정확히 일치함을 보입니다(표준 고차원 회귀 가정 하에; 섹션 4.2에서 완전한 논의 참조).

Pre-training Dataset 선택

도메인 선택 및 비율 설정

정확한 비음수 추정치 $\gamma_j$가 있다고 가정할 경우, $\gamma_j$를 직접 데이터 선택 절차로 사용할 수 있으며, 명제 1은 모집단 사전 학습 손실을 최소화하면 downstream 오류가 최소화됨을 보장합니다. 불행히도, $\gamma_j$는 음수일 수 있으며 도메인당 토큰 수가 제한되어 있어 모집단 사전 학습 손실을 최소화하기 어려울 수 있습니다. 따라서 $\gamma_j$를 비음수이며 도메인별 토큰 수를 고려하는 합리적인 pre-training dataset 분포 집합으로 투영해야 합니다.

$\boldsymbol{\gamma}$를 통해 추정된 도메인 순위를 샘플링 분포로 투영하는 좋은 방법은 무엇일까요? 직관적으로, wikipedia.org가 $\gamma_j = 0.5$이고 arxiv.org가 $\gamma_k = 0.9$라면, pre-training dataset를 선택할 때 $\boldsymbol{\gamma}$ 순서대로 토큰을 선택하여 wikipedia.org보다 arxiv.org의 토큰을 선호하는 것이 자연스러울 것입니다.

이렇게 도메인의 순서를 정한 뒤 남은 문제는 각 도메인에서 얼마나 많은 토큰을 가져올지 결정하는 것입니다. 데이터를 반복하면 성능이 저하된다는 최근의 관찰(Abbas et al., 2023)을 따라 간단한 선택 알고리즘에 도달했습니다. $\boldsymbol{\gamma}$가 가장 큰 것부터 가장 작은 순으로 도메인을 선택하고, 총 사전 학습 토큰 예산을 모두 사용할 때까지 각 도메인의 모든 토큰을 한 번씩 가져옵니다.

전체 알고리즘 (핵심 방법)

이런 단계들을 종합하면 간단하고 파라미터가 없는 알고리즘이 만들어집니다. 이 알고리즘은 순위 상관 계수를 계산하고 계수가 큰 순서대로 도메인을 선택합니다. 이 과정을 알고리즘 1에서 명시적으로 보여주며, 추가로 선택된 문서와 도메인을 나머지 풀과 구별하는 fastText(Joulin et al., 2016) Classfier를 훈련하는 단계를 포함합니다(Li et al. (2024)의 표준 설정과 바이그램 특성 사용). fastText Classfier를 사용하면 단일 페이지 수준에서 데이터 선택을 수행하고 더 큰 데이터셋으로 선택 과정을 확장할 수 있습니다. 또한 Classfier가 문서를 직접 선택하는 것보다 downstream 성능을 약간 향상시키는 것을 발견했습니다. 테스트한 데이터 선택 접근 방식의 세부 사항은 Appendix D에 주어져 있습니다.

(알고리즘 1) 퍼플렉시티 상관관계 기반 데이터 선택

이 알고리즘은 도메인 간의 상관관계를 계산하고, 이를 기반으로 사전 training dataset를 선택하며, 최종적으로 선택된 데이터를 분류하기 위한 fastText 분류기를 학습합니다.

입력 데이터와 초기화
각 도메인의 순위 계산
상관 계수 $\boldsymbol{\gamma}$ 계산
상관 계수에 따라 도메인 정렬
토큰 선택
fastText 분류기 학습
결과 반환

\[\begin{aligned} &\textbf{Input: } \mathbf{y} \in [0,1]^N, \mathbf{X} \in \mathbb{R}_+^{N \times D}, \mathbf{a} \in \mathbb{N}^D, b \in \mathbb{N} \\ &\textbf{Output: } \mathbf{t} \in \mathbb{N}_0^D, \text{fastText Classifier} \\ &\textbf{Initialize: } \boldsymbol{\gamma} \leftarrow \mathbf{0} \in \mathbb{R}^D, \mathbf{t} \leftarrow [0 \ldots] \in \mathbb{N}_0^D, counter \leftarrow 0 \\ &\mathbf{r}_0, \mathbf{r}_1, \ldots, \mathbf{r}_N \leftarrow rank(\mathbf{x}_0, \mathbf{x}_1, \ldots, \mathbf{x}_N) \\ &\textbf{for } i,j \in 0 \text{ to } N \textbf{ do} \\ &\quad \boldsymbol{\gamma} \leftarrow \boldsymbol{\gamma} + sign(y_i - y_j) \cdot (\mathbf{r}_i - \mathbf{r}_j) \\ &\textbf{for } i \in ArgSort(\boldsymbol{\gamma}, \text{descending=True}) \textbf{ do} \\ &\quad t_i \leftarrow min(a_i, b - counter) \\ &\quad counter \leftarrow counter + a_i \\ &\quad \textbf{if } counter \geq b \textbf{ then} \\ &\quad\quad \text{Break} \\ &classifier = trainfastText(positive=\mathbf{1}_{t>0}, negative=\mathbf{1}_{t=0}) \\ &\textbf{Return } \mathbf{t}, classifier \end{aligned}\]

단계	수정되는 변수	설명
2	$\mathbf{r}_0, \mathbf{r}_1, \ldots, \mathbf{r}_N$	각 도메인의 순위 계산
3	$\boldsymbol{\gamma}$	상관 계수 계산 및 업데이트
5	$t_i$, $counter$	선택된 토큰 수 및 카운터 업데이트
6	$classifier$	fastText 분류기 학습

4.2 이론

이제 본 논문의 접근 방식을 자세히 살펴보고 상관 계수와 투영 단계에 대한 선택이 Plan et al. (2016)의 고전적인 고차원 단일 지수 모델 Estimator의 확장임을 보입니다. 먼저 기본적인 단일 지수 모델 Estimator를 설명하고, 확장을 설명한 다음, Estimator와 결과가 이론에서 어떻게 벗어나는지에 대한 논의로 결론을 맺겠습니다.

4.2.1 단일 지수 모델의 고차원 추정

이론을 위해 Plan et al. (2016)과 Chen & Banerjee (2017)의 표준 고차원 회귀 설정을 고려합니다. 상기 식에서 목표는 단일 지수 모델 $y_i = f(\langle \boldsymbol{\theta}^*, \mathbf{x}_i \rangle + \epsilon_i)$에서 알려지지 않은 가중치 $\boldsymbol{\theta}^*$를 추정하는 것입니다. 상기 식에서 $x_i \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$이고 $\|\boldsymbol{\theta}^*\|_2 = 1$입니다. (일반성을 잃지 않는다고 가정하면 $\|\boldsymbol{\theta}^*\|_2$는 $f$에 흡수될 수 있음)

이 아이디어의 시발점은 Plan et al. (2016)의 고전적인 결과입니다. 그들은 다음을 보였습니다.

\[\mathbb{E}[y_k \mathbf{x}_k] = c \boldsymbol{\theta}^*,\]

상기 식에서 $c$는 양의 상수이고 $1 \leq k \leq N$입니다. 이와 밀접하게 관련된 것은 Chen & Banerjee (2017)의 결과로, 것과 유사한 강건한 Estimator를 보여주었습니다.

\[\mathbb{E}[sign(y_k - y_l)(\mathbf{x}_k - \mathbf{x}_l)] = \beta \boldsymbol{\theta}^*\]

상기 식에서 $1 \leq k,l \leq N$ ($k \neq l$)이고 $\beta$는 양의 상수입니다. 이 두 결과 모두 가우시안 설정에서 고차원 단일 지수 모델의 경우, 일반화된 상관 계수가 참 회귀 계수 $\boldsymbol{\theta}^*$의 일관된 추정치를 제공한다는 것을 명확히 보여줍니다.

4.2.2 Estimator 도출

Plan et al.과 Chen & Banerjee는 모두 고차원, 희소 설정에서 $\boldsymbol{\theta}^*$를 일관되게 복구하는 모멘트 매칭 스타일의 Estimator를 제공합니다. 그러나 두 Estimator 모두 $x$의 값을 직접 사용하며, 이로 인해 언어 모델 로그 가능도의 이상치로 인해 불안정한 추정치가 발생한다는 것을 발견했습니다. 이상치 제거가 한 가지 가능성이지만, Chen & Banerjee (2017)의 Estimator를 $x$의 이상치에 대해 강건하게 만드는 더 간단한 접근 방식을 발견했습니다.

추정치 $\boldsymbol{\gamma}$는 다음의 쌍별 합으로 정의된 U-통계량입니다.

\[sign(y_i - y_j)(\Phi(\mathbf{x}_i) - \Phi(\mathbf{x}_j)),\]

상기 식에서 $1 \leq i,j \leq N$ ($i \neq j$)이고 $\Phi$는 $\mathbf{x}$ 값의 경험적 CDF입니다. 이 추정치는 Chen & Banerjee (2017)의 것보다 이상치에 훨씬 덜 민감합니다. 경험적 CDF가 0과 1 사이에 제한되어 있고 단일 모델이 Estimator를 퇴화시킬 수 없기 때문입니다.

이 추정치를 가우시안 설정에서 이론적으로 연구합니다. 상기 식에서 $\Phi$를 표준 가우시안의 CDF로 하는 점근적으로 동등한 Estimator를 고려합니다. 이 경우, 이 수정된 Estimator가 $\boldsymbol{\theta}^*$를 복구하는 데 일관성이 있음을 보일 수 있습니다.

Theorem 1

$\epsilon \sim \mathcal{N}(0, \sigma^2)$일 때, 다음이 성립합니다.

\[\mathbb{E}[sign(y_i - y_j)(\Phi(\mathbf{x}_i) - \Phi(\mathbf{x}_j))] = \frac{2}{\pi} \sin^{-1}\left(\frac{\boldsymbol{\theta}^*}{\sqrt{2(1+\sigma^2)}}\right).\]

증명은 Appendix A에 제공되어 있습니다. $\|\boldsymbol{\theta}^*\|_2 = 1$을 가정하고 방정식 7의 기대값이 $-1$과 $1$ 사이에 있어야 하므로, 항상 $\sin^{-1}$의 정의역 내에 있으며 이를 역변환할 수 있습니다. 역변환 후, 다음을 얻습니다.

\[\hat{\boldsymbol{\theta}} \propto \sin\left(\frac{\pi}{2}\mathbb{E}[sign(y_i - y_j)(\Phi(\mathbf{x}_i) - \Phi(\mathbf{x}_j))]\right)\]

이는 $\boldsymbol{\theta}^*$의 추정치로, 노이즈로 인한 상수 $\sqrt{2(1+\sigma^2)}$ 항은 제외되었습니다.

Estimator가 일관성이 있다는 것 외에도, Chen & Banerjee Estimator와의 더 긴밀한 연결을 보일 수 있습니다. 추정치가 순위 변환된 데이터에 대해 원래 Estimator를 실행할 때 일치한다는 것을 보일 수 있습니다. 더 구체적으로, 추정된 모델 순위가 $\langle \hat{\boldsymbol{\theta}}, \mathbf{x}_i \rangle > \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_j \rangle$인 두 모델 $\mathbf{x}_i$와 $\mathbf{x}_j$에 대해, 순위 변환 (즉, $\Phi(\mathbf{x})$) 하에서의 예상 순위가 이 순위와 일치합니다.

Corollary 1

$\hat{\boldsymbol{\theta}}$가 고정된 가중치의 벡터고, $\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$라고 가정하면, $\langle \hat{\boldsymbol{\theta}}, \mathbf{x}_i \rangle < \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_j \rangle$ 사건을 조건으로 할 때, 다음이 성립한다.

\[\langle \hat{\boldsymbol{\theta}}, \mathbb{E}[\Phi(\mathbf{x}_i) | \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_i \rangle < \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_j \rangle] \rangle < \langle \hat{\boldsymbol{\theta}}, \mathbb{E}[\Phi(\mathbf{x}_j) | \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_i \rangle < \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_j \rangle] \rangle.\]

이는 확률 1로 성립함을 알 수 있습니다.

이 증명은 Theorem 1과 동일한 계산에서 따르며 Appendix A에 제공되어 있습니다.

4.2.3 사전 학습을 위한 데이터 선택

(알고리즘 2) 데이터 선택

데이터 선택 알고리즘은 $\boldsymbol{\gamma}$를 유효한 샘플링 분포(최소한 비음수)로 제한하고 이 추정치에서 직접 샘플링하는 것임을 상기하세요. 지금은 $\hat{\boldsymbol{\theta}}$를 제한하는 데 집중하겠습니다. 이 섹션의 끝에서 $\boldsymbol{\gamma}$에 직접 같은 제약을 적용하여 동일한 결과를 얻을 수 있음을 볼 것입니다. $\hat{\boldsymbol{\theta}}$에 대한 제약된 추정의 이론은 간단하고 잘 이해되어 있으며, Plan et al. (2016)과 Chen & Banerjee (2017) 모두 알려진 볼록 제약 집합 $C$ 하에서 $\hat{\boldsymbol{\theta}}$를 추정하는 문제를 광범위하게 연구했습니다. 특히, Plan et al. (2016)은 $\hat{\boldsymbol{\theta}}_{proj} = \arg\min_{\boldsymbol{\theta} \in C} \|\boldsymbol{\theta} - \hat{\boldsymbol{\theta}}\|_2$를 통한 $L_2$ 투영이 주변 차원이 아닌 $C$의 가우시안 평균 너비에 의존하는 개선된 수렴률을 제공한다는 것을 보였고, Chen & Banerjee (2017)는 선형 상관관계 $\hat{\boldsymbol{\theta}}_{proj} = \arg\min_{\boldsymbol{\theta} \in C \subseteq B^D} -\langle \boldsymbol{\theta}, \hat{\boldsymbol{\theta}} \rangle$를 최대화할 때 유사한 결과를 보였습니다.

상기 식에서 유사한 접근 방식을 취합니다. $\hat{\boldsymbol{\theta}}$를 합리적인 샘플링 분포로 강제하는 볼록 제약 집합 $C$를 정의하고 선형 상관관계 접근 방식을 통해 최선의 샘플링 분포를 찾습니다.

$C$를 두 가지 제약 조건의 조합으로 정의합니다. 첫째, 유효한 샘플링 분포를 가져야 하므로 $\hat{\boldsymbol{\theta}}$를 단체에 제한합니다. 위에서 언급했듯이, 데이터를 중복하면 성능이 저하된다는 것이 잘 알려져 있으므로(Abbas et al., 2023), 도메인에 대한 최대 가중치를 제한하여 데이터 중복을 피하도록 $\hat{\boldsymbol{\theta}}$를 제약합니다. 구체적으로, 전체적으로 $m$ 토큰으로 사전 학습하려면 $\theta_i^* \leq \tau_i, \forall i \in [1,D]$를 강제합니다. 상기 식에서 $\tau_i$는 $\tau_i m$이 훈련에 접근할 수 있는 $i$번째 도메인의 토큰 수가 되도록 설정됩니다.

결과로 나오는 선형 프로그램은 간단한 해결책을 가지며 $\hat{\boldsymbol{\theta}}_{proj}$를 $\mathbf{0}$으로 초기화한 다음 $\hat{\boldsymbol{\theta}}$의 값을 가장 큰 것부터 가장 작은 것까지 반복하면서 $\hat{\boldsymbol{\theta}}_{proj}$의 해당 인덱스의 값을 허용 가능한 최대값으로 설정하고, $\hat{\boldsymbol{\theta}}_{proj}$의 합이 1이 될 때까지 진행하는 형태를 취합니다. (증명은 Appendix B 참조).

Theorem 2

다음을 해결하고자 한다고 가정합니다.

\[\hat{\boldsymbol{\theta}}_{proj} = \arg\min_{\boldsymbol{\theta} \in \mathbb{R}^D} -\langle \boldsymbol{\theta}, \hat{\boldsymbol{\theta}} \rangle,\]

제약 조건

$\sum_{i=1}^D \theta_i = 1$ $0 \leq \theta_i \leq \tau_i, \forall i \in [1,D],$

상기 식에서 $\tau_i > 0$는 고정된 값입니다. 그러면 해결책은 다음과 같습니다.

\[\hat{\theta}_k^{proj} = \begin{cases} \tau_k & \text{if } \sum_{j : r_j(\hat{\theta}_j) \geq r_k(\hat{\theta}_k)} \tau_j \leq 1 \\ 1 - \sum_{j : r_j(\hat{\theta}_j) > r_k(\hat{\theta}_k)} \tau_j & \text{if } \sum_{j : r_j(\hat{\theta}_j) \geq r_k(\hat{\theta}_k)} \tau_j \geq 1 \wedge \sum_{j : r_j(\hat{\theta}_j) > r_k(\hat{\theta}_k)} \tau_j \leq 1 \\ 0 & \text{otherwise} \end{cases},\]

상기 식에서 $r$은 $k \neq j$에 대해 $\hat{\theta}_j$와 $\hat{\theta}_k$ 사이의 모든 동점을 깨는 함수이며, 그 외에는 서수 관계를 그대로 유지합니다.

이 선형 프로그램의 사용이 Chen & Banerjee (2017)에서 제안된 제약된 Estimator와 일치하지만, $L_2$ 투영이 더 자연스럽고 점근적 복구 조건을 위해 $\|\hat{\boldsymbol{\theta}}\|_2 = 1$을 가정할 필요가 없다는 점에 주목합니다. Appendix B에서 이 이차 경우에 대한 유사한 닫힌 형태의 표현을 유도하지만, 두 가지 별개의 이유로 이 접근 방식을 사용하지 않습니다.

첫째, $L_2$ 투영은 $\hat{\boldsymbol{\theta}}$의 값의 순위에만 의존하는 선형 프로그램과 달리 $\hat{\boldsymbol{\theta}}$의 $L_2$ 노름에 의존합니다. 노름을 결정하는 데 있어 과제는 방정식 7의 정확한 복구 결과가 노이즈 수준에 대한 지식을 요구하며, 삼각함수가 $x$의 가우시안 구조에 강하게 의존한다는 것입니다. 이로 인해 $\hat{\boldsymbol{\theta}}$의 노름을 정확하게 추정할 수 있을 가능성이 낮으며, 이를 피하는 유일한 방법은 노름을 하이퍼파라미터로 취급하는 것인데, 이는 불필요한 복잡성을 추가합니다. 둘째 이유는 경험적인 것입니다(첫 번째 이유의 결과일 수 있음) - 선형 투영이 광범위한 벤치마크와 조건에서 더 나은 성능을 보인다는 것을 발견했습니다(Appendix E 참조).

4.1절의 전체 알고리즘과 이론을 관련시키며 결론을 맺습니다. $\boldsymbol{\gamma}$에 대한 추정 단계는 방정식 8의 기대값에 대한 유한 표본, U-추정치로, 비선형 변환 $\sin$과 $\pi/2$를 제외합니다. 이 두 항은 도메인의 순위를 변경하지 않기 때문입니다. 데이터 선택 단계는 방정식 10의 투영을 직접 적용하며, 이 투영이 도메인 간의 순위에만 의존한다는 사실을 이용하여 $\boldsymbol{\theta}^*$에 대한 정확한 추정치 대신 $\boldsymbol{\gamma}$를 사용합니다.

4.3 대안적 방법(선행 연구)

본 연구에서 제안한 추정기는 고차원 단일 지수 모델에 대한 유일한 합리적 추정 방법이 아닙니다. 실험 결과로 넘어가기 전에 몇 가지 대안적 방법들과 장단점에 대해 간략히 논의하고자 합니다.

고차원 설정을 위한 정규화된 저차원 방법
- 서수 회귀 (Wooldridge, 2010)
- isotron 알고리즘 (Kalai & Sastry, 2009)
- 특징
  - 성능: 상관관계 기반 추정기보다 낮은 성능을 보였습니다.
  - 복잡성: 하이퍼파라미터 튜닝이 필요하여 추가적인 복잡성이 발생했습니다.
스케일링 법칙을 활용한 방법 (Kaplan et al., 2020; Llama Team, 2024; Ruan et al., 2024):
- $y$ 값을 역 시그모이드 함수나 멱법칙을 통해 변환한 뒤, 고차원 선형 회귀 방법(e.g., ridge, partial least squares, Lasso)을 적용합니다.
- 초기에는 이 방법이 유망해 보였으나, 다음과 같은 문제점이 발견되었습니다.
  - 역변환의 불안정성
  - 비선형 변환 피팅과 정규화의 조합이 상당한 튜닝을 필요로 함
순위 상관관계 방법
- Chen & Banerjee (2017)의 추정기의 강건화 버전
- 표준 Spearman 상관관계 (Spearman, 1904)
- 특징
  - 성능: 전반적으로 우수한 성능을 나타냈습니다 (Appendix E 참조).
  - 적용 가능성: $D \gg N$ 상황에서 특히 효과적입니다.
    
    $D$는 특징의 수, $N$은 샘플의 수를 의미하며, 이 조건에서는 특징별 강건한 상관관계가 좋은 성능을 보일 가능성이 높습니다. 그러나 합리적인 모델을 얻기 위해서는 극단적인 수준의 정규화가 필요합니다.
희소 방법 (e.g., Lasso, Tibshirani, 1996)
- 장점: 고전적인 해답 중 하나로 널리 사용됩니다.
- 단점: 기본 상관관계 $\boldsymbol{\theta}^*$가 반드시 희소하다고 가정할 수 없습니다.
- 성능: 본 연구에서는 좋은 성능을 보이지 않았습니다.

이런 선행 대안적 방법들과의 비교를 통해, 본 연구에서 제안한 상관관계 기반 추정기의 장점을 다음과 같이 정리할 수 있습니다.

단순성: 복잡한 하이퍼파라미터 튜닝이 필요 없음.
안정성: 역변환 등의 불안정한 연산을 포함하지 않음.
확장성: 고차원 데이터 ($D \gg N$)에서도 효과적으로 작동
강건성: 특징별 상관관계를 활용하여 노이즈에 강함.

결론적으로, 본 연구에서 제안한 방법은 다양한 대안적 방법들과 비교했을 때, 단순성과 성능 면에서 우수한 균형을 보여줍니다. 특히 고차원 데이터에서의 안정성과 확장성은 실제 응용에서 큰 장점이 될 수 있습니다. 다만, 특정 문제에 따라 다른 방법이 더 적합할 수 있으므로, 문제의 특성과 데이터의 구조를 고려하여 적절한 방법을 선택하는 것이 중요합니다.

4.3 대안적 방법

5. 결과

퍼플렉시티 상관관계 기반 데이터 선택 방법의 실험적 검증
다양한 벤치마크에서의 성능 평가 및 기존 방법과의 비교
손실 행렬 분석을 통한 언어 모델의 특성 파악

본 연구에서는 제안된 퍼플렉시티 상관관계 기반 데이터 선택 방법의 유효성을 실험적으로 검증하였습니다. 실험은 크게 세 부분으로 구성되어 있습니다.

1) 160M 파라미터 LLM의 사전학습 실험
2) 손실값을 이용한 성능 순위 예측
3) 손실 행렬 $\mathbf{X}$의 분석

모든 실험에서 알고리즘 1에 기반한 단일 지수 모델을 사용하였으며, 선택된 도메인과 선택되지 않은 도메인을 구분하는 fastText Classfier를 학습하여 페이지 수준에서 사전training dataset를 필터링하였습니다.

입력 데이터 행렬 $\mathbf{X}$ 구성

90개의 Open LLM Leaderboard 모델에서 바이트 정규화된 손실값 수집
손실값 정의: $\frac{L_T \ell}{L_B \ln(2)}$ (bits-per-byte) $L_T$는 토큰 수, $L_B$는 UTF-8 바이트 수, $\ell$은 토큰 당 교차 엔트로피
RedPajama V2 (RPJv2) 데이터셋의 “sample” 부분집합 사용 (9,841 도메인)

목표 벤치마크 성능 $\mathbf{y}$ 구성

LAMBADA, ARC Easy, PIQA, SciQ 등의 벤치마크 사용
LAMBADA의 다국어 버전 (이탈리아어, 프랑스어, 독일어, 스페인어) 포함

5.1 사전학습 실험

실험 설정

160M 파라미터, 3.2B 토큰 규모의 LLM 사전학습
RPJv2의 “sample-100B” 부분집합 사용
Pythia 토크나이저로 데이터 전처리

비교 대상 베이스 라인

균일 샘플링
언어 태그 기반 필터링
DSIR (n-gram 중복 기반 경량 데이터 선택 기법)
Li et al. (2024)의 fastText Classfier (Common Crawl vs OH2.5 + Reddit ELI5 분류)

결과 분석

평균 순위 비교 (표 1)
- 제안 방법이 기본 베이스 라인들을 크게 상회하는 성능
- Li et al. (2024)의 영어 필터링된 fastText Classfier보다 우수한 성능
- 수동 언어 필터링 추가 시 약간의 성능 저하
벤치마크별 상세 성능 (Figure 2)
- 언어 필터링과 퍼플렉시티 상관관계 방법이 목표 벤치마크에 대해 최적화
- DSIR은 상대적으로 균일한 성능 분포 보임
- 제안 방법이 언어 필터링보다 모든 벤치마크에서 우수한 성능
선택된 사전training dataset의 언어 분포 (Figure 3)
- 다국어 벤치마크에 대해 해당 언어의 데이터 비율 증가
- 영어 벤치마크의 경우 거의 전적으로 영어 데이터 선택

추가 분석

투영 방법(선형, $L_2$) 변경 및 Spearman 순위 상관관계 사용 시에도 베이스 라인보다 우수한 성능
fastText Classfier 사용 시 페이지 수준 선택 가능으로 성능 향상

5.2 성능 순위 예측

실험 방법

5-fold 교차 검증을 통한 순위 예측 성능 평가
예측 방법: $\langle \hat{\boldsymbol{\theta}}_{proj}, \Phi(\mathbf{x}) \rangle$

결과 분석

순위 예측 정확도 (Figure 4)
- PIQA, LAMBADA_FR 등에서 높은 예측 정확도 확인
- 일반적인 아키텍처의 LLM에 대해 정확한 예측
- 비정형 데이터로 학습된 모델(e.g., Phi)에 대해서는 예측 정확도 저하
$R^2$ 점수 비교 (Figure 5)
- 제안 방법($\hat{\boldsymbol{\theta}}_{proj}$)이 평균 손실 베이스 라인보다 통계적으로 유의미한 성능 향상
- 8개 중 7개 벤치마크에서 평균 손실보다 우수한 성능 (p=0.035)

5.3 손실 행렬 $\mathbf{X}$ 분석

분석 방법

PCA와 t-SNE를 사용한 9,841개 도메인의 시각화

PCA와 t-SNE 관련 내용 색인마킹

주요 발견

도메인 기준 분석 (Figure 6 상단)
- 첫 번째 주성분: 언어 구분
- 두 번째 주성분: 평균 bits-per-byte 또는 엔트로피
- t-SNE 결과에서 언어 클러스터가 뚜렷하게 구분됨
- 영어 클러스터 내 세부 주제별 하위 클러스터 발견 (e.g., 상품, 법률 서비스, 학술 연구 등)
모델 기준 분석 (Figure 6 하단)
- PCA의 첫 번째 주성분: 엔트로피
- 모델 계열별 클러스터링 확인 (Pythia, Qwen, OpenLlama)

이런 분석 결과는 손실 행렬 $\mathbf{X}$가 언어 모델의 특성과 training dataset의 성질을 잘 반영하고 있음을 보여줍니다. 이는 제안된 퍼플렉시티 상관관계 기반 데이터 선택 방법의 효과성을 뒷받침하는 증거가 됩니다.

6. 사전 등록을 통한 강건성 검사

본 연구의 소규모 실험에서 제안된 접근 방식은 Li et al.의 조사에서 최고 성능을 보인 수동으로 보강된 고정 fastText 모델과 경쟁력 있는 결과를 보여주었습니다. 그러나 과거의 많은 데이터 선택 방법들이 초기에는 긍정적인 결과를 보였지만 나중에 더 큰 모델로 확장되거나 특정 실험 설정에 의존하면서 실패한 경우가 있었습니다. 이에 본 연구에서는 이런 우려를 해소하기 위해 사전 등록된 확장 실험을 설계하였습니다.

사전 등록 실험 설계

DataComp-LM 프레임워크 활용
- 240조 토큰의 데이터 풀 제공
- 412M에서 7B 파라미터 모델의 사전학습 코드 제공
- 53개 벤치마크에 대한 평가 코드 제공 (22개는 “핵심” 벤치마크)
실험 세부 사항
- 최고 성능을 보인 접근 방식 사용: 상관관계 Estimator로 학습된 fastText 필터
- 목표 벤치마크: “핵심” DataComp-LM 벤치마크의 평균
- 90개 OpenLM Leaderboard LLM의 퍼플렉시티 사용
- “Filtering 1B-1x” 트랙 사용: 1.4B 파라미터 LLM, 28.8B 토큰으로 학습
비교 실험
- fastText Classfier를 기존 파이프라인의 마지막 단계로 대체
- 전체 파이프라인을 단일 Classfier로 대체
- 도메인 수준과 페이지 수준에서 Estimator 학습 비교
- 비영어 LAMBADA 번역본에 대한 평가 추가

이런 사전 등록 실험은 제안된 방법의 확장성과 외적 타당성을 검증하는 데 중요한 역할을 할 것으로 예상됩니다. 특히, arXiv 프리프린트의 영구성을 활용하여 실험 결과의 신뢰성을 높이고, 부정적인 결과도 보고하겠다는 약속을 통해 연구의 객관성을 확보하고자 합니다.

7. 결론

본 연구는 고성능 데이터 선택이 반드시 정교한 수작업 휴리스틱이나 비용이 많이 드는 모델 학습을 필요로 하지 않음을 보여주었습니다. 대신, 기존의 공개 모델들을 데이터 선택을 위한 정보원으로 활용하는 대안적 접근 방식을 제시하였습니다.

주요 기여

단순한 상관관계 기반 데이터 선택 방법의 효과성 입증
단일 지수 모델을 downstream 성능의 대리 지표로 사용하는 방법 제시
손실값과 downstream 성능 간의 관계를 모델링하고 이를 데이터 선택에 활용하는 방법 개발
사전 등록된 확장 실험을 통한 외적 타당성 검증 제안

Appendix

이 Appendix은 논문에서 제안된 추정기의 수학적 기반을 제공하는 중요한 증명들을 담고 있습니다. 세 가지 주요 Lemma(lemma)를 통해 추정기의 성질을 단계적으로 증명해 나갑니다. 각 Lemma의 목적과 증명 과정을 상세히 설명하겠습니다.

A.1 Lemma 1 (조건부 확률 분포의 특성 증명)

목적

이 Lemma의 주요 목적은 특정 조건 하에서의 확률 변수의 분포를 도출하는 것입니다. 이는 추정기의 핵심 부분인 조건부 확률 분포를 이해하는 데 필수적입니다.

기본 개념

반정규 분포 (Half-Normal Distribution) 정규 분포의 양의 부분만을 취한 분포로, 그 확률 밀도 함수(PDF)는 다음과 같습니다
\[f(x;\sigma = \frac{2}{\sigma\sqrt{\pi}}e^{-\frac{x^2}{2\sigma^2}} \text{ for } x > 0\]
이 분포는 0을 중심으로 대칭인 정규 분포에서 양의 값만을 고려할 때 사용됩니다.
조건부 확률 분포 특정 조건이 주어졌을 때의 확률 변수의 분포를 나타냅니다. 이는 베이즈 정리의 기초가 되는 개념입니다.

증명 과정

Step 1: 조건부 확률의 벡터 표현

먼저, 조건부 확률을 벡터의 내적으로 표현합니다.

\[Z_{1j} | \langle \mathbf{Z}_1 - \mathbf{Z}_2, \boldsymbol{\beta} \rangle + \epsilon > 0 \stackrel{d}{=} Z_{1j} | \langle [\mathbf{Z}_1 \; \mathbf{Z}_2 \; \epsilon/\sigma], [\boldsymbol{\beta} \; -\boldsymbol{\beta} \; \sigma] \rangle > 0\]

이 단계는 조건을 벡터 연산으로 변환하여 문제를 단순화합니다.

Step 2: 벡터 정규화

다음으로, 계산을 단순화하기 위해 벡터를 정규화하여 단위 벡터로 만듭니다.

\[\stackrel{d}{=} Z_{1j} | \langle [\mathbf{Z}_1 \; \mathbf{Z}_2 \; \epsilon/\sigma], [\boldsymbol{\beta} \; -\boldsymbol{\beta} \; \sigma] / \sqrt{2+\sigma^2} \rangle > 0\]

Step 3: 조건부 랜덤 벡터 분해

조건부 랜덤 벡터를 조건에 의존하는 부분과 독립적인 부분으로 분해합니다.

\[\mathbf{Z}_c | \langle \mathbf{Z}_c, \boldsymbol{\beta}_c \rangle > 0 \stackrel{d}{=} (\mathbf{I} - \boldsymbol{\beta}_c\boldsymbol{\beta}_c^\top)\mathbf{Z}'' + \boldsymbol{\beta}_c Z^+\]

상기 식에서 $\mathbf{Z}'' \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$이고, $Z^+ \sim \text{HalfNormal}(1)$입니다.

Step 4: 개별 인덱스에 대한 조건부 분포 계산

마지막으로, 개별 인덱스 $j$에 대한 조건부 분포를 계산합니다.

\[Z_{1j} | \langle \mathbf{Z}_1 - \mathbf{Z}_2, \boldsymbol{\beta} \rangle + \epsilon > 0 \stackrel{d}{=} Z' \sqrt{1-\frac{\beta_j^2}{2+\sigma^2}} + \frac{\beta_j}{\sqrt{2+\sigma^2}} Z^+\]

상기 식에서 $Z' \sim \mathcal{N}(0,1)$입니다.

이 Lemma의 결과는 추정기의 조건부 확률 분포를 이해하기 위해 사용되고, 이를 통해 특정 조건 하에서 확률 변수의 분포를 보다 더 정확히 알 수 있게 됩니다.

A.2 Lemma 2 (정규 분포의 CDF와 관련된 기댓값 계산)

목적

이 Lemma의 목적은 정규 분포의 누적 분포 함수(CDF)에 관한 기댓값을 계산하여 추정기의 성능을 평가하기 위함입니다.

기본 개념

누적 분포 함수 (CDF) 확률 변수가 특정 값 이하일 확률을 나타내는 함수로, 정규 분포의 CDF는 보통 $\Phi(x)$로 표기
기댓값 확률 분포의 평균을 의미하며, 연속 확률 변수의 경우 다음과 같이 정의됩니다.

$E[X] = \int_{-\infty}^{\infty} x f(x) dx$ ($f(x)$는 확률 밀도 함수)

증명 과정

Step 1: 기댓값 정의 먼저, 계산하고자 하는 기댓값을 정의합니다.

\[E[\Phi(aZ+c)]\]

$\Phi$는 표준 정규 분포의 CDF, $a$와 $c$는 상수, $Z \sim \mathcal{N}(0,1)$입니다.

Step 2: CDF의 정의 적용

CDF의 정의를 이용하여 기댓값을 확률로 표현합니다.

\[E[\Phi(aZ+c)] = E[P(X \leq aZ+c)]\] \[X \sim \mathcal{N}(0,1)\]

Step 3: 확률 계산

확률을 계산하기 위해 다음과 같이 변형합니다.

\[= E[P(X - aZ - c \leq 0)]\]

Step 4: 가우스 분포의 특성 이용

$X - aZ - c$는 독립적인 가우스 확률 변수들의 선형 조합이므로, 이 또한 가우스 분포를 따릅니다. 그 평균과 분산을 계산합니다.

평균: $E[X - aZ - c] = 0 - 0 - c = -c$
분산: $Var(X - aZ - c) = Var(X) + a^2Var(Z) = 1 + a^2$

따라서 $X - aZ - c \sim \mathcal{N}(-c, 1+a^2)$입니다.

Step 5: 최종 결과

이제 본 논문에서 구하고자 하는 확률은 이 가우스 분포의 CDF를 0에서 평가한 것과 같습니다.

\[E[\Phi(aZ+c)] = \Phi(\frac{c}{\sqrt{1+a^2}})\]

이 Lemma의 결과는 정규 분포의 CDF와 관련된 복잡한 기댓값 계산을 단순화합니다. 이는 추정기의 성능을 분석하는 데 필수적인 도구가 됩니다.

A.3 Lemma 3 (Lemma 3, 반정규 분포와 관련된 더 복잡한 기댓값을 해결)

목적

이 Lemma의 목적은 반정규 분포와 관련된 더 복잡한 기댓값을 계산하는 것으로 추정기의 최종 형태를 도출하는 데 필요한 핵심 단계입니다.

기본 개념

오차 함수 (erf): 정규 분포와 밀접하게 관련된 특수 함수로, 다음과 같이 정의됩니다. $\text{erf}(x) = \frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt$
적분 테이블 복잡한 적분을 해결하기 위한 참조 자료로, 여러 유형의 적분에 대한 해답을 제공합니다.

증명 과정

Step 1: 기댓값 정의 계산하고자 하는 기댓값을 정의합니다.

\[E[\Phi(Z^+ \frac{b}{\sqrt{a^2+1}})]\]

$\Phi$는 표준 정규 분포의 CDF, $Z^+ \sim \text{HalfNormal}(1)$, $a$와 $b$는 상수입니다.

Step 2: 적분으로 표현

기댓값을 적분 형태로 표현합니다.

\[E[\Phi(Z^+ \frac{b}{\sqrt{a^2+1}})] = \int_0^\infty \Phi(z\frac{b}{\sqrt{a^2+1}}) f_{Z^+}(z) dz\]

$f_{Z^+}(z)$는 반정규 분포의 PDF입니다.

Step 3: 적분 분해

적분을 두 부분으로 나눕니다.

\[= \frac{1}{2\pi} \left(\int_0^\infty e^{-z^2/2} dz + \int_0^\infty \text{erf}\left(z\frac{b}{\sqrt{2(a^2+1)}}\right) e^{-z^2/2} dz\right)\]

Step 4: 적분 테이블 사용

복잡한 부분은 Ng & Geller (1968)의 적분 테이블을 이용하여 해결합니다.

\[\int_0^\infty \text{erf}(cx) e^{-d^2x^2} dx = \frac{\sqrt{\pi}}{2d} - \frac{1}{d\sqrt{\pi}} \tan^{-1}\left(\frac{d}{c}\right)\]

Step 5: 경우 분석

세 가지 경우 ($b>0$, $b=0$, $b<0$)로 나누어 각각 계산합니다.

$b > 0$ 경우: 적분 테이블을 직접 적용
$b = 0$ 경우: $\text{erf}(0) = 0$이므로 간단히 계산
$b < 0$ 경우: $\text{erf}$의 odd-function의 성질을 이용하여 계산

Step 6: 최종 결과

최종적으로 모든 경우에 대해 동일한 결과를 얻습니다.

\[E[\Phi(Z^+ \frac{b}{\sqrt{a^2+1}})] = \frac{1}{2} + \frac{1}{\pi} \tan^{-1}\left(\frac{b}{\sqrt{a^2+1}}\right)\]

이 Lemma의 결과는 반정규 분포와 관련된 복잡한 기댓값을 간단한 형태로 표현합니다.

A.4 전체 증명

A.1부터 A.3까지의 세 가지 Lemma를 통해, 논문에서 제안한 추정기의 수학적 기반을 단계적으로 구축했습니다. 각 Lemma는 서로 연결되어 있으며, 최종적으로 추정기의 성질을 증명하는 데 사용됩니다.

Lemma 1은 조건부 확률 분포의 특성을 밝혔습니다.
Lemma 2는 정규 분포의 CDF와 관련된 기댓값을 계산했습니다.
Lemma 3은 반정규 분포와 관련된 더 복잡한 기댓값을 해결했습니다.

위와 같은 A.1부터 A.3까지의 정리를 통해 전체를 증명해봅시다.

\[\mathbb{E}[\text{sign}(y_1-y_2)(\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2))] = \frac{2}{\pi}\sin^{-1}\left(\frac{\boldsymbol{\theta}^*}{\sqrt{4+2\sigma_1^2+2\sigma_2^2}}\right)\]

상기 식에서 $y_1$, $y_2$, $\Phi(\mathbf{x}_1)$, $\Phi(\mathbf{x}_2)$, 그리고 $\boldsymbol{\theta}^*$는 본문에 정의된 대로이며, $\epsilon_1 \sim \mathcal{N}(0,\sigma_1^2)$와 $\epsilon_2 \sim \mathcal{N}(0,\sigma_2^2)$입니다.

전체 증명

대칭성 이용 대칭성을 이용하여 기댓값을 두 부분으로 나눕니다.
\[\begin{aligned} &\mathbb{E}[\text{sign}(y_1-y_2)(\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2))] \\ &= \frac{1}{2}\mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2) | \text{sign}(y_1-y_2) > 0] + \frac{1}{2}\mathbb{E}[-(\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2)) | \text{sign}(y_1-y_2) < 0] \end{aligned}\]
단조 증가성 이용 $f$의 단조 증가성을 이용하여 조건을 변환합니다.
\[= \frac{1}{2}\mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta > 0] + \frac{1}{2}\mathbb{E}[-(\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2)) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta < 0]\]
상기 식에서 $\epsilon_\Delta = \epsilon_1 - \epsilon_2 \sim \mathcal{N}(0, \sigma_1^2 + \sigma_2^2)$입니다.
대칭성 다시 이용 $\mathbf{x}_1 \stackrel{d}{=} \mathbf{x}_2$와 $\epsilon_\Delta \stackrel{d}{=} -\epsilon_\Delta$를 이용하여 두 기댓값이 같음을 보입니다.
\[= \mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta > 0]\]
기댓값의 선형성 이용 기댓값을 두 부분으로 나눕니다.
\[= \mathbb{E}[\Phi(\mathbf{x}_1) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta > 0] - \mathbb{E}[\Phi(\mathbf{x}_2) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta > 0]\]
Lemma 1 적용 단일 인덱스 $j$에 대해 Lemma 1을 적용합니다.
\[\Phi(x_{1j}) | \langle \mathbf{x}_1-\mathbf{x}_2, \boldsymbol{\theta}^* \rangle + \epsilon_\Delta > 0 \stackrel{d}{=} \Phi(Za + Z^+b_1)\]
상기 식에서 $a = \sqrt{1-\frac{(\theta_j^*)^2}{2+\sigma_1^2+\sigma_2^2}}$와 $b_1 = \frac{\theta_j^*}{\sqrt{2+\sigma_1^2+\sigma_2^2}}$입니다.
Lemma 2와 3 적용 Lemma 2와 3을 순차적으로 적용하여 기댓값을 계산합니다.
\[\begin{aligned} &= \mathbb{E}[\Phi(Za + Z^+b_1)] - \mathbb{E}[\Phi(Za + Z^+b_2)] \\ &= \mathbb{E}[\Phi(Z^+\frac{b_1}{\sqrt{a^2+1}})] - \mathbb{E}[\Phi(Z^+\frac{b_2}{\sqrt{a^2+1}})] \\ &= \frac{1}{2} + \frac{1}{\pi}\tan^{-1}(\frac{b_1}{\sqrt{a^2+1}}) - \frac{1}{2} - \frac{1}{\pi}\tan^{-1}(\frac{b_2}{\sqrt{a^2+1}}) \end{aligned}\]
삼각함수 성질 이용 $\tan^{-1}$의 odd-function의 성질과 $b_2 = -b_1$을 이용합니다.
\[= \frac{2}{\pi}\tan^{-1}(\frac{b_1}{\sqrt{a^2+1}})\]
최종 결과 $a$와 $b_1$을 $\theta_j^*$로 표현하고, $\sin^{-1}$ 항등식을 이용하여 최종 결과를 도출합니다.
\[= \frac{2}{\pi}\sin^{-1}\left(\frac{\theta_j^*}{\sqrt{4+2\sigma_1^2+2\sigma_2^2}}\right)\]

A.5 Corollary 5 (따름 정리 5)

목적

이 Corollary는 추정된 가중치 벡터 $\hat{\boldsymbol{\theta}}$를 사용할 때의 순위 보존 성질을 보여줍니다.

증명 과정

조건부 기댓값 계산
\[\mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2) | \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_1 \rangle + \epsilon_1 > \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_2 \rangle + \epsilon_2] = \mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2) | \langle \hat{\boldsymbol{\theta}}, \mathbf{x}_1-\mathbf{x}_2 \rangle + \epsilon_\Delta > 0]\]
이전 증명 결과 적용 각 인덱스 $j$에 대해, 이 기댓값은 다음과 같습니다.
\[\frac{2}{\pi}\sin^{-1}\left(\frac{\hat{\theta}_j}{\sqrt{4+2\sigma_1^2+2\sigma_2^2}}\right)\]
부호 분석 $\sin^{-1}$의 odd-function의 성질로 인해, 위 표현식은 $\hat{\theta}_j$와 같은 부호를 갖습니다.
결론 조건부 기댓값 $\mathbb{E}[\Phi(\mathbf{x}_1)-\Phi(\mathbf{x}_2)]$의 각 요소와 $\hat{\boldsymbol{\theta}}$의 대응하는 요소가 같은 부호를 가지므로, 다음이 성립합니다.
\[\langle \hat{\boldsymbol{\theta}}, \mathbb{E}[\Phi(\mathbf{x}_1)] \rangle > \langle \hat{\boldsymbol{\theta}}, \mathbb{E}[\Phi(\mathbf{x}_2)] \rangle\]

이 증명들은 제안된 추정 방법의 수학적 기반을 제공하며 특히, 추정된 가중치 벡터를 사용할 때도 순위 보존 성질이 유지됨을 보여줌으로써, 방법의 안정성과 신뢰성을 뒷받침합니다.

Appendix B

Appendix B는 최적 투영 가중치 해법에 대한 증명을 제공합니다. (1) 선형 투영과 (2) 이차 투영으로 나뉩니다.

B.1 선형 투영

목적

이 섹션의 목적은 선형 제약 조건 하에서 최적의 투영 가중치를 찾는 문제의 해법을 증명하는 것입니다.

문제 정의

다음과 같은 최적화 문제를 고려합니다.

\[\begin{aligned} \hat{\boldsymbol{\theta}}_{proj} &= \arg\min_{\boldsymbol{\theta} \in \mathbb{R}^D} -\langle \boldsymbol{\theta}, \hat{\boldsymbol{\theta}} \rangle \\ \text{subject to: } & \sum_{i=1}^D \theta_i = 1 \\ & 0 \leq \theta_i \leq \tau_i, \forall i \in [1,D] \end{aligned}\]

상기 식에서 $\tau_i > 0$는 고정된 값입니다.

해법

최적해는 다음과 같이 주어집니다.

증명

이 해법의 증명은 세 가지 경우로 나누어 진행됩니다.

1. 경우 1: $\hat{\theta}_k^{proj} = \tau_k$인 경우

가정: 최적해 $\hat{\boldsymbol{\theta}}_{proj}$에서 어떤 $k$에 대해 $\hat{\theta}_k^{proj} < \tau_k$라고 가정합니다.

접근 방법

$\boldsymbol{\theta}'$를 구성하여 $\hat{\boldsymbol{\theta}}_{proj}$와 비교합니다.
$\boldsymbol{\theta}'$는 $\hat{\boldsymbol{\theta}}_{proj}$와 같지만, $k$번째 요소를 $\tau_k$로 증가시키고 다른 요소들을 감소시킵니다.

\[\begin{aligned} \theta'_k &= \hat{\theta}_k^{proj} + \Delta = \tau_k \\ \theta'_p &= \hat{\theta}_p^{proj} - \delta_1 \geq 0 \\ &\vdots \\ \theta'_q &= \hat{\theta}_q^{proj} - \delta_n \geq 0 \end{aligned}\]

상기 식에서 $\Delta = \sum_{i=1}^n \delta_i > 0$입니다.

내적 비교

\[\begin{aligned} \langle \hat{\boldsymbol{\theta}}, \hat{\boldsymbol{\theta}}_{proj} \rangle - \langle \hat{\boldsymbol{\theta}}, \boldsymbol{\theta}' \rangle &= \hat{\theta}_k \hat{\theta}_k^{proj} + \hat{\theta}_p \hat{\theta}_p^{proj} + \cdots + \hat{\theta}_q \hat{\theta}_q^{proj} \\ &\quad - (\hat{\theta}_k \hat{\theta}_k^{proj} + \hat{\theta}_k \Delta + \hat{\theta}_p \hat{\theta}_p^{proj} + \cdots + \hat{\theta}_q \hat{\theta}_q^{proj} - \hat{\theta}_p \delta_1 - \cdots - \hat{\theta}_q \delta_n) \\ &= -\hat{\theta}_k \Delta + \hat{\theta}_p \delta_1 + \cdots + \hat{\theta}_q \delta_n \\ &\leq \hat{\theta}_p (\delta_1 + \cdots + \delta_n) - \hat{\theta}_k \Delta \\ &= \hat{\theta}_p \Delta - \hat{\theta}_k \Delta \\ &\leq 0 \end{aligned}\]

결론적으로

$\hat{\theta}_k < \hat{\theta}_p = \cdots = \hat{\theta}_q$이면, 위의 부등식은 엄격한 부등식이 되어 모순이 발생하고,
$\hat{\theta}_k = \hat{\theta}_p = \cdots = \hat{\theta}_q$인 경우, 동일한 $\hat{\theta}$ 값을 가진 요소들 사이에서 가중치를 재분배해도 내적이 변하지 않습니다.

2. 경우 3: $\hat{\theta}_k^{proj} = 0$인 경우

이 경우는 경우 1과 유사한 방식으로 증명됩니다. 가정을 반대로 하고 비슷한 논리를 적용합니다.

3. 경우 2: $0 < \hat{\theta}_k^{proj} < \tau_k$인 경우

경우 1과 3이 성립함을 보였으므로, 남은 가중치는 이 조건을 만족하는 단일 값에 할당되어야 합니다.

B.2 이차 투영

이 섹션에서는 이차 제약 조건 하에서의 투영 문제를 다룹니다. 두 개의 Lemma를 통해 최적해의 성질을 밝힙니다.

B.2.1 Lemma 4

목적

이 Lemma는 최적해에서 특정 요소가 0일 때, 다른 요소들의 성질을 밝힙니다.

문제 정의

\[\begin{aligned} \hat{\boldsymbol{\theta}}_{proj} &= \arg\min_{\boldsymbol{\theta} \in \mathbb{R}^D} \|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}\|_2^2 \\ \text{subject to: } & \sum_{i=1}^D \theta_i = 1 \\ & 0 \leq \theta_i \leq \tau_i, \forall i \in [1,D] \end{aligned}\]

정리

$\hat{\theta}_s^{proj} = 0$이면, $\hat{\theta}_s > \hat{\theta}_j$인 모든 $j$에 대해 $\hat{\theta}_j^{proj} = 0$입니다.

증명

1. 가정

$\hat{\theta}_s^{proj} = 0$이고 $\hat{\theta}_s > \hat{\theta}_j$이지만 $\hat{\theta}_j^{proj} > 0$이라고 가정합니다.

2. 새로운 벡터 $\boldsymbol{\theta}'$ 구성

\[\begin{aligned} \theta'_s &= \hat{\theta}_s^{proj} + \Delta \\ \theta'_j &= \hat{\theta}_j^{proj} - \Delta \end{aligned}\]

상기 식에서 $0 < \Delta < \min(\hat{\theta}_j^{proj}, \tau_s - \hat{\theta}_s^{proj})$입니다.

3. L2 노름 차이 계산

\[\begin{aligned} \|\hat{\boldsymbol{\theta}} - \hat{\boldsymbol{\theta}}_{proj}\|_2^2 - \|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}'\|_2^2 &= (\hat{\theta}_s - \hat{\theta}_s^{proj})^2 + (\hat{\theta}_j - \hat{\theta}_j^{proj})^2 \\ &\quad - (\hat{\theta}_s - (\hat{\theta}_s^{proj} + \Delta))^2 - (\hat{\theta}_j - (\hat{\theta}_j^{proj} - \Delta))^2 \\ &= 2\Delta((\hat{\theta}_s - \hat{\theta}_s^{proj}) - (\hat{\theta}_j - \hat{\theta}_j^{proj}) - \Delta) \\ &> 2\Delta((\hat{\theta}_s - \hat{\theta}_s^{proj}) - (\hat{\theta}_j - \hat{\theta}_j^{proj}) - \min(\hat{\theta}_j^{proj}, \tau_s - \hat{\theta}_s^{proj})) \\ &\geq 2\Delta((\hat{\theta}_s - \hat{\theta}_s^{proj}) - (\hat{\theta}_j - \hat{\theta}_j^{proj}) - \hat{\theta}_j^{proj}) \\ &= 2\Delta(\hat{\theta}_s - \hat{\theta}_j) \\ &> 0 \end{aligned}\]

결과론적으로 $\hat{\boldsymbol{\theta}}_{proj}$가 최적해라는 가정에 모순이 발생합니다.

B.2.2 Lemma 5

목적

이 Lemma는 최적해에서 특정 요소가 상한값에 도달했을 때, 다른 요소들의 성질을 밝힙니다.

정리

$\hat{\theta}_s^{proj} = \tau_s$이면, $\hat{\theta}_j - \tau_j > \hat{\theta}_s - \tau_s$인 모든 $j$에 대해 $\hat{\theta}_j^{proj} = \tau_j$입니다.

증명

Lemma 4와 유사한 방식으로 진행되며, 새로운 벡터 $\boldsymbol{\theta}'$를 구성하여 L2 노름 차이를 계산합니다.

이런 Lemma들은 최적해의 구조를 이해하는 데 도움을 주며, 실제 최적화 알고리즘을 설계할 때 유용한 지침을 제공합니다. 예를 들어, 이 결과를 바탕으로 효율적인 투영 알고리즘을 개발할 수 있으며, 특히 고차원 문제에서 계산 복잡도를 줄이는 데 활용할 수 있습니다.

B.2.3 Full Proof

Theorem 3

B.2.1과 B.2.1을 연결해 이차 투영 문제의 최적해를 찾는 방법을 살펴보겠습니다. 이 증명의 핵심은 라그랑지 승수법을 사용하여 최적성 조건을 도출하고, Lemma 4와 5를 활용하여 경계 조건을 처리하는 것입니다. 최종적으로, $\lambda$ 값을 조정하여 제약 조건을 만족시키는 과정을 통해 최적해를 찾습니다.

라그랑지 승수법을 통한 이차 투영 문제 해결

Theorem 3의 목적

이 정리는 제약 조건이 있는 이차 최소화 문제의 해를 명시적으로 제공합니다.

문제 정의

해법

최적해는 다음과 같이 주어집니다.

\[\hat{\theta}_k^{proj} = \min(\max(\hat{\theta}_k - \lambda, 0), \tau_k)\]

상기 식에서 $\lambda$는 다음 조건을 만족하도록 선택됩니다.

\[\sum_{i=1}^D \min(\max(\hat{\theta}_i - \lambda, 0), \tau_i) = 1\]

증명 과정

1. 라그랑지안 설정 문제의 라그랑지안을 다음과 같이 설정합니다.

\[\mathcal{L}(\boldsymbol{\theta}, \mu, \zeta, \lambda) = \frac{1}{2}|\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}|2^2 + \lambda(-1 + \sum{i=1}^N \theta_i) - \langle \mu, \boldsymbol{\theta} \rangle + \langle \zeta, \boldsymbol{\theta} - \tau \rangle\]

2. 최적성 조건 $\boldsymbol{\theta}$의 각 요소에 대해 도함수를 0으로 설정합니다.

\[\frac{d\mathcal{L}}{d\theta_i} = \theta_i - \hat{\theta}_i + \lambda - \mu_i + \zeta_i = 0\]

3. KKT 조건 적용 상보적 여유 조건(complementary slackness)에 의해, $0 < \theta_i < \tau_i$일 때 $\zeta_i = \mu_i = 0$이므로, $\theta_i$를 다음과 같이 정의합니다.

\[\theta_i = \hat{\theta}_i - \lambda\]

4. 경계 조건 처리

Lemma 4에 의해, $\hat{\theta}_k^{proj} \neq \tau_k$일 때, $\hat{\theta}_k^{proj} = \max(\hat{\theta}_k - \lambda, 0)$
Lemma 5에 의해, $\hat{\theta}_k^{proj} \neq 0$일 때, $\hat{\theta}_k^{proj} = \min(\hat{\theta}_k - \lambda, \tau_k)$

5. 최종 해 도출 두 조건을 결합하여 최종 해를 얻습니다.

\[\hat{\theta}_k^{proj} = \min(\max(\hat{\theta}_k - \lambda, 0), \tau_k)\]

6. $\lambda$ 값 결정 다음 제약 조건을 만족하는 $\lambda$를 찾아야 합니다.

\[\sum_{i=1}^D \min(\max(\hat{\theta}_i - \lambda, 0), \tau_i) = 1\]

이 합은 $\lambda$의 단조 감소 함수
$\lambda$의 범위는 적어도 하나의 $i$에 대해 $\hat{\theta}_i - \lambda > 0$이 되는 값부터 적어도 하나의 $i$에 대해 $\hat{\theta}_i - \lambda < \tau_i$가 되는 값까지
이 범위 내에서 유일한 $\lambda$ 값이 존재한다.
예외적으로 $\sum_{i=1}^D \tau_i = 1$인 경우, 모든 $i$에 대해 $\hat{\theta}_i^{proj} = \tau_i$가 됩니다.

이런 논증은 여러 논문에서 실제 응용에서 유용하게 사용되는데, 예를 들어, 머신러닝에서 특징 선택이나 희소 모델링 문제에 적용할 수 있습니다. 또한, 이 해법은 효율적인 수치 알고리즘으로 구현될 수 있어, 대규모 최적화 문제를 해결하는 데 주로 쓰입니다.

구현 참고사항

Appendix C: 손실 행렬 계산 세부사항

이 Appendix은 실험에서 사용된 손실 행렬(loss matrix)의 계산 방법을 설명합니다.

샘플링 방법
- 각 도메인당 최대 25개의 페이지만 샘플링하여 비트당 바이트에 사용
- 이는 계산 효율성을 위한 선택임
페이지 분할
- 각 페이지를 512 토큰 크기의 청크로 분할
- 참조 토크나이저로 Llama 2 7B 토크나이저 사용
BPB 계산
- 각 청크에 대해 BPB 계산
- 페이지 내 청크들의 평균 BPB 계산
- 도메인 내 페이지들의 평균 BPB 계산

Appendix D: 사전학습 실험 추가 세부사항

이 Appendix은 언어 모델 사전학습 및 평가, 그리고 데이터 선택 방법에 대한 상세한 정보를 제공합니다.

D.1 LLM 사전학습

하드웨어 설정
- 4 NVIDIA A100 GPU 사용
학습 시간
- 3.2B 토큰 기준 3시간 미만 소요
소프트웨어 도구
- Hugging Face Trainer 및 PyTorch 사용

하이퍼파라미터 표 2에 제시된 주요 하이퍼파라미터들은 다음과 같습니다.

파라미터	값
디바이스당 배치 크기	128
학습률	5 × 10^(-3)
Warmup 비율	0.1
Adam β1	0.9
Adam β2	0.95
Adam ε	1 × 10^(-8)
가중치 감소	0.1
학습률 스케줄러	cosine
최대 그래디언트 노름	1.0
BF 16	True
분산 백엔드	nccl
그래디언트 누적 단계	1

모델 초기화
- Pythia 160M 모델 구성 사용

D.2 LLM 평가

평가 도구
- Eleuther AI Eval Harness 사용
샘플 제한
- 벤치마크당 5000 예제로 제한
평가 시간
- 4 NVIDIA A100 GPU Baseline Model당 수 분 소요
평가 벤치마크
- SciQ, ARC Easy, PIQA, LAMBADA 및 LAMBADA 번역본들

D.3 DSIR

DSIR(Xie et al., 2023b)은 간단하지만 일부 튜닝이 필요한 데이터 선택 방법입니다.

벤치마크 데이터 포맷팅
- LAMBADA: 단일 텍스트 열 사용
- 다른 태스크: 질문, 컨텍스트, 다중 선택 답변을 공백으로 연결
토큰 수 조정
- 목표 페이지 수를 3,325,589로 설정
- 이는 LAMBADA_FR에 대해 약 3.2B 고유 토큰을 생성

실제 선택된 토큰 수 표 3에 제시된 각 벤치마크별 실제 선택된 고유 토큰 수는 다음과 같습니다.

벤치마크	토큰 수
ARC Easy	2,905,206,499
PIQA	2,910,486,295
SCIQ	2,920,734,042
LAMBADA	3,022,219,424
LAMBADA_DE	3,210,986,137
LAMBADA_ES	3,396,528,704
LAMBADA_FR	3,413,930,081
LAMBADA_IT	3,384,854,845

이 방법은 n-gram 중복을 기반으로 데이터를 선택하며, 벤치마크별로 약간의 차이가 있습니다.

D.4 fastText

Li et al. (2024)의 “SOTA” fastText 모델을 사용한 데이터 필터링 방법입니다.

모델 소스
- https://huggingface.co/mlfoundations/fasttext-oh-eli5
필터링 방법
- 페이지를 모델의 “고품질” 점수로 정렬
- 3.2B 고유 토큰에 도달할 때까지 상위 페이지 포함
적용
- 원본 논문의 데이터 선택 절차와 일치
- 페이지 수준에서의 선형 투영(Equation 10)과 본질적으로 동일

이 방법은 고품질 데이터를 효과적으로 선별하는 데 사용됩니다.

Appendix E, F, G는 추가적인 실험 결과와 분석을 제공합니다. 이들은 주요 방법의 견고성을 검증하고, 다양한 조건에서의 성능을 보여줍니다. 특히, Appendix E의 Figure 7은 다양한 상관관계 기반 데이터 선택 방법의 성능을 비교하며, Appendix F의 Figure 8은 더 큰 사전training dataset 풀에서의 방법 성능을 보여줍니다. Appendix G의 Figure 9는 사용된 모델들의 파라미터 수 분포를 보여주어, 제안된 방법이 다양한 규모의 모델에 적용 가능함을 시사합니다.

post contain ""

No matching posts found containing ""

Data | Improving Data Using PPL****

Data | Improving Data Using PPL****

Data | Improving Data Using PPL****

Improving Pretraining Data Using Perplexity Correlations

TL;DR

post contain ""

No matching posts found containing ""

Recent Posts

Most Likes

Most Views

단계	수정되는 변수	설명
2	\(\mathbf{r}_0, \mathbf{r}_1, \ldots, \mathbf{r}_N\)	각 도메인의 순위 계산
3	\(\boldsymbol{\gamma}\)	상관 계수 계산 및 업데이트
5	\(t_i\), \(counter\)	선택된 토큰 수 및 카운터 업데이트
6	\(classifier\)	fastText 분류기 학습

Share Your Feedback 🏝️

Data | Improving Data Using PPL****

Data | Improving Data Using PPL****

Improving Pretraining Data Using Perplexity Correlations

TL;DR

post contain ""

No matching posts found containing ""

Recent Posts

Most Likes

Most Views