NLP201

글

6월, 2022의 게시물 표시

Diffusion Model 개념 정리

- 6월 07, 2022

1. Diffusion Model 정의 diffusion model은 원본 샘플 $x_0 \sim q(x_0)$를 $T$ step 에 걸쳐서 Gaussian Noise를 준 $x_T$가 Gaussian 분포를 따른다고 가정하고, 해당 변환의 역과정을 학습해서 원본 샘플의 분포에서 샘플링할 수 있도록 하는 생성 모델의 일종이다. diffusion process를 수식으로 표현하면 다음과 같다. $$ q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1- \beta_t} x_{t-1}, \beta_t I) $$ 수식에는 Gaussian Noise를 각 스텝에서 얼마나 넣어주고, 기존 피쳐를 얼마나 희석할지를 정하는 파라미터 $ \beta_t \in (0,1) $가 있다. $ \beta_t $값이 커질수록 기존 피처가 줄어들고 노이즈는 많이 첨가된다. 일반적으로 스텝 초반에는 적은 beta값으로 시작해 학습 후반으로 갈수록 커져도 괜찮다고 한다. 즉, $ \beta_1 \lt \beta_2 \lt ... \lt \beta_T $ 이다. 이렇게 diffusion을 정의하면 장점이 있는데 주어진 샘플 $ x_0 $에 대해 임의의 스텝 $ t $의 분포에서 샘플링이 가능하다. 필요하다면 $ \mu $와 $ \Sigma $의 학습을 위해 reparametrization trick도 사용 가능하다. $$ x_t = \sqrt{1-\beta_t} x_{t-1} + \sqrt{\beta_t} z_{t-1} $$ $$ x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} z_{t-1} \textrm{ , where } \alpha_t := 1-\beta_t $$ $$ x_t = \sqrt{\alpha_t} (\sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_{t-1}} z_{t-2}) +\sqrt{1-\alpha_t} z_{...

자세한 내용 보기

이 블로그 검색

NLP201

글

From In-context learning to RLHF (Feat. ChatGPT)

Diffusion Model 개념 정리