[Paper Review] Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation (AAAI 2024)

Paper Review

[Paper Review] Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation (AAAI 2024)

Seung-won Seo 2025. 7. 12. 18:19

Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation
(AAAI 2024)

YoungJoon Yoo, Jongwon Choi

Abstract

핵심 아이디어: TVQ-VAE는 VQ-VAE(Vector-Quantized Variational Auto-Encoder)에서 얻은 latent codebook (latent codebooks = 이산적인 feature representation)을 활용하여 토픽 모델링을 수행합니다.
latent codebook 의 역할: VQ-VAE의 latent codebook 은 미리 학습된 임베딩 (PLM 의 임베딩)과 같은 정보들을 이산적인 (discrete) 형태로 압축하고 캡슐화하는 역할을 합니다.
새로운 해석: 이 논문은 이러한 잠재 코드북과 임베딩을 '개념적인 Bag-of-Words(conceptual bag-of-words)'로 새롭게 해석합니다. 기존 Bag-of-Words가 단어의 빈도로 문서를 표현했다면, TVQ-VAE에서는 latent codebook 이 특정 개념이나 의미를 대표하는 단위 역할을 합니다.
제안하는 TVQ-VAE 모델 (Topic-VQ-VAE)
- 개념적 Bag-of-Words 표현을 바탕으로, 특정 latent codebook (또는 토픽)과 관련된 원래 문서를 역으로 생성하는 생성 모델입니다.
- 유연한 생성 및 시각화: TVQ-VAE의 장점은 다양한 생성 분포를 통해 토픽을 시각화하고 문서를 생성할 수 있다는 점입니다. 전통적인 Bag-of-Words 분포 형태의 문서 생성은 물론, 자기회귀 모델을 이용한 이미지 생성까지 가능합니다.
- 성능 입증: 문서 분석 및 이미지 생성 태스크에 대한 실험 결과는 TVQ-VAE가 데이터셋의 숨겨진 구조를 잘 나타내는 토픽 컨텍스트를 효과적으로 파악하며, 유연한 형태의 문서 생성을 지원함을 보여줍니다.

cf. Latent Codebook 이란?

정의: 잠재 코드북은 학습 가능한(trainable) 벡터들의 유한한 집합입니다. 이 집합의 각 벡터를 코드 벡터(code vector) 또는 코드북 엔트리(codebook entry) 라고 부릅니다. VQ-VAE는 입력 데이터를 인코더를 통해 연속적인 잠재 공간 표현으로 변환한 후, 이 연속적인 표현과 코드북에 있는 벡터들 중 가장 가까운 벡터를 찾습니다.
작동 방식: VQ-VAE의 인코더가 입력 데이터를 연속적인 잠재 표현으로 변환하면, 벡터 양자화기(Vector Quantizer) 는 코드북내에서 x 에 가장 가까운 코드 벡터 f = Enc(x) 를 찾습니다. 그리고 이에 해당하는 원-핫 벡터를 생성합니다. 이 과정은 다음과 같이 표현될 수 있습니다.
역할: 잠재 코드북을 사용함으로써 VQ-VAE는 연속적인 잠재 공간을 이산적인 코드 시퀀스로 표현할 수 있습니다. 이는 이미지나 텍스트와 같은 복잡한 데이터를 예측하기 쉬운 이산적인 토큰의 시퀀스로 변환하여 자기회귀 모델 등으로 효율적으로 모델링할 수 있게 해줍니다.

Introduction

대규모 데이터셋 활용의 필요성: 최근에는 GloVe, BERT, CLIP와 같은 사전 학습된 임베딩(pre-trained embeddings)이 등장했습니다. 이러한 임베딩은 대규모 데이터셋의 풍부한 정보를 담고 있지만, 기존 토픽 모델링 방식에 이 정보를 효과적으로 통합하는 것이 주요 과제입니다.
기존 방식의 한계: 전통적인 토픽 모델링 (Latent Dirichlet Allocation 등)은 문서 내 단어들의 공동 출현 빈도를 기반으로 하는 BoW(Bag-of-Words) 방식을 주로 사용했습니다. 이는 특정 단어의 의미나 문맥적 정보를 충분히 반영하지 못하는 한계가 있습니다.
임베딩 활용 연구: 이러한 한계를 극복하기 위해 많은 후속 연구들이 사전 학습된 임베딩을 토픽 모델링에 활용하는 방법을 탐구했습니다.
- Generative approach: ETM 와 같이 생성적(generative) 모델링 프레임워크 내에서 임베딩을 사용했습니다.
- Clustering approach: 다른 일부는 BERTopic처럼 비생성적(non-generative) 방식으로 임베딩을 활용하여 토픽을 추출했습니다.
Generative model 의 발전: 최근 자동 회귀(autoregressive) 모델이나 Diffusion 모델과 같은 심층 생성 모델(deep generative studies)의 발전으로 인해, 토픽 기반 문서 생성 방식도 BoW 형태를 넘어 더욱 유연하고 다양한 형태로 발전해야 할 필요성이 커지고 있습니다.
문제 인식: 기존 토픽 모델링 방법은 BoW(Bag-of-Words) 형태의 문서 생성에 국한되어 있으며, 대규모 사전 학습 임베딩 정보를 효과적으로 활용하는 데 어려움이 있었습니다. 또한, 최근의 발전된 생성 모델(예: 오토회귀, 확산 모델)에 맞춰 토픽 기반 생성이 보다 유연해질 필요가 있었습니다.
새로운 접근 방식
- 저자들은 이러한 문제를 해결하기 위해 VQ-VAE(Vector-Quantized Variational Auto-Encoder)에서 얻은 VQ 임베딩(Vector-Quantized embeddings)을 활용하는 TVQ-VAE를 제안합니다.
- VQ 임베딩의 새로운 해석: 기존의 VQ 임베딩을 토픽으로 간주했던 이전 연구(Vector-Quantization-based topic modeling, Neural Topic Modeling via Discrete Variational Inference)와 달리, TVQ-VAE에서는 각 VQ 임베딩을 개념적으로 정의된 단어('conceptual words')의 임베딩으로 해석합니다.
Latent Codebook: 이러한 관점에서, VQ 임베딩들로 구성된 코드북(codebook)은 해당 개념 단어들의 BoW 표현 역할을 합니다. 즉, 코드북 자체가 문서의 토픽 정보를 나타내는 유연한 기반이 됩니다.
내재적 토픽 학습: 코드북은 그 자체로 내재적인(implicit) 토픽 학습자 역할을 하며, 이를 조정함으로써 정확한 토픽 문맥을 포착할 수 있음을 보여줍니다.
향상된 유연성: 이러한 새로운 해석 덕분에 TVQ-VAE는 기존 BoW 형태를 넘어 다양한 형식의 샘플 생성(flexible format of sample generation)을 지원하는 유연성을 확보하게 됩니다.
TVQ-VAE: TVQ-VAE는 VQ-VAE [1] 를 기반으로 하며, 특히 이미지-텍스트 생성 모델 [2] 에서 중요하게 사용되는 VQ 임베딩의 잠재력을 토픽 모델링에 접목했다는 점에서 기존 연구와 차별화됩니다. 이전 VQ 기반 토픽 모델들이 VQ 임베딩을 '토픽 그 자체'로 보았던 한계를 극복하고, 'conceptual words'로 해석하여 토픽 모델링 및 생성의 유연성을 높였다는 점이 이 논문의 핵심 기여 중 하나입니다.
TVQ-VAE 의 강점
- 유연한 문서 생성(Flexible Document Generation): TVQ-VAE는 기존의 일반적인 VAE 처럼 BoW 스타일 문서 생성뿐만 아니라, 더 일반적인 형태의 문서 생성도 동시에 지원합니다. 이는 모델이 추출된 토픽 정보를 바탕으로 다양한 종류의 데이터를 생성할 수 있음을 의미합니다.
- 두 가지 주요 적용 분야
  1. 문서 클러스터링 및 단어 집합(Set-of-words) 스타일 토픽 추출: 토픽 모델링 분야의 기본적인 문제로, Sentence-BERT 와 같은 PLM 임베딩에서 파생된 코드북을 활용합니다.
  2. 자기회귀 이미지 생성(Autoregressive Image Generation): VQ-VAE 프레임워크와 잠재 코드북 시퀀스 생성을 결합하여 이미지를 생성합니다. 이는 토픽 정보를 활용하여 이미지의 특성을 제어하며 생성할 수 있음을 보여줍니다.

Main Contributions

VQ-VAE: A novel generative topic modeling framework
- 이 논문은 VQ-VAE(Vector-Quantized Variational Auto-Encoder)의 잠재 코드북(latent codebooks)을 활용하는 TVQ-VAE라는 새로운 생성 토픽 모델링 프레임워크를 제안합니다.
- VQ-VAE는 연속적인 임베딩 공간을 이산적인 코드북으로 양자화하는 모델입니다. TVQ-VAE는 이 코드북과 임베딩을 "개념적 단어(conceptual word)"로 새롭게 해석합니다. 'conceptual words' 에서 토픽 정보를 추출하며, 이를 통해 유연한 샘플링(sampling)을 가능하게 합니다. 이는 기존 토픽 모델이 단어를 BoW(Bag-of-Words) 형태로 다루는 것과 대비되는 접근 방식입니다.
토픽 기반 샘플링을 위한 일반적인 확률론적 방법론 제공
- TVQ-VAE는 토픽에 따라 데이터를 생성하는 "토픽 기반 샘플링"을 위한 일반적인 확률론적 방법론을 제공합니다.
- 이 모델은 전통적인 BoW 스타일의 단어 분포 샘플부터 이미지와 같은 다양한 형태의 데이터를 생성하는 자기회귀(autoregressive) 샘플러까지 유연하게 적용 가능함을 보여줍니다. 이는 토픽 모델링의 응용 범위를 확장합니다.
두 가지 데이터 도메인에서의 광범위한 분석 및 모델 강점 입증
- TVQ-VAE의 강점을 입증하기 위해 두 가지 다른 데이터 도메인에서 광범위한 실험을 수행했습니다.
- 기존 토픽 모델의 고전적인 문제인 문서 클러스터링과 단어 집합(set-of-words) 스타일 토픽 추출
- 토픽 추출과 결합된 자기회귀 이미지 생성
- 두 도메인에서의 실험 결과: TVQ-VAE가 데이터의 기저 구조를 효과적으로 포착하고 유연한 형태의 문서 생성을 지원함을 보여줍니다.

Preliminary

Key Components of Topic Model

토픽 모델의 두 가지 핵심 목표
- 문서 전체에 대한 의미론적 토픽 마이닝
- 발견된 주제에 기반한 문서 클러스터링 (document clustering)
토픽 할당 과정
- 토픽 모델은 기본적으로 각 문서를 K개의 토픽 중 하나에 할당합니다. 이는 토픽이 주어졌을 때 문서들을 그룹화하는 클러스터링 과정입니다.
- 이 할당은 결정론적일 수도 있고, 각 문서의 토픽 분포를 정의함으로써 생성적으로 이루어질 수도 있습니다.

고전적 확률론적 생성 토픽 모델
- LDA (Latent Dirichlet Allocation), ProdLDA 등은 각 문서 d를 BoW 로 해석하고, 위 공식들 (1)과 (2)를 통해 결합 분포를 근사 베이지안 추론(Approximate Bayesian Inference) 방법을 사용하여 분석합니다.
- 이러한 확률론적 프레임워크는 각 문서 내에서 단어들이 함께 나타나는 경향(co-occurrence tendency)을 반영합니다.
임베딩이 적용된 토픽 모델
- 단어 임베딩(e.g., Word2Vec, PLM)을 토픽 모델링에 적용하려는 시도도 이루어졌습니다.
- 일부 임베딩 기반 토픽 모델(e.g., ETM)은 단어 생성 능력을 유지하며 확률론적 프레임워크에 단어 임베딩을 포함합니다.
- 비생성적인 임베딩 토픽 모델(e.g., 최근 PLM 기반 모델)은 복잡한 베이지안 추론 근사를 우회하고 거리 기반 클러스터링 방법을 통해 토픽 임베딩을 직접 추출하며, 후처리 단계를 활용하기도 합니다.

Vector Quantized Embedding

일반적인 VAE 와의 차이점
- 기존 오토인코더는 입력을 연속적인 잠재 공간(continuous latent embedding space)의 임베딩으로 매핑합니다.
- 반면, VQ-VAE는 잠재 공간을 이산적(discrete) (Neural discrete representation learning) 으로 구성합니다.
VQ 임베딩 (ϱ)
- VQ-VAE는 '코드북(codebook)'이라고 불리는 사전에 정의된 이산적인 임베딩 벡터 집합 ϱ를 사용합니다. 각 벡터 ρn은 Dρ 차원을 가집니다.
- 이산 잠재 공간의 크기는 원래 단어의 총 개수보다 훨씬 작습니다. Dρ는 각 잠재 임베딩 벡터의 차원입니다.
벡터 양자화기 (Q, Vector Quantizer): VQ-VAE의 인코더(Enc)는 입력(x)을 연속적인 잠재 변수 f로 변환합니다. 벡터 양자화기 Q는 이 연속적인 f를 가장 가까운 VQ 임베딩 ρx로 대체합니다. 이 ρx는 코드북 ϱ에 있는 임베딩들 중 f와 가장 가까운 벡터입니다.
Codebook: 양자화 과정에서 선택된 VQ 임베딩 ρx는 대응하는 원-핫(one-hot) 인코딩된 코드북으로 표현됩니다. 코드북은 Nρ 크기의 벡터로, 선택된 임베딩의 인덱스 위치만 1이고 나머지는 0입니다.
이미지 적용 (수식 4): 이미지(x)가 VQ-VAE의 입력으로 주어지면, 인코더는 이미지의 공간적 특징을 나타내는 특징 맵 f를 출력합니다. 벡터 양자화기는 이 특징 맵의 각 공간적 위치(i, j)에 해당하는 특징 fij를 처리하여, 가장 가까운 VQ 임베딩 ρij와 이에 대응하는 코드북 cij를 찾습니다. 결과적으로 이미지 전체에 대한 양자화된 벡터 시퀀스 ρ와 코드북 시퀀스 c를 얻게 됩니다.

디코더의 역할: VQ-VAE의 디코더(Dec)는 이 양자화된 코드북 시퀀스 c와 임베딩 ρ를 사용하여 원래 이미지(x)를 재구성(reconstruct)합니다.

Methodology

Vector Quantized Embedding as Conceptual Word

"Conceptual word" 의 정의

B: 이산 잠재 공간의 크기, 즉 VQ 임베딩 또는 코드북 엔트리의 총 개수입니다.
이 정의에 따르면, 각 개념어 b_i 는 특정 VQ 임베딩 i 와 그에 대응하는 코드북 c_i 의 쌍으로 구성됩니다. 개념어의 수는 VQ 임베딩의 총 개수 i 와 동일합니다.

멀티-핫(Multi-hot) 표현으로의 확장 (Equation 6 & 7)
- 일반적으로 VQ 임베딩의 개수는 원래 어휘집의 크기 i 에 비해 훨씬 작습니다. 이는 모든 단어를 단일 VQ 임베딩으로 표현하기 어렵게 만듭니다. 이를 해결하고 코드북이 더 큰 어휘집을 다룰 수 있도록 하기 위해, 논문에서는 코드북 표현을 원-핫에서 멀티-핫 벡터로 확장합니다.
- 주어진 단어와 VQ-VAE 인코더를 통과한 그 임베딩 b_i 에 대해, 가장 가까운 K개 (K-nearest neighbor) 의 VQ 임베딩를 사용하여 N 의 양자화된 임베딩 N 를 표현합니다. 이는 다음과 식 (6) 과 같이 계산됩니다.
Conceptual Word 로의 해석: TVQ-VAE는 VQ 임베딩과 코드북을 '개념어'로 재해석하고, 이를 멀티-핫 표현으로 확장하여 원래 어휘집의 단어를 유연하게 표현합니다. 이 개념어 집합 N_w 가 이후 TVQ-VAE의 토픽 모델링 과정에 사용됩니다.

Generative Formulation for TVQ-VAE

다양한 출력 형태 (vd)
- Set-of-word 스타일 (그림 1a)
  1. 가장 일반적인 텍스트 기반 출력 형태입니다.
  2. vd는 문서 d에 해당하는 단어 집합으로 정의됩니다.
  3. 각 단어 vdn은 원래 단어의 원-핫 인코딩을 나타내며, 이는 벡터 양자화(Vector-Quantized, VQ) 임베딩의 코드북에 해당합니다.
- 이미지 형태 (그림 1b, General form)
  1. vd는 문서 d에 해당하는 이미지로 정의될 수 있습니다.
  2. 이는 TVQ-VAE가 텍스트뿐만 아니라 이미지를 포함하는 다양한 형태의 문서를 생성할 수 있음을 보여줍니다.
Random variable 들의 결합 분포 (Equation 8):
- 모델의 모든 랜덤 변수의 관계를 확률적으로 설명합니다. 결합 분포는 식 (8) 과 같이 공식화됩니다.
- 식 (8) 은 LDA 또는ETM 와 같은 기존 생성 토픽 모델의 일반적인 정식화와 유사합니다. TVQ-VAE의 특징은 BoW 형태를 넘어선 다양한 출력을 지원한다는 점입니다. 이는 보다 자연스러운 문서생성을 뜻합니다.

Set-of-word 생성을 위한 확률 분포 (Equation 9)
- 문서 d의 각 출력 단어 v_dn이 해당 단어의 토픽 할당 z_dn에 따라 생성될 확률을 나타냅니다.
- 식 (9) 은 각 단어가 문서의 토픽 분포 theta_d 에 의해 가중된 각 토픽 beta 으로부터 생성될 확률을 고려하여 생성됨을 의미합니다.

일반적인 경우의 Generative process
- 전통적인 BoW 형태 문서 생성을 넘어서, 이미지와 같이 순서나 구조가 중요한 데이터의 생성 방식을 다룹니다 (Figure 1b 참고).
- VQ-VAE 코드북 시퀀스: 결과물 vd는 VQ-VAE를 통해 얻어진 코드북들의 시퀀스와 VQ-VAE 디코더를 사용하여 생성된다고 가정합니다.
- Autoregressive Prior(AR prior) 사용: 코드북 시퀀스를 생성하기 위해 AR prior 을 사용합니다.

NLL 기반 수렴: VQ-VAE 디코딩과 결합된 자동 회귀 사전은 Negative Log-Likelihood(NLL)를 최소화하는 방향으로 학습되어 일반적인 데이터 분포에 수렴하도록 합니다. 이는 생성된 데이터가 실제 데이터와 유사해지도록 만듭니다.
Generative 알고리즘: 이러한 일반적인 생성 과정은 위의 Algorithm 1에 자세히 설명되어 있습니다.

Training TVQ-VAE

ELBO (eq.(11))
- First term: KL-divergence
  1. Variational distribution (theta)와 Prior distribution (c) 사이의 KL divergence를 나타냅니다.
  2. KL divergence는 두 확률 분포의 차이를 측정하며 항상 0보다 크거나 같습니다. 이는 모델의 사후 분포가 사전 분포에서 크게 벗어나지 않도록 하는 정규화(regularization) 역할을 합니다.
- Second term: Reconstruction error
  1. Variational distribution 에서 데이터 p(theta) 와 q(theta|gamma))의 Log-likelihood 에 대한 기댓값입니다.
  2. 이 항은 모델이 주어진 잠재 변수가 실제 데이터를 얼마나 잘 설명하는지를 나타냅니다. 이 항을 최대화하는 것은 모델이 데이터를 잘 재구성하도록 학습시키는 효과가 있습니다.

Overall loss function (eq.(13))
- ELBO를 최대화하는 것은 그값의 음수를 최소화하는 것으로 등가이며, 이 식은 각 항에 대응하는 손실을 더한 형태입니다.
- First term: KL divergence 항에 해당하는 손실입니다. 식 (11)의 첫 번째 항에 대응하며, theta 가 됩니다. 이 값을 최소화하여 변분 분포와 사전 분포의 차이를 줄입니다.
- Second term: 코드북 c 의 재구성 손실입니다. 식 (12)에서 first term 에 해당하는 부분의 손실입니다.
- Third term: 출력 샘플 v 의 재구성 손실입니다. 식 (12)에서 second term 에 해당하는 부분의 손실입니다.

Training Implementation

TVQ-VAE Training
- TVQ-VAE 모델의 전체 손실함수는 세 가지 구성 요소의 합 (KL-divergence (regularization), 코드북 재구성 loss, 출력샘플의 재구성 loss) 으로 정의됩니다.
- 코드북 재구성 loss: 이는 입력 데이터로부터 추출된 코드북 정보를 잘 보존하도록 학습하는 역할을 합니다. 이 항 또한 고전적인 토픽 모델의 ELBO 와 유사하며, ProdLDA 설정을 따릅니다.
- 출력샘플의 재구성 loss: 이 항은 TVQ-VAE의 핵심적인 특징 중 하나로, 문서 분석 시의 단어 집합(set-of-word) 스타일 출력 또는 이미지 생성 시의 자기회귀(autoregressive) 방식 출력 등 다양한 형태의 출력을 지원합니다.
- 단어 집합 스타일 출력의 경우, 손실은 Equation (9)에서 정의된 생성 분포를 사용하여 계산되며, 이는 c 와 유사한 형태입니다.
  자기회귀 생성의 경우, 손실은 Equation (10)에서 정의된 분포를 따르며, PixelCNN 또는 Transformer와 같은 autoregressive 모델의 Negative Log-Likelihood (NLL) 최소화와 동일합니다.

Related Works

Topic models with Embedding.

PCAE [3]: 이 연구 FET-LM 또한 VAE(Variational Autoencoder)를 사용하여 결과물의 유연한 생성을 제안했습니다. 이는 본 논문에서 VQ 임베딩을 활용하는 아이디어와 유사한 맥락을 가집니다.
워드 임베딩(Word Embeddings) 활용: GloVe 와 같은 워드 임베딩을 활용한 토픽 모델링 연구들이 있었습니다. 이러한 연구들은 생성(generative) 방식과 비생성(non-generative) 방식 모두에서 토픽 모델링 성능 향상을 보여주었습니다.
사전 학습 언어 모델(PLMs) 활용: BERT 와 같은 PLM을 활용하는 것이 토픽 마이닝의 새로운 트렌드가 되었습니다. 많은 연구들이 K-means 클러스터와 토픽 임베딩 간의 관계를 활용하여 모델 성능을 개선했습니다. 보통 clustering approach 는 주제를 추출하기 위해 TF-IDF 와 같은 기법을 이용한 후처리 방법을 이용합니다.
TVQ-VAE의 차별점: 본 논문의 TVQ-VAE는 이러한 기존 연구들과 달리, VQ-VAE를 통해 이산화된(discretized) PLM 정보를 후처리 과정 없이 생성적인 방식 (generative approach) 으로 처리하는 가능성을 보여줍니다.

Vector Quantized Latent Embedding.

VQ-VAE의 이산화 기법
- VQ-VAE는 기존의 VAE(Variational Auto-Encoder)가 입력을 연속적인(continuous) 잠재 공간(latent space)에 매핑하는 것과 달리, 잠재 공간을 이산적인(discrete) 공간으로 구성합니다.
- 이는 "코드북(codebook)"이라는 미리 정의된 유한한 개수의 벡터 집합을 사용함으로써 가능합니다. 입력 이미지를 인코더를 통해 얻은 잠재 벡터를 코드북 내에서 가장 가까운 벡터(VQ 임베딩)로 "양자화(quantization)"하는 방식입니다.
- 이 기법은 [1] 논문에서 제안되었습니다.
Generative model, 특히 image 생성에 미치는 영향
- 연속적인 고차원 데이터를 직접 모델링하는 것은 어렵습니다. VQ-VAE의 이산화는 이미지를 코드북에 있는 이산적인 "코드(code)" 또는 "토큰(token)"의 시퀀스로 표현할 수 있게 합니다.
- 이렇게 이산화된 표현은 마치 텍스트처럼 다룰 수 있게 되며, autoregressive 모델을 사용하여 시퀀스를 생성하고, 이를 다시 디코더를 통해 이미지로 복원하는 방식의 고품질 생성 모델 개발에 중요한 역할을 했습니다 [4].
- 이는 시각 데이터의 복잡성을 효과적으로 다루면서도 디테일한 생성을 가능하게 했습니다.
본 논문 (TVQ-VAE 프레임워크) 의 기여
- TVQ-VAE는 이러한 VQ-VAE의 이산화 기법을 토픽 모델링에 접목합니다.
- 특히, 시각 정보를 담고 있는 VQ 임베딩 자체에서 토픽의 맥락(topic context)을 추출해낼 수 있음을 보여줍니다.
- 더 나아가, 추출된 토픽 정보를 바탕으로 이미지를 비롯한 다양한 형태의 샘플을 동시에 생성할 수 있음을 실험적으로 입증합니다. 이는 기존의 토픽 모델링이 주로 텍스트 데이터에 집중하고 BoW(Bag-of-Words) 형태의 결과물에 제한되었던 것에서 확장된 부분입니다.

Empirical Analysis

Document Analysis

Topic Quality Evaluation.

20NG 데이터셋에서의 성능
- TVQ-VAE는 다른 기준 모델들과 비교했을 때 유사하거나 더 우수한 TQ 성능을 보였습니다.
- 20NG 데이터셋은 어휘 크기(vocabulary size)가 1.6K로 상대적으로 작습니다.
- TVQ-VAE는 제한된 규모의 문서에서도 효과적으로 토픽 정보를 추출할 수 있음을 보여줍니다.
- 이 데이터셋에서는 ProdLDA와 같은 BoW(Bag-of-Words) 기반 모델들도 좋은 성능을 보였습니다.
NYT 데이터셋에서의 성능
- NYT 데이터셋은 20NG보다 어휘 크기가 훨씬 크며, TVQ-VAE는 원본 어휘 크기의 1% 미만인 300개의 가상 코드북만 사용했음에도 불구하고 경쟁력 있는 토픽 품질을 달성했습니다.
- 기준 모델 중 BerTopic은 특히 NPMI 측면에서 뛰어난 성능을 보이며 눈에 띄었습니다. 이는 BerTopic이 대규모 어휘에 대해 확장성이 우수하다는 주장을 뒷받침합니다.

Ablation Study 결과 (Figure 3)
- 코드북 수(100, 200, 300)와 확장 값 k(1, 3, 5)를 변화시키며 성능을 분석했습니다.
- 20NG 데이터셋에서는 코드북 수나 확장 값의 변화에 따른 성능 차이가 미미했습니다. 이는 작은 어휘 크기 때문에 임베딩 및 확장 수의 선택이 성능 향상을 반드시 보장하지 않으며, 특정 임계값을 넘어서면 추가 정보 캡처가 제한될 수 있음을 시사합니다.
- NYT 데이터셋에서는 어휘 크기가 훨씬 크기 때문에 더 많은 코드북 수와 확장 값에서 성능이 향상되는 결과를 보였습니다. 이는 데이터셋의 규모에 따라 모델 구성 요소의 영향이 달라짐을 보여줍니다.

Document Representation Evaluation.

Km-NMI, Km-Purity: 이 두 지표는 문서 표현의 품질을 측정합니다. 논문에서 제안하는 토픽 모델이 각 문서를 얼마나 잘 표현하는지를 평가하기 위해, 모델이 추출한 문서별 토픽 분포 (theta) 를 K-means 클러스터링으로 묶은 후, 이 클러스터가 실제 문서의 레이블(클래스)과 얼마나 잘 일치하는지를 측정합니다.
20NG 데이터셋 결과
- 어휘 집합 크기가 비교적 작은 20NG 데이터셋에서는 기존의 BoW 기반 모델(LDA, ProdLDA)과 임베딩 기반 모델인 ETM, 그리고 Word2Vec 임베딩을 사용한 TVQ-VAE(W)가 더 높은 NMI 점수를 보였습니다.
- 이는 작은 어휘 집합에서는 전통적인 BoW 방식이나 Word2Vec과 같은 단어 임베딩이 효과적인 문서 표현을 학습할 수 있음을 시사합니다. 특히 Word2Vec 기반 TVQ-VAE는 PLM 기반 TVQ-VAE보다 우수한 성능을 보였습니다.
NYT 데이터셋 결과
- 어휘 집합 크기가 훨씬 큰 NYT 데이터셋에서는 PLM(Pre-trained Language Model) 기반 모델들인 BerTopic, TopClus, 그리고 TVQ-VAE가 더 높은 성능을 기록했습니다.
- 이는 대규모 어휘 집합 환경에서 PLM이 제공하는 풍부한 사전 학습 정보가 문서 표현 학습에 더 유리함을 보여줍니다. 본 논문의 TVQ-VAE 모델은 어휘 집합 크기가 커질수록 문서 표현 능력이 강건해짐을 확인했습니다.
- PLM versus Word2Vec: TVQ-VAE 모델에 Word2Vec과 PLM 임베딩을 각각 적용했을 때의 결과는 데이터셋의 크기와 어휘 집합 규모에 따라 달라졌습니다. 20NG처럼 작은 데이터셋에서는 Word2Vec 기반 TVQ-VAE가 더 잘 작동했지만, NYT처럼 큰 데이터셋에서는 PLM 기반 TVQ-VAE가 더 좋은 성능을 보였습니다.
- 저자들은 이러한 결과가 20NG 데이터셋의 상대적으로 적은 단어 수와 어휘 집합 크기 때문일 수 있다고 설명합니다. PLM은 광범위한 어휘 범위를 커버하지만, 작은 데이터셋에서는 이러한 폭넓은 커버리지가 깊이 있는 정보 추출로 이어지지 않을 수 있습니다.
단어집합 크기에 따른 토픽모델들의 성능분석
- PLM 기반 모델 -> 큰 규모의 데이터셋에서 유리, W2V 기반 모델 -> 작은 규모의 데이터셋에서 유리
- PLM이 넓은 어휘 범위(breadth)를 가지고 있지만, 제약된 데이터셋에서는 깊이(depth)가 부족할 수 있습니다. 즉, 작은 데이터셋에서는 모델의 넓은 어휘 범위가 문서 클러스터를 구성할 때 높은 순도(purity)는 유지하지만, 다루는 토픽이나 단어의 범위(breadth)가 제한될 수 있습니다.
- 결과적으로 이는 Km-NMI(K-means Normalized Mutual Information) 점수를 낮추게 됩니다. TopClus 모델 (PLM 기반 모델)의 결과 또한 이러한 데이터셋 크기가 모델 성능에 미치는 영향을 뒷받침합니다.

Image Generation

Quantitative Evaluation.

본 연구에서 저자들의 가설: 토픽모델로부터 theta와 beta를 추출하는 과정이 데이터셋의 숨겨진 구조를 포착하는 데 도움을 주어, 샘플 생성 과정을 용이하게 하고 결과적으로 더 낮은 NLL 값을 얻을 수 있다는 가설을 제시합니다. 이는 생성 모듈의 본래 역할과 유사합니다.
CelebA 데이터셋: 이 데이터셋은 전처리(center-cropping 등)를 통해 얼굴 영역이 정렬되어 있어 상대적으로 복잡성이 낮습니다. CelebA에서는 토픽 정보를 사용하지 않은 비지도(Unsupervised, U) 베이스라인 모델(NLL 3.10)이 토픽 개수를 변화시킨 TVQ-VAE 모델(NLL 3.13 ~ 3.15)보다 더 낮은 NLL을 보였습니다. 즉, 이 데이터셋에서는 토픽 변수 추출이 NLL 개선에 큰 영향을 미치지 않았습니다.
CIFAR-10 데이터셋: 이 데이터셋은 정렬되지 않은 10가지 객체 이미지로 구성되어 있어 CelebA보다 복잡성이 높습니다. CIFAR-10에서는 비지도(U) 베이스라인(NLL 3.29) 및 클래스 레이블을 사용한 지도(Supervised, S) 베이스라인(NLL 3.29)보다 TVQ-VAE 모델이 더 나은 성능을 보였습니다. 특히, 토픽 개수가 증가할수록 NLL 값이 선형적으로 감소하는 경향(10개 토픽: 3.27, 20개: 3.25, 50개: 3.22, 100개: 3.20)을 보였으며, 토픽 개수가 50개 또는 100개일 때 베이스라인보다 낮은 NLL을 달성했습니다.
데이터셋 복잡성과 결과 분석: 연구진은 이러한 상반된 결과가 두 데이터셋의 복잡성 차이에서 비롯된다고 분석합니다. CIFAR-10처럼 복잡한 데이터셋에서는 토픽 변수 추출이 데이터의 구조를 효과적으로 포착하여 생성 능력을 향상시키는 데 기여하지만, CelebA처럼 이미 구조가 단순화된 데이터셋에서는 그 효과가 두드러지지 않을 수 있습니다.

Qualitative Evaluation.

토픽 시각화 (Topic Visualization)
- 방법: Figure 4a (CelebA)와 4b (CIFAR-10)에 제시된 8x8 격자 이미지는 각 토픽에 해당하는 생성된 이미지 샘플을 보여줍니다.
- 과정: 토픽 시각화는 theta 값을 특정 토픽 인덱스에 해당하는 원-핫 벡터(one-hot vector)로 고정하여 수행됩니다. 그런 다음, PixelCNN 사전(prior) 를 사용하여 해당 토픽 벡터에 맞춰 코드북 시퀀스를 자동 회귀 방식(auto-regressive scheme)으로 생성합니다.
- 실험결과: 각 토픽이 색상, 모양, 대비 등과 같은 뚜렷한 특징을 나타내는 이미지를 생성함을 보여줍니다. 이는 모델이 토픽 정보를 효과적으로 학습하고 있음을 시사합니다.
참조 기반 생성 (Reference-based Generation)
- 방법: Figure 4c (CelebA)와 4d (CIFAR-10)는 좌측 상단의 참조 이미지(reference image)와 해당 이미지의 토픽 분포(theta) 를 활용하여 생성된 이미지들을 보여줍니다.
- 과정: 먼저 입력 이미지로부터 토픽 분포를 추출합니다. 이 추출된 theta_d 를 사용하여 새로운 이미지를 생성합니다.
- 목표: 새로 생성된 이미지가 원본 참조 이미지와 유사한 의미론적 특징을 공유하는지를 확인합니다. 이는 모델이 이미지의 특징을 토픽으로 잘 포착하고, 이를 바탕으로 유사한 이미지를 생성할 수 있음을 입증합니다.
- 실험결과: CIFAR-10 및 CelebA 데이터셋 모두에서 TVQ-VAE (P)가 참조 이미지의 특징을 효과적으로 포착하여 의미론적으로 유사한 샘플을 생성함을 보여줍니다.
Qualitative analysis: TVQ-VAE (P) 모델이 VQ 임베딩을 활용하여 문서(이미지)에서 토픽을 성공적으로 추출하고, 추출된 토픽 정보를 사용하여 해당 토픽이나 참조 이미지와 의미론적으로 유사한 이미지를 유연하게 생성할 수 있음을 시각적으로 보여줍니다.

Figure 5의 qaulitative analysis: Figure 5는 TVQ-VAE 모델 중 Transformer를 사용한 버전(TVQ-VAE (T))으로 생성된 이미지 샘플을 보여줍니다. 이 이미지들은 FacesHQ 데이터셋을 기반으로 학습되었으며, Figure 4에서 보여준 예시처럼 'reference-based generation' 형식으로 제시됩니다.
고해상도 생성: Figure 5의 이미지들은 256의 더 높은 해상도로 생성되었음을 명시합니다. 이는 모델이 고품질의 이미지를 생성할 수 있음을 시사합니다.
Reference-based generation
- 'reference-based generation'이란 특정 원본 이미지(참조 이미지)의 특징을 기반으로 새로운 이미지를 생성하는 방식을 의미합니다.
- Figure 4와 Figure 5 모두 참조 이미지에서 추출된 'topic embedding'이 원본 이미지와 의미론적으로 유사한 이미지를 생성하는 데 핵심적인 역할을 함을 보여줍니다.
- 다양한 AR 모델 적용 가능성: 이 논문에서 제안하는 TVQ-VAE 방법론은 PixelCNN (P)과 Transformer (T)라는 두 가지 다른 자기회귀(AR) 모델에 효과적으로 적용될 수 있음을 강조합니다. 이는 TVQ-VAE 프레임워크의 유연성과 일반화 가능성을 보여줍니다.

Visualization of Embedding Space.

Topic embedding space: 이 논문에서는 TVQ-VAE 모델이 추출한 이미지의 '토픽 임베딩'(θ)을 의미합니다. 이 임베딩은 이미지의 주요 의미적 내용을 함축하고 있습니다.
시각화된 데이터 포인트: t-SNE 플롯 상의 각 점은 동일한 참조 이미지에서 생성된 이미지의 토픽 임베딩을 나타냅니다. 즉, 원본 이미지를 기반으로 추출된 토픽 정보를 사용하여 생성된 여러 이미지들의 토픽 임베딩을 한 곳에 모아 시각화한 것입니다.
임베딩 시각화 결과: Figure 6를 보면, 동일한 참조 이미지에서 생성된 이미지들의 토픽 임베딩이 별개의 군집(distinct clusters) 을 형성하고 있음을 알 수 있습니다. 이는 TVQ-VAE가 참조 이미지의 의미적 특징을 효과적으로 포착하여, 그 특징을 기반으로 의미적으로 유사한 이미지를 생성할 수 있음을 시각적으로 보여줍니다. 토픽 임베딩이 생성된 이미지들의 의미적 유사성을 잘 반영하고 있기 때문에 같은 참조 이미지에서 나온 이미지들은 임베딩 공간에서도 가깝게 모여 군집을 이루게 됩니다.

Conclusion and Future Remark

TVQ-VAE는 VQ-VAE의 이산적인 임베딩과 코드북을 활용하고, PLM(사전 학습 언어 모델)과 같은 사전 학습 정보를 통합합니다.
제한된 수의 이산적 임베딩을 통해 토픽 정보를 효과적으로 추출할 수 있음을 실험적으로 입증했습니다.
BoW(Bag-of-Words) 스타일부터 AR 방식으로 생성된 이미지에 이르기까지 다양한 형태의 확률론적 문서 생성이 가능합니다.
기존의 최신 토픽 모델들과 비교했을 때 유사하거나 더 나은 성능을 달성했으며, 일반화된 토픽 기반 생성의 잠재력을 보여주었습니다.
Future work: 이 접근 방식을 최근의 멀티모달 생성 분야로 확장하는 것을 제안합니다.

Reference

[1] Neural Discrete Representation Learning (Neurips 2017)

[2] Zero-Shot Text-to-Image Generation. 2021

[3] FET-LM: Flow-Enhanced Variational Autoencoder for Topic-Guided Language Modeling. 2023

[4] Generating Diverse High-Fidelity Images with VQ-VAE-2. 2019