[Paper Review] Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling (EACL 2023)

Paper Review

[Paper Review] Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling (EACL 2023)

Seung-won Seo 2025. 6. 25. 12:37

Do Neural Topic Models Really Need Dropout? Analysis of the Effect of Dropout in Topic Modeling (EACL 2023)

Suman Adhya, Avishek Lahiri, Debarshi Kumar Sanyal

Abstract

Dropout이란 ?
Dropout은 뉴럴 네트워크 학습 시 과적합(overfitting) 문제를 해결하기 위해 널리 사용되는 정규화(regularization) 기법입니다.
특히 작은 데이터셋으로 큰 feedforward 뉴럴 네트워크를 학습할 때, 학습 데이터에서는 성능이 좋지만 학습에 사용되지 않은 테스트 데이터에서는 성능이 떨어지는 과적합 문제를 완화하는 데 효과적입니다.
기존의 Dropout 효과에 대한 연구와의 차이점: Dropout의 효과는 Convolutional Neural Network (CNN)와 같은 지도 학습(supervised learning) 모델에서 광범위하게 연구되었습니다. 하지만, VAE-based neural topic models와 같은 비지도 학습(unsupervised models)에서의 dropout 효과에 대한 분석은 부족했습니다.
본 논문의 Analysis: 이 논문은 VAE(Variational Autoencoder) 아키텍처의 인코더(encoder)와 디코더(decoder)에서 dropout을 사용했을 때 어떤 결과가 나타나는지 분석했습니다. 분석 대상 모델은 널리 사용되는 세 가지 neural topic mode 인 CTM (contextualized topic model), ProdLDA, ETM (embedded topic model)입니다. 분석에는 공개적으로 사용 가능한 네 가지 데이터셋이 활용되었습니다.
Dropout의 효과를 평가하는 기준: 생성된 토픽의 품질(quality), 예측 성능(predictive performance)

1 Introduction

Neural Topic Model (NTM): NTM은 기존의 전통적인 토픽 모델의 한계를 극복하기 위해 신경망의 장점을 활용하는 모델입니다. 기존 모델의 단점이었던 높은 계산 비용과 모델 변경 시 추론 방법 재도출의 어려움을 개선하여, 더 높은 유연성과 확장성을 제공합니다.
VAE 기반의 NTM: NTM의 한 종류로, Auto-Encoding Variational Bayes(AEVB) [1] 라는 추론 기술을 기반으로 합니다.
Topic Modelling Meets Deep Neural Networks: A Survey 논문에서 이러한 모델들을 VAE-NTM으로 분류하고 있습니다.
VAE-NTM의 학습 목표
- VAE-NTM은 학습 과정에서 두 가지 목표를 동시에 달성하려고 합니다. 이는 VAE 의 일반적인 학습 방식과 유사합니다.
- 입력 문서 재구성 가능성 최대화 (Maximize the log-likelihood): 모델이 원본 문서를 얼마나 잘 복원할 수 있는지를 나타냅니다. 이는 토픽 표현이 문서의 내용을 잘 담고 있도록 학습하는 것을 의미합니다.
- 잠재 공간의 사후 분포와 사전 분포 간의 KL-divergence 최소화: 잠재 공간(여기서는 문서의 토픽 분포)에서 학습된 근사 사후 분포가 미리 정해놓은 간단한 사전 분포(e.g., 가우시안 분포)와 최대한 유사해지도록 합니다. 이는 잠재 공간을 잘 구조화하고 안정적인 학습을 유도하는 역할을 합니다. KL-divergence는 두 확률 분포 간의 차이를 측정하는 지표이며, 이 값을 최소화함으로써 두 분포를 비슷하게 만듭니다.
이전 연구 [2]
- LDA (Latent Dirichlet allocation) 및 BTM (A biterm topic model for short texts)과 같은 전통적인 토픽 모델에 dropout을 적용하는 연구를 수행했습니다. 이 연구에 따르면, 적절한 dropout 비율을 선택하면 모델 학습 시간을 단축할 수 있었습니다.
- 특히 짧은 텍스트의 경우, 예측 성능과 일반화 능력이 크게 향상되었습니다. 하지만 이 연구는 뉴럴 토픽 모델(Neural Topic Models)은 고려하지 않았습니다.
본 논문의 차별점 및 기여
- 본 논문은 이전 연구의 한계를 해결하고자 합니다.
- VAE-NTMs(VAE 기반 뉴럴 토픽 모델)에 dropout을 하이퍼파라미터로 사용하여 성능을 향상시키는 방안을 제안합니다. CTM, ProdLDA, ETM 등 다양한 VAE-NTM 아키텍처에 대해 dropout 효과를 검증했습니다.
- 이를 통해 토픽 일관성(topic coherence), 토픽 다양성(topic diversity), 토픽 품질(topic quality) 측면에서 더 나은 성능을 달성하는 것을 목표로 합니다.
- 본 논문 저자들은 뉴럴 토픽 모델에 대한 dropout의 사용을 구체적으로 다룬 연구는 본 논문이 처음이라고 밝히고 있습니다.

Main Contributions

최적의 dropout 값 선택으로 인한 토픽 품질 향상 (정량적 및 정성적): VAE-NTM의 인코더와 디코더 모두에서 드롭아웃 설정을 매우 낮게 하거나 아예 사용하지 않을 때 토픽 품질이 크게 향상됨을 정량적 지표(예: NPMI, Topic Quality)와 정성적 평가(더 해석하기 쉬운 토픽)를 통해 포괄적으로 보여주었습니다.
다운스트림 작업 성능 향상: VAE-NTM에서 낮은 드롭아웃 비율을 체계적으로 선택하는 것이 문서 분류와 같은 다운스트림 작업의 성능을 상당히 개선할 수 있음을 입증했습니다.
입력 문서 길이와 드롭아웃의 의존성 분석: 드롭아웃이 입력 문서 길이에 따라 어떻게 영향을 미치는지 분석했습니다. 기존 연구에서는 긴 텍스트에 드롭아웃이 효과적이지 않다고 했지만, 이 논문에서는 VAE-NTM의 경우 문서 길이에 상관없이 드롭아웃 비율이 증가함에 따라 성능이 일관되게 감소하는 경향을 보였습니다.
드롭아웃 감소에 따른 성능 향상 분석: 드롭아웃 비율이 낮아질수록 VAE-NTM의 성능이 향상되는 현상에 대한 경험적 분석 결과를 제시했습니다. 이러한 실험결과를 드롭아웃이 생성 모델의 데이터 분포 학습을 방해할 수 있기 때문이라고 분석했습니다.

2 Task Formulation

2.1 VAE Framework in Neural Topic Models

입력 문서 표현: 인코더(encoder)의 입력은 문서 표현입니다. 예를 들어, 각 단어가 등장하는 빈도를 나타내는 bag-of-words 벡터와 같이 문서의 특징을 나타내는 벡터 형태입니다. 여기서 V 는 어휘 사전의 크기입니다.
인코더의 역할
- 인코더는 입력 문서 x 를 받아서 잠재 변수(latent variable) z 에 대한 근사 사후 분포 approximate posterior distribution 를 학습합니다.
- W 는 인코더가 학습해야 할 가중치입니다.
- VAE-NTM에서는 이 근사 사후 분포를 가우시안 분포(Gaussian distribution)로 가정하고, 인코더는 이 분포의 평균과 분산을 출력합니다.
- K 는 잠재 공간(latent space)의 차원입니다.
잠재 변수 샘플링 (Reparameterization Trick): 디코더(decoder)는 인코더가 출력한 가우시안 분포에서 잠재 표현 z 을 샘플링합니다. 이 샘플링 과정은 신경망을 통해 역전파(backpropagation)가 가능하도록 reparameterization trick을 사용하여 수행됩니다. 이 트릭을 통해 샘플링 과정의 무작위성 epsilon 을 평균과 분산에서 분리하여, 평균과 분산에 대한 그래디언트(gradient)를 계산하고 학습을 진행할 수 있습니다.
문서-토픽 분포 생성: 샘플링된 잠재 표현 z 로부터 문서-토픽 분포 벡터 theta 가 생성됩니다. 이는 소프트맥스(softmax) 함수를 사용하여 계산됩니다. theta 의 각 요소는 문서가 특정 토픽에 속할 확률을 나타냅니다.
디코더의 역할 및 문서 재구성: 디코더는 문서-토픽분포와 토픽-단어 행렬를 사용하여 원래 입력 문서-단어 분포 벡터를 재구성합니다.
이 과정에서 디코더는 학습 가능한 가중치 \(W'\)을 사용하여 입력이 주어졌을 때 이를 재구성할 확률 \(p_{W'}(x|z)\)을 학습합니다.
VAE 프레임워크에서 Dropout 적용
- 인코더 Dropout: 인코더 내부의 multi-layer feed-forward neural network (FFNN)의 은닉층(hidden layer) 출력에 확률로 dropout이 적용됩니다. 이 출력은 이후 근사 사후 분포 q 의 매개변수를 얻기 위한 두 개의 별도 레이어로 전달됩니다.
- 디코더 Dropout: 문서-토픽 분포 벡터 theta 에 확률로 dropout이 적용됩니다. 이는 문서 재구성 과정 바로 직전에 수행됩니다.
- 이러한 VAE 프레임워크는 문서에서 토픽 분포를 학습하고 이를 통해 문서를 재구성하는 방식으로 작동합니다. Dropout은 이 과정의 특정 지점에 적용되어 모델의 과적합(overfitting)을 방지하는 정규화 기법 (regualization technique) 으로 사용됩니다.

2.2 Task Description

Dropout 비율 변화: 인코더(Encoder)와 디코더(Decoder) 모두에서 dropout 비율을 0.0부터 0.6까지 0.1 간격으로 변화시키며 실험했습니다. 상한선인 0.6은 이 연구에서 비교 대상으로 삼은 기존 VAE-NTMs에서 사용된 가장 높은 dropout 비율이기 때문에 선택되었습니다.
성능 측정 항목: 연구진은 모델 성능을 다음 세 가지 주요 지표를 사용하여 측정했습니다.
- Topic Coherence (토픽 응집도, 일관성): 토픽을 구성하는 상위 단어들이 의미론적으로 얼마나 관련이 있는지를 측정합니다. 여기에서는 NPMI 를 사용하여 측정하였습니다.
- Topic Diversity (토픽 다양성): 생성된 토픽들이 서로 얼마나 다른지, 즉 고유한지를 측정합니다. Topic Diversity (TD) [3] 지표를 사용했으며, 이는 모든 토픽에 걸쳐 나타나는 고유 단어의 비율로 정의됩니다. 0에 가까울수록 반복적인 토픽이 많고, 1에 가까울수록 토픽들이 다양합니다.
- Topic Quality (토픽 품질, TQ): 토픽 응집도와 토픽 다양성의 곱으로 정의되는 종합적인 지표입니다 [3].
- 추가 평가 방법: 자동화된 토픽 모델 측정 지표가 항상 토픽의 품질을 정확하게 포착하지 못할 수 있기 때문에 [4], 토픽에 대한 수동 평가와 문서 분류(document classification) 다운스트림 task 에서의 예측 성능 평가도 함께 수행했습니다.

3 Empirical Study

3.1 Datasets

20NG, BBC: OCTIS toolkit in the pre-processed format
Wiki40B [5], AllNews [6]
Train/Valid/Test sets -> 70 : 15 : 15.
Validation set 은 오직 early stopping 을 위해 사용되었습니다.

3.2 Models

연구에서 실험에 사용한 NTMs
- CTM (CombinedTM)
- ProdLDA
- ETM
실험 설정
- 모델 학습 시 dropout을 제외한 모든 하이퍼파라미터(hyperparameter)는 각 모델의 원 논문에서 제시된 기본값과 동일하게 설정했습니다.
- 토픽의 개수 K는 {20, 50, 100} 중 하나로 설정하고, 각 모델을 30 epoch 동안 학습시켰습니다.
- 결과의 신뢰성을 높이기 위해 각 모델을 10번 독립적으로 실행하여 나온 점수들의 평균을 사용했습니다.
Dropout 적용
- VAE 아키텍처에서는 인코더(Encoder)와 디코더(Decoder)에 각각 dropout이 적용될 수 있으며, 연구에서는 두 부분의 dropout 비율(각각 Ep와 Dp로 표기)을 변화시키며 실험했습니다.
- 비교 대상: 최적의 dropout 비율로 학습된 모델의 성능을 해당 모델의 원 논문에서 사용한 기본(default) dropout 비율로 학습된 모델의 성능과 비교했습니다.
Table 2 설명
- 이 표는 각 모델(CTM, ProdLDA, ETM)에 대해 사용된 데이터셋별 기본 dropout 비율과 최적 dropout 비율을 보여줍니다.
  dropout 비율은 (Ep, Dp) 형식으로 표시되어 있으며, 여기서 Ep는 인코더의 dropout 비율, Dp는 디코더의 dropout 비율을 나타냅니다.
- 예를 들어서, CTM의 기본 dropout은 (0.2, 0.2)이지만, 20NG 데이터셋에서는 (0.0, 0.0)일 때 topic quality가 가장 높았고, BBC 데이터셋에서도 (0.0, 0.0)일 때 가장 높았습니다.

3.3 Results and Analysis

3.3.1 Quantitative Evaluation of Topic Quality

토픽 품질 향상: 드롭아웃 비율을 최적화함으로써 VAE-NTMs 모델(CTM, ProdLDA, ETM)의 토픽 품질 점수가 전반적으로 향상되었습니다.
20NG 데이터셋 결과: CTM의 토픽 품질 점수는 기존 0.056에서 0.065로 향상되었습니다. 이는 약 16.07%의 성능 향상입니다.
ProdLDA의 토픽 품질 점수는 기존 -0.051에서 0.039로, ETM은 기존 0.004에서 0.009로 향상되었습니다. 이 두 모델의 경우 성능 향상률이 100%를 초과합니다.
성능 향상률 차이의 원인: CTM의 경우, 기존 구현에서 이미 비교적 낮은 드롭아웃 비율(인코더와 디코더 모두 0.2)을 사용하고 있었기 때문에 최적화로 인한 추가 성능 향상 폭이 다른 모델(ProdLDA와 ETM)에 비해 작았습니다. ProdLDA와 ETM은 기존 구현에서 더 높은 드롭아웃 비율을 사용했기 때문에 최적화를 통한 성능 향상 폭이 컸습니다.
Findings: 이 결과는 VAE-NTMs에서 드롭아웃 비율을 단순히 기본값으로 설정하기보다는 데이터셋과 모델 특성에 맞춰 신중하게 조정하는 것이 중요하다는 것을 시사합니다. 논문에서는 특히 낮은 드롭아웃 비율에서 더 좋은 토픽 품질이 나타나는 경향을 보인다고 언급하고 있습니다

실험결과
- Figure 3은 20NG 데이터셋에서 VAE-NTMs (CTM, ProdLDA, ETM)의 토픽 품질 점수가 인코더 드롭아웃 비율 E_p 과 디코더 드롭아웃 비율 D_p 변화에 따라 어떻게 달라지는지를 보여줍니다.
- Figure 3의 실험결과에 따르면, 20NG 데이터셋에서 VAE-NTMs의 토픽 품질은 일반적으로 인코더와 디코더의 드롭아웃 비율이 0.0 또는 0.1과 같이 낮거나 0에 가까울 때 더 좋은 결과를 보입니다. 드롭아웃 비율이 높아질수록 토픽 품질은 저하되는 경향을 확인할 수 있습니다.
- 저자들은 다른 데이터셋(BBC, Wiki40B, AllNews)에서도 유사한 결과가 관찰되었다고 언급하며, 이는 드롭아웃 비율이 VAE-NTMs의 성능에 중요한 영향을 미치는 하이퍼파라미터임을 시사합니다.
Findings: 이러한 결과는 기존 지도 학습에서 드롭아웃이 과적합 방지에 효과적이었던 것과 대조적입니다. 저자들은 섹션 4에서 이에 대해 논하며, VAE-NTMs와 같은 생성 모델의 경우 드롭아웃이 입력 데이터에 노이즈를 주어 모델이 데이터 분포 특성을 정확하게 학습하는 것을 방해하기 때문에 토픽 품질이 저하될 수 있다고 설명합니다.

3.3.2 Qualitative Evaluation of Topic Quality

Optimal dropout 모델과 기본모델이 생성한 주제들을 정성평가 하기 위해 주제 정렬 시도
- 최적의 드롭아웃 모델(토픽 목록 P)과 기본 드롭아웃 모델(토픽 목록 Q)의 토픽들을 비교하기 위해 두 단계의 토픽 정렬 전략을 사용했습니다.
- 유사도 행렬 생성: 먼저, Rank-biased Overlap (RBO)라는 척도를 사용하여 토픽 목록 P와 Q 간의 유사도 행렬 A를 생성했습니다. RBO는 순서가 있는 두 목록(여기서는 토픽 내 단어들의 순서) 간의 유사도를 측정하는 방법으로, 순위가 높은 요소에 더 큰 가중치를 부여합니다.
- 토픽 쌍 선택: 유사도 행렬 A에서 유사도 점수가 가장 높은 토픽 쌍을 반복적으로 선택합니다. 이 과정을 통해 최적 드롭아웃 모델의 토픽과 기본 드롭아웃 모델의 가장 유사한 토픽을 짝지을 수 있습니다.
정성적 평가: 이렇게 정렬된 토픽 쌍들의 상위 단어들을 Table 3에 제시하고 시각적으로 비교했습니다. 논문 저자들은 이 비교를 통해 드롭아웃 최적화 모델이 더 해석하기 쉬운 토픽을 생성한다는 것을 확인했습니다. 자동화된 토픽 모델 측정 지표가 항상 토픽의 질을 정확하게 포착하지 못한다는 점 [4] 를 고려할 때, 이러한 정성적 평가는 중요합니다.

3.3.3 Effect of Dataset Length

문서길이와의 연관성: 이 논문에서는 사용된 데이터셋(20NG, BBC, Wiki40B, AllNews) 중 20NG는 비교적 짧은 텍스트를 포함하고 있고, 다른 데이터셋은 긴 텍스트를 포함하고 있음을 언급합니다. 실험 결과, 드롭아웃 비율이 증가함에 따라 모든 VAE-NTM 모델의 성능이 일관되게 감소하는 것을 확인했습니다. 이러한 성능 감소는 데이터셋의 길이가 짧든 길든 상관없이 나타났습니다.
이전연구 [2] 에서는 자신들의 드롭아웃 방법이 긴 텍스트에서는 효과적이지 않다고 보고했습니다.
두 연구 결과의 차이: 이 논문의 저자들은 자신들의 연구 결과가 [2] 의 발견과 다르다고 지적합니다. [2] 는 드롭아웃이 긴 텍스트에 효과가 없다고 했지만, 이 논문에서는 긴 텍스트 데이터셋에서도 드롭아웃 비율 증가가 성능 감소로 이어진다는 것을 보여줍니다. 이는 전통적인 토픽 모델(LDA, BTM)에 대한 [2] 의 분석과 VAE-NTM에 대한 이 논문의 분석에서 나타나는 차이점일 수 있습니다.

3.3.4 Document Classification

Downstream task 실험
- 토픽 모델이 생성한 토픽의 품질이 실제 다운스트림 작업(여기서는 문서 분류)에 어떤 영향을 미치는지 측정합니다.
- 데이터셋: 20NG 및 BBC 코퍼스를 사용했습니다.
- 토픽 개수 (K): 토픽 개수를 20개, 50개, 100개로 다양하게 설정하여 모델을 학습시켰습니다.
- 훈련/테스트 분할: 각 데이터셋의 훈련 서브셋을 사용하여 토픽 모델과 분류기를 학습시키고, 테스트 서브셋을 사용하여 분류기의 성능을 평가했습니다.
- 문서 표현: 각 문서는 토픽 모델을 통해 얻은 K 차원의 'document-topic vector'로 표현됩니다. 이 벡터는 해당 문서가 각 토픽에 대해 얼마나 관련되어 있는지를 나타냅니다.
- 분류기 학습: 이 document-topic vector를 입력으로 사용하여 SVM (Support Vector Machine) 분류기를 훈련시켰습니다. SVM은 지도 학습 알고리즘으로, 주어진 입력 벡터를 기반으로 문서의 카테고리를 예측하도록 학습됩니다.
성능 평가
- 훈련된 SVM 분류기를 테스트 서브셋의 document-topic vector에 적용하여 문서의 카테고리를 예측했습니다.
- 평가지표로 정확도(accuracy)를 측정하고, 서로 다른 토픽 개수 (K=20, 50, 100)에 대한 정확도 (Acc) 점수를 평균하여 최종 성능 지표로 사용했습니다.
- 실험결과: 최적화된 dropout rate를 사용했을 때 문서 분류 작업의 정확도가 향상되는 것을 확인했습니다 (Figure 4 참고). 이는 적절한 dropout 설정을 통해 토픽 모델이 더 유용하고 예측력 있는 토픽 표현을 학습했음을 시사합니다.

4 Theoretical Understanding of Results

VAE 기반의 NTM 의 성능 향상
- 본 논문에서의 emperical study 는 드롭아웃 비율을 신중하게 조절하면 VAE-NTM의 성능을 크게 향상시킬 수 있음을 보여줍니다.
- 드롭아웃 비율은 모델과 데이터셋의 종류에 따라 신중하게 선택해야 하는 중요한 하이퍼파라미터로 다루어져야 한다고 주장합니다. 특히 VAE-NTM의 경우 더욱 그렇습니다.
- 낮은 드롭아웃 비율의 효과: 대부분의 경우, 인코더와 디코더 모두에서 낮은 드롭아웃 비율을 사용할 때 높은 드롭아웃 비율을 사용했을 때보다 더 나은 성능을 얻을 수 있었습니다.
지도 학습과의 차이: 지도 학습 기법에서는 Dropout과 같은 표준 드롭아웃 및 다양한 변형이 광범위하게 사용됩니다. 지도 학습에서 드롭아웃의 주된 목적은 훈련 과정에 노이즈를 주입하여 모델이 테스트 단계에서 이상치를 잘 인식하고 과적합을 방지하는 것입니다.
생성 모델(VAE-NTM) 관점에서의 드롭아웃 해석: 본 연구에서 높은 드롭아웃 사용 시 성능이 저하되는 것은 VAE-NTM이 데이터의 생성 모델을 학습하는 과정에 기인할 수 있다고 해석합니다. 드롭아웃은 입력 데이터의 작은 변화(섭동)에 대해 모델을 강건하게 만들지만, 역설적으로 입력 데이터 분포의 특징을 정확하게 학습하는 것을 방해할 수 있습니다. 이것이 토픽 응집도(topic coherence)와 토픽 품질(topic quality)이 떨어지는 이유일 수 있습니다.
문서 분류 성능 저하: 문서 분류 작업의 경우, 높은 드롭아웃으로 훈련된 토픽 모델에서 생성된 문서-토픽 벡터는 품질이 낮아지고, 이러한 저품질 벡터로 훈련된 분류기의 테스트 문서에 대한 정확도가 떨어지게 됩니다. 이는 분류기에 직접 드롭아웃을 적용하여 과적합을 방지하는 일반적인 신경망 분류기의 지도 학습 설정과는 다릅니다.

5 Conclusion

분석연구와 주요 Findings
- 이 논문은 VAE-NTM 모델(CTM, ProdLDA, ETM)에서 인코더(encoder)와 디코더(decoder)에 적용된 드롭아웃 비율이 모델 성능에 미치는 영향을 심층적으로 분석했습니다.
- 인코더와 디코더 모두에서 드롭아웃 비율이 증가함에 따라 VAE-NTM 모델의 성능이 일반적으로 감소한다는 사실을 발견했습니다.
결과 해석: 논문에서는 이러한 결과가 VAE-NTM이 데이터의 생성 모델을 학습하려 하기 때문이라고 설명합니다. 드롭아웃은 입력 데이터에 노이즈를 주어 모델이 과적합(overfitting)되는 것을 방지하는 일반적인 정규화 기법이지만, VAE-NTM과 같은 생성 모델에서는 너무 높은 드롭아웃 비율이 데이터 분포의 특성을 정확하게 학습하는 것을 방해할 수 있습니다. 이는 토픽 일관성 및 품질 저하로 이어집니다.
지도 학습과의 차이: 지도 학습(supervised learning) 시나리오, 특히 신경망 분류기에서 드롭아웃은 주로 분류기 자체에 적용되어 과적합을 방지하는 데 효과적입니다. 하지만 VAE-NTM은 데이터를 생성하는 모델을 학습한 후, 이 모델에서 얻은 문서-토픽 벡터를 다운스트림 태스크(예: 문서 분류)에 활용합니다. 따라서 VAE-NTM 학습 단계에서 높은 드롭아웃으로 인해 토픽 모델의 품질이 낮아지면, 이는 결국 다운스트림 태스크의 성능 저하로 이어진다고 논문은 설명합니다.
Optimal dropout: 논문은 대부분의 경우 인코더와 디코더에서 매우 낮은 드롭아웃 비율(예: 0.0 또는 0.1) 또는 드롭아웃을 사용하지 않는 것(0.0)이 높은 성능을 얻는 데 더 효과적임을 실험적으로 보여줍니다. 따라서 드롭아웃 비율을 모델과 데이터셋의 특성에 맞춰 신중하게 선택해야 할 중요한 하이퍼파라미터로 다루어야 한다고 강조합니다.

Limitations

다른 종류의 드롭아웃 적용: 본 연구에서는 일반적인 드롭아웃 방식을 사용했지만, 다양한 드롭아웃 기법이 존재합니다. 이러한 다른 기법들이 VAE 기반 신경망 토픽 모델(VAE-NTM)에 어떤 영향을 미치는지에 대한 분석은 본 논문에서 다루지 않았습니다.
다른 VAE 기반 신경망 토픽 모델 분석: 이 연구는 CTM, ProdLDA, ETM이라는 특정 VAE-NTM 모델에 초점을 맞추어 드롭아웃 효과를 분석했습니다. 다른 VAE-NTM 모델에서도 유사한 결과가 나타나는지 또는 모델의 특성에 따라 드롭아웃의 효과가 다를 수 있는지에 대한 추가적인 연구가 필요합니다.
다른 downstream task 분석: 본 연구는 문서 분류 성능을 통해 드롭아웃 효과를 평가했습니다. 토픽 모델링 결과를 활용하는 다른 후속 작업(downstream tasks)에서의 드롭아웃 효과에 대한 분석도 향후 연구 과제로 남아 있습니다.

Reference

[1] Auto-encoding variational bayes (ICLR 2014)

[2] Eliminating overfitting of probabilistic topic models on short and noisy text: The role of dropout.

[3] Topic modeling in embedding spaces (TACL 2020)

[4] Is automated topic model evaluation broken? the incoherence of coherence (Neurips 2021)

[5] Wiki-40B: Multilingual language model dataset.

[6] GraphBTM: Graph enhanced autoencoded variational inference for biterm topic model (EMNLP 2018)