[Paper Review] NeuroMax: Enhancing Neural Topic Modeling via Maximizing MutualInformation and Group Topic Regularization (EMNLP 2024 Findings)

NeuroMax: Enhancing Neural Topic Modeling via Maximizing Mutual Information and Group Topic Regularization (EMNLP 2024 Findings)

Duy-Tung Pham, Thien Trang Nguyen Vu, Tung Nguyen, Linh Van Ngo, Duc Anh Nguyen, Thien Huu Nguyen

Abstract

Neural Topic Model 의 최신 동향과 문제점
- 최근 신경 토픽 모델 연구는 두 가지 주요 방향에 집중하고 있습니다.
- Generative model 인코더(Inference network, 주로 VAE 인코더)와 Pre-trained Language Model (PLM)의 통합: 이는 토픽 모델이 풍부한 언어 정보를 활용하여 더 일관성 있는 토픽을 생성하도록 돕습니다.
- 생성 모델 (주로 VAE 디코더)에서 단어와 토픽 간의 관계 모델링: 토픽이 어떤 단어들로 구성되는지 더 효과적으로 파악하려는 노력입니다.
- 문제점과 남은 과제
  - 높은 추론 비용: 대규모 PLM의 사용은 추론 시간을 크게 증가시켜, 낮은 추론 시간이 요구되는 상황에서는 비실용적입니다.
  - 토픽 간 상호 관계 모델링의 부족: 단어-토픽 관계뿐만 아니라, 토픽들 자체의 상호 관계를 동시에 모델링하는 것이 중요함에도 불구하고 이 부분이 충분히 다루어지지 않았습니다.
NeuroMax 프레임워크의 제안 및 핵심 기술
- 상호 정보 최대화 (Maximizing Mutual Information with PLM)
  1. Neural Topic Model (VAE) 인코더에서 얻은 토픽 표현과 PLM에서 파생된 표현 간의 상호 정보(Mutual Information)를 최대화합니다.
  2. 이는 학습 단계에서 PLM의 문맥 정보를 통합하되, 추론 단계에서는 PLM 구성 요소가 필요 없도록 하여 추론 비용 문제를 해결합니다.
- 그룹 토픽 정규화 (Group Topic Regularization) 및 Optimal Transport 활용
  1. 최적 수송(Optimal Transport)을 활용하여 토픽들 간의 정보 전달 방식을 분석함으로써 토픽 간의 관계를 학습합니다.
  2. 이는 토픽들을 의미적으로 관련된 그룹으로 묶고, 토픽 간의 상호 관계를 강화하는 데 기여합니다.
  3. 이전 연구인 ECRTM (ICML 2023)이 단어-토픽 관계를 개선하기 위한 임베딩 클러스터링 정규화(Embedding Clustering Regularization)에 초점을 맞춘 반면, NeuroMax는 여기서 한 단계 더 나아가 토픽 자체의 그룹화를 통해 토픽 간의 상호 관계를 명확히 모델링합니다.
NeuroMax의 기대 효과 및 기여점
- 추론 시간 단축: PLM 없이 효율적인 추론이 가능합니다.
- 더욱 일관성 있는 토픽 및 토픽 그룹 생성: 의미론적으로 응집력 있는 토픽과 토픽 그룹을 형성합니다.
- 더욱 대표성 있는 문서 임베딩 생성: 문서의 의미를 더 잘 포착하는 임베딩을 만듭니다.
- 다운스트림 작업 성능 향상: 위와 같은 개선을 통해 토픽 모델링의 활용성을 높입니다.

1 Introduction

NTM 에서 VAE 기반 인코더(Encoder)의 발전과 과제
- PLM(Pre-trained Language Model) 통합: 최근 NTM 연구는 BERT 및 GPT 와 같은 대규모 사전 학습 언어 모델(PLM)의 지식을 VAE 인코더에 통합하는 데 집중했습니다.
- 장점: PLM은 방대한 텍스트 데이터를 학습하여 언어 패턴과 문맥 정보를 효과적으로 포착하며, 이를 인코더 입력으로 활용하면 토픽 모델이 더 일관성 있는 토픽(coherent topics)을 생성하는 능력이 향상됩니다.
- 과제: 하지만, 대규모 PLM을 활용하면 추론 시간(inference time)이 크게 증가하여, 낮은 추론 시간이 요구되는 실시간 애플리케이션에서는 실용성이 떨어집니다.
NTM 에서 VAE 기반 디코더(Decoder)의 발전과 과제
- 사전 학습된 단어 임베딩(Pre-trained Word Embeddings) 활용: 디코더 관련 연구에서는 Word2Vec 또는 GloVe 와 같은 사전 학습된 단어 임베딩을 활용하여 어휘의 의미를 더 잘 포착하려고 합니다.
- 토픽-단어 관계 모델링: ECRTM (2023) 와 같은 연구에서는 토픽-단어 분포 행렬을 단어 임베딩과 토픽 임베딩으로 분해하고, 이들의 유사도를 음의 L2 거리(negative L2 distance)의 softmax로 모델링합니다.
- 여기서 \(w_i\) 번째 단어의 임베딩이고, \(t_j\) 는 \(j\) 번째 토픽의 임베딩입니다. \(τ\) 는 온도 하이퍼파라미터입니다. 이는 특정 단어 \(w_i\)가 특정 토픽\(t_j\)에 속할 확률 또는 기여도를 나타내며, 임베딩 공간에서 단어와 토픽이 얼마나 가까운지를 반영합니다. 거리가 가까울수록 기여도가 높습니다.
- 클러스터링 정규화(Clustering Regularization)를 통한 Topic Collapse 현상 완화: 이 방법은 단어 임베딩을 토픽에 해당하는 클러스터로 그룹화하여, 여러 토픽이 하나의 의미 없는 토픽으로 수렴하는 Topic Collapse 문제를 완화합니다.
- Issue: 이러한 접근 방식들은 단어-토픽 관계 모델링의 효율성을 높이지만, 토픽들 간의 의미론적 연결을 포착하는 데는 충분히 고려하지 않아, 토픽 임베딩 공간을 해석하기 어렵게 만듭니다. 즉, 각 토픽이 독립적인 것처럼 보이고 토픽들 간의 관계를 파악하기 어렵다는 한계가 있습니다.

배경 및 문제점
- 기존 연구들은 PLM (Pre-trained Language Model)을 인코더에 통합하여 토픽 일관성(coherence)을 높였지만, PLM의 사용은 추론 시간(inference time)을 크게 증가시키는 단점이 있었습니다.
- 토픽 간의 의미론적 관계를 충분히 모델링하지 못하여 토픽 임베딩 공간을 해석하기 어렵다는 한계가 있었습니다.
NeuroMax 목표 1: 인코더 품질 및 추론비용 개선
- NTM 프레임워크에서 VAE 기반 인코더 강화: PLM과의 상호 정보량(Mutual Information) 최대화 (Maximizing Mutual Information with PLM)
- PLM의 풍부한 지식을 활용하되, 추론 시에는 PLM이 필요 없도록 하여 높은 추론 비용 문제를 해결합니다.
VAE 인코더 성능 개선을 위한 Approach
- 인코더에서 얻은 토픽 비율(topic proportions)과 PLM에서 파생된 표현(representation)이 유사한 표현적 특성을 보여야 한다는 가설을 세웁니다.
- 이 두 변수 간의 상호 정보량을 최대화하는 방식으로 모델을 훈련합니다.
- 이를 통해 PLM의 맥락화된(contextualized) 정보를 훈련 과정에서 통합하고, 추론 단계에서는 PLM 구성 요소를 제거할 수 있게 됩니다.
- 결과적으로 추론 시간을 단축하면서도 PLM의 장점을 활용할 수 있습니다.
NeuroMax 목표 2: 디코더 강화
- 그룹 토픽 정규화 (Group Topic Regularization) 방법론 제안
- 목표: 토픽 간의 의미론적 상호 관계를 효과적으로 포착하고, 해석하기 어려운 토픽 임베딩 공간 문제를 개선합니다.
VAE 디코더 성능 개선을 위한 Approach
- 최적 수송(Optimal Transport, OT) 활용: Van Assel et al., 2023에 영감을 받아 최적 수송을 사용하여 토픽 간의 관계를 모델링합니다.
- 정보 흐름 가정: 각 토픽이 동일한 양의 정보(예: 1/K) 를 가지며, 이 정보가 총량을 보존하는 방식으로 토픽 간에 수송된다고 가정합니다.
- 수송 계획(Transport Plan) 학습: 이 과정에서 학습되는 최적의 수송 계획 QQQQ는 토픽 간의 연결성을 명확히 보여줍니다.
- 토픽 그룹화 및 정규화: 문서들이 종종 밀접하게 관련된 여러 주제를 포함한다는 가정하에, 토픽들이 의미론적으로 관련된 클러스터로 자연스럽게 그룹화되도록 합니다. 이를 위해, 미리 정의된 토픽 클러스터 관계를 기반으로 이전 수송 계획에 정규화 항을 부과하여 토픽들의 그룹 관계를 강화합니다.

2 Related Work

Topic Models and Neural Topic Models.

Neural Topic Model (NTMs)
- 최근에는 VAE(Variational Autoencoder)를 통합하여 확장성과 추론 과정의 효율성을 향상시킨 NTM이 발전했습니다.
- NTM은 일반적으로 VAE와 유사하게 인코더(추론 네트워크)와 디코더(생성 네트워크)의 두 가지 주요 구성 요소로 이루어져 있습니다.
VAE 디코더 개선을 위한 NTM의 연구 방향
- 디코더는 재구성 단계에서 토픽의 질을 향상시키는 데 중점을 둡니다.
- 외부 지식 통합: Word2Vec, GloVe와 같은 사전 학습된 워드 임베딩(word embeddings)을 활용하여 어휘 의미론에 대한 이해를 높이고 의미론적으로 더 관련 있는 단어들로 토픽을 생성합니다.
- 다양한 워드 임베딩 변형: 구형 임베딩(spherical embeddings)으로 클러스터링 가능성을 높이거나, 쌍곡 공간(hyperbolic space)의 워드 임베딩으로 토픽 분류를 개선하는 시도도 있습니다.
- 단어-토픽 관계 모델링: 임베딩 공간에서 단어와 토픽 간의 의존성은 주로 유사성 함수(similarity function)로 모델링됩니다.
- 토픽 붕괴(Topic Collapse) 문제 완화: 특정 토픽 임베딩이 워드 임베딩의 별개의 클러스터의 중심 역할을 하도록 클러스터링 정규화(clustering regularization) 기법을 적용하여 토픽 붕괴 문제를 완화합니다.
VAE 인코더 개선을 위한 NTM의 연구 방향
- 인코더는 문서를 토픽 비율로 매핑하는 추론 네트워크를 담당합니다.
- 사전 학습된 언어 모델(PLM) 통합: BERT, GPT와 같은 PLM의 지식을 통합하여 문맥화된 문서 임베딩(contextualized document embedding)을 입력으로 사용하고, 더 풍부한 의미론적 정보를 포착합니다.
- 추론 시간 증가 문제: 하지만 대규모 PLM을 활용하는 방식은 추론 비용을 크게 증가시켜 실시간 애플리케이션에 어려움을 초래합니다.
- 대안적 개선: 외부 지식에 의존하지 않으면서도 문서와 토픽 간의 불일치를 모델링하기 위해 최적 수송 거리(optimal transport distance)를 활용하는 방법도 제안되었습니다.
VAE 비의존적 토픽 모델링 (e.g., BERTopic)
- 일부 연구는 VAE와 같은 아키텍처를 사용하지 않고 문서 임베딩을 직접 그룹화하여 토픽을 생성합니다.
- 이러한 접근 방식은 더 간단하고 일관된 토픽을 생성하지만, 문서에 대한 토픽 비율을 추론하는 것이 쉽지 않다는 한계가 있습니다.

Mutual Information Maximization (MIM).

Mutual Information (MI) 기본 개념: 상호 정보는 두 확률 변수 간의 통계적 종속성을 정량화하는 측정치입니다. 즉, 한 변수에 대한 지식이 다른 변수에 대해 얼마나 많은 정보를 제공하는지 나타냅니다.
상호 정보 \(I(X; Y)\) 값을 최대화하는 것은 두 변수(또는 그들의 표현)가 최대한 많은 정보를 공유하도록 학습하는 것을 목표로 합니다.
일반적인 머신러닝 연구에서의 MIM 활용
- 재앙적 망각(Catastrophic Forgetting) 완화: [1] 연구에서는 연속 학습(continual learning)에서 발생하는 재앙적 망각 문제(이전에 학습한 정보가 새 정보를 학습하면서 지워지는 현상)를 MIM을 통해 완화했습니다. 이는 새로운 데이터로부터 학습하면서도 기존 지식을 유지하도록 돕는 방식으로 해석될 수 있습니다.
- 임베딩 정렬 (Embedding Alignment): CLIP[2] 연구에서는 텍스트 임베딩과 이미지 임베딩을 정렬하는 데 MIM을 활용했습니다. 이는 서로 다른 양식(modality)의 데이터 표현이 의미론적으로 일치하도록 학습시키는 것을 의미합니다.
- 표현 학습(Representation Learning): [3,4]과 같은 초기 연구들은 MIM을 사용하여 데이터에서 견고하고 유용한 특징을 추출하는 표현 학습에 기여했습니다.
토픽 모델링 연구분야에서의 MIM 활용
- 다국어 토픽 정렬: [5] 연구에서는 MIM을 통해 서로 다른 언어의 토픽 (Cross-lingual topics) 을 정렬하는 데 적용되었습니다. 이는 언어의 장벽을 넘어 토픽의 일관성을 유지하는 데 도움을 줍니다.
- 의미 있는 문서 표현 도출: [6] 연구에서는 문서의 토픽 분포를 학습할 때 MIM을 사용하여 문서의 의미를 더 잘 반영하는 표현을 생성하는 데 활용했습니다.

4 Proposed Method

4.1 Maximize Mutual Information with Pretrained Language Model

PLM 지식 보존의 필요성
- 기존의 NTM 에서 PLM을 인코더에 통합하면 토픽 일관성은 향상되지만, PLM의 큰 모델 크기 때문에 추론 비용이 매우 높아지는 문제가 있습니다.
- NeuroMax는 이 문제를 해결하기 위해 PLM이 없이도 높은 성능을 유지하는 아키텍처를 제안합니다.
- Motivation & Goal: PLM의 지식을 기반으로, 토픽 일관성은 높게 유지하지만 Inference cost 를 낮추자!
Mutual Information Maximization (MIM)의 도입 목적
- 저자들은 PLM에서 얻은 임베딩(\(X_{PLM}\))과 토픽 모델 인코더에서 얻은 토픽 비율\((Θ)\)이 높은 상호 정보(Mutual Information, MI)를 가져야 한다고 가정합니다. 즉, 이 두 변수가 서로 밀접하게 연관되어야 한다는 것입니다.
- 이를 통해 훈련 단계에서는 PLM의 풍부한 문맥 정보가 모델에 통합되고, 추론 단계에서는 PLM 없이도 학습된 인코더가 이 정보를 효과적으로 활용할 수 있게 됩니다

A function for cosine similarity computation

Mutual Information Maximization using InfoNCE Loss
- \(ϕ_{\theta}(a)\) 함수
  - 이는 a (즉, 여기서는 토픽 비율 \(θ_i\))에 적용되는 학습 가능한 선형 투영 (learnable linear projection) 함수입니다.
  - 이러한 Linear projection 함수는 벡터를 다른 벡터 공간으로 매핑하는 선형 변환입니다. 예를 들어, 100차원 벡터를 768차원 벡터로 바꾸거나, 단순히 벡터의 차원을 유지하면서 그 표현을 바꾸는 역할을 할 수 있습니다.
  - 학습 가능(learnable)하다는 것은 이 \(ϕ_{\theta}(a)\) 함수의 내부 파라미터(가중치와 편향 등)가 모델 훈련 과정 중에 최적의 유사도를 찾기 위해 함께 조정되고 학습된다는 의미입니다.
  - 목적: 토픽 비율(\(θ_i\))은 일반적으로 확률 심플렉스(probability simplex) 상의 벡터인 반면, PLM 임베딩벡터 \(X_{PLM}\) 은 일반적인 실수 공간의 밀집 벡터(dense vector)입니다.
  - 두 유형의 입력이 서로 다른 특성과 차원을 가질 수 있기 때문에, \(ϕ_{\theta}(a)\) 함수는 토픽 비율을 PLM 임베딩과 동일한 벡터 공간으로 변환하여 의미 있는 유사도 비교가 가능하도록 합니다. 이는 InfoNCE loss 함수에서 코사인유사도를 적절하게 계산하기 위해 필요합니다.
- \(f(a,b)\) 함수
  - 학습 가능한 선형 변환을 통해 토픽 비율 a (theta) 를 PLM 임베딩 b 와 비교할 수 있는 공간으로 매핑한 다음, 이 둘 사이의 코사인 유사도를 계산하여 두 정보가 얼마나 밀접하게 연관되어 있는지를 수치화합니다.
  - 이를 통해 NeuroMax는 토픽 모델의 인코더가 PLM이 이해하는 방식과 유사하게 문서의 토픽 정보를 표현하도록 학습

4.2 Group Topic Regularization (GTR)

GTR 도입배경 및 목적
- 문서들이 의미론적으로 유사한 그룹으로 구성되는 경우가 많다는 가정에서, 토픽들 또한 군집 구조를 보일 것이라고 추정합니다.
  이러한 토픽 군집 구조를 모델에 반영하고 강화하기 위해 GTR을 도입합니다.
- GTR은 최적 수송(Optimal Transport, OT)을 통해 학습된 토픽 간의 관계 매트릭스 Q가, 미리 정의된 토픽 군집 관계를 나타내는 매트릭스 PPPP와 일치하도록 정규화합니다.
정규화 항 \(L_{GR}\): \(KL(P∥Q)\)
- GTR은 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL Divergence)을 사용하여 Q와 P를 정렬합니다.
- \(KL(P∥Q)\): 확률 분포 P가 확률 분포 Q와 얼마나 다른지를 측정하는 척도입니다. P가 Q로부터 얼마나 "벗어나는지"를 나타내며, 이 값을 최소화함으로써 Q가 P에 가깝도록 만듭니다.
- P: 토픽들이 어떤 그룹에 속하는지에 따라 정의되는, 토픽 간의 "원하는" 공유 정보 매트릭스입니다.
- Q: 최적 수송 과정을 통해 학습된 토픽 간의 실제 정보 수송 계획 또는 관계 매트릭스. 결론적으로, \(L_{GR}\) 을 최소화함으로써 모델이 학습한 토픽 간의 관계 Q가 의도한 토픽 군집 구조 P를 따르도록 강제합니다.
매트릭스 P의 구성
- 토픽 군집화: K개의 토픽 임베딩을 의미론적으로 유사한 G개의 군집으로 나눕니다. 이 과정은 초기 훈련 단계에서 수행되며, 이때는 단어 임베딩이 초기화된 상태에서 크게 벗어나지 않아 의미론적 연관성을 잘 유지하므로 토픽 임베딩의 발전을 효과적으로 이끌 수 있다고 설명합니다.
- KMeans 클러스터링: K개의 토픽들을 G개의 군집으로 나누기 위해 KMeans 클러스터링 알고리즘이 사용됩니다.
- \(\hat{P}_{ij}\) 매트릭스 정의
  1. 클러스터링 결과에 따라 \(\hat{P}_{ij}\) 매트릭스를 구성합니다.
  2. 만약 토픽 i와 토픽 j가 같은 군집에 속하면 \(\hat{P}_{ij}\) = 1로 설정합니다.
  3. 만약 토픽 i와 토픽 j가 다른 군집에 속하면 \(\hat{P}_{ij}\) = u로 설정합니다.
  4. 하이퍼파라미터 u: 0 < u < 1 값을 가지며, 이는 서로 다른 그룹 내의 토픽들 간에 공유되는 정보의 비율을 같은 그룹 내 토픽들 간의 공유 정보 비율과 비교하여 조절합니다. u 값이 작을수록 다른 그룹 간의 정보 공유를 덜 중요하게 여깁니다.
- P 매트릭스 정규화: \(\hat{P}_{ij}\)는 각 행 또는 열의 합이 \(\frac{1}{K}\)이 되도록 정규화되어 최종 P 매트릭스가 됩니다. 이는 반복적인 행별 정규화와 대칭 행렬 공간으로의 투영 과정을 통해 이루어지며, 토픽들이 동일한 양의 정보를 가진다는 최적 수송의 가정과 일치시킵니다.

4.3 Overall objective function

ECR (Embedding Clustering Regularization) 활용 및 개선.

ECR (Embedding Clustering Regularization) 손실 함수
- \(L_{ECR}\)은 단어 임베딩 \(w_i\)과 토픽 임베딩 \(t_j\) 사이의 거리를 기반으로 토픽 붕괴(topic collapse) 문제를 완화하기 위해 도입된 정규화 손실 항입니다. Topic collapse 현상은 여러 토픽이 의미적으로 너무 유사해져서 구별하기 어려워지는 현상을 의미합니다.
- \(V\): i번째 단어 임베딩과 j번째 토픽 임베딩 간의 유클리드 거리의 제곱. 즉, 두 임베딩이 얼마나 다른지를 나타냅니다.
- \(K\): 단어 i와 토픽 j 사이의 최적 수송 계획(optimal transport plan)의 (i, j)번째 성분입니다. 이는 단어 i의 "정보 질량(mass)"이 토픽 j로 얼마나 "수송"되는지를 나타내는 일종의 가중치 또는 확률로 볼 수 있습니다. 이 값이 클수록 단어 i가 토픽 j에 강하게 연결되어 있음을 의미합니다.
- ECR Loss 효과: 이 손실 함수는 각 단어 임베딩이 관련 토픽 임베딩에 가깝게 군집되도록 유도합니다. \(π*\)는 단어가 어떤 토픽에 더 강하게 연결되어야 하는지를 나타내므로, 해당 연결에 대한 거리 항에 가중치를 부여하여 단어들이 적절한 토픽 임베딩 주위에 모이도록 만듭니다.
\(π*\) (최적 수송 계획) 계산: \(π*\)는 최적 수송(Optimal Transport, OT) 문제를 풀어 얻는 결과입니다. 이 문제의 목표는 주어진 제약 조건 하에서 "운송 비용"을 최소화하는 것입니다.
식 (3), (4)
- \(||w_i - t_j||^2\): 단어 임베딩과 토픽 임베딩 간의 거리 행렬입니다. 단어 i와 토픽 j를 연결하는 "운송 비용"을 나타냅니다.
- \(π*\): 행렬 내적(inner product)으로, 모든 가능한 단어-토픽 쌍에 대한 운송 비용과 수송량(\(π\))의 곱의 합입니다. 이는 총 운송 비용을 나타냅니다.
- Sinkhorn algorithm: 이러한 최적 수송(OT) 문제는 이 반복 알고리즘을 사용하여 효율적으로 해결됩니다.

NeuroMax: 2 Stage 학습방식.

Stage1 단계 학습 (\(L_{stage1}\), 식 5)
- \pi \mathbf{1}_K = \frac{1}{V} \mathbf{1}_Vπ1K=1V1V\pi \mathbf{1}_K = \frac{1}{V} \mathbf{1}_Vπ1K=V11V
- 목표: 그룹 정규화(\(L_{GR}\))에 사용될 행렬 P에 필요한 효과적인 토픽 그룹을 생성하는 데 중점을 둡니다. 이 단계는 \(L_{GR}\)이 직접 포함되지는 않지만, \(L_{ECR}\)과 \(L_{InfoNCE}\)를 통해 토픽 및 단어 임베딩이 잘 형성되도록 합니다. 초기화된 토픽임베딩과 단어임베딩이 어느정도 잘 형성되게 하기위한 과정입니다.
- Stage1 단계는 몇 에포크(epochs)만으로 효과적인 토픽 그룹을 생성할 수 있다고 명시되어 있습니다. 이 단계가 끝난 후, 토픽 임베딩을 기반으로 K-Means 클러스터링을 수행하여 그룹 정규화(P 행렬)를 위한 토픽 클러스터 관계를 정의합니다.
Stage2 단계 학습 (\(L_{stage2}\), 식 6)
- 목표: 1단계에서 얻은 P 행렬을 사용하여 토픽 간의 그룹 관계를 명시적으로 정규화하여 모델의 성능을 추가적으로 향상시킵니다.
- \(L_{GR}\): 그룹 정규화(Group Regularization) 손실 함수입니다. 이는 Stage1 단계에서 정의된 토픽 클러스터 관계(P 행렬)를 기반으로 토픽 간의 정보 수송 계획(Q)을 정규화합니다. 즉, 같은 그룹 내의 토픽들은 정보 공유가 더 활발하고 의미적으로 유사하도록 만듭니다.

5 Experiments

5.1 Settings

Datasets.

20 News Groups (20NG): A popular benchmark for topic modeling
AGNews: A corpus contains news articles from more than 2000 sources,
IMDB: A dataset of movie reviews,
Yahoo Answers (Yahoo): A dataset contains questions and answers from the Yahoo! Answer website
BBC: A corpus from BBC news website in 2004 and 2005.

Evaluation Metrics.

토픽 품질 평가 (Topic Quality)
- 토픽 일관성 (Topic Coherence): 추출된 토픽이 의미론적으로 얼마나 일관성이 있는지, 즉 관련 단어들이 얼마나 잘 묶여있는지를 측정합니다. 이는 인간의 판단과 높은 상관관계를 가지는 것으로 알려져 있습니다[7].
  - 사용된 지표: CV, NPMI, Cp 세 가지 지표를 사용합니다.
  - Topic coherence metric 계산을 위한 Reference 코퍼스
    - 이러한 topic coherence 지표들은 외부 참조 코퍼스(여기서는 Wikipedia 코퍼스의 한 버전)를 사용하여 계산됩니다.
    - NPMI 지표는 훈련 데이터셋을 참조 데이터셋으로 사용하여 별도로 계산되기도 하며, 이는 NPMI-In으로 표기됩니다.
- 토픽 다양성 (Topic Diversity, TD)
  - 각 토픽이 얼마나 고유한 단어들로 구성되어 있는지를 측정하여, 모델이 중복되거나 유사한 토픽을 생성하는 경향이 있는지 평가합니다.
  - 계산 방법: 토픽 내 단어들 중에서 고유한 단어의 비율을 사용합니다.
문서-토픽 분포 품질 평가 (Document-Topic Distribution Quality)
- 문서가 얼마나 정확하게 특정 토픽에 할당되는지, 즉 문서의 토픽 분포가 실제 문서의 내용과 얼마나 잘 일치하는지를 평가합니다.
- 평가 과제: 문서 클러스터링(document clustering) 작업에서 평가됩니다.
- 사용된 지표: NMI (Normalized Mutual Information) 와 Purity 두 가지 지표를 사용합니다[8].

Baseline models.

LDA
ProdLDA
ETM
NSTM
WeTe [11]
ECRTM
CTM (CombinedTM)
UTopic
ClusterTM [9]
BertTopic

5.2 Topic Quality and Doc-Topic Distribution Quality

데이터셋 전처리 절차: UTopic 과 동일한 방식으로 진행
성능 비교
- UTopic과의 비교: NeuroMax는 UTopic 과 '비슷한(comparable)' 수준의 성능을 보여줍니다.
- 다른 베이스라인 모델과의 비교: 다른 기존 토픽 모델들(LDA, ProdLDA, ETM, CTM, ClusterTM, BertTopic 등)에 비해서는 '지속적으로 우수한(consistently outperforms)' 성능을 보입니다.
- UTopic은 Topic coherence (토픽 일관성) 측면에서 우수한 성능을 보였으나, document-topic distribution quality에서는 좋지 않은 성능을 나타냈습니다.
실험결과 분석과 성능 원인
- PLM 지식 통합 방식: NeuroMax는 Pre-trained Language Model (PLM)의 지식(knowledge)을 토픽 모델에 통합하는 방식 때문에 이러한 결과가 나타났다고 설명합니다.
- 상호 정보 최대화의 간접성: NeuroMax는 신경 토픽 모델의 인코더에서 얻은 토픽 표현(topic representation)과 PLM에서 파생된 표현 간의 상호 정보(mutual information)를 직접적으로 최대화하지 않습니다.
- 하한 근사(Lower Bound Approximation) 사용: 대신, InfoNCE 손실 함수와 같은 상호 정보의 '하한 근사' 방식을 사용하여 PLM 지식을 통합합니다.
- 장점: 이 방식 덕분에 추론(inference) 시 PLM 구성 요소를 사용할 필요가 없어 추론 시간을 크게 줄일 수 있습니다 (Abstract 및 Section 5.4 참조). PLM을 활용하지 않는 모델에 비해 토픽 일관성이 향상됩니다.
- 단점: 하지만, PLM을 직접 사용하는 모델에 비해 임베딩 품질(embedding quality)은 다소 '최적이 아닐 수 있으며(suboptimal overall performance)' 이로 인해 UTopic (Han et al., 2023)과 '비슷한' 수준이지 압도적으로 우수하지는 않다고 분석하고 있습니다. 즉, NeuroMax는 추론 비용을 줄이면서도 효과적인 토픽 모델링을 가능하게 하는 균형 잡힌 접근 방식을 제안합니다.
NeuroMax의 강점
- NeuroMax는 다른 베이스라인 모델들과 비교했을 때, 토픽 품질은 필적할 만한(comparable) 수준을 달성했습니다.
- 특히 clustering performance (문서-토픽 분포 품질)에서는 더 뛰어난 성능을 보였습니다. 이는 문서가 어떤 토픽에 속하는지, 또는 어떤 토픽들이 함께 묶이는지 더 잘 나타낸다는 의미입니다.
- 이러한 우수성은 Contextualized information의 통합과 Group Topic Regularization (GTR) 덕분인데, 이는 토픽 그룹의 distinguishability (구분 가능성)를 향상시켰습니다.

5.3 Ablation Study

NeuroMax 에서의 Ablation Study
- Group Regularizer (GR): 토픽 간의 관계를 모델링하고 토픽들을 의미론적으로 관련된 클러스터로 그룹화하도록 돕는 정규화 항입니다. Optimal Transport(OT)를 기반으로 토픽 간 정보 전달 방식을 학습하고, 사전 정의된 토픽 클러스터 관계를 통해 정규화를 가합니다.
- InfoNCE loss: 인코더에서 추출된 토픽 표현(topic representation)과 PLM(Pretrained Language Model)에서 파생된 표현 간의 상호 정보(mutual information)를 최대화하는 데 사용되는 손실 함수입니다.
실험 결과
- 문서-토픽 분포 품질(Document-topic distribution quality)
  - 두 구성 요소(GR 및 InfoNCE) 모두 문서-토픽 분포의 품질을 향상시키는 것으로 나타났습니다.
  - 두 구성 요소를 모두 포함한 NeuroMax 모델이 가장 높은 성능을 달성했습니다
- 토픽 품질(Topic quality)
  - 두 구성 요소 중 하나를 제거하더라도 모델의 토픽 품질은 여전히 경쟁력 있는 수준을 유지했습니다.
  - 이들 구성 요소가 주로 문서-토픽 분포의 정렬에 기여하지만, 토픽 자체의 일관성이나 다양성에는 다른 요소들도 중요하게 작용함을 시사합니다.

5.4 Inference time

추론 시간 비교: NeuroMax 모델은 컨텍스트화된 임베딩을 입력으로 사용하는 UTopic 모델과 추론 시간을 비교했습니다.
매우 큰 속도 향상: 실험 결과(Table 6 참조)에 따르면, NeuroMax는 UTopic에 비해 약 300배 더 빠른 추론 속도를 달성했습니다.
경쟁력 있는 성능 유지: 이러한 상당한 속도 향상에도 불구하고, NeuroMax는 기존 모델들과 비교하여 Section 5.2에서 논의된 바와 같이 경쟁력 있는 성능을 유지
Mutual Information Maximization (MIM) 기법의 기여: 이러한 결과는 사전 학습된 언어 모델(PLM)과 관련된 높은 추론 비용 문제를 해결하는 데 MIM 방법이 매우 효과적임을 보여줍니다. 이는 성능과 비용 사이의 균형점을 잘 찾았음을 의미

6 Conclustion

Approach: NeuroMax
- Maximizing Mutual Information (MIM): Neural topic models의 인코더(encoder)에서 얻은 토픽 표현과 사전 학습된 언어 모델(PLM, Pre-trained Language Model)에서 파생된 표현 간의 상호 정보(Mutual Information Maximization)를 최대화합니다. 이는 PLM의 강력한 지식을 활용하면서도 추론 비용(inference cost)을 줄이는 데 기여합니다.
- Optimal Transport 활용: 토픽 간의 관계를 파악하기 위해 Optimal Transport 을 활용합니다. 이를 통해 토픽들이 서로 어떻게 정보를 주고받는지 분석하여 토픽 간의 의미론적 연결성을 모델링합니다.
- 그룹 토픽 정규화 (Group Topic Regularization, GTR): 토픽들을 의미론적으로 관련된 그룹으로 묶어 더욱 응집력 있는 토픽을 생성하도록 돕는 정규화 기법을 포함합니다.
Main Contributions
- 추론 시간(Inference Time) 단축: 기존 PLM을 활용하는 모델에 비해 추론 시간을 크게 줄입니다.
- 토픽 품질 향상: 더 응집력 있는 토픽(coherent topics)과 토픽 그룹(topic groups)을 생성합니다.
- 문서 임베딩 개선: 더 대표성 있는 문서 임베딩(document embeddings)을 생성하여, 이는 하류 작업(downstream tasks)의 성능 향상으로 이어집니다.

Limitations

토픽 및 그룹 개수의 사전 정의 필요성
- 설명: NeuroMax 모델을 사용할 때, 생성할 토픽의 수(K)와 토픽 그룹의 수를 사용자가 미리 하이퍼파라미터로 설정해야 합니다.
- 문제점: 실제 응용 분야에서는 적절한 토픽의 수나 그룹의 수가 고정되어 있지 않고 데이터에 따라 유동적으로 결정되어야 하는 경우가 많습니다. 이러한 수를 수동으로 설정하는 것은 비효율적이며, 최적의 성능을 보장하기 어렵습니다.
- 잠재적 해결책: 본 논문에서는 [13,14] 에서 제시된 "stick-breaking process" 와 같은 비모수적(non-parametric) 방법을 활용하여 필요한 토픽 수를 자동으로 결정할 수 있다고 언급합니다. 이는 모델이 데이터로부터 최적의 토픽 개수를 학습하도록 하는 방식입니다.
Dynamic 토픽 모델, Online learning, Streaming learning 적용의 어려움
- NeuroMax 모델은 현재 정적(static) 데이터에 대한 토픽 모델링에 초점을 맞추고 있어, 시간이 지남에 따라 토픽이 변화하거나 새로운 데이터가 지속적으로 유입되는 동적 토픽 모델(dynamic topic models), 온라인 학습(online learning), 스트리밍 학습(streaming learning)과 같은 시나리오에 적용하기 어렵습니다.
- 문제점: 이러한 시나리오에서는 데이터가 시간에 따라 변화하므로, 토픽 간의 관계를 효과적으로 포착하고 업데이트하는 능력이 중요합니다. 현재 모델은 이러한 시간적 변화를 고려하도록 설계되지 않았습니다.
- 향후 연구 방향: 논문은 시간적 데이터에서 토픽 간의 관계를 효과적으로 포착하기 위해 NeuroMax 접근 방식을 이러한 동적 환경에 적용하는 것이 향후 연구 영역이라고 제안합니다.

Reference

[1] Online continual learning through mutual information maximization

[2] Learning Transferable Visual Models From Natural Language Supervision

[3] Representation Learning with Contrastive Predictive Coding

[4] Learning deep representations by mutual information estimation and maximization

[5] InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling (AAAI 2023)

[6] Contrastive Learning for Neural Topic Model (ICLR 2021)

[7] Exploring the Space of Topic Coherence Measures

[8] An Introduction to Information Retrieval

[9] Tired of topic models? clusters of pretrained word embeddings make for fast and good topics too! (EMNLP 2020)

[10] Neural topic model via optimal transport (ICLR 2021)

[11] Representing mixtures of word embeddings with mixtures of topic embeddings.

[12] Unified neural topic model via contrastive learning and term weighting (EACL 2023)

[13] Tree-structured topic modeling with nonparametric neural variational inference (ACL 2021)

[14] Nonparametric topic modeling with neural inference (Neurocomputing 2020)

'Paper Review' 카테고리의 다른 글

[Paper Review] Groupwise Query Specialization and Quality-Aware Multi-Assignmentfor Transformer-based Visual Relationship Detection (CVPR 2024) (0)	2025.11.21
[Paper Review] CEMTM: Contextual Embedding-based Multimodal Topic Modeling (EMNLP 2025) (0)	2025.10.01
[Paper Review] Encryption-Friendly LLM Architecture (ICLR 2025) (3)	2025.07.27
[Paper Review] Toward Privacy-preserving Text Embedding Similarity with Homomorphic Encryption (EMNLP 2022 Workshop) (5)	2025.07.26
[Paper Review] HETAL: Efficient Privacy-preserving Transfer Learning with Homomorphic Encryption (ICML 2023) (4)	2025.07.25

Abstract

1 Introduction

2 Related Work

4 Proposed Method

5 Experiments

6 Conclustion

Limitations

Reference

'Paper Review' 카테고리의 다른 글

티스토리툴바