[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)

Paper Review

[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)

Seung-won Seo 2024. 1. 3. 17:59

Topic Modeling in Embedding Spaces (TACL 2020) - Adji B.Dieng , Francisco J.R.Ruiz , David M.Blei

* 본 paper review 는 빠르게 논문을 정리해놓기 위함의 목적이라 내용이 아주 상세하지 않은점 양해 바랍니다.

Abstract

- Topic Modeling 의 목적 : Document to learn meaningful patterns of words

- 기존 Topic Model 들의 문제점 : fail to learn interpretable topics when working with large and heavy-tailed vocabularies. 즉 , 어휘의 의미론적 해석을 처리하여 토픽을 학습하는데 실패한다.

- 본 연구에서 제안된 모델 : Embedded Topic Model (ETM)

- ETM : A generative model of documents that marries traditional topic models with word embeddings

- ETM 기본 idea

전통적인 topic model 에다가 단어 임베딩의 개념을 결합한 generative model

각 단어를 해당 단어의 임베딩과 해당 단어가 할당된 토픽의 임베딩 간의 내적으로 나타내는 categorical distribution 으로 모델링함

ETM을 적합시키기 위해 효율적인 amortized variational inference algorithm 을 개발

ETM은 희귀한 단어와 불용어를 포함한 큰 어휘 (Vocabulary Size is so big) 를 다룰 때에도 해석 가능한 토픽을 발견한다. (knowledge discovery)

기존의 전통적인 topic model 인 LDA과 같은 모델들을 토픽 품질 및 예측 성능 측면에서 능가한다고 설명한다.

1. Introduction

해당 내용은 "토픽 모델(Topic Models)"에 대한 소개와 이 모델의 한계에 관한 내용

토픽 모델은 문서 집합에서 숨겨진 의미 구조를 발견하기 위한 통계 도구로서 소개 주로 David Blei 등의 연구자들에 의해 2003년에 소개되었습니다.

토픽 모델 및 그 확장은 대부분 잠재 디리클레 할당(LDA)에 기반을 두고 있다.

LDA는 각 토픽을 단어 분포로, 각 문서를 토픽들의 혼합으로 표현하는 Hierarchical Probabilistic Model

문서 집합에 적합하게 만들어지면 토픽은 문서 내용을 요약하고, 토픽 비율은 각 문서의 저차원 표현을 제공합니다.

LDA는 대용량 텍스트 데이터셋에 적합하도록 variational inference 과 확률적 최적화 (stochastic optimization) 를 사용하여 학습

그러나 LDA는 큰 어휘에 직면했을 때 문제가 발생하는데, 이는 LDA 의 기술적인 한계

큰 어휘에 대해 적용될 때 모델이 효과적이지 않고, 실무자들은 해석 가능하고 예측력이 좋은 토픽 모델을 얻기 위해 어휘를 엄격하게 제한해야 합니다. 이는 일반적으로 가장 빈도가 높거나 낮은 단어를 제거함으로써 이루어집니다. 큰 문서 집합에서는 이러한 가지치기가 중요한 용어를 제거하고 모델의 범위를 제한할 수 있습니다. 이에 대한 대응책이 아직 연구 문헌에서 다루어지지 않았다고 언급하고 있습니다.

해당 내용은 토픽 모델링과 워드 임베딩에 대한 연구의 병행과, 이 두 가지를 결합한 "임베디드 토픽 모델(ETM)"에 대한 내용을 다룸

먼저, 토픽 모델링과 함께 워드 임베딩의 개념이 나왔다고 설명하고 있습니다.

논문에서는 ETM이라는 임베디드 토픽 모델을 제안하고 있습니다.

ETM은 LDA와 Word Embedding 을 결합한 Topic Model 로, 토픽 모델의 우수한 특성과 워드 임베딩의 우수한 특성을 모두 갖추고 있다고 설명하고 있습니다.

이 모델은 문서의 해석 가능한 잠재 의미 구조를 발견하는 동시에, 단어의 의미를 낮은 차원으로 표현하는 워드 임베딩 모델로서의 역할도 수행합니다.

해당 내용에서는 ETM이 LDA와 유사하게 생성적 확률 모델이라는 점,

각 문서가 토픽의 혼합이 되고 각 관찰된 단어가 특정 토픽에 할당된다는 기본 개념을 공유합니다.

그러나 LDA와 대조적으로, ETM은 각 토픽에 대한 조건부 확률이 어휘의 저차원 표현을 포함하는 로그-선형 형태를 가지고 있다고 설명

각 용어는 임베딩으로 표현되고 각 토픽은 해당 임베딩 공간에서의 한 지점입니다. 토픽의 용어 분포는 토픽의 임베딩과 각 용어의 임베딩 간의 지수화된 내적에 비례합니다.

그림 2와 3은 뉴욕 타임즈의 300개 토픽 ETM에서 나온 토픽을 보여준다.

- 토픽을 임베딩 공간에서 지점으로 표현하는 것은 ETM이 대부분의 토픽 모델과 달리 stop words 의 존재에 robust 하다는 장점.

- 불용어가 어휘에 포함되어 있을 때, ETM은 해당 임베딩 공간의 해당 영역에 토픽을 할당

- Variational Inference

토픽 비율의 사후 확률은 대부분의 토픽 모델에서와 마찬가지로 직접 계산하기 어려워서 효과적으로 근사화하는 효율적인 알고리즘을 도출했다고 설명함

- Amortized Inference

토픽 비율을 효과적으로 근사화하기 위해 Kingma 및 Welling (2014), Rezende et al. (2014)의 방법을 추가로 사용함

- ETM algorithm

이전에 적합시킨 워드 임베딩을 사용할 수도 있고, 그것을 나머지 매개변수와 함께 적합시킬 수도 있다.

- Baseline models : LDA , NVDM (Neural Variational Document Model) , ProdLDA

NVDM : Miao et al., 2016

PRODLDA : Srivastava and Sutton, 2017

- Evaluation Metrics

Topic Coherence (TC) : Mimno et al., 2011

Topic Diversity (TD) (Higher is better)

ETM은 특히 큰 어휘 (Big Voca size) 에 robust 한것이 가장 큰 장점

2. Related Work

3. Background

- Latent Dirichlet Allocation

- Word Embeddings

4. The Embedded Topic Model

- The generative process of Embedded Topic Model

- 토픽 모델링에서의 일반적인 절차와 ETM(임베딩 기반 토픽 모델)의 특성

1. 일반적인 토픽 모델링 단계 (LDA process , Steps 1 및 2a)

문서 표현: 문서를 토픽 분포로 나타낸다.
토픽 할당: 관측된 각 단어에 대해 토픽 할당을 수행함

2. ETM만의 특성 (Step 2b)

단어 뽑기: 관측된 단어를 해당 토픽에서 뽑는 과정
사용된 임베딩: 어휘의 임베딩 (ρ) 및 할당된 토픽 임베딩을 사용하여 단어를 뽑는다.
컨텍스트 벡터 활용: CBOW(Continuous Bag of Words) 가능도와 유사하게, ETM은 주변 단어 대신 토픽 단어 임베딩을 컨텍스트 벡터로 활용한다.
문맥에 대한 이해 : 토픽 임베딩은 단어가 속한 문서의 토픽에 대한 정보를 담고 있으며, 이를 컨텍스트로 활용하여 단어를 추출한다.
임베딩 공간 활용: 단어를 주변 단어가 아닌 문서 문맥에서 추출합니다. 단어의 의미를 낮은 차원의 공간에 표현한 단어 임베딩 행렬 (ρ)을 사용한다.

3. 임베딩 활용 전략

사전에 피팅된 임베딩 사용 : ETM은 이전에 피팅된 (previous fitted) 임베딩을 사용할 수 있다.
동시 학습: ETM이 model fitting 과정에서 임베딩을 학습하면 , 토픽과 함께 임베딩 공간을 동시에 찾을 수 있다.

4. 임베딩 사용 전략의 유용성

말뭉치에 사용되지 않는 단어에 대한 추론 : 이 방법은 특히 임베딩에는 존재하지만 말뭉치에서 사용되지 않는 단어에 대한 토픽을 추론하는 데 유용하다.
가설 세우기 : 말뭉치에 없는 단어에 대한 토픽에 대한 가설을 세울 수 있습니다.
계산 가능성 : 말뭉치에 등장하지 않는 단어에 대해도 (ρ⊤_v)*(α_k)를 계산할 수 있어, 모델이 이러한 단어에 대한 토픽에 어떻게 fitting 되는지 추론할 수 있습니다.

- 정리

ETM은 전통적인 LDA 토픽 모델링의 절차를 채택하면서도 단어를 문서의 맥락에서 뽑아내는 독특한 방식으로 단어 임베딩을 활용한다.

특히 단어 임베딩을 동시에 학습하면서 모델이 토픽과 단어 임베딩 공간을 효과적으로 찾을 수 있다.

5. Inference and Estimation

5-1. The Marginal Likelihood

1) Goal : Maximize the log marginal likelihood of the documents

2) Problem : p(w_d | α, ρ)—is intractable to compute : 적분 계산의 문제

-> Computation cost 가 높다.

-> 적분계산이 어려우므로 분포가정이 된 델타값을 가져와 식을 역변환한다.

3) 그러면 다음과같은 조건부 분포를 얻는다.

4) 식 (6) 은 단어 임베딩과 토픽 임베딩에 의하여 유도된다.

식(4) 의 적분계산이 매우 힘드므로 여기에서 variational inference 를 이용하여 근사식을 계산한다.

5-2. Variational Inference

- Variational Inference 를 이용하는 이유

위에서 구한 Marginal Likelihood (CBOW likelihood) 를 최대화 해야하는데 이는 적분계산의 어려움이 있다.

따라서 이를 근사하기 위해 variational inference 를 이용한다.

- Using Amortized Inference

- In Eq(4) , Using bound the log of the marginal likelihood : The evidence lower bound (ELBO)

- In Eq(7) , ELBO 를 Maximize 하기 위해 Monte Carlo approximation of the ELBO 를 이용한다.

- Using Reparameterization trick

- Optimize the stochastic ELBO in Eq(10)

6. Empirical Study

- ETM : This paper proposed "Unsupervised document model"

- Evaluation measure (Topic Quality) : topic coherence and topic diversity

- ETM 을 이용한 토픽모델링 : Use the information from the word embeddings to provide interpretable topics

- Corpora dataset : 20Newsgroups , NewYorkTimes

- Baselines : LDA , NVDM , delta-NVDM , PRODLDA , PRODLDA-PWE and ETM , ETM-PWE

7. Conclusion

- ETM model : traditional topic model 인 LDA 에 word embedding 개념을 도입한 generative topic model

- Learning of ETM

1) Interpretable word embeddings and topics

2) Even in corpora with large vocabularies

3) Both coherent patterns of language and an accurate distribution of words