[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)
Topic Modeling in Embedding Spaces (TACL 2020) - Adji B.Dieng , Francisco J.R.Ruiz , David M.Blei
* 본 paper review 는 빠르게 논문을 정리해놓기 위함의 목적이라 내용이 아주 상세하지 않은점 양해 바랍니다.
Abstract
- Topic Modeling 의 목적 : Document to learn meaningful patterns of words
- 기존 Topic Model 들의 문제점 : fail to learn interpretable topics when working with large and heavy-tailed vocabularies. 즉 , 어휘의 의미론적 해석을 처리하여 토픽을 학습하는데 실패한다.
- 본 연구에서 제안된 모델 : Embedded Topic Model (ETM)
- ETM : A generative model of documents that marries traditional topic models with word embeddings
- ETM 기본 idea
전통적인 topic model 에다가 단어 임베딩의 개념을 결합한 generative model
각 단어를 해당 단어의 임베딩과 해당 단어가 할당된 토픽의 임베딩 간의 내적으로 나타내는 categorical distribution 으로 모델링함
ETM을 적합시키기 위해 효율적인 amortized variational inference algorithm 을 개발
ETM은 희귀한 단어와 불용어를 포함한 큰 어휘 (Vocabulary Size is so big) 를 다룰 때에도 해석 가능한 토픽을 발견한다. (knowledge discovery)
기존의 전통적인 topic model 인 LDA과 같은 모델들을 토픽 품질 및 예측 성능 측면에서 능가한다고 설명한다.
1. Introduction
해당 내용은 "토픽 모델(Topic Models)"에 대한 소개와 이 모델의 한계에 관한 내용
토픽 모델은 문서 집합에서 숨겨진 의미 구조를 발견하기 위한 통계 도구로서 소개 주로 David Blei 등의 연구자들에 의해 2003년에 소개되었습니다.
토픽 모델 및 그 확장은 대부분 잠재 디리클레 할당(LDA)에 기반을 두고 있다.
LDA는 각 토픽을 단어 분포로, 각 문서를 토픽들의 혼합으로 표현하는 Hierarchical Probabilistic Model
문서 집합에 적합하게 만들어지면 토픽은 문서 내용을 요약하고, 토픽 비율은 각 문서의 저차원 표현을 제공합니다.
LDA는 대용량 텍스트 데이터셋에 적합하도록 variational inference 과 확률적 최적화 (stochastic optimization) 를 사용하여 학습
그러나 LDA는 큰 어휘에 직면했을 때 문제가 발생하는데, 이는 LDA 의 기술적인 한계
큰 어휘에 대해 적용될 때 모델이 효과적이지 않고, 실무자들은 해석 가능하고 예측력이 좋은 토픽 모델을 얻기 위해 어휘를 엄격하게 제한해야 합니다. 이는 일반적으로 가장 빈도가 높거나 낮은 단어를 제거함으로써 이루어집니다. 큰 문서 집합에서는 이러한 가지치기가 중요한 용어를 제거하고 모델의 범위를 제한할 수 있습니다. 이에 대한 대응책이 아직 연구 문헌에서 다루어지지 않았다고 언급하고 있습니다.
해당 내용은 토픽 모델링과 워드 임베딩에 대한 연구의 병행과, 이 두 가지를 결합한 "임베디드 토픽 모델(ETM)"에 대한 내용을 다룸
먼저, 토픽 모델링과 함께 워드 임베딩의 개념이 나왔다고 설명하고 있습니다.
논문에서는 ETM이라는 임베디드 토픽 모델을 제안하고 있습니다.
ETM은 LDA와 Word Embedding 을 결합한 Topic Model 로, 토픽 모델의 우수한 특성과 워드 임베딩의 우수한 특성을 모두 갖추고 있다고 설명하고 있습니다.
이 모델은 문서의 해석 가능한 잠재 의미 구조를 발견하는 동시에, 단어의 의미를 낮은 차원으로 표현하는 워드 임베딩 모델로서의 역할도 수행합니다.
해당 내용에서는 ETM이 LDA와 유사하게 생성적 확률 모델이라는 점,
각 문서가 토픽의 혼합이 되고 각 관찰된 단어가 특정 토픽에 할당된다는 기본 개념을 공유합니다.
그러나 LDA와 대조적으로, ETM은 각 토픽에 대한 조건부 확률이 어휘의 저차원 표현을 포함하는 로그-선형 형태를 가지고 있다고 설명
각 용어는 임베딩으로 표현되고 각 토픽은 해당 임베딩 공간에서의 한 지점입니다. 토픽의 용어 분포는 토픽의 임베딩과 각 용어의 임베딩 간의 지수화된 내적에 비례합니다.


그림 2와 3은 뉴욕 타임즈의 300개 토픽 ETM에서 나온 토픽을 보여준다.
- 토픽을 임베딩 공간에서 지점으로 표현하는 것은 ETM이 대부분의 토픽 모델과 달리 stop words 의 존재에 robust 하다는 장점.
- 불용어가 어휘에 포함되어 있을 때, ETM은 해당 임베딩 공간의 해당 영역에 토픽을 할당
- Variational Inference
토픽 비율의 사후 확률은 대부분의 토픽 모델에서와 마찬가지로 직접 계산하기 어려워서 효과적으로 근사화하는 효율적인 알고리즘을 도출했다고 설명함
- Amortized Inference
토픽 비율을 효과적으로 근사화하기 위해 Kingma 및 Welling (2014), Rezende et al. (2014)의 방법을 추가로 사용함
- ETM algorithm
이전에 적합시킨 워드 임베딩을 사용할 수도 있고, 그것을 나머지 매개변수와 함께 적합시킬 수도 있다.
- Baseline models : LDA , NVDM (Neural Variational Document Model) , ProdLDA
NVDM : Miao et al., 2016
PRODLDA : Srivastava and Sutton, 2017
- Evaluation Metrics
Topic Coherence (TC) : Mimno et al., 2011
Topic Diversity (TD) (Higher is better)
ETM은 특히 큰 어휘 (Big Voca size) 에 robust 한것이 가장 큰 장점
2. Related Work
3. Background
- Latent Dirichlet Allocation
- Word Embeddings
4. The Embedded Topic Model
- The generative process of Embedded Topic Model

- 토픽 모델링에서의 일반적인 절차와 ETM(임베딩 기반 토픽 모델)의 특성
1. 일반적인 토픽 모델링 단계 (LDA process , Steps 1 및 2a)
- 문서 표현: 문서를 토픽 분포로 나타낸다.
- 토픽 할당: 관측된 각 단어에 대해 토픽 할당을 수행함
2. ETM만의 특성 (Step 2b)
- 단어 뽑기: 관측된 단어를 해당 토픽에서 뽑는 과정
- 사용된 임베딩: 어휘의 임베딩 (ρ) 및 할당된 토픽 임베딩을 사용하여 단어를 뽑는다.
- 컨텍스트 벡터 활용: CBOW(Continuous Bag of Words) 가능도와 유사하게, ETM은 주변 단어 대신 토픽 단어 임베딩을 컨텍스트 벡터로 활용한다.
- 문맥에 대한 이해 : 토픽 임베딩은 단어가 속한 문서의 토픽에 대한 정보를 담고 있으며, 이를 컨텍스트로 활용하여 단어를 추출한다.
- 임베딩 공간 활용: 단어를 주변 단어가 아닌 문서 문맥에서 추출합니다. 단어의 의미를 낮은 차원의 공간에 표현한 단어 임베딩 행렬 (ρ)을 사용한다.
3. 임베딩 활용 전략
- 사전에 피팅된 임베딩 사용 : ETM은 이전에 피팅된 (previous fitted) 임베딩을 사용할 수 있다.
- 동시 학습: ETM이 model fitting 과정에서 임베딩을 학습하면 , 토픽과 함께 임베딩 공간을 동시에 찾을 수 있다.
4. 임베딩 사용 전략의 유용성
- 말뭉치에 사용되지 않는 단어에 대한 추론 : 이 방법은 특히 임베딩에는 존재하지만 말뭉치에서 사용되지 않는 단어에 대한 토픽을 추론하는 데 유용하다.
- 가설 세우기 : 말뭉치에 없는 단어에 대한 토픽에 대한 가설을 세울 수 있습니다.
- 계산 가능성 : 말뭉치에 등장하지 않는 단어에 대해도 (ρ⊤_v)*(α_k)를 계산할 수 있어, 모델이 이러한 단어에 대한 토픽에 어떻게 fitting 되는지 추론할 수 있습니다.
- 정리
ETM은 전통적인 LDA 토픽 모델링의 절차를 채택하면서도 단어를 문서의 맥락에서 뽑아내는 독특한 방식으로 단어 임베딩을 활용한다.
특히 단어 임베딩을 동시에 학습하면서 모델이 토픽과 단어 임베딩 공간을 효과적으로 찾을 수 있다.
5. Inference and Estimation
5-1. The Marginal Likelihood
1) Goal : Maximize the log marginal likelihood of the documents

2) Problem : p(w_d | α, ρ)—is intractable to compute : 적분 계산의 문제
-> Computation cost 가 높다.
-> 적분계산이 어려우므로 분포가정이 된 델타값을 가져와 식을 역변환한다.


3) 그러면 다음과같은 조건부 분포를 얻는다.

4) 식 (6) 은 단어 임베딩과 토픽 임베딩에 의하여 유도된다.
식(4) 의 적분계산이 매우 힘드므로 여기에서 variational inference 를 이용하여 근사식을 계산한다.

5-2. Variational Inference
- Variational Inference 를 이용하는 이유
위에서 구한 Marginal Likelihood (CBOW likelihood) 를 최대화 해야하는데 이는 적분계산의 어려움이 있다.
따라서 이를 근사하기 위해 variational inference 를 이용한다.
- Using Amortized Inference
- In Eq(4) , Using bound the log of the marginal likelihood : The evidence lower bound (ELBO)
- In Eq(7) , ELBO 를 Maximize 하기 위해 Monte Carlo approximation of the ELBO 를 이용한다.
- Using Reparameterization trick
- Optimize the stochastic ELBO in Eq(10)
6. Empirical Study
- ETM : This paper proposed "Unsupervised document model"
- Evaluation measure (Topic Quality) : topic coherence and topic diversity
- ETM 을 이용한 토픽모델링 : Use the information from the word embeddings to provide interpretable topics
- Corpora dataset : 20Newsgroups , NewYorkTimes
- Baselines : LDA , NVDM , delta-NVDM , PRODLDA , PRODLDA-PWE and ETM , ETM-PWE
7. Conclusion
- ETM model : traditional topic model 인 LDA 에 word embedding 개념을 도입한 generative topic model
- Learning of ETM
1) Interpretable word embeddings and topics
2) Even in corpora with large vocabularies
3) Both coherent patterns of language and an accurate distribution of words