[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)

2024. 1. 3. 17:59·Paper Review

Topic Modeling in Embedding Spaces (TACL 2020) - Adji B.Dieng , Francisco J.R.Ruiz , David M.Blei 

 

* 본 paper review 는 빠르게 논문을 정리해놓기 위함의 목적이라 내용이 아주 상세하지 않은점 양해 바랍니다. 

 

Abstract

 

- Topic Modeling 의 목적 : Document to learn meaningful patterns of words 

- 기존 Topic Model 들의 문제점 : fail to learn interpretable topics when working with large and heavy-tailed vocabularies. 즉 , 어휘의 의미론적 해석을 처리하여 토픽을 학습하는데 실패한다.

 

- 본 연구에서 제안된 모델 : Embedded Topic Model (ETM) 

- ETM : A generative model of documents that marries traditional topic models with word embeddings

 

- ETM 기본 idea 

전통적인 topic model 에다가 단어 임베딩의 개념을 결합한 generative model 

 

각 단어를 해당 단어의 임베딩과 해당 단어가 할당된 토픽의 임베딩 간의 내적으로 나타내는 categorical distribution 으로 모델링함

ETM을 적합시키기 위해 효율적인 amortized variational inference algorithm 을 개발

ETM은 희귀한 단어와 불용어를 포함한 큰 어휘 (Vocabulary Size is so big) 를 다룰 때에도 해석 가능한 토픽을 발견한다. (knowledge discovery)

기존의 전통적인 topic model 인 LDA과 같은 모델들을 토픽 품질 및 예측 성능 측면에서 능가한다고 설명한다.

 

 

 

1. Introduction

해당 내용은 "토픽 모델(Topic Models)"에 대한 소개와 이 모델의 한계에 관한 내용

토픽 모델은 문서 집합에서 숨겨진 의미 구조를 발견하기 위한 통계 도구로서 소개 주로 David Blei 등의 연구자들에 의해 2003년에 소개되었습니다.

 

토픽 모델 및 그 확장은 대부분 잠재 디리클레 할당(LDA)에 기반을 두고 있다.

LDA는 각 토픽을 단어 분포로, 각 문서를 토픽들의 혼합으로 표현하는 Hierarchical Probabilistic Model

 

문서 집합에 적합하게 만들어지면 토픽은 문서 내용을 요약하고, 토픽 비율은 각 문서의 저차원 표현을 제공합니다.

LDA는 대용량 텍스트 데이터셋에 적합하도록 variational inference 과 확률적 최적화 (stochastic optimization) 를 사용하여 학습

 

그러나 LDA는 큰 어휘에 직면했을 때 문제가 발생하는데, 이는 LDA 의 기술적인 한계

큰 어휘에 대해 적용될 때 모델이 효과적이지 않고, 실무자들은 해석 가능하고 예측력이 좋은 토픽 모델을 얻기 위해 어휘를 엄격하게 제한해야 합니다. 이는 일반적으로 가장 빈도가 높거나 낮은 단어를 제거함으로써 이루어집니다. 큰 문서 집합에서는 이러한 가지치기가 중요한 용어를 제거하고 모델의 범위를 제한할 수 있습니다. 이에 대한 대응책이 아직 연구 문헌에서 다루어지지 않았다고 언급하고 있습니다.

 

해당 내용은 토픽 모델링과 워드 임베딩에 대한 연구의 병행과, 이 두 가지를 결합한 "임베디드 토픽 모델(ETM)"에 대한 내용을 다룸

 

먼저, 토픽 모델링과 함께 워드 임베딩의 개념이 나왔다고 설명하고 있습니다.

논문에서는 ETM이라는 임베디드 토픽 모델을 제안하고 있습니다.

ETM은 LDA와 Word Embedding 을 결합한 Topic Model 로, 토픽 모델의 우수한 특성과 워드 임베딩의 우수한 특성을 모두 갖추고 있다고 설명하고 있습니다.

이 모델은 문서의 해석 가능한 잠재 의미 구조를 발견하는 동시에, 단어의 의미를 낮은 차원으로 표현하는 워드 임베딩 모델로서의 역할도 수행합니다.

 

 

해당 내용에서는 ETM이 LDA와 유사하게 생성적 확률 모델이라는 점,

각 문서가 토픽의 혼합이 되고 각 관찰된 단어가 특정 토픽에 할당된다는 기본 개념을 공유합니다.

그러나 LDA와 대조적으로, ETM은 각 토픽에 대한 조건부 확률이 어휘의 저차원 표현을 포함하는 로그-선형 형태를 가지고 있다고 설명

각 용어는 임베딩으로 표현되고 각 토픽은 해당 임베딩 공간에서의 한 지점입니다. 토픽의 용어 분포는 토픽의 임베딩과 각 용어의 임베딩 간의 지수화된 내적에 비례합니다.

 

 

 

 

 

 

 

그림 2와 3은 뉴욕 타임즈의 300개 토픽 ETM에서 나온 토픽을 보여준다.

- 토픽을 임베딩 공간에서 지점으로 표현하는 것은 ETM이 대부분의 토픽 모델과 달리 stop words 의 존재에 robust 하다는 장점.

- 불용어가 어휘에 포함되어 있을 때, ETM은 해당 임베딩 공간의 해당 영역에 토픽을 할당

 

 

- Variational Inference

토픽 비율의 사후 확률은 대부분의 토픽 모델에서와 마찬가지로 직접 계산하기 어려워서 효과적으로 근사화하는 효율적인 알고리즘을 도출했다고 설명함

 

- Amortized Inference

토픽 비율을 효과적으로 근사화하기 위해 Kingma 및 Welling (2014), Rezende et al. (2014)의 방법을 추가로 사용함

 

 

 

- ETM algorithm

이전에 적합시킨 워드 임베딩을 사용할 수도 있고, 그것을 나머지 매개변수와 함께 적합시킬 수도 있다.

 

- Baseline models : LDA , NVDM (Neural Variational Document Model)  , ProdLDA 

 

NVDM : Miao et al., 2016 

PRODLDA : Srivastava and Sutton, 2017

 

 

- Evaluation Metrics

Topic Coherence (TC) : Mimno et al., 2011

Topic Diversity (TD) (Higher is better)

ETM은 특히 큰 어휘 (Big Voca size) 에 robust 한것이 가장 큰 장점

 



2. Related Work

 

3. Background

- Latent Dirichlet Allocation

- Word Embeddings

 

4. The Embedded Topic Model

 

- The generative process of Embedded Topic Model 

 

 

- 토픽 모델링에서의 일반적인 절차와 ETM(임베딩 기반 토픽 모델)의 특성

 

1. 일반적인 토픽 모델링 단계 (LDA process , Steps 1 및 2a)

  • 문서 표현: 문서를 토픽 분포로 나타낸다.
  • 토픽 할당: 관측된 각 단어에 대해 토픽 할당을 수행함

2. ETM만의 특성 (Step 2b)

  • 단어 뽑기: 관측된 단어를 해당 토픽에서 뽑는 과정
  • 사용된 임베딩: 어휘의 임베딩 (ρ) 및 할당된 토픽 임베딩을 사용하여 단어를 뽑는다.
  • 컨텍스트 벡터 활용: CBOW(Continuous Bag of Words) 가능도와 유사하게, ETM은 주변 단어 대신 토픽 단어 임베딩을 컨텍스트 벡터로 활용한다.
  • 문맥에 대한 이해 : 토픽 임베딩은 단어가 속한 문서의 토픽에 대한 정보를 담고 있으며, 이를 컨텍스트로 활용하여 단어를 추출한다.
  • 임베딩 공간 활용: 단어를 주변 단어가 아닌 문서 문맥에서 추출합니다. 단어의 의미를 낮은 차원의 공간에 표현한 단어 임베딩 행렬 (ρ)을 사용한다.

3. 임베딩 활용 전략

  • 사전에 피팅된 임베딩 사용 : ETM은 이전에 피팅된 (previous fitted) 임베딩을 사용할 수 있다.
  • 동시 학습: ETM이 model fitting 과정에서 임베딩을 학습하면 , 토픽과 함께 임베딩 공간을 동시에 찾을 수 있다.

4. 임베딩 사용 전략의 유용성

  • 말뭉치에 사용되지 않는 단어에 대한 추론 : 이 방법은 특히 임베딩에는 존재하지만 말뭉치에서 사용되지 않는 단어에 대한 토픽을 추론하는 데 유용하다.
  • 가설 세우기 : 말뭉치에 없는 단어에 대한 토픽에 대한 가설을 세울 수 있습니다.
  • 계산 가능성 : 말뭉치에 등장하지 않는 단어에 대해도 (ρ⊤_v)*(α_k)를 계산할 수 있어, 모델이 이러한 단어에 대한 토픽에 어떻게 fitting 되는지 추론할 수 있습니다.

- 정리

 

ETM은 전통적인 LDA 토픽 모델링의 절차를 채택하면서도 단어를 문서의 맥락에서 뽑아내는 독특한 방식으로 단어 임베딩을 활용한다.

특히 단어 임베딩을 동시에 학습하면서 모델이 토픽과 단어 임베딩 공간을 효과적으로 찾을 수 있다.

 

5. Inference and Estimation

 

5-1. The Marginal Likelihood

 

1) Goal : Maximize the log marginal likelihood of the documents

 

 

 

2) Problem : p(w_d | α, ρ)—is intractable to compute : 적분 계산의 문제 

-> Computation cost 가 높다.

-> 적분계산이 어려우므로 분포가정이 된 델타값을 가져와 식을 역변환한다.

 

 

 

3) 그러면 다음과같은 조건부 분포를 얻는다.

 

 

 

4) 식 (6) 은 단어 임베딩과 토픽 임베딩에 의하여 유도된다.

식(4) 의 적분계산이 매우 힘드므로 여기에서 variational inference 를 이용하여 근사식을 계산한다.

 

 

5-2. Variational Inference

 

- Variational Inference 를 이용하는 이유 

 

위에서 구한 Marginal Likelihood (CBOW likelihood) 를 최대화 해야하는데 이는 적분계산의 어려움이 있다.

따라서 이를 근사하기 위해 variational inference 를 이용한다.

 

- Using Amortized Inference

- In Eq(4) , Using bound the log of the marginal likelihood : The evidence lower bound (ELBO)

 

- In Eq(7) , ELBO 를 Maximize 하기 위해 Monte Carlo approximation of the ELBO 를 이용한다.

- Using Reparameterization trick

- Optimize the stochastic ELBO in Eq(10)

 

 

 

 

6. Empirical Study

 

- ETM : This paper proposed "Unsupervised document model"

- Evaluation measure (Topic Quality) : topic coherence and topic diversity 

 

- ETM 을 이용한 토픽모델링 : Use the information from the word embeddings to provide interpretable topics

 

- Corpora dataset : 20Newsgroups , NewYorkTimes 

 

- Baselines : LDA , NVDM , delta-NVDM , PRODLDA , PRODLDA-PWE and ETM , ETM-PWE

 

 

 

 

7. Conclusion

- ETM model : traditional topic model 인 LDA 에 word embedding 개념을 도입한 generative topic model

 

- Learning of ETM 

 

1) Interpretable word embeddings and topics 

2) Even in corpora with large vocabularies

3) Both coherent patterns of language and an accurate distribution of words

 

 

 

'Paper Review' 카테고리의 다른 글

[Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey  (2) 2024.02.07
[Paper Review] “Low-Resource” Text Classification : A Parameter-Free Classification Method with Compressors (ACL 2023)  (0) 2024.01.15
[Paper Review] Coordinated Topic Modeling (EMNLP 2022)  (0) 2024.01.15
[Paper Review] Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence (ACL 2021)  (2) 2024.01.10
[Paper Review] Context - guided Embedding Adaptation for Effective Topic Modeling in Low-Resource Regimes (Neurips 2023)  (2) 2023.12.29
'Paper Review' 카테고리의 다른 글
  • [Paper Review] “Low-Resource” Text Classification : A Parameter-Free Classification Method with Compressors (ACL 2023)
  • [Paper Review] Coordinated Topic Modeling (EMNLP 2022)
  • [Paper Review] Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence (ACL 2021)
  • [Paper Review] Context - guided Embedding Adaptation for Effective Topic Modeling in Low-Resource Regimes (Neurips 2023)
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)
상단으로

티스토리툴바