[Paper Review] Coordinated Topic Modeling (EMNLP 2022)

2024. 1. 15. 13:31·Paper Review

Coordinated Topic Modeling (EMNLP 2022) 

 

Abstract

 

  • Goal : 토픽모델링에서 코퍼스를 설명할 때 인간의 행동을 모방하기
  • 새로운 문제 : CTM (Coordinated Topic Modeling)
  • 기존 지식을 재사용하여 코퍼스를 더 해석 가능하게 표현해야한다.
  • 데이터셋마다 잘 정의된 주제들이 있는경우에 단어들을 토픽모델링하는 문제
  • e.g) News dataset : sports , politics , ... etc. 
  • e.g) Arxiv-AI : DL , ML , ... etc.
  • Reference representation 을 이용한 semantic space ( 잘 정의된 토픽들은 semantic space 안의 축이 된다 )
  • Proposed model : ECTM(2022) = Extend embedded topic model (ETM , 2020) 

 

 

 

Introduction

 

  • 풀어야하는 문제
  • Handling the vocabulary mismatch (Topic level supervision)

Reference representation 와 문서 D 안의 단어가 다를 수 있다. (어휘 불일치)

이 문제는 Reference Projection 으로 해결한다.

 

  • Providing surface names guidance (Document level supervision)

각 주어진 주제에 대한 표면 이름만을 알고 있으며 각 문서가 이러한 주제와 어떻게 관련되는지에 대한 추가적인 정보는 없다.

따라서 문서 수준 감독을 생성하기 위해 모델은 텍스트 간 추론 접근 방식을 사용하여 인간이 템플릿을 채워서 문서의 주제를 어떻게 결정하는지 모방해야한다.

 

 

 

 

Proposed Methodology

 

 

  • Topic level supervision (using reference projection)

- Reference projection 

 

Given reference topic 과 ETM 으로 생성한 topic 의 분포의 차이 (KL-divergence) 를 최소화한다

-> 토픽과 어휘의 불일치를 최소화한다.

 

 

  • Document level supervision : 일부 문서에 대한 주제 레이블이 있다
  • ECTM : Combine two supervision by regularizing the ETM’s objective
  • 주어진 reference로 나타낸 주제의 전반적인 의미를 유지하는 것이 목표


- 확률 계산: 텍스트 간 추론 모델을 사용하여 알고리즘은 문서가 특정 주제(표면 이름)에 속할 확률을 계산 (Yin et al., 2019) 

- 분포 행렬 생성 (θt): 계산된 확률을 기반으로 알고리즘은 document level supervision을 위한 분포 행렬(θt)을 생성
- 소프트 라벨링 : 생성된 분포 행렬의 확률은 소프트 라벨로 사용한다.

 

->  각 주제의 표현이 해당 주제의 잘 정의된 의미 (reference topic) 와 일치하도록 보장하여 코퍼스의 해석 가능성을 올린다.

 

 

 

Comment

  • 새로운 문제 CTM 정의
  • ECTM : 제한된 데이터셋에서 효율적이고 해석가능성을 높인 토픽모델링방법

 

 

'Paper Review' 카테고리의 다른 글

[Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey  (2) 2024.02.07
[Paper Review] “Low-Resource” Text Classification : A Parameter-Free Classification Method with Compressors (ACL 2023)  (0) 2024.01.15
[Paper Review] Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence (ACL 2021)  (2) 2024.01.10
[Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)  (4) 2024.01.03
[Paper Review] Context - guided Embedding Adaptation for Effective Topic Modeling in Low-Resource Regimes (Neurips 2023)  (2) 2023.12.29
'Paper Review' 카테고리의 다른 글
  • [Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey
  • [Paper Review] “Low-Resource” Text Classification : A Parameter-Free Classification Method with Compressors (ACL 2023)
  • [Paper Review] Pre-training is a Hot Topic: Contextualized Document Embeddings Improve Topic Coherence (ACL 2021)
  • [Paper Review] Topic Modeling in Embedding Spaces (TACL 2020)
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
[Paper Review] Coordinated Topic Modeling (EMNLP 2022)
상단으로

티스토리툴바