Coordinated Topic Modeling (EMNLP 2022)
Abstract
- Goal : 토픽모델링에서 코퍼스를 설명할 때 인간의 행동을 모방하기
- 새로운 문제 : CTM (Coordinated Topic Modeling)
- 기존 지식을 재사용하여 코퍼스를 더 해석 가능하게 표현해야한다.
- 데이터셋마다 잘 정의된 주제들이 있는경우에 단어들을 토픽모델링하는 문제
- e.g) News dataset : sports , politics , ... etc.
- e.g) Arxiv-AI : DL , ML , ... etc.
- Reference representation 을 이용한 semantic space ( 잘 정의된 토픽들은 semantic space 안의 축이 된다 )
- Proposed model : ECTM(2022) = Extend embedded topic model (ETM , 2020)
Introduction
- 풀어야하는 문제
- Handling the vocabulary mismatch (Topic level supervision)
Reference representation 와 문서 D 안의 단어가 다를 수 있다. (어휘 불일치)
이 문제는 Reference Projection 으로 해결한다.
- Providing surface names guidance (Document level supervision)
각 주어진 주제에 대한 표면 이름만을 알고 있으며 각 문서가 이러한 주제와 어떻게 관련되는지에 대한 추가적인 정보는 없다.
따라서 문서 수준 감독을 생성하기 위해 모델은 텍스트 간 추론 접근 방식을 사용하여 인간이 템플릿을 채워서 문서의 주제를 어떻게 결정하는지 모방해야한다.
Proposed Methodology
- Topic level supervision (using reference projection)
- Reference projection
Given reference topic 과 ETM 으로 생성한 topic 의 분포의 차이 (KL-divergence) 를 최소화한다
-> 토픽과 어휘의 불일치를 최소화한다.
- Document level supervision : 일부 문서에 대한 주제 레이블이 있다
- ECTM : Combine two supervision by regularizing the ETM’s objective
- 주어진 reference로 나타낸 주제의 전반적인 의미를 유지하는 것이 목표
- 확률 계산: 텍스트 간 추론 모델을 사용하여 알고리즘은 문서가 특정 주제(표면 이름)에 속할 확률을 계산 (Yin et al., 2019)
- 분포 행렬 생성 (θt): 계산된 확률을 기반으로 알고리즘은 document level supervision을 위한 분포 행렬(θt)을 생성
- 소프트 라벨링 : 생성된 분포 행렬의 확률은 소프트 라벨로 사용한다.
-> 각 주제의 표현이 해당 주제의 잘 정의된 의미 (reference topic) 와 일치하도록 보장하여 코퍼스의 해석 가능성을 올린다.
Comment
- 새로운 문제 CTM 정의
- ECTM : 제한된 데이터셋에서 효율적이고 해석가능성을 높인 토픽모델링방법