Topic Modeling 최근 연구 정리하기 - (1) ACL 2023
Diversity-Aware Coherence Loss for Improving Neural Topic Models (ACL 2023)
- Abstract
1. 기존 VAE 기반의 Neural Topic Modeling (신경망 토픽 모델링) 의 문제점
Do not explicitly capture the coherence between topic words on the corpus level.
2. 문제점을 해결하기 위해 본 연구에서 제안한 새로운 Loss
A novel diversity-aware coherence loss that encourages the model to learn corpus-level coherence scores while maintaining a high diversity between topics.
새로운 Diversity-Aware Coherence Loss를 제안하였다
이 손실 함수는 모델이 말뭉치 수준에서 일관성 점수를 학습하도록 유도하는 동시에 여전히 주제 간의 높은 다양성을 유지하도록 설계되었다
이 방법은 모델이 개별 문서뿐만 아니라 전체 데이터셋을 고려할 때 주제의 일관된 구조를 보여주도록 하려는 것이다.
- Introduction
1. Topic Modeling 을 downstream task 로 사용한 경우
Summarization (Wang et al., 2020; Xiao et al., 2022)
Text generation (Wang et al., 2019; Nevezhin et al., 2020)
Dialogue modeling (Xu et al., 2021; Zhu et al., 2021)
For pretraining large language models (Chowdhery et al., 2022).
2. Topic Mearsures
2-1. Topic coherence and Topic diversity (Dieng et al., 2020).
2-2. Normalized Pointwise Mutual Information (NPMI) metric (Lau et al., 2014)
3. Topic Modeling Algorithms
- Latent Dirichlet Allocation (LDA) (Blei et al., 2003),
- VAE based neural topic model (NTM) architectures (Miao et al., 2016, 2017; Srivastava and Sutton, 2017).
- The incorporation of external embeddings (Ding et al., 2018; Card et al., 2018; Dieng et al., 2020; Bianchi et al., 2021a,b),
- Knowledge distillation (Hoyle et al., 2020)
- Model pretraining (Zhang et al., 2022)
- Baselines
(1) ProdLDA(Srivastava and Sutton, 2017)
(2) CombinedTM (Bianchi et al., 2021a)
(3) ZeroshotTM (Bianchi et al., 2021b)
(4) The standard LDA algorithm (Blei et al., 2003)
- Automatic Evaluatioin metrics to Measure
Topic coherence and diversity of the models.
- For coherence
1. NPMI metric (Bouma, 2009; Lau et al, 2014)
2. Word Embedding (WE) (Fang et al., 2016) metrics
- For diversity
1. Topic Uniqueness (TU) (Dieng et al., 2020)
2. Inversed Rank-Biased Overlap (I-RBO) (Terragni et al., 2021; Bianchi et al., 2021a)
- Results

- 제안한 방법의 장점
1. Pre-training 필요 X
2. 추가적인 Parameter 필요 X
3. 여러 벤치마크 데이터셋에서 기존의 NTM 의 성능을 크게 향상시킴
[2] HyHTM : Hyperbolic Geometry based Hierarchical Topic Models (ACL 2023)
- Abstract
Hierarchical Topic Models (HTMs)의 한계를 극복하기 위한 새로운 접근인 HyHTM (Hyperbolic geometry based Hierarchical Topic Models)에 대한 설명
주요 내용은 다음과 같습니다:
1. 기존의 HTMs의 문제점
- 기존 HTMs는 종종 하위 주제가 상위 주제와 관련이 없고 충분한 구체성이 없는 계층을 생성한다.
- 이러한 방법들은 계산 비용이 높을 수 있다.
2. HyHTM 소개
- HyHTM은 기존 HTMs의 한계를 극복하기 위한 해결책으로 소개된다.
- Hyperbolic geometry에서의 계층 정보를 포함하여 명시적으로 토픽 모델의 계층을 모델링한다.
3. HyHTM의 이점
- 주제 계층의 일관성과 구체성을 향상시키기 위한 목표가 있다.
- HyHTM은 주제 간 부모-자식 관계를 더 잘 포착할 수 있다고 주장된다.
4. 실험 결과
- 모델의 성능은 네 가지 기준과 비교되었다.
- 결과는 HyHTM이 계층적 관계를 더 잘 포착하고 일관된 주제 계층을 생성하는 데에서 기준을 능가한다고 보여준다.
5. 세분성 및 속도
- HyHTM은 계층에서 일반적인 상위 주제에서 구체적인 하위 주제로 이동함으로써 세분성을 특화시키고 있다.
- 더불어 이 모델은 최고의 성능을 보이는 기준과 비교했을 때 상당히 빠르며 더 적은 메모리를 사용한다고 강조되었다.
요약하면 기존 HTMs와 관련된 일관성, 구체성, 계산 효율성 및 메모리 사용과 관련된 문제들을 해결하기 위해 Hyperbolic geometry를 활용한다.
- Introduction
이 문장에서는 기존의 주제 모델링 접근 방식의 한계를 지적하고, 이러한 한계를 극복하기 위해 Hyperbolic geometry를 기반으로 하는 새로운 모델인 HyHTM을 제안하고 있습니다.
1. 기존 주제 모델링 접근 방식의 한계
- 기존 방식은 생성된 주제들의 순서가 말뭉치(corpus) 내의 개념의 세분성에 대한 정보를 거의 제공하지 않는다고 주장
- 세분성이란 루트 근처의 주제가 더 일반적이고, 잎 근처의 주제가 더 구체적이어야 한다는 개념
- 하위 주제는 해당하는 상위 주제와 관련이 있어야 한다
- 일부 방법은 계산 비용이 매우 높은 편이라는 문제
2. 단어의 계층 구조와 모델의 한계
- 대부분의 기존 방법은 유클리드 공간에서의 단어 임베딩을 사용하는데, 이는 계층 구조를 표현하기에는 부적절한 경우가 있습니다.
- 유클리드 공간에서의 문제 중 하나는 'crowding problem'으로, 중간 정도의 거리에 있는 단어들이 서로 가까이 있을 경향이 있다는 것입니다.
3. Hyperbolic geometry의 장점
- Hyperbolic 공간은 계층을 임베딩하는 데 효과적이며 왜곡이 낮습니다.
- Hyperbolic 공간에서의 거리 계산은 트리의 거리 계산과 유사하며, 이는 하위 항목과 상위 항목이 서로 가까이 있지만 트리의 완전히 다른 가지에 있는 잎 노드는 아주 멀리 떨어져 있다는 특성이 있습니다.
4. HyHTM 모델 소개
- HyHTM은 위의 이해를 기반으로 한 모델로, Hyperbolic geometry를 사용하여 실제 개념의 계층적 관계를 더 잘 포착하는 주제 계층을 생성
- 단어 간의 의미적 계층을 Hyperbolic 공간에서 추출하고 토픽 모델에 명시적으로 인코딩하는 새로운 방법을 제안합니다.
5. 실험 결과 및 특징
- 실험 결과와 질적 예제를 통해 계층적 정보를 포함시킴으로써 낮은 수준의 주제를 안내하고 일관되고 전문화된 주제 계층을 생성하는 효과를 보여줍니다.
- HyHTM의 다양한 모델 변형에 대한 삭제 실험을 수행 (Ablation Study) 하여 하이퍼볼릭 임베딩을 사용하는 중요성을 강조
- 데이터셋 크기에 따른 모델의 확장성을 비교하고, HyHTM이 기준 모델에 비해 훨씬 빠르며 더 작은 메모리 풋프린트를 남기는 것을 확인
6. 결론
- HyHTM의 주제 계층은 더 관련성 있고 다양하며 전문화되어 있다는 질적 결과를 제시
- Hyperbolic 공간의 역할과 알고리즘에서 한 선택들의 중요성을 자세히 논의하고 삭제 실험을 수행함
- Conclusion
이 논문에서는 HyHTM이라는 모델을 제안
이 모델은 Hyperbolic space 을 사용하여 상위 주제의 단어 계층을 추출하여 하위 주제를 더 정제하는 데 사용된다.
1. 주요 제안
- HyHTM은 hyperbolic spaces를 활용하여 상위 주제의 단어 계층을 추출하고 이를 통해 하위 주제를 더 정제하는 방식을 제안
2. 실험 결과
- 모델에 대한 양적 및 질적 실험을 통해 HyHTM이 하위 주제가 상위 주제와 관련되고 더 구체적인 계층을 생성하는 데 효과적임을 입증
3. 효율성 비교
- 실험 결과에 따르면, HyHTM은 최고 성능을 보이는 기준 모델에 비해 훨씬 효율적이라고 설명되었습니다.
- 모델의 실행이 더 빠르고 메모리 효율적인 특성을 갖추고 있습니다.
4. 주요 한계점
- HyHTM의 주요 제약은 파라미터화되어 있어서 각 수준에서 최적의 주제 수를 찾기 위해 경험적 분석이 필요하다는 것
5. 향후 연구 방향
- 논문은 HyHTM의 이러한 한계를 앞으로 조사할 계획이라고 언급하고 있습니다. 특히, 모델이 어떤 매개 변수 설정이 최적인지에 대한 추가적인 분석이 필요하다고 설명되어 있습니다.
이렇게 제안된 HyHTM은 하이퍼볼릭 공간을 활용하여 주제의 계층을 더 잘 표현하고 구체화하는데 효과적인 것으로 나타났지만, 파라미터 조정에 대한 더 깊은 이해와 최적화에 대한 더 많은 연구가 필요하다는 점이 강조되고 있습니다.
- Limitations
이 논문에서는 계층적인 주제 탐색을 위한 주제 모델에서 내재된 단어 계층을 효과적으로 통합하는 방법을 제안
이를 위해 Poincare 임베딩을 사용
이 임베딩은 위키피디아에서 학습되어 단어 간의 계층적 관련성을 계산하는 데 활용.
이 모델은 이러한 임베딩이 얼마나 효과적으로 단어 계층을 포착하는지에 의존하게 된다.
1. 임베딩 훈련 및 모델 의존성
- Poincare 임베딩은 위키피디아에서 훈련되어 단어 간의 계층적 관련성을 계산하는 데 사용
- 모델의 성능은 이러한 임베딩이 얼마나 효과적으로 단어의 계층을 포착했는지에 크게 의존하며, 임베딩이 가지는 편향이 모델로 전달될 수 있다.
2. 모델의 주요 한계점
- 모델의 두 번째 주요 한계는 이러한 임베딩이 위키피디아에서 학습되었기 때문에, 위키피디아와 매우 다른 데이터셋이나 두 단어 간의 관계가 위키피디아와 매우 다른 데이터셋에서는 성능이 좋지 않을 수 있다는 것
- 예를 들어, '주제(topic)'와 '계층(hierarchy)'이라는 단어는 과학 저널에서 위키피디아와는 다르게 관련성을 가질 것입니다.
- 모델은 이러한 차이에 취약할 수 있습니다.
3. 모델의 파라미터화 및 향후 연구 방향
- 모델은 파라미터화된 HTM이며, 미래에는 하이퍼볼릭 공간을 사용하여 주제 수를 유도하는 방법을 조사할 계획이라고 언급
이러한 제안된 모델은 Poincare 임베딩을 통해 단어 간의 계층적인 관련성을 활용하여 토픽 모델에서 단어의 계층을 효과적으로 통합하려는 시도를 하고 있습니다.
그러나 위키피디아에서의 훈련과 관련된 의존성 및 특정 도메인에서의 적용 가능성에 대한 제한사항이 있습니다.
[3] Large-Scale Correlation Analysis of Automated Metrics for Topic Models (ACL 2023)
- Abstract
토픽 모델을 평가하기 위한 자동 일관성 지표와 그것들이 인간 판단과의 상관 관계에 중점을 둔 연구
1. 배경 및 동기
- 자동 일관성 지표는 주제 모델의 품질을 평가하는 데 일반적으로 사용
- 이전 연구에서는 이러한 지표와 인간 판단 간의 상관 관계에 대한 의견이 상충된다
2. 연구 목표
- 논문은 일관성 지표의 상관 관계를 대규모로 분석하는 것을 목표로 합니다.
- 지표 평가를 위해 새로운 샘플링 접근 방식을 도입한다.
3. 방법론
- 분석은 세 개의 대규모 말뭉치(텍스트 모음)에서 수행됩니다.
- 연구는 자동 일관성 지표 간의 상관 관계를 탐색합니다.
4. 결과
- 결과는 특정 자동 일관성 지표가 상호 연관되어 있다는 것을 나타냅니다.
- 분석은 말뭉치 간 주제의 차이를 측정하는 방향으로 확장됩니다.
5. 인간 판단 평가
- 인간 판단의 신뢰성을 평가하기 위해 연구자들은 광범위한 사용자 연구를 수행
- 연구는 다양한 프록시 작업을 포함하여 설계되어, 인간의 의사 결정 과정에 대한 미세한 통찰력을 얻도록 합니다.
6. 결과 발견
- 연구 결과, 특히 일반적인 말뭉치를 사용할 때, 자동 일관성 지표와 인간 판단 간에 어느 정도의 상관 관계가 있음을 나타냅니다.
요약적으로, 이 논문은 주제 모델 평가의 맥락에서 자동 일관성 지표와 인간 판단 간의 관계를 이해하는 데 기여합니다.
새로운 샘플링 방법을 소개하고, 다양한 말뭉치에서 대규모 분석을 수행하며, 이러한 맥락에서 인간 판단의 신뢰성을 평가하기 위한 사용자 연구를 포함하고 있습니다.
결과는 특히 일반적인 말뭉치에서 자동 지표와 인간 판단 간의 상관 관계를 보여줍니다.
[4] Nonlinear Structural Equation Model Guided Gaussian Mixture Hierarchical Topic Modeling (ACL 2023)
- Abstract
- 텍스트 말뭉치로부터 의미 있는 토픽을 추출하기 위한 계층적 토픽 모델인 NSEM-GMHTM에 대한 소개
- 계층적 토픽 모델은 문서의 기저 의미 구조를 자동으로 조직화하기 위한 것
- 기존 모델에서는 토픽 계층이 트리 구조라고 가정하거나 동일 레벨의 토픽 간의 대칭적 종속성을 무시하는 등의 한계
- 텍스트 데이터의 희소성이 분석을 복잡하게 만든다는 문제점
- 제안된 NSEM-GMHTM은 deep topic model 로, 데이터의 희소성에 대응하기 위해 Gaussian mixture prior distribution 를 도입
- 이 모델은 토픽 간의 계층적이고 대칭적 관계를 명시적으로 모델링하기 위해 종속성 행렬과 비선형 구조 방정식을 사용
- NSEM-GMHTM은 기존의 계층적 토픽 모델을 개선하여 토픽 간의 관계를 더 유연하고 현실적으로 표현할 수 있도록 합니다.
- Gaussian mixture prior 은 모델이 효과적으로 sparse data 를 처리하는 데 도움
- 종속성 행렬 및 비선형 구조 방정식은 이전 모델에서 무시되었던 대칭적 종속성에 대응합니다.
폭넓게 사용되는 데이터셋에서 수행된 실험 결과로는 NSEM-GMHTM이 최첨단 기준 모델들 (SOTA) 보다 더 일관된 토픽을 생성하고 더 합리적인 토픽 구조를 형성한다는 것을 보여줍니다.
이는 문서의 의미적 조직을 발견하는 데 있어서 모델의 효과적인 성능을 나타냅니다.
- Limitaioins
이 문장은 제시된 방법이 더 포괄적이고 고품질의 주제 구조를 채굴하는 작은 단계에 불과하며, 앞으로 다뤄야 할 많은 문제가 있다는 것을 언급하고 있습니다.
예를 들어, 현재 다양한 모델에 의해 채굴된 주제 구조의 평가에는 여전히 제한이 있습니다.
주제 전문화를 통한 주제 계층적 지표의 타당성 및 클러스터링을 통한 주제의 대칭 구조의 타당성과 같은 사례가 있습니다.
이러한 평가 방법들은 주제 구조의 해석 가능성을 측정하기 위한 횡적인 시연에 불과합니다.
- 토픽 모델링 분야에서는 여전히 많은 사전 정보가 사용 가능하며, WordNet과 같은 것이 있습니다.
만약 연구자들이 모델로부터 얻은 주제 단어에 대한 사전 인간 지식과 정보를 결합하여, 더 많은 사람의 이해와 일관성이 있는 양적 측정 지표를 정의할 수 있다면, 이는 토픽 모델링 분야에서의 추가적인 탐구에 도움이 될 것
- 토픽 모델링 분야에서의 추가적인 연구를 위해 인간 지식과 모델로부터 얻은 정보를 효과적으로 결합하는 방법에 대한 고려가 필요
[5] Reinforcement Learning for Topic Models (ACL 2023)
- Abstract
강화 학습 기술을 사용하여 토픽 모델링을 개선하는 연구 방법을 설명.
구체적으로는 ProdLDA(확률적 문서 모델 및 잠재 디리클레 할당)에서 변이형 오토인코더를 연속 액션 공간 강화 학습 정책으로 대체하는 접근 방식
1. 토픽 모델링에서 강화 학습 활용
- 연구자들은 토픽 모델링 작업에 강화 학습 기술을 적용
- 일반적인 토픽 모델링 방법 중 하나인 ProdLDA의 변이형 오토인코더를 연속 액션 공간 강화 학습 정책으로 대체
2. REINFORCE 알고리즘을 사용한 훈련
- 시스템은 REINFORCE 알고리즘을 사용하여 훈련시킨다. 이는 강화 학습의 인기 있는 정책 그라디언트 방법 중 하나
- REINFORCE를 활용하여 강화 학습 정책을 최적화하고 모델이 시간이 지남에 따라 성능을 향상시킬 수 있도록 합니다.
3. ProdLDA에 대한 수정
- 연구자들은 모델의 전반적인 성능을 향상시키기 위해 여러 가지 수정을 도입합니다. 이러한 수정 사항에는 다음이 포함됩니다:
- 신경망 아키텍처의 현대화.
- ELBO (Evidence Lower Bound) 손실 가중치 적용.
- 문맥적 임베딩 사용, 아마도 더 풍부한 의미 정보를 포착하기 위함.
- 각 훈련 단계에서 토픽 다양성 및 일관성을 계산하여 학습 과정을 모니터링
4. 실험적 평가
- 11 개의 데이터 세트에서 실험을 수행하여 제안된 모델의 성능을 평가
- RL을 통해 개발된 비지도 학습 모델은 실험에서 모든 다른 비지도 학습 모델보다 우수한 성능을 보임
- 대부분의 경우 지도 레이블을 사용하는 모델과 비슷하거나 더 나은 성능을 보임
5. 다른 모델과의 비교
- 이 연구에서 개발된 모델은 일부 데이터 세트에서 지도 레이블 및 대조 학습을 사용하는 모델에 비해 성능이 떨어지는 것으로 나타납니다.
6. Ablation Study
- ProdLDA에 가한 변경 사항에서 성능 향상의 경험적 증거를 제공하기 위해 Ablation Study를 수행합니다.
- Ablation Study의 결과는 강화 학습 정식이 모델의 성능을 크게 향상시킨다는 것을 보여줍니다.
종합적으로, 연구자들은 강화 학습을 통합하여 토픽 모델링을 개선하는 새로운 방법을 제안하며, 모델 아키텍처 및 훈련 과정을 향상시키기 위한 여러 가지 수정을 도입합니다. 실험 결과는 RL로 훈련된 개발된 모델이 다른 비지도 학습 모델보다 우수하며 대부분의 경우 지도 레이블을 사용하는 모델과 경쟁력을 보인다는 것을 시사합니다.
- Limitations
이 문장에서는 연구된 강화 학습(RL) 모델의 주요 제한 사항과 모델이 특히 어떤 상황에서 성능이 감소하는지에 대한 정보를 제공
1. 어휘 크기 증가에 따른 성능 하락
- 연구자들은 RL 모델이 어휘 크기가 증가함에 따라 성능이 감소하는 경향을 식별
- 즉, 모델의 성능은 어휘 크기가 커질수록 감소한다는 한계점
2. 다른 토픽 모델과의 비교에서의 높은 분산
- RL 모델은 몇 가지 다른 토픽 모델에 비해 높은 분산을 가지고 있습니다. 이는 모델의 예측이 일관성 없이 변할 수 있다는 것
3. 다양한 데이터셋에서의 일반화 어려움
- RL 모델이 테스트된 모든 데이터 세트에서 잘 수행되었지만, 이 성능이 다른 데이터 세트로 일반화되지 않을 수 있다는 제한
4. Policy Dropout Sweep에서 얻은 통찰의 한정성
- Policy Dropout Sweep에서 얻은 통찰이 다른 토픽 모델에는 적용되지 않을 수 있다는 제한이 있습니다.
5. 성능 비교의 한계
- 다른 연구에서 제안된 모델과의 성능 차이가 너무 과장되었을 수 있습니다.
- 특히, Bianchi et al. (2020a)에서 사용된 SBERT 모델이 품질이 낮은 문장 임베딩을 생성하는데 사용되었다는 것이 그 이유 중 하나로 언급되었습니다.
6. 다른 전처리 및 하이퍼파라미터 설정의 영향
- Nguyen and Luu (2021)와의 비교를 위해 미세 조정된 전처리를 사용했으며, 이는 모델의 성능에 영향을 미칠 수 있습니다.
- 모델은 어떤 언어에서든 작동할 수 있지만, 연구에서 사용된 데이터 세트는 모두 영어로 이루어져 있습니다.
- 모델은 다른 몇몇 모델에 비해 추가 하이퍼파라미터를 가지고 있으며, 따라서 더 많은 튜닝과 GPU 컴퓨팅이 필요할 수 있습니다.
7. 하드웨어 및 계산 비용
- 초기 모델은 8GB RAM 및 Nvidia GTX 1060 GPU(3GB VRAM)을 사용하여 개발되었으며, 약 100 GPU 시간이 소요되었습니다.
- 뉴욕 타임즈 데이터셋을 사용한 실험은 256GB RAM 및 Nvidia RTX 3090 GPU를 사용하여 약 100 GPU 시간이 소요되었습니다.
- 다른 실험은 128GB RAM 및 Nvidia TITAN RTX GPU를 사용하여 약 600 GPU 시간이 소요되었습니다.