[Paper Review] TopicGPT: A Prompt-based Topic Modeling Framework (NAACL 2024)

TopicGPT: A Prompt-based Topic Modeling Framework (NAACL 2024)

Abstract

A prompt-based framework for topic modeling: TopicGPT는 텍스트 데이터에서 숨겨진 주제를 찾기 위해 제안된 프레임워크입니다. 전통적인 방법들은 주제를 단어의 집합으로 표현하기 때문에 주제를 해석하기 어렵고, 주제의 형식이나 구체성을 사용자가 조절할 수 없었습니다.
TopicGPT의 기능
- 프롬프트 기반: TopicGPT는 큰 언어 모델(LLM)을 사용하여 주제를 생성하는 프롬프트 기반 접근 방식을 사용합니다.
  주제의 품질: 인간이 분류한 주제와 비교했을 때, TopicGPT는 0.74의 조화 평균 순도를 달성하며, 기존 모델보다 더 나은 결과를 보여줍니다.
- 해석 가능성: TopicGPT는 모호한 단어 집합 대신 자연어 레이블과 설명을 사용하여 생성된 주제를 이해하기 쉽게 만듭니다.
  사용자 맞춤화: 사용자는 생성된 주제를 정의할 수 있는 제약 조건을 설정하고, 모델 재학습 없이 주제를 수정할 수 있으며, 이는 높은 유연성을 제공합니다.
성능 비교: TopicGPT는 기존의 주제 모델보다 더 해석 가능하고, 사용자가 원하는 주제를 구체적으로 제어할 수 있어 보다 직관적인 주제 구조를 만듭니다.

1 Introduction

Topic modeling: 대량의 텍스트 문서에서 잠재적인 주제 구조를 발견하는 데 사용되는 기법입니다. 전통적인 주제 모델(예: LDA)은 문서를 주제의 혼합으로 표현하며, 각 주제는 단어의 분포로 나타납니다.
Motivation
- 해석상의 어려움: LDA와 같은 전통적인 모델의 결과는 무작위적인 단어들이 포함될 수 있어 해석하기 어렵습니다.
- 사용자 상호작용: 특정 도메인 지식이나 필요에 기반하여 사용자가 주제를 안내할 수 있는 모델도 존재하지만, 이들 또한 '단어 집합' 형식으로 인해 활용에 제한이 있습니다.
TopicGPT 소개: TopicGPT는 대규모 언어 모델(LLM)을 활용하여 주제 생성을 인터랙티브하게 수행하는 접근 방식을 제시합니다.
- Topic generation: 문서 샘플과 이전에 생성한 주제 목록을 바탕으로 새로운 주제를 반복적으로 생성합니다.
- Topic assignment: 생성된 주제 중 하나 또는 여러 개를 새로운 문서에 할당하며, 주제 할당을 지원하기 위해 문서에서 인용문도 제공합니다.
- 검증 가능성: TopicGPT 프레임워크는 전통적인 주제 모델링에서 발생할 수 있는 유효성 문제를 해결합니다.

TopicGPT produces higher-quality topics than competing approaches.

TopicGPT의 품질: TopicGPT는 다른 경쟁 방법들보다 높은 품질의 주제를 생성합니다.
주제와 인간 주제의 일치: TopicGPT가 생성한 주제와 인간이 주석한 주제 간의 일치도가 더 높습니다.
LDA, SeededLDA, BERTopic와 비교하여 사전 정의된 두 데이터셋(위키피디아 기사, 의회 법안)에 대해 더 정확합니다.
정량적 측정: Harmonic Mean Purity: TopicGPT는 위키피디아에 대해 0.74의 점수를 생성했으며, 이는 다른 모델에 비해 더 좋은 성능을 나타냅니다(예: LDA는 0.64).
주제 정렬: TopicGPT의 주제가 인간 라벨 주제와 더 잘 일치합니다. 예를 들어, TopicGPT의 30.3%가 잘못 정렬된 반면, LDA는 62.4%가 잘못 정렬되었습니다.
다양한 평가 지표: 세 가지 외부 클러스터링 메트릭 (harmonic mean purity, normalized mutual information, adjusted Rand index)을 사용하여 주제의 정렬을 측정했습니다.
주제 품질의 강건성: 다양한 프롬프트와 데이터 설정에서도 TopicGPT의 주제 품질이 우수함을 보여줍니다.

TopicGPT produces more interpretable topics.

TopicGPT 는 전통적인 주제 모델이 제공하는 모호한 단어 조합 대신 사용자가 이해하기 쉬운 자연어 레이블과 설명을 포함하는 해석 가능한 주제를 생성합니다.
주요 기능: 사용자는 초기 주제의 일부 예시를 제공함으로써 특정 요구에 맞는 주제를 조정할 수 있습니다.
- 각 문서와 관련된 주제를 선별하여 주제-문서 간의 연결성을 제시하며, 이 과정에서 문서에서 주제를 뒷받침하는 인용을 제공한다.
- TopicGPT는 명확하고 직관적인 주제 구조를 만드는 것을 목표로 하여, 전체 과정이 해석 가능하도록 만듭니다.

TopicGPT is customizable to fit user needs

TopicGPT의 커스터마이징: TopicGPT는 사용자 요구에 맞게 조정이 가능합니다.
주제 해석 가능성: 사용자는 생성된 토픽을 자신의 특정 요구에 맞게 안내할 수 있는 기능을 가집니다.
예시 토픽 제공: 사용자는 초기 숫자의 예시 토픽을 제공하여 생성될 토픽의 범위와 형식을 유저친화적으로 조정할 수 있으며, 이는 데이터에 특정하지 않거나 전체 토픽을 대표할 필요가 없습니다.
결과 검토 후 편집: 초기 결과를 검토한 후, 사용자는 생성된 토픽들에서 수동으로 수정하거나 제거하여 일관성과 목표 지향적인 목록을 큐레이션할 수 있습니다.

Open-source LLMs are competent topic assigners but bad topic generators.

Topic generation 능력: Mistral-7B-Instruct 와 같은 Open-source LLM 들은 주제를 생성하는 데는 부족하나, topic assignment 에 있어서는 준수합니다.
비용 문제: 대부분의 실험에서 GPT-4를 사용하여 주제를 생성하고, GPT-3.5-turbo를 사용하여 주제를 할당하는데, 이 과정에서 데이터 세트 당 약 100달러의 비용이 발생하는 비용 문제가 있습니다.
대안 모델: 비용 문제를 해결하기 위해, Mistral-7B-Instruct라는 오픈 소스 LLM 모델을 실험했는데, 이 모델은 주제를 할당하는 데는 좋지만, 주제를 생성하는 데 있어서 지시를 제대로 수행하지 못했습니다.
Future work: 오픈 소스 LLM의 주제 생성 능력을 향상시키는 것이 향후 중요한 연구 방향입니다.

2 Related Work

Topic modeling for content analysis

전통적인 주제 모델링 방법: Latent Dirichlet Allocation (LDA)는 문서에서 잠재적인 주제를 발견하기 위해 사용됩니다.
LDA는 주제-단어와 문서-주제 분포를 이용하여 문서의 주제를 파악합니다.
그러나 이러한 주제의 표현은 해석하기 어렵습니다.
주제를 해석하는 과정에서 주관적인 노력이 필요하며, 이로 인해 신뢰성과 유효성의 문제점이 발생할 수 있습니다.
TopicGPT 연구
- 본 연구는 자연어에서 더 해석 가능한 주제를 생성하려는 이전 연구 [3,4,5]를 따릅니다.
- 본 연구는 Seeded/anchored topic models (SeededLDA [1]), hierarchical topic models [2] 및 주제에 제약을 두는 이전의 방법론들에 기반하고 있습니다.

LLM-based content analysis

LLMs: ChatGPT와 같은 LLM은 텍스트 분석에 새로운 접근 방식을 가능하게 했습니다. 이들은 입력된 텍스트를 분석하고 해석하는데 도움을 줍니다.
프롬프트 기법 사용: 연구자들은 LLM에 프롬프트 기법을 활용하여 다음과 같은 관련 내용 분석 작업을 수행했습니다
- Text clustering: 문서들을 주제별로 그룹화하여 비슷한 내용을 가진 문서들을 묶는 작업.
  Viswanathan et al.(2023), Zhang et al.(2023), Hoyle et al.(2023) 등
- Abstractive summarization: 문서의 핵심 내용을 간결하게 요약하는 작업, Liu and Healey(2023).
- deductive qualitative coding: 문서 내에서 주제를 식별하고 분류하는 과정으로, Tai et al.(2023), Chew et al.(2023)
Topic modeling with contextualized embeddings: Sia et al.(2020), Thompson과 Mimno(2020), Bianchi et al.(2021), Grootendorst(2022) 등의 연구에서 사전 훈련된 모델의 임베딩을 사용하여 topic modeling 을 연구.
LLM의 레이블링 및 평가: 최근 연구에서는 Rijcken et al.(2023)이 LLM을 통해 주제를 레이블링하고, Stammbach et al.(2023)가 기존의 주제 모델에서 생성된 주제를 평가하는 데 사용.

Comparison to GoalEx

TopicGPT는 GoalEx[6] 연구와 가장 유사하지만, topic modeling 에 맞게 특별히 설계되었습니다.
목표: GoalEx는 클러스터링과 corpus partitioning 에 중점을 두지만, TopicGPT는 모든 문서에서 한 번에 모든 주제 프롬프트를 제공하여 효율적인 확장을 목표로 합니다.
Topic refinement method: GoalEx는 각 문서가 대략 한 번만 지원되는 클러스터만 유지하는 반면, TopicGPT는 문서들이 어떤 의미에서 함께 나타나는 경우를 고려하여 의미론적으로 topic refinement 합니다. 이로 인해 중복된 클러스터가 제거될 수 있습니다.
성능 평가: GoalEx는 클러스터 recovery 만 평가되지만, TopicGPT는 안정성과 실제 주제와의 정렬을 기준으로 벤치마킹됩니다.
결과 해석: TopicGPT는 텍스트 클러스터링 이상의 유용성을 가진 content analysis 도구로 평가되고 있습니다.

3 Methodology

3.1 Stage 1: Topic Generation

주제 생성 과정: LLM을 사용하여 입력 데이터셋에 대해 주제를 생성합니다.
주어진 문서와 기존의 주제 집합을 바탕으로, 모델은 문서에 가장 적합한 기존 주제에 할당하거나, 더 적합한 새로운 주제를 생성하여 주제 집합에 추가합니다.
주제는 간결한 라벨과 설명(예: "Trade: 자본, 상품 및 서비스의 교환을 언급")으로 정의됩니다.
- 주제예시) Trade: Mentions the exchange of capital, goods, and services
- TopicGPT 는 주제를 자연어를 통한 설명으로 정의합니다. 문장형태로 주제를 설명합니다.
초기 주제: Seed-guided
초기 단계에서는 몇 개의 사용자(유저)가 작성한 주제(이 실험에서는 2개의 예시 주제)가 주제 집합을 형성하여 주제 생성 형식을 보여주는 역할을 합니다.
Refineing generated topics: 주제 생성이 완료되면, 주제 리스트를 정제하여 중복되거나 자주 사용되지 않는 주제를 제거합니다.
Pre-trained sentence-transformer 기반의 임베딩을 사용하여 코사인 유사도 기반의 유사한 주제 쌍을 찾고, 이를 병합합니다.
즉, topic diversity 를 높히고, 주제 품질을 개선하기 위한 추가작업입니다.
발생 빈도가 낮은 마이너 주제(예: 제거 임계값 미달)는 최종 리스트에서 삭제됩니다.

Output: 최종적으로, 어떤 주제가 문서에 할당되었는지와 그 주제에 대한 설명을 포함하여 문서와 주제 간의 유의미한 연관성을 제공합니다.

3.2 Stage2: Topic Assignment

목적: 주제 할당 단계에서 생성된 주제와 데이터셋의 문서 사이에 유효하고 해석 가능한 연관성을 설정하는 것이 목표입니다.
작업 흐름: LLM에 주제 리스트 제공: 생성된 주제 리스트와 2-3개의 예시 및 관심 있는 문서를 LLM에 제공합니다.
주제 할당 지시: LLM에 주어진 문서에 대해 하나 이상의 주제를 할당하도록 지시합니다.
최종 출력 구성
- 할당된 주제 라벨
- 문서에 특정한 주제 설명
- 주제 할당을 뒷받침하는 문서에서 인용된 텍스트
인용된 텍스트 제공의 중요성: 문서에서 인용된 텍스트는 TopicGPT의 할당이 신뢰할 수 있다는 것을 개선하는 데 도움을 줍니다.
이는 기존의 LDA와 같은 전통적인 방법에서 오랫동안 제기되어온 우려사항입니다.
예시) Assigned topic: "Agriculture"
주제 설명: 농업 수출 요건 변경을 언급 (“...농업 수출 요건 철폐...”)
Agriculture: Mentions changes in agricultural export requirements (“...repeal of the agricultural export requirements...”)
Self-correction: 잘못된 형식이나 품질이 낮은 주제를 수정하기 위한 자기 수정 단계를 포함합니다.
특정 문서와 오류 유형을 LLM에 제공하여 유효한 주제로 재할당을 유도합니다

4 Experiments

4.1 Datasets

Wiki 데이터셋
14,290개의 위키피디아 문서로 구성되어 있으며, 15개의 high-level, 45개의 mid-level, 279개의 low-level 주제가 human-annotated label 로 있음.
Bills 데이터셋
110~114대 미국 의회의 법안 요약 32,661개로 구성되어 있으며, 21개의 high-level 주제와 114개의 low-level 주제가 human-annotated label 로 있음.

4.2 Baselines

LDA: LDA의 안정성과 강한 일치를 강조하며, 다양한 설정에 대해 비교함.
BERTopic: 텍스트 문서의 pre-trained SBERT 임베딩을 활용한 클러스터링 기법을 사용.
SeededLDA: 사용자 관심 주제에 맞춰 결과를 조정하는 시드 주제를 통합함.

4.3 Sampling documents for TopicGPT

문서 샘플링의 중요성: TopicGPT에서는 주제 생성 과정에 사용되는 문서 수가 매우 중요합니다.
비용 문제: 모든 데이터셋을 사용할 경우 높은 비용이 발생하기 때문에, 전체 코퍼스를 사용하는 것은 비현실적입니다.
- 샘플링 방법: 따라서 연구에서는 문서의 서브셋을 균등하게 무작위로 샘플링하는 방식을 사용하며, 우리 연구에서는 1,000개의 Bills 문서와 1,100개의 Wiki 문서를 샘플링했습니다.
- 샘플 수 추천: 사용자에게는 예산에 맞는 샘플 사이즈를 선택하거나, 점진적으로 주제 생성을 수행하고 더 이상 새로운 주제가 생성되지 않을 때(예: 200 문서) 멈출 것을 추천합니다.
Topic coverage 평가: 이 접근 방식을 통해 생성된 주제를 평가하고, refinement 과정에서 제거된 주제가 있는지 확인합니다. 두 데이터셋 모두에서 600 문서에 도달한 후 새 주제의 수가 정체됨을 확인했습니다.

4.4 TopicGPT implementation details

기본 설정
- For topic generation: GPT-4를 사용하여 주제를 생성
- For topic assignment: 문서에 주제를 할당하기 위해 GPT-3.5-turbo를 사용
출력 설정: max_tokens: 최대 출력 토큰 수를 300으로 설정합니다.
문서 처리: 문서의 길이가 LLM의 컨텍스트 윈도우 크기에 맞지 않으면 잘라냅니다.
주제 할당 변경: 'Bills'와 'Wiki' 데이터셋에서는 각 문서에 대해 하나의 주제만 할당하도록 프롬프트를 수정했습니다. 하지만 하나의 할당만 필요하지는 않습니다.
주제 제거 및 self-correction: removal frequency threshold 설정을 'Bills'에 대해 항목 제거 기준을 10으로, 'Wiki'에 대해서는 5로 설정했습니다. 최대 10회 self-correction 기능을 활성화하여 모든 주제 환각 및 포맷 문제를 해결합니다.
평가 데이터 샘플링: Wiki에서 8,024개 문서, Bills에서 15,242개 문서를 샘플링하여 평가합니다. 이 문서들은 주제 생성 샘플에 포함되지 않았습니다.

4.5 Evaluation Setup

[7] 연구를 following 하여, 생성된 주제의 alignment / stability 를 평가함.

LDA와 같은 기존의 주제모델링 방법들과 비교하여 예측된 주제 할당과 정확한 주제 레이블 간의 정렬을 평가합니다.

4.5.1 Topical alignment

Topical alignment 평가: 다음 세 가지의 외부 clustering 성과 측정 metrics 를 사용
- Purity: 각 정확한 카테고리와 가장 높은 정밀도 및 재현율이 결합된 클러스터를 일치시키는 조화 평균을 사용.
- Adjusted Rand Index (ARI): 두 세트의 클러스터 간의 쌍별 합의를 측정하는 지표로, 우연의 영향을 수정.
- Normalized Mutual Information (NMI): 두 세트 간의 정보 공유를 측정하며, 클러스터 수에 민감하지 않도록 정규화를 수행합니다.

문서 할당 방법: 다른논문들의 방법론에서는 각 문서를 가장 확률이 높은 주제에 할당하지만, TopicGPT는 확률기반 모델이 아니기 때문에 예측된 클러스터와 명확한 주제 레이블을 비교하는 방식을 채택함.

4.5.2 Stability

강건성 평가(Objective): TopicGPT가 프롬프트와 샘플 데이터에 따른 변화에 얼마나 잘 적응하는지를 테스트합니다.
사용자 맞춤 프롬프트(Out-of-domain prompts): 사용자는 TopicGPT의 프롬프트에 있는 예제 주제를 변경하여 다른 데이터셋에 맞게 조정할 수 있습니다. 연구팀은 Wiki 데이터셋을 위한 프롬프트를 Bills 데이터셋에 적용해보았습니다.
추가 예제 주제(Additional example topics): TopicGPT의 성능을 평가하기 위해, 원래 두 개의 예제 주제에서 세 개의 추가 주제를 포함시켜 프롬프트를 확장했습니다.
문서 샘플 순서 변경(Shuffling sampled documents): Bills에서 주제 생성을 위해 샘플된 문서의 순서를 변경하여, LLM 이 문서를 처리하는 순서의 중요성을 이해하고자 했습니다.
다른 샘플 사용(Using a different sample): TopicGPT의 데이터 이동성에 대한 내성을 평가하기 위해, Bills의 다른 생성 샘플에 TopicGPT를 적용하고 그 결과의 변화를 조사했습니다.

5 Results

5.1 TopicGPT is strongly aligned to ground truth labels

TopicGPT의 성능
TopicGPT는 사실과의 주제 일치가 강하며 다양한 제안 및 데이터 변화에 대한 내구성이 뛰어나다고 보고되었습니다.
TopicGPT가 생성한 주제의 의미적 내용이 실제 주제와 일치하는 정도가 높아서, 두 데이터셋에서 모두 입증되었습니다.
실험 결과
TopicGPT는 인간이 주석을 단 라벨과 비교했을 때, 주제 일치도에서 더 나은 성과를 보였습니다.
실험에서 TopicGPT는 Wiki와 Bills 데이터셋에서 LDA, BERTopic, SeededLDA와 같은 다른 기준 방법들과 비교하여 월등한 성능을 나타냈습니다.
주제 할당의 적합성
TopicGPT는 다수의 문서가 여러 주제에 할당될 수 있음을 보여주며, 이는 기본 설정에서 실제 주제와 일치하지 않는 몇 가지 할당 예제를 살펴봄으로써 확인되었습니다.
예를 들어, 특정 문서는 "노동" 또는 "교통 안전" 주제에 적합할 수 있으며, TopicGPT는 여러 주제를 할당할 수 있도록 프롬프트를 수정하여 더 적절한 주제를 가져올 수 있음을 밝혔습니다.
추천
사용자는 여러 라벨 할당 프롬프트를 사용하여 가능한 많은 관련 주제를 추출할 것을 권장합니다

5.2 TopicGPT is stable

TopicGPT의 성능
- TopicGPT는 여러 실험 설정에서 일관성 있는 주제 할당을 생성.
- 특정 설정에서 더 많은 예시 주제를 추가한 경우 성능이 가장 나쁘다는 결과가 나타났습니다.
- 예시 주제가 너무 많으면 모델이 다양한 주제에 맞추려 하다가 topic coherence 가 저하될 수 있음을 나타냄.
예시 주제 수 조정: 예시 주제 리스트는 2-3개의 고품질 주제로 소규모로 유지하는 것이 가장 효과적이라는 권장 사항이 있습니다.
안정성 평가
- TopicGPT의 주제 할당을 안정적으로 평가하기 위해 기본 설정과 각 수정된 설정 간의 정렬 점수를 계산.
- TopicGPT는 모든 지표가 0.05 범위 내에서 높게 안정적으로 유지되었으며, LDA보다 높은 안정성
다양한 설정에서의 결과 차이: 동일한 설정에서의 두 번의 출력이 약간의 차이를 보여주며, 이는 결과에 무작위성이 추가되는 자가 수정 과정과 LLM API의 비결정성에 기인할 수 있습니다.

5.3 TopicGPT topics are semantically close to ground truth

TopicGPT의 주제 생성 품질을 평가하기 위해, LDA와 TopicGPT의 출력 주제를 비교하는 과정. 이 과정에서 주제가 어떻게 잘못 맞춰질 수 있는지를 분석하며, 다음과 같은 세 가지 잘못 맞춰진 카테고리를 정의합니다
- Out-of-scope (범위를 벗어난 주제): 생성된 주제가 관련된 실제 주제에 비해 너무 좁거나 넓은 경우.
- Missing topics (누락된 주제): 생성된 출력물에 포함되지 않으나 실제 주제 목록에는 포함되어 있는 주제.
- Repeated topics (중복 주제): 다른 주제들과 중복되는 주제들.
이 과정은 세 명의 주석자(첫 번째 저자와 두 명의 외부 주석자)가 생성된 주제의 목록을 검토하며 진행됩니다. 주석자들은 각 주제를 실제 주제 분류에 맞춰 매칭하고, 정확한 매칭이 불가능한 경우 위의 세 가지 카테고리 중 하나로 분류합니다. 이러한 방법을 통해 TopicGPT의 생성 주제와 실제 주제 간의 정합성을 정량적으로 분석하여, 두 시스템의 성능 차이를 명확히 할 수 있습니다.

TopicGPT contains far fewer misaligned topics than LDA, especially after refinement.

Topical alignment: TopicGPT는 LDA보다 훨씬 적은 수의 잘못 정렬된 주제를 포함
Alignment 비율: LDA의 잘못된 주제 비율은 62.4%인 반면, TopicGPT의 비율은 원래 주제와 정제된 주제에서 각각 38.7%와 30.3%로 나타났습니다.
Topic refinement 효과: 범위를 벗어난 주제와 중복 주제의 수를 일관되게 줄여줍니다.
Missing topic: Refinement 는 Bills 데이터셋에서 1개의 주제("Culture"주제)를 누락시키지만, 이는 사용 사례에 따라 수용 가능할 수 있습니다.
저자들은 중요한 주제를 필터링하지 않도록 다양한 refinement threshold 을 시도할 것을 권장합니다.

5.4 Implementing TopicGPT with open-source LLMs

본 연구에서는 다양한 언어 모델(LLM)을 활용하여 topic assignment 와 topic generation 을 수행했습니다.
Topic assignment
- Open-source LLM인 Mistral-7B-Instruct를 사용하였고, 이 모델의 결과가 인간의 기준과 어느 정도 일치하는지를 평가했습니다.
- Mistral 의 주제 할당 결과는 인간의 기준과 꽤 잘 맞았지만, GPT-3.5-turbo보다는 낮은 정확도를 보였습니다.
Topic generation 을 위한 모델로는 GPT-4만이 성공적으로 사용할 수 있었습니다. 다른 모델들은 주제 생성을 위한 복잡한 형식 지시를 따르지 못했습니다.

Mistral-7B-Instruct for topic generation

Topic modeling: document 에서 주제를 생성하기 위해 Mistral-7B와 GPT-3.5-turbo를 사용하여 실험.
성능 문제: 두 모델 모두 topic generation 에 대해 포맷팅 지침을 따르는데 어려움을 겪음.
주제의 개수
- Mistral: 1,418개의 주제 생성
- GPT-3.5-turbo: 151개의 주제 생성
문제점 및 한계점
- 생성된 주제들이 매우 구체적이고 발생 빈도가 낮아, 단일 주제 할당 프롬프트에 모든 주제를 포함하기 힘듦.
- 주제 생성에는 GPT-4와 같은 능력을 가진 모델을 사용하는 것이 좋음

6 Future Work

TopicGPT의 설계 목적: TopicGPT는 사용자가 데이터셋의 내용을 어느 정도 알고 있을 때 유용한 귀납적 내용 분석을 위한 프레임워크입니다.
사용자가 데이터셋의 내용에 익숙하지 않은 경우에도 적용할 수 있으며, 텍스트 모델을 사용하여 insight 을 얻는 데 도움을 줍니다.
Zero-shot prompting 연구: 앞으로의 연구에서는 예시 주제나 문서 없이 TopicGPT를 사용하는 제로샷 프롬프트의 가능성을 탐구할 수 있습니다.
상위 구조 확장: TopicGPT 프레임워크의 계층적 확장은 부록 A에 제공되며, 기존의 hierarchical topic model 과 비교하여 그 성능을 평가하는 것이 중요한 다음 단계가 될 것 입니다.

7 Conclusion

TopicGPT 프레임워크
- TopicGPT는 주제 모델링을 위해 특별히 설계된 프롬프트 기반의 프레임워크입니다.
- 전통적인 주제 모델들이 가지고 있는 해석 가능성과 적응성의 한계를 해결하기 위해 고안되었습니다.
기능 및 장점
- TopicGPT는 고품질의 설명적인 주제를 생성하여 전통적인 주제 모델보다 더 나은 성능을 보여줍니다.
- 연구 결과에 따르면 TopicGPT는 주제의 진실 레이블과 더 잘 일치하며, 여러 프롬프트와 데이터 서브셋에서도 견고한 성능을 보입니다.
- 높은 일관성과 이해하기 쉬운 주제 라벨을 제공합니다. 또한 사용자가 주제를 수정할 수 있어 모델의 재학습 없이도 조정이 가능합니다.
실험결과와 성과
- TopicGPT는 주제 Alignment에서 기존의 강력한 기준 모델보다 더 나은 성과를 보였습니다.
- 구체적으로, 주제의 정밀도는 기존의 LDA 모델에서 0.64였다면, TopicGPT는 0.74를 기록했습니다. TopicGPT는 명확하고 자연어로 된 주제 설명을 제공하여 사용자가 더 쉽게 이해할 수 있도록 돕습니다.

Limitations

Transparency concerns of closed-source models.

TopicGPT의 최적 성능: TopicGPT는 주제 생성에 GPT-4를, 주제 할당에 GPT-3.5-turbo를 이용합니다. 두 모델은 모두 closed-source LLM 입니다.
오픈 소스 모델 활용: 강력한 오픈 소스 모델을 사용하여 주제 생성을 시도해 보거나, 주제 할당을 위해 LLM을 파인튜닝하는 것을 탐색할 수 있습니다.
현재의 비공식 모델 사용 문제: 비공식 LLM 사용에 따라 발생하는 문제는, closed-source 모델과 open-source 모델 간의 능력의 불균형을 보여주며, 이는 영구적인 제한이 아니라고 생각합니다.
오픈 소스 발전에 대한 기대: 우리는 빠른 오픈 소스 LLM의 발전이 이 문제를 해결해 줄 것이라고 희망합니다.

Cost concerns of closed-source models.

사용자는 특정 데이터셋에 수반되는 주제 목록을 얻는 데 관심이 있는 경우, topic refinement 및 topic assignment 단계를 건너뛰거나 주제 생성에 사용되는 텍스트 코퍼스의 크기를 줄일 수 있습니다. 이러한 방법으로 실행 시간과 비용을 절감할 수 있습니다.
Table 11에 따르면, TopicGPT의 사용은 각 실행마다 비용이 발생합니다.

Dealing with context limits.

문서 잘림: TopicGPT는 문서의 길이 제한 때문에 전체 문서를 제공해야 하는데, 제한이 있어 문서의 일부만 제공할 수 밖에 없습니다.
정보 손실: 문서를 짤막하게 해서 제공하기 때문에 중요한 정보가 누락될 수 있으며, 전체 문서의 내용을 잘못 전달할 위험이 있습니다.
Future work: 향후 연구에서는 아래와 같은 방법으로 문서의 전체 내용을 다룰 수 있는 전략을 모색할 필요가 있습니다
- 문서의 일부를 점진적으로 입력하기
- 대표적인 부분을 샘플링하기
- 문서의 요약을 제공하기
- Long-context LLMs: TopicGPT는 GPT-4-turbo (128k 토큰), Claude (200k 토큰), 또는 LLaMA-2-7B-32K (32K 토큰)과 같은 긴 컨텍스트를 지원하는 LLM을 사용하여 이 문제를 해결할 수 있습니다.

Multilinguality.

TopicGPT는 비영어 데이터셋에 대한 평가를 수행하지 않았음.
OpenAI의 LLM(대형 언어 모델)은 주로 영어 데이터로 사전 훈련되었고, 따라서 비영어 언어에서는 지시 따르기 기능이 현저히 떨어집니다.
비영어 LLM의 다국어 능력이 향상되기를 바라며, 이를 통해 TopicGPT가 더 널리 접근 가능해지기를 희망합니다.

Comment

TopicGPT 논문을 읽고 느낀 저의 코멘트는 다음과 같습니다.

저는 TopicGPT 저자들이 본 연구에서 TopicGPT 프레임워크 개발의 가장 큰 동기부여를 "생성한 주제 해석의 어려움" 으로 느꼈다고 이해했습니다. 따라서 TopicGPT 가 생성하는 주제들은 기존의 모든 topic model 과는 다른 방식으로 주제를 생성합니다. 그 방식이 주제를 자연어로 표현하는 것 입니다. 따라서 이런 방식 때문에, 대부분의 많은 topic model 연구들과 실험결과를 평가하는 방식 또한 많이 다릅니다. 제 개인적인 생각으로 TopicGPT 연구에서 잘한점과 아쉬운점을 꼽으면 다음과 같습니다.

잘한점: 기존의 topic model 들과는 완전히 다른 방식의 해석성이 높은 주제를 생성하는 새로운 LLM 기반의 topic modeling framework 를 제안하였다.

아쉬운점: 주제를 생성하는데 높은 비용이 든다. 논문에서도 직접 언급하지만 open-source LLM 은 prompt 기반으로 주제를 생성하는데 퀄리티가 저조하다고 직접 설명합니다. 따라서 저자들은 GPT-4 를 사용하였습니다. 제 개인적인 생각으로, topic modeling 태스크에 이정도의 비용을 지불하는게 맞나 하는 생각이 많이 듭니다. 하지만 open-source LLM 은 계속 발전하고 있으므로 이는 시간이 해결해줄 수 있는 문제라고 저자들이 주장합니다.

마지막으로, TopicGPT 의 연구의 quality 를 떠나서 이 프레임워크를 앞으로 다른 topic model 연구에서 이 모델을 실험 baseline 에 포함시킬 수 있을지 이부분이 큰 의문이 듭니다. 왜냐면 생성된 주제 자체의 형식(?)자체가 매우 다르니까 평가가 쉽지 않습니다. TopicGPT 저자들도 논문에서 Wiki, Bills 두개의 데이터셋으로 평가를 했는데 저 벤치마크들은 ground truth topic 이 이미 있었던 벤치마크 같은데 저런 벤치마크는 거의 존재하지 않는 것으로 알고 있습니다. 물론 제가 모르는 것 일 수 있습니다. 그렇다고 앞으로 topicGPT 이후로 나올 topic model 연구들이 전부다 TopicGPT 의 방식을 따라가지는 않을테니 말입니다. 실제로 Fastopic (Neurips 2024) 논문만 보더라도 TopicGPT 가 발표된 이후에 나왔지만 그냥 기존의 여러 topic model 과 같은 형식의 주제를 생성하는 모델입니다. 평가 방식또한 이전의 수많은 연구들과 마찬가지로 그대로였습니다. 이것과 별개로 TopicGPT 를 통해 실험하는것은 다른 topic model 들에 비하여 돈도 매우 많이 듭니다.

Reference

[1] Incorporating Lexical Priors into Topic Models (EACL 2012)

[2] Nested hierarchical dirichlet processes (PAMI 2014)

[3] Mei et al.2007. Automatic labeling of multinomial topic models

[4] Lau et al.2011. Automatic Labelling of Topic Models

[5] Automatic labeling of topic models using text summaries (ACL 2016)

[6] Goal-Driven Explainable Clustering via Language Descriptions (EMNLP 2023)

[7] Are Neural Topic Models Broken? (EMNLP 2022)

'Paper Review' 카테고리의 다른 글

[Paper Review] Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs (EMNLP 2024) (0)	2025.04.18
[Paper Review] Improved Graph Contrastive Learning for Short Text Classification (AAAI 2024) (0)	2025.04.15
[Paper Review] KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning (NAACL 2024) (0)	2025.03.30
[Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022) (0)	2025.03.30
[Paper Review] Density Matching for Bilingual Word Embedding (NAACL 2019) (0)	2024.07.31

Abstract

1 Introduction

2 Related Work

3 Methodology

4 Experiments

5 Results

6 Future Work

7 Conclusion

Limitations

Comment

Reference

'Paper Review' 카테고리의 다른 글

티스토리툴바