
DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM (Findings of EMNLP 2023)
Abstract
- 기존 neural topic modeling 연구의 한계: 기존의 NTMs는 LLMs에서 추출한 문맥 임베딩을 주로 사용하는데, 이는 클러스터링에 최적화되어 있지 않고 토픽 기반 텍스트 생성에도 한계가 있습니다.
- DeTiME 프레임워크
- 이러한 문제점을 해결하기 위해 인코더-디코더 기반 LLMs와 diffusion 모델을 활용하는 새로운 프레임워크인 DeTiME을 제안합니다.
- 기존 방법보다 뛰어난 클러스터링 성능과 의미론적 일관성을 갖는 토픽을 생성할 수 있는 고도의 클러스터링 가능한 임베딩을 생성합니다.
- diffusion 모델의 강력한 기능을 활용하여 식별된 토픽과 관련된 콘텐츠를 생성할 수 있습니다.
- 고도로 클러스터링된 토픽과 관련 콘텐츠를 동시에 효율적으로 생성할 수 있으며, 다양한 응용 분야에 적용될 수 있습니다.
Introduction
- LLM의 발전과 한계
- Transformer 구조와 Language Models are Few-Shot Learners에서 소개된 GPT 모델과 같은 LLM의 발전은 자연어 처리 분야에 큰 기여를 했습니다.
- 언어 모델링은 강력한 생성 도구이지만, LLM을 활용한 토픽 모델링 기반 콘텐츠 생성은 아직 충분히 연구되지 않았습니다.
- 문장 임베딩: 문장 임베딩은 문장을 고차원 공간의 숫자 벡터로 변환하는 기술입니다. LLM 기반 문장 임베딩은 문장의 의미를 더 잘 포착하여 토픽 모델링에 활용될 수 있습니다.
- LLM 기반 토픽 모델링: LLM 기반 문장 임베딩은 다양한 방식으로 토픽 모델링에 적용될 수 있습니다.
- CombinedTM, BERTopic, ZeroshotTM, UTopic, ...
- 기존 topic modeling 연구의 한계: 문장 임베딩 기반 모델은 일관성(coherence)과 다양성(diversity) 측면에서 높은 성능을 보이지만, 클러스터링 성능은 상대적으로 낮습니다. 이는 문장 임베딩이 일반적으로 클러스터링에 최적화되어 있지 않기 때문입니다.
V-measure 는 클러스터링 품질을 평가하는 지표 중 하나입니다. [1] 의 연구에 따르면, 최고의 문장 임베딩 모델조차도 V-measure 값이 0.44 이하입니다. 이는 잠재 차원이 증가하면 클러스터링 성능이 더욱 낮아질 수 있음을 의미합니다.

- DeTiME 프레임워크
- 목표: 인코더-디코더 LLM (Flan T5) 의 기능을 활용하는 토픽 모델링 프레임워크를 소개합니다.
- Proposed methods
- 특정한 task를 설계하여 인코더-디코더 LLM을 학습시킵니다.
- 이 구조를 사용하여 임베딩을 생성하며, 이는 Figure 1에서 보이는 것처럼 기존 모델에 비해 높은 클러스터링 성능을 보입니다.
- 수정된 LLM 인코더의 마지막 hidden layer를 입력으로 사용하는 토픽 모델링 방법을 설계합니다.
- Diffusion과 제안된 프레임워크를 활용하여 관련 문서를 생성합니다.
- Main Contributions
- DeTiME은 LLM과 diffusion model을 결합하여 토픽 모델링의 클러스터링 성능과 콘텐츠 생성 능력을 향상시키는 데 중점을 둡니다.
- 기존 연구에서는 토픽 모델링을 위해 LLM의 문맥적 임베딩을 주로 활용했지만, DeTiME은 인코더-디코더 LLM을 특별히 설계하여 클러스터링에 최적화된 임베딩을 생성하고, diffusion model을 통해 토픽 기반 텍스트 생성을 가능하게 합니다.
Related work
Language Modeling
- Transformer 기반 모델
BERT (BERT), GPT-3 (Language Models are Few-Shot Learners), GPT-4 (OpenAI, 2023)와 같은 모델들은 self-attention 메커니즘을 사용하여 문맥을 파악하고 일관성 있는 텍스트를 생성합니다.
이러한 모델들은 다양한 언어 관련 task에서 뛰어난 성능을 보여주고 있으며, 여러 분야와 사회 전반에 걸쳐 중요한 영향을 미치고 있습니다. - T5
T5 는 모든 NLP task를 text-to-text 형태로 처리하는 모델입니다. 즉, 입력과 출력이 모두 텍스트 시퀀스로 구성됩니다.
Encoder-decoder framework를 사용하며, 대규모 데이터셋으로 pre-training됩니다. - FlanT5
FlanT5 는 T5를 개선한 모델로, 다양한 데이터셋에 걸쳐 instruction fine-tuning을 수행하여 성능을 향상시켰습니다.
Encoder-only 모델(BERT) 또는 decoder-only 모델(GPT)과 비교했을 때, FlanT5와 같은 encoder-decoder 모델은 encoder가 출력 생성을 위해 중요한 입력 정보를 추출할 수 있도록 합니다. - Prefix tuning
Prefix tuning 은 fine-tuning 과정에서 입력에 추가되는 고정 길이의 "prefix" 파라미터를 수정하여, fine-tuning에 필요한 파라미터 수를 크게 줄이는 방법입니다. Prefix tuning은 파라미터 효율성을 높이면서도 기존의 fine-tuning 방법과 비슷하거나 더 나은 성능을 보입니다. 이 기술은 LLM이 task-specific 초기 hidden state를 학습하여 생성 과정을 적절하게 조절하도록 하며, fine-tuning task로 인해 모델의 일반성이 저하되는 것을 방지합니다.
Sentence Embedding
- 문맥적 임베딩 (Contextual Embeddings)
문장의 의미를 컴퓨터가 이해할 수 있는 형태로 표현하는 것을 목표로 합니다.
초기의 단어 임베딩 기법들은 단어 수준의 의미만 파악하는 데 그쳤지만, 문맥적 임베딩은 문장 전체의 의미를 담아내려고 시도합니다. - Word2Vec & GloVe
단어 수준의 의미를 벡터로 표현하는 초기 임베딩 방법들입니다.
하지만, 더 긴 텍스트 구조(문장, 문단)의 의미를 파악하는 데는 어려움이 있었습니다. - Universal Sentence Encoder (USE) , InferSent
문장 의미를 더 잘 포착하기 위해 개발된 고급 모델입니다.
USE는 Transformer 또는 Deep Averaging Networks를 사용하고, InferSent는 양방향 LSTM과 max pooling을 활용합니다. - Sentence-BERT: Siamese BERT 네트워크를 사용하여 문장 임베딩을 생성합니다.
- 낮은 클러스터링 성능 (Lower clusterability)
이러한 모델들은 문맥에 따른 문장 의미를 포착하는 데 어려움을 겪어 클러스터링 성능이 낮았습니다.
이는 문장 쌍에 대한 contrastive loss에 의존하기 때문일 수 있으며, 이는 전체적인 의미 관계보다는 특정 유사성에 초점을 맞추기 때문일 수 있습니다.
Topic Modeling
- 기존 Neural Topic Model 의 한계
- ETM 은 미리 학습된 단어 임베딩을 사용하여 의미를 포착하지만, NTM은 bag-of-words 표현에 의존하기 때문에 문서의 의미를 효과적으로 포착하는 데 제한이 있습니다. BoW 는 텍스트 데이터를 단어들의 빈도수로 표현하는 방법입니다. BoW 표현은 단어의 순서나 문맥을 고려하지 않기 때문에, 문장이나 문서의 의미를 정확하게 파악하기 어렵다는 단점이 있습니다.
- CTM (CombinedTM) 은 문장 임베딩과 bag-of-words를 입력으로 사용하여 bag-of-words 임베딩을 재구성합니다.
- BERTopic 은 문장 임베딩과 UMAP, HDBSCAN과 같은 클러스터링 기술을 결합하여 토픽을 생성합니다.
- 컨텍스트 임베딩 기반 토픽 모델링 방법의 문제점: 컨텍스트 임베딩 기반 토픽 모델링 방법은 재구성 과정을 결여하거나, bag-of-words 표현만을 재구성하는 경향이 있습니다. 이러한 단점은 관련성 있는 콘텐츠를 생성하는 능력을 제한합니다.
Diffusion
- Diffusion models
- Diffusion 모델은 데이터 분포에 점진적으로 노이즈를 추가하는 순방향 프로세스와, 이를 되돌려 노이즈를 제거하는 역방향 프로세스를 학습합니다.
- 순방향 프로세스: 데이터에 점진적으로 노이즈를 추가하여 데이터의 구조를 파괴합니다.
- 역방향 프로세스 (Denoising): 노이즈가 추가된 데이터에서 점진적으로 노이즈를 제거하여 원래의 데이터 분포를 복원합니다.
- Diffusion 모델의 발전
- denoising diffusion implicit models을 통해 더 빠른 샘플링을 달성했습니다.
CLIP, Stable Diffusion, Midjourney: 이미지 생성 모델인 CLIP, Stable Diffusion, Midjourney 등이 확산 기반 방법을 활용하여 성공을 거두었습니다. - 자연어 처리(NLP) 분야로의 확장: 확산 모델은 자연어 생성, 감성 분석, 기계 번역과 같은 NLP task에도 적용될 수 있음이 입증되었습니다 (Zou et al., 2023). 또한, 연속적인 임베딩 공간에서 노이즈 샘플로부터 고품질의 텍스트를 생성할 수 있음이 밝혀졌습니다.
- denoising diffusion implicit models을 통해 더 빠른 샘플링을 달성했습니다.
- 토픽 모델링과의 결합: 그럼에도 불구하고, 확산 모델은 아직 콘텐츠 생성 도구로서 토픽 모델링에 사용된 적은 없습니다.
Methods

- 목표
- Encoder-decoder LLM을 활용하여 높은 클러스터링 성능을 가지면서 토픽과 관련된 문장을 생성할 수 있는 프레임워크를 만드는 것입니다.
- 이를 위해 텍스트 생성과 클러스터링 모두에 적합한 임베딩을 생성하는 데 중점을 둡니다.
- DeTiME 프레임워크 구조
- FlanT5: 기본 모델로, 그 위에 CNN 인코더와 디코더를 추가하여 차원 축소를 용이하게 하고, 신경망 토픽 모델링에 적합하게 만듭니다.
- CNN 인코더: FlanT5 인코더의 출력을 입력으로 받아 토픽을 생성하고 임베딩을 재구성하는 Variational Autoencoder(VAE)를 설계합니다.
- VAE: CNN 인코더의 출력을 입력으로 받아 토픽 분포를 생성하고, Bag-of-Words (BoW) 표현을 재구성하는 역할을 합니다.
첫 번째 오토인코더는 토픽 분포를 생성하고 BoW 표현을 재구성합니다.
두 번째 오토인코더는 토픽 분포와 재구성된 BoW로부터 임베딩을 생성합니다.
- 학습 방식: FlanT5와 CNN은 토픽 모델링 과정에서 학습하거나 미세 조정하지 않아 비용 효율성을 높입니다.
Diffusion: 문서의 내용을 대표하는 고품질 텍스트를 생성하기 위해 확산 모델을 활용합니다. - 전체적인 과정
특정 task와 데이터셋을 설계합니다.
수정된 FlanT5 모델과 미세 조정 전략을 상세히 설명합니다.
토픽 모델링 및 생성을 위해 설계된 VAE
도출된 토픽과 관련된 콘텐츠를 생성하기 위해 확산 모델을 활용합니다. - Figure 2 설명
- DeTiME 프레임워크는 4개의 인코더(enc1, enc2, enc3, enc4)와 4개의 디코더(dec1, dec2, dec3, dec4)로 구성됩니다.
- enc1, enc2: 입력 문서를 저차원 공간으로 압축합니다.
- enc3: 토픽 분포를 생성합니다.
- dec1: BoW 표현을 재구성합니다.
- enc4: 재구성된 BoW 표현에서 hidden dimension을 추출합니다.
- dec2, dec3, dec4: 입력 문서를 재구성하거나 바꿔 씁니다(rephrase).
Tasks and Finetune Dataset
- 목표: 높은 클러스터링 성능을 가지며 문서와 관련된 토픽을 잘 생성하는 임베딩을 만드는 것 입니다.
- Paraphrase 태스크 데이터셋 활용
- 입력 문장과 출력 문장이 의미적으로 동일한 paraphrase 데이터셋을 사용합니다.
- 의미가 유사한 문장들은 비슷한 토픽에 속할 가능성이 높으므로, 유사한 문장을 생성하는 데 도움을 줍니다.
- 기존 방법과의 차별점
- 기존 방법들은 동일한 문장을 입력과 출력으로 사용하는 반면, DeTiME은 paraphrase task를 통해 언어 모델이 문장의 의미를 학습하도록 유도합니다.
- 단순히 임베딩을 암기하는 것이 아니라, 문맥적 의미를 파악하도록 합니다.
- [2] 에 따르면 paraphrase task는 언어 모델의 성능을 저하시키지 않으면서 효과적으로 학습할 수 있을 만큼 충분히 어렵습니다.
- DeTiME-training 모델과의 비교
- Figure 1에서 볼 수 있듯이, 동일한 문장을 입력과 출력으로 사용하는 DeTiME-training 모델은 클러스터링 성능이 더 낮습니다.
- 이는 paraphrase task가 clusterable한 콘텐츠를 생성하는 데 효과적임을 보여줍니다.
- STS 벤치마크 활용: STS(Semantic Textual Similarity) 벤치마크에서 유사도가 높은(80% 이상) 문장 쌍을 선택하여 데이터셋을 구성합니다.
- 정리: 이러한 방식으로 DeTiME은 paraphrase 데이터셋과 task를 활용하여 효과적인 토픽 모델링을 위한 clusterable한 임베딩을 생성합니다.
Modified Encoder Decoder LLM
- Autoencoder 구조의 동기
- 기존 문장 임베딩의 한계
- 기존 문장 임베딩은 주로 contrastive learning 방식으로 학습되어 문장 재구성에 어려움을 겪습니다.
- Contrastive learning은 유사한 문장들을 임베딩 공간에서 가깝게 위치시키는 데 초점을 맞춥니다.
따라서 문장 자체의 정보를 보존하는 데는 한계가 있습니다.
- Encoder-Decoder 모델의 활용
DeTiME은 이러한 문제를 해결하기 위해 encoder-decoder 모델을 사용합니다.
Encoder-decoder 모델은 입력 문장의 핵심 정보를 인코더의 마지막 hidden state에 압축하여 보존하는 능력이 있습니다.
이 hidden state를 압축하여 문장 임베딩을 생성합니다.
- 기존 문장 임베딩의 한계
- FlanT5의 활용
- 특히, FlanT5 를 통해 T5 보다 우수한 성능을 보입니다.
- Fine-tuning된 FlanT5의 마지막 hidden layer는 입력 정보(문맥, 의미)를 잘 나타낼 수 있다고 가정합니다.
- 특히, FlanT5 를 통해 T5 보다 우수한 성능을 보입니다.
- CNN의 역할
- CNN(Convolutional Neural Network)은 FlanT5 인코더의 출력을 압축하여 토픽 모델링에 적합한 임베딩을 생성하는 데 사용됩니다.
- FlanT5 인코더의 출력은 길이가 너무 길고 차원이 높아 분산된 벡터를 생성하고, 이는 클러스터링 성능 저하 및 토픽 모델링 문제로 이어질 수 있습니다. CNN을 통해 차원을 축소하고 중요한 특징을 추출합니다.
- Variational Autoencoder (VAE)의 통합
- FlanT5의 마지막 인코더 hidden layer를 재구성하기 위해 VAE가 통합되었습니다.
- VAE를 통해 잠재 공간을 학습하고, 더 나은 클러스터링 성능을 얻을 수 있습니다.
- 시퀀스 차원에 1D convolution을 적용하여 차원 축소를 수행하고, 인접한 임베딩 간의 높은 상관관계를 활용하여 CNN을 통해 압축합니다.
- PEFT (Parameter Efficient Fine-tuning) 기법
- PEFT 기법은 fine-tuning해야 할 파라미터의 수를 줄여 효율성을 높이고, 기존 fine-tuning과 비슷하거나 더 나은 성능을 제공합니다.
- DeTiME에서는 prefix fine-tuning 을 채택하여 파라미터 효율성을 높였습니다.
- Prefix fine-tuning 관련 파라미터와 CNN 기반 autoencoder를 동시에 학습합니다.
VAE structure for topic modeling
- VAE의 목적
- 클러스터링 가능한 토픽 분포 생성: VAE는 입력 데이터를 잠재 공간으로 인코딩하여 토픽을 잘 구분할 수 있는 클러스터링 가능한 토픽 분포를 생성합니다.
- CNN 인코더 출력 재구성: VAE는 CNN 인코더의 출력(e)을 재구성하여 CNN 오토인코더의 디코더에 입력할 수 있도록 합니다. 이는 전체 모델의 일관성을 유지하고, 정보 흐름을 원활하게 합니다.
- 입력 임베딩 재구성의 필요성
- 재구성된 Bag-of-Words는 문장 재구성 능력을 향상시킵니다.
- 잔차 연결은 모델이 재구성된 Bag-of-Words와 토픽 분포를 모두 활용하여 입력 임베딩을 재구성하는 데 도움이 됩니다.
- 토픽 임베딩이 CNN 디코더 출력(e)으로부터 의미 정보를 캡처할 수 있도록 보장합니다.
Diffusion for content generation
- 사전 학습된 encoder-decoder LLM모델의 활용
- DeTiME 모델은 텍스트를 압축하여 저차원 공간에 임베딩하며, 이 과정에서 의미 정보와 높은 클러스터링 품질을 유지합니다.
- 이러한 특징을 활용하여 토픽에 맞는 텍스트를 생성하고자 합니다.
- 잠재적인 문제점
- 사전 학습된 모델의 압축 해제 과정에서 노이즈가 발생하고 정보가 손실될 수 있으며, 이는 생성되는 텍스트의 품질에 영향을 미칠 수 있습니다.
- 특히, 잠재 공간의 차원이 DeTiME의 임베딩 벡터 차원보다 훨씬 낮기 때문에, 잠재 벡터에서 텍스트를 재구성할 때 FlanT5 디코더의 입력 범위를 벗어날 수 있습니다.
- Diffusion 모델의 도입
- 이러한 문제점을 해결하기 위해 Diffusion 모델을 활용하여 토픽 모델링에서 생성된 텍스트 임베딩의 노이즈를 제거합니다.
- 이는 Diffusion 모델이 연속적인 임베딩 공간에서 노이즈 샘플로부터 고품질 텍스트를 생성할 수 있음을 보여주었기 때문입니다.
- 학습 과정
- DDPM(Denoising Diffusion Probabilistic Models) 스케줄러를 사용하여 Autoencoder를 학습합니다.
- 이 Autoencoder는 텍스트 임베딩 연속 공간(Figure 3의 enc2 이후 공간)에서 사전 학습된 모델로부터 얻은 임베딩 벡터를 사용하여 학습됩니다 (Ho et al., 2020).
- 순방향 프로세스에서는 가우시안 노이즈가 점진적으로 추가됩니다.
- 생성 과정
- 학습된 Diffusor는 Figure 3의 dec2 이후의 임베딩에서 노이즈를 제거하는 데 사용됩니다.
- Diffusion의 순방향 프로세스는 복잡한 데이터 분포를 샘플링하기 쉬운 단순한 분포(정규 분포)로 변환하는 과정입니다.
- 학습된 노이즈를 반복적으로 추가함으로써 노이즈 하위 공간에서 샘플을 추출하여 원래 임베딩 분포를 따르도록 합니다.
토픽 모델링에서 얻은 임베딩이 원래 임베딩 분포에서 벗어난 경우, 이 임베딩을 원래 임베딩 분포 영역으로 되돌리는 데 Diffusion 모델을 사용합니다.
Experimental Results

- 클러스터링 성능: DeTiME은 NMI, Km-NMI, Km-Purity 지표에서 다른 모델들보다 높은 성능을 보였습니다. 이는 DeTiME이 토픽 분포를 효과적으로 클러스터링하는 데 뛰어나다는 것을 의미합니다.
- Topic Quality
- Coherence: DeTiME은 Coherence(Cv) 지표에서 두 번째로 높은 점수를 기록했습니다 (최고 점수는 DeTiME의 변형 모델). 이는 DeTiME이 생성한 토픽들이 의미적으로 일관성이 높다는 것을 나타냅니다.
- Diversity: CTM과 DeTiME은 Bag of Words 입력을 통합함으로써 높은 다양성 점수를 얻었습니다. Bag of Words 재구성을 제거했을 때 다양성과 클러스터링 성능이 모두 감소했는데, 이는 해당 구성 요소가 Purity와 NMI를 향상시키는 데 중요하다는 것을 의미합니다.
- 정리: 이러한 결과들을 종합하면, DeTiME은 클러스터링 성능과 의미론적 일관성 측면에서 우수한 토픽 모델링 프레임워크임을 알 수 있습니다. Bag of Words 입력과 잔차 연결이 성능 향상에 중요한 역할을 하며, DeTiME의 임베딩은 기존 문장 임베딩보다 클러스터링에 더 효과적입니다.
Conclusion and Future Work
- DeTiME 프레임워크의 특징
- 클러스터링 가능한 임베딩 생성: DeTiME은 paraphrase task, FlanT5, CNN의 강점을 활용하여 클러스터링 성능이 뛰어난 임베딩을 생성합니다.
- Variational Autoencoder (VAE) 구조: VAE 구조를 통해 임베딩을 재구성하고, 동시에 일관성, 다양성, 클러스터링 성능이 뛰어난 토픽을 생성합니다.
- Diffusion 과정 통합: 확산 과정을 통합하여 다양한 토픽을 대표하는 콘텐츠를 생성합니다.
- 유연성 및 비용 효율성: 임베딩 생성 구조가 유연하여 다른 인코더-디코더 언어 모델 아키텍처에 쉽게 적용할 수 있으며, 전체 프레임워크를 재학습할 필요가 없어 비용 효율적입니다.
- VAE 구조의 활용성: VAE 구조는 다양한 문맥적 임베딩에 적용할 수 있습니다.
- LLM의 확장 가능성: 더 큰 LLM을 사용하여 다른 방법들의 성능을 더욱 향상시킬 수 있습니다.
- Future Work
- 더 큰 모델 학습: Flan-T5-XL과 같은 더 큰 모델로 학습하여 임베딩 성능을 향상시키는 것을 목표로 합니다.
- PEFT 방법 벤치마킹: LORA와 같은 다른 Pre-training with Fine-Tuning (PEFT) 방법을 벤치마킹하여 시스템 성능을 향상시킬 수 있습니다.
- Semi-supervised 문서 분류: 높은 클러스터링 성능을 활용하여 semi-supervised 문서 분류로 확장
- 토픽 기반 콘텐츠 생성: 토픽 기반 콘텐츠 생성을 위한 모델로 활용할 수 있습니다
- 요약 생성: 각 토픽에 대한 요약을 생성하고 이를 연결하여 대용량 문서에 대한 우수한 요약문을 생성할 수 있습니다.
- 계층적 토픽 모델링: 계층적 토픽 모델링으로 확장할 수 있습니다
- 단문 텍스트 토픽 모델링: 데이터 희소성을 완화할 수 있습니다
- 긴 텍스트 생성: 토픽과 관련된 일관성 있는 긴 텍스트를 생성할 수 있습니다
- 토픽 네트워크 구축: 토픽 간의 의미 있는 관계와 함께 토픽 네트워크를 구축할 수 있습니다
Limitations
- 비교 부족: DeTiME 모델을 BART와 같은 다른 인코더-디코더 프레임워크나 LORA와 같은 PEFT(Parameter-Efficient Fine-Tuning) 방법들과 비교하지 않았습니다. 이러한 비교를 통해 성능 향상의 가능성을 탐색할 수 있습니다.
- 모델 크기 제한: 현재 모델 크기의 제약으로 인해 FlanT5의 잠재력을 완전히 활용하지 못했습니다. 모델 크기를 확장하면 성능이 향상될 수 있습니다.
- 구조 탐색 미흡: CNN 인코더의 출력 차원 수를 미세 조정하지 않았고, 기본적인 CNN, LSTM, MLP 외의 다른 구조를 탐색하지 않았습니다. 다양한 구조를 통해 성능을 개선할 수 있습니다.
- 높은 분산: DeTiME 성능의 분산이 비교적 높게 나타났는데, 이는 복잡한 오토인코더 구조 때문일 수 있습니다. 구조를 단순화하거나, 정규화 기법을 적용하여 분산을 줄일 수 있습니다.
- 일부 주제 평가 지표 미흡: coherence metric을 모두 벤치마킹하지 않았습니다. 다양한 지표를 사용하여 더 풍부한 평가를 할 수 있습니다.
Reference
[1] Mteb: Massive text embedding benchmark (EACL 2022)
[2] It is not easy to detect paraphrases: Analysing semantic similarity with antonyms and negation using the new SemAntoNeg benchmark.