
MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)
Abstract
- 본 논문에서는 sentence embedding learning 을 위하여, 기존의 SimCSE 와 같은 일반적인 pre-trained sentence embedding 모델과 다르게 시각적 정보 (visual) 와 텍스트 정보 (textual) 를 multimodal contrastive objective 를 활용하여, sentence embedding 성능을 개선한 연구이다.
- 연구에서 저자들은 기존의 pre-trained 모델을 fine-tuning 시킬때, 대량의 text only corpus 와 image caption 이 있는 소량의 multimodal dataset 을 활용하였다.
- STS task 를 포함한 여러 실험과 다양한 벤치마크 데이터셋에서 본 연구에서 제안하는 multimodal contrasive learning approach 가 기존의 pre-trained encoder 모델의 sentence embedding 을 개선함을 실험적으로 보였다.
1 Introduction
- Sentence embedding learning: 문장을 고정된 길이의 벡터로 인코딩하여 문장 간의 의미적 유사성을 반영하는 것은 NLP 에서 fundamental challenge 이다.
- Pre-trained language models (PLMs): BERT 및 RoBERTa와 같은 PLMs는 큰 성공을 거두었지만 fine-tuning 없이는 Glove 모델에 비해 큰 개선은 되지 않았습니다.
- Contrastive objective: 최근에는 contrastive learning (unsupervied representation learning) 을 활용하여 기존의 PLM 을 기반으로 문장 임베딩 향상을 목표로 많은 시도가 있었습니다.
- 비전과 언어 모델: 텍스트 기반 모델이 인상적인 발전을 이루었지만, 문장 의미의 더 깊은 개념을 얼마나 파악할 수 있는지는 여전히 탐구의 필요성이 있고, 비전은 언어 모델을 real-world 와 연결하여 성능을 개선하는데 효과적임이 보여졌습니다.
- 본 연구의 가설: "Supplementary visual information" 비주얼 정보를 보조적인 의미 정보로 사용하면 sentence embedding learning 을 더욱 개선할 수 있다는 가설을 필두로 합니다.
본 연구에서는 위와 같은 가설을 필두로 MCSE 라는 새로운 sentence embedding 을 위한 대조학습 프레임워크를 제안합니다.
MCSE 는 State-of-the-art 모델인 SimCSE [1] 를 기반으로 설계되었습니다. 즉, 기존의 SimCSE 모델에서 저자들이 제안하는 novel approach 인 "multimodal contrastive learning for sentence embedding" 을 추가한 새로운 프레임워크가 바로 MCSE 입니다.
MCSE 는 다양한 STS 벤치마크에서 기존의 모델들을 능가하는 결과를 보였고, sentence embedding 의 embedding space 내에서 alignment 와 uniformity [2] 를 분석하여 유사한 문장간의 정렬 (alignment) 과 임베딩간의 균일성 (uniformity) 실험을 통해 sentence embedding 성능 향상에 대한 다양한 실험을 진행하였습니다.
2 Related Work
2.1 Sentence Representation Learning
- Unsupervised Learning: 비지도 학습 방식은 주로 주석이 달린 자연어 inference data / parallel data 에서의 supervision 정보를 활용하는 지도 학습 방식과 달리, 비지도 방식은 주어진 데이터에서 intrinsic semantic information 을 활용합니다. 이는 data annotation cost 를 없애 cost-effective 하게 STS tasks 를 위한 학습을 가능하게 합니다.
- Constrastive Learning: 최근의 연구들은 대조 학습 목표를 사용하여 문장 임베딩을 개선하는 데 초점을 맞추고 있습니다. 대조 학습은 긍정적인 예 (즉, 의미적으로 유사한 문장)를 서로 가깝게 하고 부정적인 예를 멀리 떨어뜨려 임베딩 공간을 조정합니다. 이를 통해 문장 간의 의미적 유사성을 잘 포착하는 효과가 있습니다.
- Approach: 본 연구에서는 contrastive learning 프레임워크를 채택하여, state-of-the-art pre-trained language model (PLM) 인 SimCSE 에 multimodal semantic information 를 결합하여 대조 학습 (multimodal contrastive learning) 을 진행합니다. 즉, 이미지와 문장 쌍에 대한 대조 학습 목표를 기존 SimCSE 프레임워크에 추가하여 STS task 에서 sentence embedding 을 더욱 개선합니다.
2.2 Visually Grounded Representation Learning
기존에 NLP 모델을 visual world 에 결합하여 textual representation learning 에서 표현력을 개선시킨 여러 연구가 있습니다.
- Word embedding
Combining language and vision with a multimodal skip-gram model (NAACL 2015)
Learning multi-modal word representation grounded in visual context (AAAI 2018) - Sentence embedding and caption prediction
Learning visually grounded sentence representations (NAACL 2018) - Improving language understanding via multi-modal supervision
Vokenization: Improving language understanding via contextualized visually-grounded supervision (EMNLP 2020)
VidLanKD: Improving language understanding via video-distilled knowledge transfer (Neurips 2021)
본 연구에서는 pre-trained language model (SimCSE) 을 기존의 대조 학습 프레임워크에서 fine-tuning 하여 visually grounded 된 문장 임베딩을 학습하는 데 중점을 둔다.
3 Method
3.1 Background: Unsupervised SimCSE
Unsupervised Learning ?
Self-supervised representation learning (i.e., unsupervised learning) 에서는 일반적으로 데이터 증강을 통해 학습합니다. 이는 간단하면서도 효과적으로 일반화 성능을 개선시킵니다.
대조학습 프레임워크에서는, 데이터 증강을 통해 positive sample 을 생성하여 이를 학습에 활용합니다. 각 문장에 대해 두번 인코딩하여 positive 쌍을 구성하고, 이는 서로 다른 dropout mask 를 사용하여 수행합니다.
대조학습 목표는 원래 문장과 증강된 문장 간의 임베딩을 가깝게 만들고, 서로 다른 문장 간의 임베딩은 멀어지게 하는 것입니다. 이를 통해 모델은 보다 일반화된 표현을 학습할 수 있도록 합니다. 즉, 원래 문장의 임베딩과 그 문장에 대한 증강된 임베딩을 비교하여, 두 문장의 임베딩간의 유사성을 최대화하는 방식으로 학습이 진행됩니다.

N: 미니배치 크기
τ : a temperature hyper-parameter
sim(x,y): cosine-similarity of x and y
대조학습 이후에 [CLS] 토큰은 학습된 language encoder model 의 outputs 중 하나로, 입력 문장을 대표하는 특성(임베딩)으로 사용됩니다. 일반적으로 문장 임베딩을 나타내기 위해 [CLS] 토큰의 출력을 사용합니다.
3.2 Multimodal Contrastive Learning

From multi-modal datasets, a collection of sentence-image pair : (x,y)
sentence x 와 image y 를 shared space 에 매핑해야 한다.
각각 문장, 그리고 문장과 pair 인 이미지를 다음과 같이 인코딩합니다.


MCSE 프레임워크에서 multimodal contrastive learning objective function 은 다음과 같습니다.

서로 pair 인 이미지-문장 쌍은 가까이 하고 관련이 없는 쌍은 멀리 하도록 학습 목표를 정의합니다.
multimodal contrastive learning 을 포함한 MCSE 의 overall training objective 는 다음과 같습니다.

기존 SimCSE 와 같은 textual contrastive learning objective (즉, (4) 에서 first term) 에다가 저자들이 제안하는 multimodal contrastive learning 을 포함한 방식으로 pre-trained language encoder 모델이 fine-tuning 되는 방식이다.
MCSE는 문장 표현이 이미지 표현과 잘 정렬되도록 합니다. 이는 문장과 그에 대응하는 이미지가 의미적으로 비슷할 수 있도록 공유공간에 맵핑하는 것을 포함합니다.
"grounded space" : real-world 의 정보가 반영된 공간을 의미한다. 문장에서 표현된 내용이 visual 정보와 일치하도록 학습함으로써, 더 풍부하고 의미 있는 sentence embedding 을 만들 수 있습니다.
4 Experiments
4.1 Setup
Dataset
Flickr30k: 29,783개의 이미지 포함, 각 이미지마다 여러 caption 이 제공된다.
MS-COCO: 82,783개의 이미지 포함, 각 이미지마다 여러 caption 이 제공된다.
이미지와 문장을 짝지어 한 쌍을 만들기 위해, 각각의 이미지에 대해 대응되는 하나의 caption 을 random sampling 하였다.
Wiki1M: Following SimCSE, 106개의 문장으로 구성된 텍스트만 있는 데이터셋으로, 영어 위키백과에서 무작위로 추출됨.
Implementation Details
language encoder: BERT-base / RoBERTa-base
image encoder: ResNet-50
projection head 에는 서로 다른 단일 층의 MLP(Multi-Layer Perceptron)를 적용.
Evaluation
훈련된 모델을 Semantic Textual Similarity (STS) 7개 task 에서 평가함
-> STS 2012, STS 2013, STS 2014, STS 2015, STS 2016, STS Benchmark, SICK-Relatedness
각 데이터셋은 문장 쌍으로 구성되며, 각 문장 쌍의 유사도 점수를 예측하는 것이 목표이다.
evaluation metic 으로 스피어만 상관계수 (Spearman’s correlation)를 사용하며, 이 값은 각 데이터셋의 모든 부분집합을 연결하여 전체 스피어만 상관계수를 종합하였다.
4.2 Main Results


"Augmenting text-only corpus with small scale multimodal data yields significant improvements."
Utilizing multimodal data: MCSE는 텍스트 전용 코퍼스에 소규모의 multimodal dataset 를 추가하여 성능을 극대화합니다. 즉, 텍스트와 이미지 캡션을 활용하여 각 문장의 의미를 더욱 잘 쪼갤 수 있습니다.
모델 비교
- 모델 구성: SimCSE는 문장과 캡션만을 사용 (Only texts) 하여 훈련되며, MCSE는 이미지-캡션 쌍에 대해 추가적인 multimodal contrastive objective 을 계산합니다.
- 성능 향상: MCSE 모델은 visual information 에 접근할 수 있어 뚜렷한 성능 향상을 보이며, 이러한 향상은 상대적으로 적은 양의 multimodal data 으로도 성능향상의 효과가 있습니다.
Main results
- 스테이트 오브 아트 향상: MCSE가 Wiki1M과 Flickr30k 데이터 조합에 적용되었을 때, BERT 모델에서 76.3에서 77.3으로, RoBERTa 모델에서 76.6에서 78.3으로 향상되었습니다.
- 도메인 불일치: BERT 기반의 MCSE 모델이 STS16에서 낮은 성능을 보였지만, 이는 특정 하위 집합이 시각적 기반 강화의 혜택을 받을 수 있기 때문입니다.
- 다양한 데이터셋 실험: multimodal 데이터만으로 훈련된 모델들은 SimCSE 모델을 지속적으로 초과하는 성능을 발휘하였으며, 추가적으로 이미지 쌍을 무작위로 섞어 훈련하면 성능이 감소한다는 사실도 입증되었습니다.
- 시각적 의미의 효용성: 이미지-문장 쌍이 일치하도록 만들기 위해, MCSE는 시각적 의미가 확실히 신뢰할 수 있음을 검증합니다.
"Grounding to the visual world improves alignment and maintains uniformity."
본 논문에서는 [2] 가 제안한 alignment 및 uniformity 를 통하여, representation quality 를 평가하였다.



- Maintaining uniformity: MCSE 모델은 문장 표현 공간에서 고르고 균일한 분포를 유지합니다. 즉, 의미적으로 비슷한 문장들이 가까이 위치하도록 하면서, 전반적인 표현 공간의 균형을 잡는 것입니다.
- Visually grounding: 시각 정보를 이용한 학습을 통해 문장 표현 학습이 개선될 수 있다는 것을 보여줍니다. 이는 텍스트 임베딩 공간의 alignment property 을 향상시켜줍니다.
4.2 Analysis

Multimodal 데이터셋 scale 에 따른 SimCSE / MCSE 의 실험결과 비교
- BERT 기반 모델들을 캡션 데이터셋에서 훈련하여 훈련 데이터 규모의 영향을 분석했습니다.
훈련 샘플 수를 100, 500, 1000, 5000, 10000으로 제한하고, 전체 데이터셋 성능과 비교하였습니다.
- 실험의 분석결과는 figure 3에 나타나 있으며, SimCSE 모델은 제한된 data scale 샘플에서는 MCSE 모델보다 더 나은 성능을 보였습니다.
그러나 데이터 규모가 증가함에 따라, MCSE 모델이 SimCSE 모델보다 성능이 우수해졌습니다.
이 현상은 multimodal projection head 의 가중치 점진적 학습에 기인한다고 추측하고 있습니다. - MCSE 모델은 multimodal projection head 를 사용하여 비주얼 정보와 텍스트 정보를 함께 활용합니다. multimodal datasets (즉, flickr / MS-COCO) 크기가 증가함에 따라, 이러한 프로젝션 헤드는 더 많은 샘플에 대한 학습 기회를 가지게 되고 multimodal contrastive learning 을 통해 더 정교한 표현을 학습하게 됩니다. 데이터셋 규모가 작은 초기에는 SimCSE가 좀 더 나은 성능을 보일 수 있지만, 더 많은 문장-이미지 pair 데이터가 주어지면 MCSE가 이득을 보게 됩니다.
5 Limitations
- multimodal dataset 한계: MCSE는 캡션 데이터셋을 멀티모달 정보의 출처로 사용합니다. 이러한 데이터셋은 상당한 인적 노력을 통해 수집 및 정리됩니다.
- 노이즈 문제
- 노이즈 multimodal data 란, 완벽하게 일치하지 않는 캡션과 이미지의 조합을 의미합니다. 예를 들어, 특정 이미지에 대한 설명이 한정적이거나 그리 잘 맞지 않는 경우입니다.
- 노이즈가 있는 이미지-문장 쌍을 활용하거나, 이미지와 문장 간의 명시적 정렬을 제거하는 것이 실용적으로 큰 가치가 있습니다. 노이즈 데이터는 multimodal learning 에서 모델이 잘못된 예제에도 잘 대응하도록 훈련합니다.
- 일반화 능력 향상: 노이즈가 있는 데이터셋에서 훈련하면 모델이 오히려 더 강력한 범용 인식 능력을 가질 수 있습니다. 즉, 실제 적용 상황에서 더 나은 성능을 발휘할 수 있습니다.
- Robustness: 노이즈 데이터는 학습 과정에서 모델이 잘못된 예제에도 잘 대응하도록 훈련합니다.
- 문장-이미지간의 explicit alignments 제거
- explicit alignments: 명시적 정렬은 특정 이미지가 특정 문장에 어떻게 일치하는지 직접적으로 지정하는 프로세스입니다. 즉, 훈련 데이터에서 이미 각 이미지와 문장이 쌍으로 주어진 경우를 의미합니다.
- 문장과 이미지간의 독립성: 이미지와 문장 간의 직접적인 연결성을 제거하면 모델이 각각의 데이터 유형(이미지와 문장)을 독립적으로 학습하게 되어, 단순한 상관 관계가 아닌 복잡한 의미적 관계를 학습할 수 있습니다.
- multimodal datasets 구축 비용 절감: 모든 이미지에 대해 최대한의 문장 정렬을 요구하는 것은 비용이 많이 드는 일이므로, 이를 제거하면 더 다양한 구조의 데이터를 수집할 수 있습니다.
- 이미지와 문장 간의 명시적 정렬을 제거하면 모델은 더 다양한 방식으로 두 가지 정보를 연결하고, 더 창의적이고 비선형적인 유사성을 탐색할 수 있습니다.
- Out-of-Domain problem, Distribution shift: 관련된 도메인에서만 성능이 유의미하게 향상되며, 다른 도메인에서는 분포 이동(distribution shift) 문제가 발생합니다. 이는 일반적인 목적의 문장 임베딩 학습에서 도메인 간 격차를 완화하는 것이 중요함을 의미합니다.
- Semantic similarity 정의: "semantic similarity"의 정의는 수행하는 작업에 따라 크게 달라질 수 있습니다.
기타 벤치마크 성능: STS 벤치마크 외에도 텍스트 전용 모델과 멀티모달 모델 간의 성능 차이를 탐색하는 것이 중요합니다.
6 Conclusion
- MCSE(Multimodal Contrastive Learning of Sentence Embeddings)
- MCSE는 문장 임베딩 학습을 위한 새로운 접근 방법입니다.
본 논문에서는 sentence embedding learning 을 위한 novel approach 로서, multimodal contrastive objective 를 적용하여 문장(sentences)과 corresponding 이미지(images)를 grounded space 에서 정렬(alignment)시키는 것을 목표로 합니다. - 본 연구에서는 다양한 의미적 텍스트 유사성 작업(STS tasks)을 통해 MCSE의 성능이 향상되었음을 실험적으로 보여줍니다.
- MCSE는 문장 임베딩 학습을 위한 새로운 접근 방법입니다.
- 임베딩 공간의 특성 분석: MCSE는 임베딩 공간의 정렬(alignment)과 균일성(uniformity) 특성을 강조하여 성능의 우수성을 보여줍니다.
- 제안된 Multimodal contrastive objective 는 다른 문장 임베딩 방법에 통합되어 성능을 향상시킬 수 있는 잠재력을 가지고 있습니다.
What is "Grounded Space" ?
- Multimodal Learning: Grounded space 개념은 텍스트와 이미지와 같은 다양한 형태의 데이터를 결합하여 언어 이해를 향상시키려는 접근 방식(예: MCSE)과 관련이 있습니다. 이런 식으로, 언어 모델은 새로운 정보(e.g., visual information)를 통해 문장의 의미를 더 잘 포착할 수 있습니다.
- 의미의 정렬: Grounded space를 통해 언어와 실제 세계의 개념들 간의 정렬(alignment)이 이루어집니다. 문장과 이에 해당하는 이미지를 정렬함으로써, 모델은 문장간의 의미적 관계를 더욱 정확하게 학습할 수 있는 기반을 마련합니다.
- 이러한 grounded space는 자연어 처리와 인공지능에서 언어의 의미를 이해하고 예측하는 데 필수적인 요소입니다. 모델이 텍스트 데이터만 사용하는 것이 아니라 visually grounded data 를 활용함으로써, 문장 표현 학습을 더욱 풍부하고 정교하게 만들 수 있게 됩니다.
Reference
[1] SimCSE: Simple contrastive learning of sentence embeddings (EMNLP 2021)
[2] Understanding contrastive representation learning through alignment and uniformity on the hypersphere
(ICML 2020)