
KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning (NAACL 2024)
Abstract
- Sentence embedding via multimodal contrastive learning: 이전 연구들은 멀티모달 대조 학습을 통해 향상된 결과를 얻었으나, 대조 쌍을 형성할 때 전체 배치를 negative sample 로 활용하는 과정에서 많은 noisy negative sample 들로 인해 성능이 저하되는 이슈가 있다.
- KDMCSE
- 본 연구에서는 "KDMCSE (Knowledge Distillation Multimodal Contrastive learning of Sentence Embeddings)"라는 새로운 sentence embedding 을 위한 대조학습 프레임워크를 제안합니다. 이 방식은 multimodal representation 의 discriminativeness / robustness 를 활용하여 사전학습 모델의 문장 표현력을 개선합니다.
- Teacher model (Pre-trained frozen CLIP) 로부터 지식을 전이하여 positive 인스턴스와 negative 인스턴스의 차이를 배우고, 부정 샘플들이 대조 목적에 포함되기 전에 이를 효과적으로 감지하는 방법입니다.
- AdapACSE
- 부정 쌍의 변화를 모델링하는 한계를 극복하기 위해 "AdapACSE (Adaptive Angular Margin Supervised Contrastive Learning for Multimodal Sentence Embeddings)"라는 새로운 대조 목적을 도입합니다.
- 이 방법은 각도 공간 내의 마진을 강화함으로써 차별적 표현을 향상시키고, 부정 샘플 내에서 다양한 의미를 포착합니다. 이는 [1] 에서 제안된 ArcCSE 를 저자들이 개선한 contrastive learning 을 위한 새로운 손실함수 입니다.
- 실험 결과: 널리 사용되는 의미적 텍스트 유사성(Semantic Textual Similarity, STS) 벤치마크에 대한 실험 결과에서 본 접근 방식의 성능이 입증되었습니다.
1 Introduction
- Sentence embedding learning: 문장을 고정 길이의 벡터로 변환하여, 그 문장들의 의미적 연결을 포착하는 중요한 작업이다.
- BERT(Devlin et al., 2019)와 RoBERTa(Liu et al., 2019)와 같은 사전 훈련된 언어 모델이 큰 성공을 거두었지만, 연구에 따르면 이러한 모델에서 fine-tuning 없이 기본 제공되는 문장 임베딩은 GloVe 벡터(Pennington et al., 2014)를 단순히 평균내는 것만큼 의미 유사도를 포착하는 데 효과적이지 않을 수 있습니다.
- 최근 많은 연구들은 unsupervised 프로세스를 통해 PLM(사전 훈련된 언어 모델)로부터 문장 임베딩을 다듬는 방향으로 진행되고 있습니다.
- Text-centric models 들이 많은 발전을 이루었지만, 문장 의미의 깊은 이해는 여전히 어려운 도전입니다. 진정한 의미 이해는 단순히 텍스트 통계에서 비롯되지 않고 real-world 의 연관성에서 기인하는 경우가 많습니다
- Recent Work
- Vokenization: Improving language understanding with contextualized, visual-grounded supervision (EMNLP 2020)
- Vidlankd: Improving language understanding via video-distilled knowledge transfer (Neurips 2021)
- Expand bert representation with visual information via grounded language learning with multimodal partial alignment (MM 2023)
- 최근 여러 연구는 시각적 정보를 통해 언어 표현을 향상시키는 방법을 탐구하고 있으며, 다중 모달 문장 임베딩 학습 (MCSE [2])과 같은 방법은 이와 같은 방향성을 갖고 있습니다. 하지만 이러한 방법론들은 훈련 시 문장과 이미지간의 유사성 혹은 중복 특성을 가진 데이터를 임의로 샘플링할 경우 발생하는 노이즈 문제를 해결하지 못하고 있습니다.
Issue-1: noisy sentence-image pair Issue on multimodal datasets

- Issue: 두 개의 캡션(B.1, B.2)이 두 번째 이미지(B)를 설명하는데 사용되지만, 첫 번째 이미지(A)도 동시에 정확하게 설명할 수 있음.
- Multimodal data 에서 노이즈 문제가 존재: 이러한 상황에서 캡션이 혼합되며, 잘못된 정보가 포함된 노이즈 샘플이 대조학습 과정을 방해할 수 있음.
- 해결책 필요: 이러한 의미적으로 유사한 샘플을 미리 필터링하여 대조학습 손실 계산을 하기 전에 노이즈가 줄어든 학습 환경을 확보할 필요성이 제기됨.
- 비교 분석: A.1과 A.2 설명 비교
A.1: "네 명이 계단 위에서 점프하고 있다."
A.2: "세 명의 젊은 남성과 한 젊은 여성이 운동화를 신고 계단의 맨 위에서 점프하고 있다."
A.2가 A.1보다 더 많은 세부정보(성별, 복장, 신발, 계단의 재질)를 제공하고 있음. - 결론: 단순히 시각적 이미지만 사용하는 것은 언어 표현의 깊이를 포착하는 데 한계가 있다.
Issue-2: MCSE did not consider the distinctions between negative sample pairs

- 기존의 MCSE 는 positive / negative 표현 쌍을 구성할 때 negative sample 쌍 간의 구별을 고려하지 않았습니다.
-> 즉, 모든 negative sample 을 동등한 negative sample 로 가정하였습니다. - 위의 그림 2에서 각 캡션이 이미지와 얼마나 관련이 있는지를 보여줍니다.
캡션 c의 점수는 0.49로, 이는 이미지와 어느 정도 관련이 있음을 나타냅니다.
캡션 d의 점수는 0.03으로, 이는 이미지와 전혀 관련이 없음을 나타냅니다.
따라서 특성 공간 내에서 캡션 c와 d는 올바른 묘사와 상당히 간격을 두어야 합니다.
즉, 캡션 c 와 d 가 모두 negative sample 이지만 이 두 문장을 대조학습 objective 에서 밀어내는 정도를 달리해야 합니다.
또한, true 캡션과 캡션 d 간의 거리는 true 캡션과 캡션 c 간의 거리보다 훨씬 커야 할 것 입니다.
KDMCSE framework for sentence embedding
Knowledge Distillation Multimodal Contrastive Learning (KDMCSE) Framework: sentence embedding 을 위한 새로운 대조학습 프레임워크로, pre-trained CLIP 모델을 Teacher model 로 활용하여 이미지와 텍스트 multi-modality 를 다룹니다. 이미지와 텍스트의 조합을 통해 문장을 보다 풍부하게 표현하고, 노이즈가 많은 부정 샘플을 효과적으로 감지하기 위함입니다.
AdapACSE : A novel multi-modal contrastive learning approach
- Adaptive Angular Margin Contrastive Learning: 이는 ArcCSE [1] 로부터 영감을 받아, 부정 샘플 간의 다양한 의미론적 차이를 고려하여 각 부정 샘플의 margin 를 조정합니다. sentence embedding 의 식별력을 높이며, CLIP의 소프트 레이블을 활용하여 샘플 간 유사성을 측정하고 조정하는데 도움을 줍니다.
- 소프트 레이블 사용: CLIP 모델로부터 얻은 소프트 레이블을 활용하여 유사성이 낮은 샘플에게는 강한 페널티를 주고, 유사성이 있는 샘플에게는 유연성을 부여하여 multimodal contrastive learning 을 최적화합니다.
-> Goal: 이러한 방법들은 multi-modal data 에서 더욱 효과적으로 의미 있는 sentence embedding 을 학습하기 위한 것 입니다.
Main Contributions
- KDMCSE
KDMCSE(지식 증류 멀티모달 대조 학습)는 문장 임베딩을 위한 새로운 프레임워크입니다.
제안하는 새로운 프레임워크는 teacher model (CLIP) 이 갖고있는 knowledge 을 student model 로 전달하여 multimodal contrastive learning 을 수행합니다. - AdapACSE
AdapACSE(적응형 각 마진 대조 학습)는 샘플의 유사성이 다양한 경우의 discriminative representation을 향상시키는 self-supervised contrastive learning 기법입니다. - SOTA Performance on STS tasks
KDMCSE는 표준 의미 텍스트 유사성(STS) 벤치마크와 SentEval 전이 과제를 사용하여 평가되었습니다.
이 방법은 이전의 SOTA 방법보다 더 나은 성과를 나타냈습니다.
2 Related Work
Sentence Representation Learning
- BERT: BERT(Bidirectional Encoder Representations from Transformers)는 사전 학습된 트랜스포머 기반의 모델로, 문장 표현 학습에서 큰 성과를 거두었습니다. BERT의 변형으로는 BERT-Flow와 BERT-Whitening이 있습니다.
- Contrastive learning 프레임워크: 최근 여러 연구에서 문장 표현을 학습하기 위해 대조 학습 프레임워크를 도입하고 있습니다. 이들은 다양한 데이터 변환 기법이나 다른 구조와 파라미터가 있는 인코더를 사용하여 대조 쌍을 형성하는 방법을 제안합니다.
- SimCSE [3]: SimCSE는 드롭아웃을 data augmentation 전략으로 활용하여 두 개의 다른 드롭아웃 마스크를 가진 동일한 입력 문장을 인코딩하여 positive pair 을 만듭니다.
- Negative sampling: 많은 연구들이 negative sample 의 발굴에 중점을 두어 문장 contrastive learning 의 중요한 기여를 하고 있습니다. 최근 몇몇 연구는 negative sample mining 을 활용하여 contrastive learning 표현력을 향상시키고 있습니다.
Deep Metric Learning Objectives
- Contrastive Learning: 기본적으로 여러 분야에서 주목받고 있는 비지도 학습 기법입니다. 대조 학습은 주로 샘플 간의 유사성을 평가하고, positive sample / negative sample 을 비교하는 방식으로 표현을 학습합니다.
- 대표적인 대조학습 손실 함수
- N-Pair Loss [4]: 여러 쌍의 샘플을 비교하여 손실을 계산하는 방법입니다.
- Triplet Margin Loss [5]: 삼중 쌍의 샘플을 이용하여 손실을 계산하여 긍정 샘플은 가까이, 부정 샘플은 멀리 떨어지도록 학습합니다.
- ArcCon [1]: 각 쌍의 angular margin 을 조절하여 대조 학습을 향상시키는 방법입니다.
- 지도 학습에서의 손실 함수: Softmax를 활용한 손실 함수들은 일반적으로 분류 작업에서 효과적입니다. 이들은 클래스 중심과의 거리 벌칙을 통합하여 깊은 특성 간의 거리를 제어합니다.
- 회귀 레이블을 위한 한계: 많은 손실 함수들이 분류 작업을 위해 설계되어 있어 회귀 레이블을 처리하는 데에는 적합하지 않습니다.
- ArcCSE [1]: 추가적인 마진을 도입해 쌍 간의 구분력을 강화하고, 삼중 문장 구조에서의 관계를 포착하는 훈련 목표를 제시합니다.
Visually Grounded Representation Learning
- NLP with Visual insights: 여러 연구에서 NLP 모델에 시각적 통찰을 통합하면 textual representation learning 을 개선하는 데 장점이 있음.
- 단어와 image 의 통합: 시각적 및 텍스트 차원을 아우르는 통합된 공간을 만들어 낸다.
- 다양한 언어 모델의 발전: [6],[7],[8] 은 multimodal guidance 를 통해 language understanding 개선을 목표로 한다.
- MCSE: [2] 의 MCSE는 다중모달 대조 목표를 사용하여 문장을 그에 해당하는 이미지와 일관되게 정렬하는 방법을 제안.
- Angular margin contrastive learning: 본 연구는 [2] 의 multimodal contrastive learning 을 바탕으로 angular margin contrastive learning 프레임워크를 제시함. 새로운 대조 기법을 통해 STS task 에서 multimodal semantic data 를 활용하여 문장 임베딩의 표현력을 향상시키는 것이 목표임.
3 Method
3.1 Background: Unsupervised SimCSE and Multimodal Contrastive Learning MCSE
Unsupervised SimCSE
SimCSE는 Dropout 노이즈를 데이터 증강 전략으로 이용합니다.
주어진 문장 집합 {xi}서 각각의 문장에 대해 두 가지 다른 Dropout 마스크를 사용하여 긍정 쌍을 생성합니다

MCSE
MCSE는 SimCSE를 텍스트 기본으로 삼고 이를 다중 모달 대조 학습 목표로 확장합니다.
더 나아가, 특정 문장과 연관된 이미지를 통합하여 대조 학습 목표를 생성합니다

3.2 Knowledge Distillation Multimodal Contrastive learning for Sentence Embedding
- KDMCSE 모델 개요
KDMCSE는 문장 임베딩을 위해 사전학습된 CLIP 모델의 시각적 및 텍스트 정보를 활용하는 프레임워크입니다. - 모델 입력 및 프로젝션
모델은 문장-이미지 쌍 집합 multimodal data 에서 시작됩니다. 여기서 x 는 문장, y 는 이미지입니다.

식 (5),(6) 은 각각 문장 x 와 이미지 y 에 대하여 pre-trained CLIP (Frozen) encoder 를 이용해 얻은 text, visual representation 입니다. KDMCSE 모델은 사전학습된 CLIP의 지식을 전이하며, image / text 표현 간의 유사성을 활용하여 신뢰할 수 없는 음성 샘플을 필터링합니다.
Threshold Filtering
multimodal contrastive learning 에서 noisy negative sample 로 인해 생기는 문제를 보완하기 위해, 임계값 필터 함수가 정의합니다.


식 (8) 에서 threshold 는 학습하는동안 설정되는 fixed hyperparameter 입니다.
threshold filtering 기법은 text-text, text-visual 간에 진행됩니다.
본 논문에서 제안하는 threshold filtering 을 포함한 multimodal contrastive learning objective function 은 다음과 같습니다.

3.3 Adaptive Angular margin Contrastive learning
ArcCSE: ArcCSE[1] 는 세 쌍 문장 간의 함의 관계를 포착하기 위해 제안되었습니다. 이는 서로 다른 세 문장의 유사성을 늘리고 구별 능력을 향상시키는 목표를 가지고 있습니다. ArcCSE는 같은 의미를 가진 문장 쌍의 compactness를 증가시키고, 서로 다른 의미를 가지는 문장 쌍 간의 차이를 크게 하여 문장 표현의 효율성을 높입니다.


Issue: ArcCSE 는 문장표현을 위해 효과적인 대조학습 방법이지만, negative sample 간의 거리를 중시하지 않으며 MCSE[2] 처럼 형성된 대조 쌍에서 negative sample 을 무작위로 선택할 경우 노이즈와 의심스러운 부정적인 예제가 포함될 수 있고 이는 sentence embedding 표현학습에 방해가 됩니다.
AdapACSE: 기존의 ArcCSE 를 개선한 Adaptive Angular Margin Contrastive Loss 를 제안합니다. 각 nagative sample 의 차이에 따라 유동적인 마진을 설정하여 대조학습 합니다.

두 샘플간의 margin 을 다음과 같이 계산합니다.

저자들이 정의한 margin 은, projection head 를 거치고 얻은 두개의 vector representation 코사인 거리로 정의됩니다. 따라서 위 식에서 alpha 값은 두 벡터의 코사인유사도 입니다. 유사도가 크면 마진을 크게 설정하여 같은 클래스를 갖는 샘플들을 더 밀집하게 만들고, 반대로 유사도가 작으면 마진을 줄여서 서로 간격을 두게 합니다. 위와 같은 유동적 마진은 negative sample 쌍에서의 차이를 잘 반영하여 문장 표현 학습을 개선하도록 돕습니다. 최종적인 AdapACSE loss function 은 다음과 같습니다. 식 (13) 에서 분모의 second term 앞에 곱해진 값은 threshold filter 입니다. 이 threshold filter 는 앞서 말씀드린바와 같이, text-text / text-image 에서 수행합니다.

KDMCSE 프레임워크의 최종적인 overall objective function 은 다음과 같습니다.

식 (14) 에서 분자의 first term 은 visual modality 의 AdapACSE 이고, second term 은 text modality 의 AdapACSE 입니다.
4 Experiments Setup
4.1 Dataset
- Flickr30k 데이터셋: 총 29,783개의 이미지로 구성. 각 이미지에는 일반적으로 5개의 캡션이 제공됨.
- MS-COCO 데이터셋: 총 82,783개의 이미지로 구성. 이 데이터셋 역시 각 이미지에 대해 여러 캡션이 첨부됨.
- Wiki1M 텍스트 기반 데이터셋 (Only texts): 총 106개의 문장으로 구성되며, 문장들은 랜덤으로 영어 위키백과에서 추출됨.
- 각 데이터셋의 활용: 연구에서는 Flickr30k와 MS-COCO를 멀티모달 데이터셋으로 사용하며, 이는 이미지를 텍스트와 연결하여 수행하는 다양한 자연어 처리 작업에 적용됨.
4.2 Implementation
- Language Encoder - Student Model
Hugging Face Transformers 라이브러리에서 구현됨.
BERT (bert-base-uncased) 및 RoBERTa (roberta-base) 체크포인트에서 언어 인코더 로드.
도입한 대조 목표로 이 기초 모델들을 파인튜닝하여 문장 임베딩 평가.
Transformer 기반 모델의 [CLS] 토큰의 768차원 출력을 사용하여 문장 임베딩을 평가. - Multimodal Encoder - Teacher Model
Teacher 모델은 CLIP(Contrastive Language-Image Pretraining)로, pre-trained clip-vit-base-patch32로 가중치 초기화됨. ViT-B/32 Transformer 아키텍처를 사용하여 이미지 인코더를 구축하며, 패치 크기는 32.
훈련 중 교사 모델은 파인튜닝되지 않으며, 계산 비용 감소를 위해 이미지 및 텍스트 특징을 미리 추출함. - MLP Projection head
서로 다른 모달리티와 목표를 위해 4개의 다른 MLP 모듈 사용.
Wiki1M 데이터셋을 사용하는 순수 텍스트 목표에 대해 문장 임베딩을 768차원 공간으로 투영.
CLIP 프로젝션에서는 학생 및 교사 모델의 문장 임베딩과 이미지 특징 벡터가 공유된 256차원 공간으로 투영됨.
이러한 방법을 통해 KDMCSE 모델은 다중모달 문장 임베딩을 개선하고, 교사 모델의 지식을 활용하여 양극 샘플을 정확히 파악할 수 있게 됩니다. - Parameter Settings
- Training scenario: 두 가지 주요 훈련 시나리오(wiki+flick, wiki+coco)를 조사했습니다.
- Mini-batch: 훈련 중 미니 배치는 Wiki1M 코퍼스 또는 각 캡션 데이터셋에서 비율을 반영하여 랜덤으로 선택되었습니다.
- Temperature parameter: 모델 평가를 위해 온도 파라미터 τ와 τ'를 각각 0.05로 설정했습니다.
- Model evaluation: 125 훈련 반복마다 STS-B 개발 세트에서 평가를 수행하고, 최종 평가는 가장 성능이 좋은 체크포인트를 보존하여 진행했습니다.
- BERT 인코더 설정: BERT 인코더에 대해서는 학습률을 3e-5, 배치 크기를 64로 설정했습니다.
- RoBERTa 인코더 설정: RoBERTa에 대해서는 학습률을 1e-5, 배치 크기를 128로 조정했습니다.
- Hardware: 훈련은 A6000 GPU에서 수행되었고, 각 실험은 약 5-6시간이 소요되었습니다
4.3 Evaluation
- 연구의 목적은 3 가지의 STS(semantic textual similarity, 의미적 텍스트 유사성) 작업 (STS, STS-B, SICK-R) 에 대한 모델의 성능을 평가하는 것입니다.
- 평가에 사용된 STS 데이터셋
- STS2012 - 2012년에 발표된 데이터셋으로, 텍스트 쌍 간의 유사성을 평가합니다.
- STS2013 - 2013년 발표된 데이터셋으로, 두 텍스트 쌍의 유사성을 다룹니다.
- STS2014 - 2014년에 발표된 데이터셋으로, 이전년도와 유사한 구성입니다.
- STS2015 - 2015년 데이터셋으로, 나열된 쌍 간의 유사성을 평가합니다.
- STS2016 - 2016년도 데이터셋으로, 텍스트 쌍 간 유사성 점수를 매기는 데 사용됩니다.
- STS Benchmark - 텍스트 쌍에 대한 기준 데이터를 제공합니다.
- SICK-Relatedness - 이미지와 연관된 텍스트 쌍의 유사성을 평가하는 데이터셋입니다.
- 각 데이터셋은 여러 쌍의 문장으로 구성되어 있으며, 각 쌍의 유사도 점수를 매기는 것이 목표입니다.
- Spearman 상관 계수를 이용하여 예측된 점수를 공식 주석과 비교합니다.
- Spearman 상관 계수는 두 변수 사이의 단조 관계를 측정하는 비모수 통계 방법입니다.
- 결과는 "all" 문맥에서 종합된 Spearman 상관 계수로 제시됩니다. 이는 각 작업마다 모든 하위 집합을 결합한 후 제공됩니다.
5 Experiments Results
5.1 Main Results

- MCSE 성능 향상: KDMCSE 모델은 SimCSE 모델보다 대부분의 STS(Semantic Textual Similarity) 평가에서 더 나은 결과를 보였습니다.
- 기타 개선 사항
CLIP teacher 모델을 통해 시각 정보와 텍스트 정보를 통합하여 성능이 향상되었습니다.
Wiki1M 및 Flickr30k 데이터셋에서 BERT 모델의 성능이 77.3에서 78.6으로, RoBERTa 모델은 78.3에서 79.1로 증가했습니다. - 다른 기준선 대비: KDMCSE-BERT 모델은 wiki+coco 데이터셋에서 대부분의 작업에서 다른 방법들을 초과하는 성능을 보였고, STS16에서는 소폭의 성장을 보였습니다.
- RoBERTa 모델 평가: KDMCSE 프레임워크로 훈련된 RoBERTa 모델은 평균 성능이 77.6에서 78.0으로 증가했으며, STS12, STS14, STS15에서 유의미한 개선이 나타났습니다.
5.2 Alignment and Uniformity
[9] 정렬(Alignment)과 균일성(Uniformity)은 대조 학습(Contrastive Learning)에서 모델의 표현 품질을 평가하는 두 가지 중요한 메트릭입니다. 정렬과 균일성 메트릭을 평가함으로써, 연구자들은 모델이 어떤 부분에서 잘 작동하고 있으며, 어떤 점이 부족한지에 대한 인사이트를 얻을 수 있습니다. 이를 바탕으로 모델 개선이나 새로운 실험 방향성을 정할 수 있습니다.
정렬성 (Alignment)
본질적으로 비슷한 데이터 포인트에 대해 결과적으로 유사한 표현(embedding)을 생성하도록 머신 러닝 모델을 훈련하는 성질입니다. 즉, 비슷한 샘플들이 가까운 거리에 위치하도록 유도합니다.

균일성(Uniformity)
표현들이 고르게 분포되도록 유도하는 손실(loss)입니다. 즉, 인스턴스들의 표현이 단순히 모여있지 않고, 균일하게 분포하는지를 평가합니다.

- 성능개선: KDM-CSE는 MCSE에 비해 정렬(alignment)과 균일성(uniformity) 메트릭에서 더 나은 성능을 보였습니다. 이 결과는 KDMCSE의 방법론이 효과적임을 확인해줍니다.
- AdapACSE의 효과: AdapACSE (Adaptive Angular Margin Contrastive Learning)가 문장 임베딩의 품질을 효과적으로 향상시킬 수 있음을 시사합니다.
- STS-B 개발 세트를 사용한 alignment / uniformity 평가: 정렬성과 균일성 메트릭을 평가하기 위해 STS-B 개발 세트를 사용합니다. 이를 통해 방법론의 세부 메커니즘을 더욱 깊이 분석할 수 있습니다.
6 Analysis
6.1 Exploring the Impact of Angular Margin

- AdapACSE 손실 함수 분석: 이 손실 함수에서 각도 마진(m)은 판별 능력을 결정하는 데 중요하다.
- 실험 진행: m을 0.025 라디안부터 0.225 라디안까지 0.025 라디안씩 변화시키며 실험하였다.
- 성능 지표: 여러 작업에 대해 계산된 성능 지표는 도표(그림 7)에 나타난다.
- 최적의 m 값: m이 0.125로 설정되었을 때 최적의 성능을 보였다.
- 성능 저하: 이 최적 점에서 벗어나면, 즉 m 값을 높이거나 낮추게 되면 성능이 떨어진다.
- 예상과의 일치: 이는 초기 가설과 일치하며, 작은 m 값은 영향이 적고, 지나치게 큰 m 값은 융합 공간에서 표현을 왜곡할 수 있다는 것을 보여준다.
6.2 Threshold Filtering selection


- Threshold hyper-parameter 를 정의하기 위한 분석: 훈련 중에 사용되는 임계값 하이퍼파라미터를 정의하는 방법을 보여줍니다.
- 유사도 점수 통계: Flickr 데이터셋에서 텍스트-텍스트 및 텍스트-비주얼 유사도 점수를 기반으로 통계를 수집합니다.
- 두 가지 계산 수행: 유사도 임계값에 대한 히스토그램을 생성하고, 모든 캡션을 기준으로 정렬한 후 해당 이미지와 정렬되는 최대 True 캡션의 위치를 구합니다.
- 정확한 캡션 분포 분석: 대부분의 참 캡션은 상위 100개 안에 위치하지만, 일부 캡션은 200 이상의 인덱스에 위치할 수 있습니다.
이는 유사한 이미지가 많아 다른 이미지를 설명하는 캡션일 수 있지만, 이 이미지에 대해서도 적절할 수 있는 경우 때문입니다. - 유사도 점수 분포: 유사도 점수는 정규 분포를 따르는 경향이 있으며, 0.8 이상의 유사도를 가진 쌍은 소수입니다. 유사도가 1.0에 가까워질수록 점수가 급감합니다.
- 최종 Threshold 선택: 위 통계를 바탕으로 유사도 점수를 기준으로 약 0.85-0.9의 임계값을 선택하여 대비 학습 목적에서 쌍을 제거합니다.
7 Conclusion
- KDMCSE (Knowledge Distillation Multimodal Contrastive Learning for Sentence Embeddings): 문장의 임베딩을 학습하는 새로운 접근법입니다.
- 주요 특징
- Knowledge distillation: 시각 및 언어 모델로부터 지식을 전이합니다.
- Multimodal contrastive learning objective: 텍스트와 이미지 표현을 일치시키기 위해 다중 모드 대조 목표를 사용합니다.
- 노이즈가 있는 negative sample 회피: 대조학습을 통한 훈련 시 부정적인 샘플 중 소음이 있는 샘플을 피할 수 있도록 설계되었습니다.
- AdapACSE: 새로운 대조 목표로, negative sample 간의 미세한 차이를 포착하는 데 따르는 문제를 해결하기 위해 만들어졌습니다. 이 접근법은 discriminative representation 을 강화합니다.
- 결론 및 목표: 이 프레임워크는 비전 및 언어 애플리케이션의 발전을 위한 기초 작업을 수행하고 있으며, 향후 이 분야에서의 탐구를 촉진 할 것 입니다.
8 Limitations
- 단어 토큰의 분포 차이: multimodal datasets 의 한계
- 전통적인 언어 코퍼스(예: Book Corpus, Wikipedia)와 시각 데이터셋(MS COCO)의 단어 토큰 분포 및 양이 상당히 다릅니다.
- 전통 언어 코퍼스는 수십억 개의 단어와 수백만 개의 고유한 토큰을 보유하고 있습니다.
반면, MS COCO는 백만 개의 단어와 약 천 개의 고유한 토큰만 포함하고 있습니다.
- 하이퍼파라미터의 복잡성: KDMCSE의 대조적인 목적에서 하이퍼파라미터와의 복잡한 상관관계가 있으며, 최적의 설정은 체계적인 이해가 아닌 많은 실험의 exhaustive fine-tuning을 통해 결정되었습니다.
- "Semantic similarity"의 특성
- "Semantic similarity"은 특정 작업 (task-specific) 에 따라 매우 상이하게 정의됩니다.
- 텍스트 전용 모델과 멀티모달 모델 간의 성능 차이를 다양한 벤치마크에서 평가할 필요가 있습니다. 이는 문장 표현의 효과성을 더 포괄적으로 이해하는 데 도움이 됩니다.
Reference
[1] A contrastive framework for learning sentence representations from pairwise and triple wise perspective in angular space (ACL 2022)
[2] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)
[3] SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
[4] Improved deep metric learning with multi-class n-pair loss objective (Neurips 2016)
[5] Learning local feature descriptors with triplets and shallow convolutional neural networks (BMVC 2016)
[6] Vokenization: Improving language understanding with contextualized, visual-grounded supervision
(EMNLP 2020)
[7] Vidlankd: Improving language understanding via video-distilled knowledge transfer (Neurips 2021)
[8] Expand bert representation with visual information via grounded language learning with multimodal partial alignment (MM 2023)
[9] Understanding contrastive representation learning through alignment and uniformity on the hypersphere. (ICML 2020)