[Paper Review] Density Matching for Bilingual Word Embedding (NAACL 2019)

Density Matching for Bilingual Word Embedding (NAACL 2019)

TL;DR

기존 접근법: 두 언어의 단어 임베딩 벡터 집합 간의 선형 변환에 기반.
새로운 접근법:
- 두 모노링구얼 임베딩 공간을 확률 밀도로 표현.
- Gaussian mixture model(GMM)을 통해 이 밀도를 정의.
- Normalizing flow라는 방법을 사용하여 두 확률 밀도를 맞춤.
특징:
- 명시적인 감독 없이 학습 가능.
- 동일한 문자열을 가진 단어들로 구성된 시드 사전만 필요.
- 복잡한 언어 쌍이나 단어 쌍 사이의 매핑에서 강건성과 일반화 능력 향상.
성능:
- 바이링구얼 사전 생성과 크로스-링구얼 단어 유사성에서 경쟁력 있거나 우수한 성능.
- 어원이 먼 언어 또는 형태학적으로 풍부한 언어에서 특히 강력한 결과.

기존의 선형 변환 기반 접근법과 이 논문에서 제안한 새로운 접근법 사이에는 몇 가지 중요한 차이점이 있습니다. 아래에서 이를 자세히 설명하겠습니다.

기존의 선형 변환 기반 접근법

1. 선형 변환

기본 아이디어: 두 언어의 단어 임베딩 공간을 선형 변환을 통해 정렬합니다. 이를 위해 보통 공통 단어 쌍(예: 영어 'cat'과 프랑스어 'chat')을 이용해 하나의 언어에서 다른 언어로의 변환 매트릭스를 학습합니다.
모델 메커니즘: 주로 행렬 곱셈을 사용하여 하나의 임베딩 공간을 다른 공간으로 변환합니다.

2. 거리 기반 최적화

목표: 공통 단어 쌍의 유클리디안 거리 또는 코사인 유사도를 최소화하는 방식으로 매핑을 최적화합니다.
학습 방식: 지도 학습 또는 반지도 학습을 통해 공통 단어 쌍을 이용하여 매핑을 학습합니다.

3. 장점과 단점

장점: 구현이 간단하고 비교적 빠르게 계산이 가능합니다.
단점: 언어 간의 비선형 관계를 잘 포착하지 못하며, 결과가 초기화나 학습 데이터를 크게 의존합니다.

새로운 접근법: 확률 밀도치와 Normalizing Flow

1. 확률 밀도 함수 기반

기본 아이디어: 두 언어의 단어 임베딩 공간을 확률 밀도 함수로 표현합니다. 이러한 확률 밀도 함수는 Gaussian mixture model(GMM)로 정의됩니다.
모델 메커니즘: 각 단어는 단순한 벡터로 표현되는 것이 아니라, 여러 개의 가우시안 분포의 혼합으로 표현됩니다.

2. Normalizing Flow

목표: 하나의 임베딩 밀도를 다른 임베딩 밀도로 변환하기 위해 Normalizing flow라는 기법을 사용합니다. 이는 복잡하고 비선형적인 변환을 효과적으로 수행합니다.
학습 방식: 지도 학습이 거의 필요 없으며, 동일한 스펠링을 가진 단어들로 구성된 시드 사전만 있으면 됩니다.

3. 장점과 단점

장점:
- 비선형 관계를 효과적으로 포착하여 더 복잡한 언어 간 매핑을 학습할 수 있습니다.
- 초기화에 민감하지 않고, 안정적인 학습이 가능합니다.
- 특히 어원이 다른 언어 또는 형태학적으로 풍부한 언어들에 대해 더 좋은 성능을 발휘합니다.
단점:
- 구현이 다소 복잡하고 계산 비용이 상대적으로 높을 수 있습니다.

요약

기존 접근법은 선형 변환과 거리 기반 최적화를 사용하여 비교적 간단하고 빠르게 매핑을 수행하지만, 비선형 관계 포착에 제한이 있습니다.
새로운 접근법은 확률 밀도 함수와 Normalizing flow를 통해 복잡한 비선형 관계를 더 효과적으로 학습하며, 더 강력하고 일반화 능력이 높은 모델을 제공합니다.

정리 : Cross-lingual word embedding 에서 새로운 방법론 제안함

두개의 mono-lingual embedding space 를 GMM 을 이용하여 확률밀도로 정의함.

두 밀도를 사용하여 매칭하는 이러한 방법을 normalizing flow (density matching) 라고함.

이 방법은 unsupervised 이고 , seed dictionary 만을 필요로함 (weak supervision)

특히 어원학적으로 거리가 먼 언어에 대해서도 좋은 성능

Q1.

- 가설 : 어원학적으로 거리가 먼 두 언어일수록 isomorphism 한 가정이 bi-lingual word embedding 에서 문제가 될 우려가 크지 않을까?

-> Normalizing flow (density matching) 는 isomorphism 가정을 전제로 bi-lingual word embedding 을 하지 않기 때문에 어원학적으로 거리가 먼 두 언어에서도 좋은 성능을 나타내는 것인가?

Q2. Gaussian Mixture Model(GMM) 이 무엇인가?

Q3. Normalizing flow 는 무엇인가?

-> Variational inference with normalizing flows (ICML 2015)

Cross-lingual word embeddings:
- 여러 언어의 단어들을 단일 벡터 공간에 표현.
- 언어 간 구문 및 의미 유사성을 포착.
- 컴퓨터 모델에 활용하기 적합.
장점:
- 고자원 언어에서 저자원 언어로 모델 전이 가능.
- 비지도 학습에도 효과적.
두 가지 주요 패러다임:
1. Online Methods:
  - 병렬 코퍼스에서 직접 학습.
  - 단일언어 코퍼스로 보완 가능.
2. Offline Methods:
  - 사전 학습된 단일언어 임베딩 또는 피처 벡터에서 이중언어 매핑 함수 또는 다중언어 프로젝션 학습.
이중언어 임베딩 목표:
- 의미가 유사한 단어들을 인접한 지점에 투영하는 공유 임베딩 공간 학습.
지도 학습 방법:
- 수동으로 생성된 사전에서 단어의 유사성을 극대화.
- 예: Mikolov et al., Faruqui and Dyer
비지도 학습 방법:
- 보카불러리의 이산적 단어 벡터 집합 간의 거리 최소화.
  - 예: Wasserstein distance, Jensen–Shannon divergence
- 임베딩 공간을 이산적 점 집합으로 보는 접근에는 한계가 있음.
비지도 학습 방법 (거리최소화 방식) 의 단점
- 이산적 표현의 한계:
  - 임베딩 공간을 단일한 이산적 점 집합으로만 표현하면 불확실성이나 학습 과정에서 발생하는 노이즈를 반영하지 못합니다.
  - 학습이 거듭될 때마다 임베딩 공간이 크게 달라질 수 있습니다. Wendlandt et al., 2018에 따르면, 다른 학습 실행 간의 임베딩 공간 차이가 발생할 수 있습니다.
- 주변 점의 무시:
  - 고정된 임베딩 공간 내에서 실제 단어가 존재하는 사전의 점들 주위에 위치한 점들도 유의미한 의미를 가질 수 있지만, 이러한 주변 점들을 고려하지 않습니다.
- 초기화의 민감성:
  - 많은 비지도 학습 방법들이 초기화에 민감합니다. 잘못된 초기값 설정은 로컬 옵티마에 빠지게 하여 성능이 저하될 수 있습니다.
- 복잡한 최적화 절차 필요:
  - 복잡한 거리 최소화 함수를 최적화하기 위해 복잡한 기법들이 필요할 수 있습니다. 특히, 다수의 언어와 다양한 차원의 데이터를 다룰 때 최적화가 어려울 수 있습니다.
- 언어 간 다양성에 대한 취약성:
  - 일부 거리 최소화 기법은 언어 간의 어휘 및 구조적 다양성을 충분히 포착하지 못할 수 있습니다. 일부 언어 쌍에는 잘 동작하지만, 다른 언어 쌍에서는 성능이 떨어질 수 있습니다.

이런 한계를 극복하기 위해, 제안된 DeMa-BWE 방법은 임베딩 공간을 연속적 확률 밀도 함수로 표현하는 접근 방식을 사용하여 임베딩 공간의 전체 연속 공간을 탐색하고 불확실성을 포함해 보다 안정적인 임베딩을 학습하도록 유도합니다.

DeMa-BWE란?
- DeMa-BWE는 밀도 정합을 통해 이중언어 단어 임베딩을 학습하는 방법입니다.
- 임베딩 공간을 이산적인 점으로 취급하는 대신, 연속적인 공간으로 확장하여 각 단어 벡터를 확률 밀도 함수(PDF)로 표현합니다.
Gaussian mixture model(GMM) 사용
- 모노링구얼 임베딩 공간의 각 벡터는 사전 훈련된 단어 임베딩 중심의 가우시안 혼합 모델(GMM)로부터 생성된다고 가정합니다.
- 가우시안 혼합 모델의 각 구성 요소는 단어의 사전 훈련된 임베딩을 중심으로 갖는 가우시안 분포입니다.
학습 패러다임
- 사전 훈련된 단어 임베딩을 고정된 학습 샘플로 사용하는 대신, 매 학습 단계마다 가우시안 혼합 공간에서 샘플을 추출합니다.
- 이렇게 함으로써 관찰된 단어에만 국한되지 않고 전체 임베딩 공간을 탐색합니다.
볼륨 보존 가역 변환(Volume-preserving invertible transformations) 사용
- 변환 샘플의 밀도를 계산하기 위해 볼륨 보존 가역 변환을 사용하여 밀도 정합을 효율적이고 이론적인 방법으로 수행합니다.
DeMa-BWE details
- Gaussian 모델 샘플링:
  - 사전 학습된 단어 임베딩을 고정된 훈련 샘플로 사용하지 않고, 매 훈련 단계에서 Gaussian 혼합 모델(GMM)에서 샘플을 얻습니다.
- 전체 임베딩 공간 탐색:
  - 이렇게 하면 관측된 단어에 할당된 특정 지점을 넘어서 전체 임베딩 공간을 탐색할 수 있습니다.
- 밀집도 계산:
  - 변환된 샘플의 밀집도를 계산하기 위해 목표 단어 임베딩 위에 "Volume-preserving invertible transformations" 을 사용합니다.
- 효율적 밀집도 일치:
  - 이는 밀집도를 원칙적이고 효율적으로 일치시키는 것을 가능하게 합니다.
- 참조 논문: Rezende and Mohamed (2015), Papamakarios et al., 2017, He et al., 2018.
세 가지 추가 요소
1. 역번역 손실(Back-translation loss): 모델이 양방향으로 매핑을 공동 학습할 수 있도록 합니다.
2. 동일 단어 매칭 손실(Identical-word-matching loss): 철자가 동일한 단어가 비슷한 공간에 매핑되도록 유도합니다.
3. 빈도 매칭 기반 가우시안 혼합 가중치(Frequency-matching based Gaussian mixture weights): 대략적인 단어의 빈도를 고려한 가중치를 제공합니다.
실험결과
- MUSE 데이터셋에서 경쟁력 있는, 혹은 뛰어난 결과를 달성했습니다.
- 특히 어원이 먼 언어 또는 형태 변화가 많은 언어에서 높은 성능을 나타냈습니다.
- 초기화 감도나 복잡한 최적화 절차가 필요하지 않을 정도로 안정적입니다.

참고) Volum-preserving invertible transformation / Linear transformation 비교

"Volume-preserving invertible transformations"와 선형 변환(linear transformation)은 둘 다 변환과 밀도 계산에서 중요한 역할을 할 수 있지만, 두 방법은 서로 다른 장단점이 있습니다. 각 방법의 이점을 더 잘 이해하기 위해, 다음과 같이 비교해 보겠습니다:

선형 변환 (Linear Transformation)

장점:

간단함:
- 수학적 구조가 단순하여 이해하고 구현하기 쉽습니다.
- 변환과 역변환이 행렬 곱셈으로 간단히 표현됩니다.
계산 효율성:
- 선형 변환의 Jacobian 행렬은 변환 행렬 자체로 매우 계산이 효율적입니다.
- 행렬의 역변환 계산도 상대적으로 빠릅니다.
설명 가능성:
- 변환이 선형이므로 직관적 이해가 용이하고, 각 차원의 변화가 일관되게 해석될 수 있습니다.

단점:

표현력의 한계:
- 복잡한 비선형 관계를 포착하지 못해, 데이터 분포가 복잡하거나 비선형적인 경우 변환의 적합성이 떨어집니다.

Volume-Preserving Invertible Transformations

장점:

비선형성:
- 비선형 변환을 포함하므로, 더 복잡하고 비선형적인 데이터 구조를 캡처할 수 있는 높은 표현력을 가지고 있습니다.
밀도 보존:
- 변환 과정에서 밀도를 보존하여 왜곡 없이 원본 공간의 확률 밀도를 변환된 공간에 적절히 매핑할 수 있습니다.
- 이를 통해 밀도 함수 간의 일치(uniformity)를 정확히 유지할 수 있습니다.
유연성:
- 여러 단계의 invertible transformation을 조합하여 더욱 복잡한 변환을 구성할 수 있습니다.
- 이로 인해 다양한 데이터 패턴을 효과적으로 학습할 수 있습니다.

단점:

복잡함:
- 구현이 복잡하고, Jacobian 행렬의 계산이 더 복잡할 수 있습니다.
- 특이한 구조의 변환일 경우 이해하고 디버깅하기 어려울 수 있습니다.
계산 비용 증가:
- 비선형 변환의 경우, 각 변환 단계에서 Jacobian 행렬의 행렬식을 계산하는 데 더 많은 계산 자원이 필요할 수 있습니다.
- 따라서 대용량 데이터나 실시간 응용에는 부적합할 수 있습니다.

결론

"Volume-preserving invertible transformations"는 더 높은 표현력과 유연성을 제공하여 복잡한 비선형 관계를 잘 포착할 수 있지만, 계산 복잡도가 높아지는 단점이 있습니다. 반면 선형 변환은 구현이 간단하고 계산이 효율적이지만 표현할 수 있는 데이터 관계에 한계가 있습니다.

따라서 어떤 변환을 사용할지는 데이터의 특성과 응용 도메인의 요구에 따라 달라질 수 있습니다. 복잡한 비선형 변환이 요구되는 모델에서는 volume-preserving invertible transformations가 더 유리할 수 있고, 단순하고 효율적인 변환이 요구되는 경우에는 선형 변환이 더 적합할 수 있습니다.

Isormophism (동형성)

기존의 이중언어 임베딩(Bi-lingual Word Embedding) 방법들이 동형성을 반드시 전제로 하는 것은 아닙니다. 그러나, 동형성이 임베딩 학습의 결과로서 자연스럽게 이루어지기를 기대하는 경향은 있습니다. 기존 방식과 관련된 여러 예를 통해 이를 더 자세히 설명하겠습니다.

기존의 주요 방법들

선형 변환 기반 방법:
- Mikolov et al. (2013): 두 언어 간의 임베딩을 선형 변환(matrix transformation)을 통해 맞춥니다. 이 경우, 두 임베딩 공간이 동형성 관계에 가까울 때 더 좋은 성능을 보입니다.
- Faruqui and Dyer (2014): Canonical Correlation Analysis(CCA)를 통해 두 임베딩 공간의 공통된 저차원 공간을 찾습니다. 이 방법 역시 두 공간의 구조적 유사성을 가정하는 면이 있습니다.
비선형 변환 기반 방법:
- 교차 모드(Adversarial Training): 비감독 학습 방법으로, 두 임베딩 공간을 매칭할 때, 적대적 학습(adversarial training)을 통해 서로를 구별할 수 없도록 만듭니다. 이 방식도 궁극적으로는 두 공간의 구조적 유사성을 달성하려 합니다.

동형성을 전제하지 않더라도 활용 가능

동형성을 명시적 전제로 하지 않음: 기존 방법들이 학습의 전제 조건으로 동형성을 명시적으로 요구하는 것은 아니지만, 최적의 성능을 위해 두 공간이 동형적이기를 기대합니다.
높은 변동성: 초기화와 데이터의 잡음에 따라 학습된 임베딩 공간의 구조가 달라질 수 있으며, 이는 동형성 가정이 항상 성립하지는 않음을 의미합니다.

동형성에 대한 기대와 현실

이상적 상황: 두 임베딩 공간이 매우 유사한 구조적 특성을 가지면, 기존의 선형 변환 방식이 강력한 성능을 발휘할 수 있습니다.
현실적 상황: 두 언어가 어휘적, 문법적으로 많이 다를 경우, 동형성 관계가 성립하지 않을 수 있으며, 이로 인해 기존 방법들의 성능이 저하될 수 있습니다.

DeMa-BWE와의 비교

밀도 매칭 방법: 확률 밀도 함수 기반 방법은 두 공간이 완전히 동형적이지 않더라도 구조적 관계를 더 유연하게 반영할 수 있습니다.
기존 방법: 초기 매칭을 위해 일부 감독 정보(예: 단어 사전)를 필요로 하고, 두 공간의 구조적 유사성을 가정하는 경향이 강합니다. 그러나 이 가정이 항상 성립하지 않을 때는 추가적인 복잡도나 변동성이 발생할 수 있습니다.

결론

기존의 이중언어 임베딩 방법들이 명시적으로 동형성을 전제로 하는 것은 아니지만, 두 공간 간의 구조적 유사성이 있을 때 최적의 성능을 발휘하기를 기대합니다. 밀도 매칭 방법은 이러한 구조적 유사성의 전제가 불안정한 상황에서도 더 유연하고 강건한 성능을 보일 수 있는 장점이 있습니다.

Linear Transformation 기법과의 차이점

선형 변환(linear transformation) 기법은 밀도 매칭 방법과 다릅니다. 아래에서 선형 변환 기법과 밀도 매칭 방법의 차이점을 구체적으로 비교해 보겠습니다:

선형 변환 방법

기법의 본질: 두 언어의 단어 임베딩 공간을 선형 행렬 변환을 통해 정렬합니다. 흔히 사용되는 방법으로는 단어 쌍별로 대응되는 벡터를 학습하고, 이를 통해 두 언어 공간 간의 선형 변환 행렬을 찾습니다.
주된 방법들:
- Mikolov et al. (2013): Word2Vec을 활용하여, 두 언어의 단어들을 벡터 공간상에서 선형 변환을 통해 매핑합니다.
- Procrustes Analysis: 두 임베딩 공간의 점들을 최적의 회전, 스케일링, 반사 등을 적용하여 정렬합니다.
지도 학습과 비지도 학습:
- 지도 학습(supervised learning): 일반적으로는 미리 정해진 단어 쌍 사전을 사용하여 학습합니다.
- 비지도 학습(unsupervised learning): 초기 단어 쌍을 추정하거나 적대적 생성 네트워크(adversarial training) 방식을 통해 매핑을 수행합니다.
동형성 가정: 두 임베딩 공간이 구조적으로 유사하거나 동형적일 때 특히 강력한 성능을 보입니다. 하지만, 이 가정이 항상 만족되는 것은 아닙니다.

밀도 매칭 방법 (예: DeMa-BWE)

기법의 본질: 임베딩 공간을 고정된 점들의 집합이 아닌, 연속적인 확률 밀도 함수(probability density function)로 모델링하여 매핑합니다. Gaussian Mixture Model(GMM)을 사용하여 각 단어의 임베딩을 나타냅니다.
확률 밀도 함수: 임베딩 벡터 주위의 공간을 확률 분포(Gaussian 분포)로 나타내며, 밀도 함수 간의 매칭을 학습합니다.
약한 감독 약한 감독(weak supervision): 동일 철자 단어 등의 약한 감독 정보를 활용하여 매핑을 시작하므로, 초기 사전 없이도 학습이 가능합니다.
구조적 유연성: 두 공간 간의 구조적 차이가 있을 때도 더 유연하게 대응할 수 있습니다.

차이점 요약

임베딩 공간의 표현 방식:
- 선형 변환 방법: 고정된 벡터 점들과 그 간의 선형 변환을 학습함.
- 밀도 매칭 방법: 확률 밀도 함수로 임베딩 공간을 나타내고, 밀도 함수 간의 매칭을 학습함.
가정:
- 선형 변환 방법: 두 공간이 동형성을 가지며, 구조적으로 유사할 것으로 기대함.
- 밀도 매칭 방법: 동형성을 엄격하게 가정하지 않으며, 구조적 차이를 더 유연하게 수용함.
지도 정보:
- 선형 변환 방법: 일반적으로 지도 학습에 기반하며, 초기 단어 사전을 필요로 함.
- 밀도 매칭 방법: 약한 감독 정보로 학습하며, 초기 단어 사전 없이도 시작할 수 있음.

결론

선형 변환 기법은 밀도 매칭 방법과는 본질적으로 다른 접근 방식을 취하며, 고정된 벡터와 선형 변환을 중점으로 합니다. 반면 밀도 매칭 방법은 확률 밀도 함수로 임베딩 벡터를 표현하고, 더 유연한 방식으로 구조적 특성을 반영합니다. 두 방법은 각각 장단점을 가지며, 상황에 따라 적합한 방법을 선택할 수 있습니다.

'Paper Review' 카테고리의 다른 글

[Paper Review] KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning (NAACL 2024) (0)	2025.03.30
[Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022) (0)	2025.03.30
[Paper Review] Contrastive Learning for Neural Topic Model (Neurips 2021) (2)	2024.05.02
[Paper Review] Diversity-Aware Coherence Loss for Improving Neural Topic Models (ACL 2023) (0)	2024.03.11
[Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey (2)	2024.02.07

Density Matching for Bilingual Word Embedding (NAACL 2019)

TL;DR

기존의 선형 변환 기반 접근법

1. 선형 변환

2. 거리 기반 최적화

3. 장점과 단점

새로운 접근법: 확률 밀도치와 Normalizing Flow

1. 확률 밀도 함수 기반

2. Normalizing Flow

3. 장점과 단점

요약

정리 : Cross-lingual word embedding 에서 새로운 방법론 제안함

참고) Volum-preserving invertible transformation / Linear transformation 비교

선형 변환 (Linear Transformation)

Volume-Preserving Invertible Transformations

결론

Isormophism (동형성)

기존의 주요 방법들

동형성을 전제하지 않더라도 활용 가능

동형성에 대한 기대와 현실

DeMa-BWE와의 비교

결론

Linear Transformation 기법과의 차이점

선형 변환 방법

밀도 매칭 방법 (예: DeMa-BWE)

차이점 요약

결론

'Paper Review' 카테고리의 다른 글

티스토리툴바