Research in NLP

BoW representation & Sentence Embedding

Seung-won Seo 2024. 2. 5. 17:15

단어 가방 표현(Bag-of-Words, BoW)과 문맥화 임베딩은 텍스트 데이터의 표현과 인코딩에 대한 두 가지 다른 접근 방식이다.
이들 간의 주요 차이점에 대해 알아보자

1. 단어 가방 표현 (BoW)
   - 특징: BoW는 텍스트를 나타내는 전통적이고 간단한 방법
   - 단어 순서: 문장 내의 단어 순서와 순서를 무시하며, 각 문서 또는 문장을 단어의 순서 없는 집합으로 취급한다
   - 문맥: BoW는 단어의 위치에 기반한 문맥이나 의미를 고려하지 않고 오로지 단어가 문서에서 사용된 빈도에 의존한다.
   - 고정 길이 벡터: BoW는 각 차원이 어휘 사전의 고유한 단어에 해당하며 각 차원의 값이 해당 단어의 빈도나 존재 여부를 나타내는 고정 길이 벡터로 문서 또는 문장을 나타냅니다.
   - 활용 분야: BoW는 주로 텍스트 분류, 감정 분석 및 문서 검색과 같은 작업에 사용

2. 문맥화 임베딩
   - 특징: 문맥화 임베딩은 문장이나 문서 내에서의 문맥을 기반으로 단어의 의미를 포착한다.
   - 단어 순서: 이러한 임베딩은 단어 순서를 고려하며 단어의 의미가 문장 내의 문맥에 따라 변할 수 있다는 사실을 인지합니다.
   - 문맥 인식: 문맥화 임베딩은 주변 단어에 민감하게 반응하여 해당 단어가 나타나는 특정 문맥에서의 의미를 잡아냅니다.
   - 가변 길이 시퀀스: BoW와 달리 문맥화 임베딩은 각 단어를 해당 문맥에서의 고유한 임베딩으로 나타냅니다.
   - 활용 분야: 문맥화 임베딩은 언어의 의미와 뉘앙스를 이해해야 하는 기계 번역, 질문 응답, 감정 분석과 같은 작업에 널리 사용

3. 예시
   - BoW 예시 : "The cat sat on the mat"라는 문장에 대한 BoW 표현은 각 단어가 어휘에 포함되어 있다면 [1, 1, 1, 1, 1]과 같은 벡터가 될 수 있다.
   - 문맥화 임베딩 예시: 문맥화 임베딩(예: BERT)에서 "bank"라는 단어의 표현은 문맥에 따라 달라져 돈의 은행인지, 강의 둑인지 등을 구분할 수 있다

4. 훈련 방법
   - BoW: BoW 모델은 주로 비지도 학습 방식으로 작동하며 말뭉치에서 단어 발생을 계산
   - 문맥화 임베딩: BERT, GPT 및 ELMo와 같은 모델은 언어 모델링이나 가려진 단어 예측과 같은 큰 양의 레이블이 지정된 데이터를 사용하여 사전 훈련되어 문맥화된 표현을 학습

요약 : Bag-of-Words 은 텍스트를 단어의 순서 없는 집합으로 나타내며 문맥을 무시하나, 문맥화 임베딩은 문맥에 따라 단어의 의미를 포착하며 언어의 의미와 뉘앙스를 이해하는 데 유용.
문맥화 임베딩은 전통적인 BoW 표현에 비해 계산 복잡성과 모델 크기가 증가하는 경향이 있지만, 언어의 미묘한 면을 더 정확하게 표현할 수 있다.