BoW representation & Sentence Embedding

2024. 2. 5. 17:15·Research in NLP

단어 가방 표현(Bag-of-Words, BoW)과 문맥화 임베딩은 텍스트 데이터의 표현과 인코딩에 대한 두 가지 다른 접근 방식이다.
이들 간의 주요 차이점에 대해 알아보자

1. 단어 가방 표현 (BoW)
   - 특징: BoW는 텍스트를 나타내는 전통적이고 간단한 방법
   - 단어 순서: 문장 내의 단어 순서와 순서를 무시하며, 각 문서 또는 문장을 단어의 순서 없는 집합으로 취급한다
   - 문맥: BoW는 단어의 위치에 기반한 문맥이나 의미를 고려하지 않고 오로지 단어가 문서에서 사용된 빈도에 의존한다.
   - 고정 길이 벡터: BoW는 각 차원이 어휘 사전의 고유한 단어에 해당하며 각 차원의 값이 해당 단어의 빈도나 존재 여부를 나타내는 고정 길이 벡터로 문서 또는 문장을 나타냅니다.
   - 활용 분야: BoW는 주로 텍스트 분류, 감정 분석 및 문서 검색과 같은 작업에 사용

2. 문맥화 임베딩
   - 특징: 문맥화 임베딩은 문장이나 문서 내에서의 문맥을 기반으로 단어의 의미를 포착한다.
   - 단어 순서: 이러한 임베딩은 단어 순서를 고려하며 단어의 의미가 문장 내의 문맥에 따라 변할 수 있다는 사실을 인지합니다.
   - 문맥 인식: 문맥화 임베딩은 주변 단어에 민감하게 반응하여 해당 단어가 나타나는 특정 문맥에서의 의미를 잡아냅니다.
   - 가변 길이 시퀀스: BoW와 달리 문맥화 임베딩은 각 단어를 해당 문맥에서의 고유한 임베딩으로 나타냅니다.
   - 활용 분야: 문맥화 임베딩은 언어의 의미와 뉘앙스를 이해해야 하는 기계 번역, 질문 응답, 감정 분석과 같은 작업에 널리 사용

3. 예시
   - BoW 예시 : "The cat sat on the mat"라는 문장에 대한 BoW 표현은 각 단어가 어휘에 포함되어 있다면 [1, 1, 1, 1, 1]과 같은 벡터가 될 수 있다.
   - 문맥화 임베딩 예시: 문맥화 임베딩(예: BERT)에서 "bank"라는 단어의 표현은 문맥에 따라 달라져 돈의 은행인지, 강의 둑인지 등을 구분할 수 있다

4. 훈련 방법
   - BoW: BoW 모델은 주로 비지도 학습 방식으로 작동하며 말뭉치에서 단어 발생을 계산
   - 문맥화 임베딩: BERT, GPT 및 ELMo와 같은 모델은 언어 모델링이나 가려진 단어 예측과 같은 큰 양의 레이블이 지정된 데이터를 사용하여 사전 훈련되어 문맥화된 표현을 학습

요약 : Bag-of-Words 은 텍스트를 단어의 순서 없는 집합으로 나타내며 문맥을 무시하나, 문맥화 임베딩은 문맥에 따라 단어의 의미를 포착하며 언어의 의미와 뉘앙스를 이해하는 데 유용.
문맥화 임베딩은 전통적인 BoW 표현에 비해 계산 복잡성과 모델 크기가 증가하는 경향이 있지만, 언어의 미묘한 면을 더 정확하게 표현할 수 있다.

'Research in NLP' 카테고리의 다른 글

Word Embedding & Sentence Embedding  (0) 2024.02.06
Low-Resource Language Embedding  (1) 2024.02.06
Word Alignment 란 ??  (0) 2024.02.05
Cross-Language Embedding  (0) 2024.02.05
Research Question 예시  (0) 2024.01.15
'Research in NLP' 카테고리의 다른 글
  • Word Embedding & Sentence Embedding
  • Low-Resource Language Embedding
  • Word Alignment 란 ??
  • Cross-Language Embedding
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
BoW representation & Sentence Embedding
상단으로

티스토리툴바