Word Embedding & Sentence Embedding

2024. 2. 6. 18:48·Research in NLP

자연어 처리(Natural Language Processing, NLP)에서 단어 임베딩과 문장 임베딩은 텍스트 데이터를 수치화하여 모델이 이해할 수 있도록 하는 중요한 개념이다.
각각의 방법에 대해 간략하게 설명하고, 이들 간의 차이와 각각의 장단점을 알아보자

### 단어 임베딩(Word Embedding)


- 단어 임베딩은 단어를 고정된 차원의 실수 벡터로 매핑하는 기술
- 주로 사전 훈련된 임베딩 모델(Word2Vec, GloVe, FastText)을 사용하거나, 모델 자체에서 임베딩 레이어를 학습

- 장점
- 단어 간 의미적 유사성을 캡처하므로 단어 간의 관계를 이해하기 쉬움
- 희소성 문제를 해결하고 차원 감소로 효과적인 특징 추출이 가능

- 단점
- 단어 간의 문맥적 의미를 완전히 포착하기 어려울 수 있다
- 단어 간의 순서를 고려하지 않는다.

### 문장 임베딩(Sentence Embedding)

- 방법
- 문장 임베딩은 문장을 고정된 차원의 벡터로 매핑하는 기술
- 주로 임베딩 레이어를 통해 문장의 표현을 학습하는 방식, 또는 전체 문장을 나타내는 고정 크기의 벡터를 생성하는 모델이 사용

- 장점
- 문장의 전반적인 의미를 캡처할 수 있어 문맥을 고려하는 데 유용
- 단어 임베딩의 특징을 활용하여 단어 간의 상호 작용을 반영할 수 있다

- 단점
- 문장 내 단어의 순서를 완전히 보존하지 않을 수 있다.
- 문장이 길어지면 정보 손실이 발생할 수 있다.

### 차이

  -  대상 단위
  - 단어 임베딩은 개별 단어를 대상으로 한다.
  - 문장 임베딩은 전체 문장을 대상으로 한다.

  - 표현 방법
  - 단어 임베딩은 각 단어를 벡터로 표현
  - 문장 임베딩은 전체 문장을 단일 벡터로 표현

### 장단점 정리

  - 단어 임베딩
  - 장점: 단어 간 의미적 유사성을 잘 캡처하고 희소성 문제를 해결
  - 단점: 문맥적 의미와 단어 순서를 완전히 반영하지 않는다

  - 문장 임베딩
  - 장점: 문맥을 고려하여 문장의 의미를 전반적으로 파악
  - 단점: 단어 간의 상호 작용 및 순서 정보가 상대적으로 약할 수 있다.

두 임베딩 방법은 종종 함께 사용되어 텍스트 데이터를 모델에 효과적으로 제공하는 데 활용된다.

'Research in NLP' 카테고리의 다른 글

연구 가설이란 무엇인가 : 좋은 연구 가설을 세우는 방법  (0) 2024.03.07
Related Works of Cross-Lingual Topic Modeling  (0) 2024.03.03
Low-Resource Language Embedding  (1) 2024.02.06
BoW representation & Sentence Embedding  (2) 2024.02.05
Word Alignment 란 ??  (0) 2024.02.05
'Research in NLP' 카테고리의 다른 글
  • 연구 가설이란 무엇인가 : 좋은 연구 가설을 세우는 방법
  • Related Works of Cross-Lingual Topic Modeling
  • Low-Resource Language Embedding
  • BoW representation & Sentence Embedding
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
Word Embedding & Sentence Embedding
상단으로

티스토리툴바