Contextual Information and Mutual Dependency between words using document graph
NLP 에서 contextual information 과 document graph 를 이용한 단어들간의 mutual dependency 의 차이점 , 장단점 등 알아보기
Contextual Information in NLP
FAQ 1 : How does NLP deal with understanding the context of words and phrases?
NLP models leverage contextual embeddings and deep learning techniques to understand the context of words and phrases. Models like BERT encode the meaning of a word based on its surrounding words, capturing contextual information. This allows the models to grasp the nuances and multiple meanings of words in different contexts, improving language understanding.
NLP 모델은 문맥 임베딩과 딥 러닝 기술을 활용하여 단어와 구의 문맥을 이해합니다. BERT와 같은 모델은 주변 단어를 기반으로 단어의 의미를 인코딩하여 문맥 정보를 캡처합니다. 이것은 모델이 다른 문맥에서 단어의 뉘앙스와 여러 의미를 파악할 수 있도록 하여 언어 이해를 향상시킵니다.
FAQ 2 : What challenges does NLP face in understanding human language?
- Ambiguity: Words and phrases often have multiple meanings, making it challenging to determine the intended sense in a given context.
- Idioms and figurative language: NLP models may struggle to interpret idiomatic expressions, metaphors, or sarcasm.
- Out-of-vocabulary words: NLP models may encounter words or phrases that they haven’t seen during training, leading to difficulties in understanding.
- Cultural and domain-specific references : NLP models may struggle to comprehend references that are specific to a particular culture or domain.
-> NLP 모델은 특정 문화 또는 specific 한 domain 에 고유한 reference 를 이해하는 데 어려움을 겪을 수 있습니다.
Graph 와 GNN 을 이용한 Cross-lingual 연구 알아보기

Cross-lingual Text Classification with Heterogeneous Graph Neural Network (ACL 2021)
[논문 간단 요약]
pre-trained multi-lingual bert (mBERT) 는 cross-lingual 의 다양한 task 에서 강점을 보이지만 , 의미적 유사성외의 정보는 거의 고려하지 않아서 일부 언어쌍 간의 성능저하를 초래할 수 있습니다.
본 연구에서는 품사 역할, 의미적 유사성, 문서 번역 등이 포함된 다양한 정보를 이용하여 heterogeneous graph (이종그래프) 를 설계해 이를 GCN 으로 학습합니다. 실험 결과에서는 그래프 기반 방법이 모든 task 에서 baseline 모델인 mBERT , XLM , XLM-RoBERTa 보다 뛰어난 성능을 보이며, 번역기와 같은 외부 도구를 사용할 수 없는 low-resource setting 에서도 baseline보다 일관된 성능 향상을 달성하는 것을 확인하였습니다.
여기서는 단순한 co-occurrence 이상의 구문 정보를 주입하기 위하여 POS tagger 를 이용하여 품사 태그(POS tags)를 엣지에 추가합니다. 품사 역할이 분류 작업에서 가지는 중요성이 도메인마다 다르기 때문입니다.
예를 들어서 , 감정 분류 데이터에서는 형용사와 부사가 결정적인 역할을 하는 반면, 뉴스 텍스트 분류에서는 명사가 더 중요한 역할을 할 수 있습니다. 품사 역할에 따라 다양한 유형의 엣지를 생성하여 문서 내의 단어를 연결합니다. GNN 은 각 품사 역할의 중요성을 학습하고, 다양한 propagation patterns 을 적용하여 cross-lingual 분류 성능을 향상시킬 수 있습니다.
Reference
[1] Cross-lingual Text Classification with Heterogeneous Graph Neural Network (ACL 2021)