참고할만한 사이트
MLM vs CLM
- MLM (Masked Language Model)
- 문장 사이의 단어에 마스킹을 하고, 해당 단어를 맞추는 태스크로 학습한 언어 모델
- BERT
- 입력 문서에 대한 좋은 표현을 학습하는 것을 선호
- CLM (Causal Language Model)
- 단어의 시퀀스 이후 또는 이전에 나올 단어에 마스킹을 하고, 해당 단어를 맞추는 태스크로 학습한 언어 모델
- GPT
- 유창한 문장을 생성하내는 시스템을 학습하는 것을 선호
정제(cleaning) & 정규화(Normalization)
- 정제: 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다
- US와 USA는 같은 의미, uh-huh와 uhhuh도 같은 의미
- 어간 추출 또는 표제어 추출 등
어간 추출(Stemming) & 표제어 추출(Lemmatization)
눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다
- 표제어 추출
- 표제어(Lemma)는 한글로는 '표제어' 또는 '기본 사전형 단어' 정도의 의미
- 예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be
- 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것
- 어간 추출
- 단어의 의미를 담고 있는 단어의 핵심 부분
- 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업