참고할만한 사이트

MLM vs CLM

정제(cleaning) & 정규화(Normalization)

어간 추출(Stemming) & 표제어 추출(Lemmatization)

눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다