[NLP]
2023. 3. 27.
[NLP] 표제어 추출 and 어간 추출
정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 잇는 기법인 표제어 추출(lemmatization)과 어간 추출(stemming) 이 두 작업이 갖고 있는 의미는 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화 시킬 수 있다면 하나의 단어로 일반화 시켜서 문서 내의 단어 수를 줄이겠다는 것입니다. 이러한 자연어처리의 지향점은 언제나 갖고 있는 코퍼스로부터 복잡성을 줄이는 일입니다. 1. 표제어 추출(Lemmatization) 표제어는 한글로는 표제어, 기본 사전형 단어 정도의 의미를 갖습니다. 표제어추출은 단어들로부터 표제어를 찾아가는 과정이며, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다. am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고..