형태소 분석에 대한 자료를 계속 보다 보니 이제 조금씩 형태소 분석 방법에 대한
감이 온다. 이전에 구현한 형태소 분석은 절차가 잘못된 것 같다.
- 형태소 분석 절차
0. 형태소 전처리
- 문장 부호, 특수문자 등을 먼저 필터링
1. 토큰에서 조사 분리
1.1 토큰에 조사가 포함되어 있으면 2단계로
1.2 토큰에 조사가 포함되어 있지 않으면 3단계로
2. 조사가 분리된 토큰이 명사 사전에 등록되어 있는지 조사
2.1 명사 사전에 등록되어 있으면 색인어로 등록
2.2 명사 사전에 등록되어 있지 않으면 미등록어 또는 복합명사
2.2.1 복합명사 분해 후 색인 등록
2.2.2 복합명사가 아닌 경우 미등록어로 색인 등록
3. 토큰에서 어미 분리
3.1 토큰에 어미가 포함되어 있으면 불규칙용언의 원형 복원
3.1.1 원형 복원한 토큰을 색인어로 등록
3.2 어미가 포함되어 있지 않으면 미등록어로 색인 등록
좀 더 공부를 하면서 내용을 계속 업데이트할 예정이다.