SSISO Community

시소러스 | ◈자연어학◈ 한글 형태소 분석 - 지능형 형태소분석기 형태소 분석 회사 목록 및 매뉴얼 형태소 분석 관련 링크 모음 [강좌] 루씬(LUCENE)이란? 형태소 분석시 조사 처리 방법 형태소 분석 절차 형태소분석 연구 홈페이지 한국어 형태소 분석기와 한국어 분석 모듈 HAM : 한국어 형태소 분석 라이브러리

시소당

형태소 분석시 조사 처리 방법

현재 가지고 있는 조사 사전에 약 427개의 조사가 등록되어 있다.

그런데 이 중에서 신문기사를 대상으로 했을 때 70개의 조사가 99.2%을 차지한다.

     을     25941 12.98 12.98 | 1
     의     22161 11.09 24.06 | 2
     에     20200 10.10 34.17 | 3
     이     15021   7.51 41.68 | 4
     를     14937   7.47 49.15 | 5
     으로   11973   5.99 55.14 | 6
     은     11615   5.81 60.95 | 7
     는     11426   5.72 66.67 | 8
     가      8348   4.18 70.84 | 9
     로      6547   3.28 74.12 |10
     하고    5639   2.82 76.94 |11
     과      5244   2.62 79.56 |12
     에서    4984   2.49 82.06 |13
     도      3795   1.90 83.95 |14
     와      3169   1.59 85.54 |15
     이다    2905   1.45 86.99 |16
     고      2576   1.29 88.28 |17
     부터    1624   0.81 89.09 |18
     까지    1506   0.75 89.85 |19
     께      1317   0.66 90.51 |20
     에는    1254   0.63 91.13 |21
     이라고 1043   0.52 91.66 |22
     만      1011   0.51 92.16 |23
     라고     957   0.48 92.64 |24
     보다     901   0.45 93.09 |25
     에도     775   0.39 93.48 |26
     다       746   0.37 93.85 |27
     토록     690   0.35 94.20 |28
     에게     641   0.32 94.52 |29
     나       582   0.29 94.81 |30
     대로     535   0.27 95.08 |31
     에서는   532   0.27 95.34 |32
     이나     487   0.24 95.59 |33
     이며     404   0.20 95.79 |34
     요       380   0.19 95.98 |35
     든       374   0.19 96.17 |36
     으로써   344   0.17 96.34 |37
     같이     315   0.16 96.49 |38
     로는     313   0.16 96.65 |39
     밖에     296   0.15 96.80 |40
     과의     290   0.15 96.94 |41
     며       283   0.14 97.09 |42
     로부터   262   0.13 97.22 |43
     처럼     262   0.13 97.35 |44
     아       254   0.13 97.48 |45
     라       242   0.12 97.60 |46
     여       227   0.11 97.71 |47
     으로는   227   0.11 97.82 |48
     이고     227   0.11 97.94 |49
     에서의   206   0.10 98.04 |50
     이라는   186   0.09 98.13 |51
     만에     164   0.08 98.22 |52
     으로부터 164   0.08 98.30 |53
     에서도   163   0.08 98.38 |54
     와의     147   0.07 98.45 |55
     엔       139   0.07 98.52 |56
     만을     124   0.06 98.58 |57
     부터는   122   0.06 98.64 |58
     만의     115   0.06 98.70 |59
     야       110   0.06 98.76 |60
     까지의   107   0.05 98.81 |61
     과는     103   0.05 98.86 |62
     치고     103   0.05 98.91 |63
     과를     100   0.05 98.96 |64
     으로의    98   0.05 99.01 |65
     까지는    84   0.04 99.06 |66
     보다는    76   0.04 99.09 |67
     만이      72   0.04 99.13 |68
     에만      70   0.04 99.16 |69
     로의      69   0.03 99.20 |70

따라서 이들 고빈도 조사만 조사 사전에 등록하면 사전 탐색 시간을 많이 줄일 수 있다.

두번째 [한국어 형태분석과 정보검색] 책에 조사의 특징에 대해 다음과 같은 내용이 있다.

음절(s1,s2,s3,...,sn)으로 이루어진 단어에서 음절 si가 조사의 첫음절로 사용되고 si+1,

si+2,...,sn이 조사의 두번째 이상의 음절로 사용된다면 조사 사전을 탐색하지 않더라도

si가 조사의 시작 위치임을 추정할 수 있다.

=================================================================================

조사에 대한 위의 두가지 특성을 이용하면 조사 처리에 대한 속도를 최적화할 수 있을 것이다.

즉 3음절 이상의 어절에 대해서는 조사 사전을 탐색하지 않고 조사의 첫번째/두번째 음절의

특성을 이용하여 조사 처리를 하고 2음절 이하의 어절에 대해서만 고빈도 조사 사전을 이용해

조사 처리를 하는 것이다.

이렇게 하면 어절마다 조사 사전을 뒤져야 하는 시간 낭비를 많이 줄일 수 있을 것 같다.

(특히 조사나 어미 같은 경우는 어절이 조사나 어미로 끝나는지 빠르게 검색할 수 있는

방법이 없는 것 같아서 더 시간이 소요된다.)

[출처] 형태소 분석시 조사 처리 방법|작성자 wyb330

462 view

4.0 stars

SSISO Community