SSISO Community

시소당

형태소 분석시 조사 처리 방법

현재 가지고 있는 조사 사전에 약 427개의 조사가 등록되어 있다.

그런데 이 중에서 신문기사를 대상으로 했을 때 70개의 조사가 99.2%을 차지한다.

 

     을     25941  12.98  12.98  | 1
     의     22161  11.09  24.06  | 2
     에     20200  10.10  34.17  | 3
     이     15021   7.51  41.68  | 4
     를     14937   7.47  49.15  | 5
     으로   11973   5.99  55.14  | 6
     은     11615   5.81  60.95  | 7
     는     11426   5.72  66.67  | 8
     가      8348   4.18  70.84  | 9
     로      6547   3.28  74.12  |10
     하고    5639   2.82  76.94  |11
     과      5244   2.62  79.56  |12
     에서    4984   2.49  82.06  |13
     도      3795   1.90  83.95  |14
     와      3169   1.59  85.54  |15
     이다    2905   1.45  86.99  |16
     고      2576   1.29  88.28  |17
     부터    1624   0.81  89.09  |18
     까지    1506   0.75  89.85  |19
     께      1317   0.66  90.51  |20
     에는    1254   0.63  91.13  |21
     이라고  1043   0.52  91.66  |22
     만      1011   0.51  92.16  |23
     라고     957   0.48  92.64  |24
     보다     901   0.45  93.09  |25
     에도     775   0.39  93.48  |26
     다       746   0.37  93.85  |27
     토록     690   0.35  94.20  |28
     에게     641   0.32  94.52  |29
     나       582   0.29  94.81  |30
     대로     535   0.27  95.08  |31
     에서는   532   0.27  95.34  |32
     이나     487   0.24  95.59  |33
     이며     404   0.20  95.79  |34
     요       380   0.19  95.98  |35
     든       374   0.19  96.17  |36
     으로써   344   0.17  96.34  |37
     같이     315   0.16  96.49  |38
     로는     313   0.16  96.65  |39
     밖에     296   0.15  96.80  |40
     과의     290   0.15  96.94  |41
     며       283   0.14  97.09  |42
     로부터   262   0.13  97.22  |43
     처럼     262   0.13  97.35  |44
     아       254   0.13  97.48  |45
     라       242   0.12  97.60  |46
     여       227   0.11  97.71  |47
     으로는   227   0.11  97.82  |48
     이고     227   0.11  97.94  |49
     에서의   206   0.10  98.04  |50
     이라는   186   0.09  98.13  |51
     만에     164   0.08  98.22  |52
     으로부터 164   0.08  98.30  |53
     에서도   163   0.08  98.38  |54
     와의     147   0.07  98.45  |55
     엔       139   0.07  98.52  |56
     만을     124   0.06  98.58  |57
     부터는   122   0.06  98.64  |58
     만의     115   0.06  98.70  |59
     야       110   0.06  98.76  |60
     까지의   107   0.05  98.81  |61
     과는     103   0.05  98.86  |62
     치고     103   0.05  98.91  |63
     과를     100   0.05  98.96  |64
     으로의    98   0.05  99.01  |65
     까지는    84   0.04  99.06  |66
     보다는    76   0.04  99.09  |67
     만이      72   0.04  99.13  |68
     에만      70   0.04  99.16  |69
     로의      69   0.03  99.20  |70

 

따라서 이들 고빈도 조사만 조사 사전에 등록하면 사전 탐색 시간을 많이 줄일 수 있다.

 

두번째 [한국어 형태분석과 정보검색] 책에 조사의 특징에 대해 다음과 같은 내용이 있다.

음절(s1,s2,s3,...,sn)으로 이루어진 단어에서 음절 si가 조사의 첫음절로 사용되고 si+1,

si+2,...,sn이 조사의 두번째 이상의 음절로 사용된다면 조사 사전을 탐색하지 않더라도

si가 조사의 시작 위치임을 추정할 수 있다.

 

=================================================================================

 

조사에 대한 위의 두가지 특성을 이용하면 조사 처리에 대한 속도를 최적화할 수 있을 것이다.

즉 3음절 이상의 어절에 대해서는 조사 사전을 탐색하지 않고 조사의 첫번째/두번째 음절의

특성을 이용하여 조사 처리를 하고 2음절 이하의 어절에 대해서만 고빈도 조사 사전을 이용해

조사 처리를 하는 것이다.

이렇게 하면 어절마다 조사 사전을 뒤져야 하는 시간 낭비를 많이 줄일 수 있을 것 같다.

(특히 조사나 어미 같은 경우는 어절이 조사나 어미로 끝나는지 빠르게 검색할 수 있는  

방법이 없는 것 같아서 더 시간이 소요된다.)

462 view

4.0 stars