현재 가지고 있는 조사 사전에 약 427개의 조사가 등록되어 있다.
그런데 이 중에서 신문기사를 대상으로 했을 때 70개의 조사가 99.2%을 차지한다.
을 25941 12.98 12.98 | 1
의 22161 11.09 24.06 | 2
에 20200 10.10 34.17 | 3
이 15021 7.51 41.68 | 4
를 14937 7.47 49.15 | 5
으로 11973 5.99 55.14 | 6
은 11615 5.81 60.95 | 7
는 11426 5.72 66.67 | 8
가 8348 4.18 70.84 | 9
로 6547 3.28 74.12 |10
하고 5639 2.82 76.94 |11
과 5244 2.62 79.56 |12
에서 4984 2.49 82.06 |13
도 3795 1.90 83.95 |14
와 3169 1.59 85.54 |15
이다 2905 1.45 86.99 |16
고 2576 1.29 88.28 |17
부터 1624 0.81 89.09 |18
까지 1506 0.75 89.85 |19
께 1317 0.66 90.51 |20
에는 1254 0.63 91.13 |21
이라고 1043 0.52 91.66 |22
만 1011 0.51 92.16 |23
라고 957 0.48 92.64 |24
보다 901 0.45 93.09 |25
에도 775 0.39 93.48 |26
다 746 0.37 93.85 |27
토록 690 0.35 94.20 |28
에게 641 0.32 94.52 |29
나 582 0.29 94.81 |30
대로 535 0.27 95.08 |31
에서는 532 0.27 95.34 |32
이나 487 0.24 95.59 |33
이며 404 0.20 95.79 |34
요 380 0.19 95.98 |35
든 374 0.19 96.17 |36
으로써 344 0.17 96.34 |37
같이 315 0.16 96.49 |38
로는 313 0.16 96.65 |39
밖에 296 0.15 96.80 |40
과의 290 0.15 96.94 |41
며 283 0.14 97.09 |42
로부터 262 0.13 97.22 |43
처럼 262 0.13 97.35 |44
아 254 0.13 97.48 |45
라 242 0.12 97.60 |46
여 227 0.11 97.71 |47
으로는 227 0.11 97.82 |48
이고 227 0.11 97.94 |49
에서의 206 0.10 98.04 |50
이라는 186 0.09 98.13 |51
만에 164 0.08 98.22 |52
으로부터 164 0.08 98.30 |53
에서도 163 0.08 98.38 |54
와의 147 0.07 98.45 |55
엔 139 0.07 98.52 |56
만을 124 0.06 98.58 |57
부터는 122 0.06 98.64 |58
만의 115 0.06 98.70 |59
야 110 0.06 98.76 |60
까지의 107 0.05 98.81 |61
과는 103 0.05 98.86 |62
치고 103 0.05 98.91 |63
과를 100 0.05 98.96 |64
으로의 98 0.05 99.01 |65
까지는 84 0.04 99.06 |66
보다는 76 0.04 99.09 |67
만이 72 0.04 99.13 |68
에만 70 0.04 99.16 |69
로의 69 0.03 99.20 |70
따라서 이들 고빈도 조사만 조사 사전에 등록하면 사전 탐색 시간을 많이 줄일 수 있다.
두번째 [한국어 형태분석과 정보검색] 책에 조사의 특징에 대해 다음과 같은 내용이 있다.
음절(s1,s2,s3,...,sn)으로 이루어진 단어에서 음절 si가 조사의 첫음절로 사용되고 si+1,
si+2,...,sn이 조사의 두번째 이상의 음절로 사용된다면 조사 사전을 탐색하지 않더라도
si가 조사의 시작 위치임을 추정할 수 있다.
=================================================================================
조사에 대한 위의 두가지 특성을 이용하면 조사 처리에 대한 속도를 최적화할 수 있을 것이다.
즉 3음절 이상의 어절에 대해서는 조사 사전을 탐색하지 않고 조사의 첫번째/두번째 음절의
특성을 이용하여 조사 처리를 하고 2음절 이하의 어절에 대해서만 고빈도 조사 사전을 이용해
조사 처리를 하는 것이다.
이렇게 하면 어절마다 조사 사전을 뒤져야 하는 시간 낭비를 많이 줄일 수 있을 것 같다.
(특히 조사나 어미 같은 경우는 어절이 조사나 어미로 끝나는지 빠르게 검색할 수 있는
방법이 없는 것 같아서 더 시간이 소요된다.)
[출처] 형태소 분석시 조사 처리 방법|작성자 wyb330