![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() | ||||
CJK Env. |
Install db1 : btree index Install zterm : hangul ssh terminal Install puttyjp : cjk ssh terminal |
|||
Code Helps |
EUC-KR code Table 중국어 간체/번체, Big5/CP936 Mapping Table EUC-JP code Table Unicode Character Code Charts By Script |
|||
NLP Tips |
[ 검색어 '노무현 박명숙 최기훈'를 포함하는 검색결과가 없습니다. ] 이런 메세지를 읽으면 항상 "을/를", "으로/로", "이/가" 등을 선택하는게 있으면 좋겠다고 생각했습니다. 아래의 링크에 javascript code가 있으니 참고하세요. [하니가모 블로그] |
|||
Query Suggest |
아래의 자료는 Suggest 기능을 작성하는 방법에 대한 기술문서입니다. Suggest기능의 구현방법을 찾고 계신분이나, 현재의 Suggest 기능을 개선하고 싶은 분들에게 유용할 것입니다. 400만 단어 수준의 검증된 데이타베이스를 기본으로 가장 풍부한 검색어 자동완성 기능을 제공합니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() |
|||
Morph Analyser |
아래의 자료는 정보 검색과 언어처리의 과거와 현재 그리고 미래에 대해서 정리한 것입니다. 과거의 형태소분석 방법, 기분석 사전, 튜닝 등의 검색엔진을 위한 색인어 추출, 최근의 색인어 추출과 키워드 태그 추출에 대한 소개, 그리고 미래의 태그 자동 추출 방식인 Auto-Tag에 대한 소개를 제공합니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() 아래의 자료는 한국어 형태소 분석기를 이용해서 명칭단위의 Tag를 추출하는 시스템의 구현에 관한 설명서입니다. 형태소 분석 방법과 품사 결정 방식, 그리고 용어 사전으로부터 명칭을 선택하는 방식에 대한 기술적인 설명을 포함하고 있습니다. 75% 수준의 Coverage의 검증된 기분석 사전과 Corpus로부터 추출된 Cost, Cost Estimation 방식의 품사 결정, 다양한 명칭사전의 활용방법 등에 대하여 모란소프트의 분석기가 어떻게 구현되었는지를 보실 수 있을 것입니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() 아래의 자료는 한/중/일 형태소분석기를 작성하는 방법에 대한 기술문서입니다. 형태소 분석기의 구현방법을 찾고 계신분이나, 현재의 형태소 분석기의 기능을 개선하고 싶은 분들에게 유용할 것입니다. 70% 수준의 Coverage의 검증된 기분석사전, 기본 형태소 분석기, Cost Estimation 방식의 품사 결정 등 가장 풍부한 형태소 분석 환경을 제공합니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() 아래의 자료는 형태소분석기를 작성하는 방법에 대한 기술문서입니다. 형태소 분석기의 구현방법을 찾고 계신분이나, 현재의 형태소 분석기의 기능을 개선하고 싶은 분들에게 유용할 것입니다. 50만 어절 수준, 70% 수준의 Coverage의 검증된 기분석사전, 25만단어의 기본 형태소 분석기, 90만개의 검색대상이 되는 명칭 리스트, 음절 바이그램을 이용한 띄어쓰기 자동 교정, HMM 방식의 품사 결정 등 가장 풍부한 형태소 분석 환경을 제공합니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() |
|||
NLP Library |
아래의 자료는 정보검색을 위한 NLP 처리모듈을 작성하는 방법에 대한 기술문서입니다. NLP 기능에 대해 구현방법을 찾고 계신분이나, 현재의 NLP 기능을 개선하고 싶은 분들에게 유용할 것입니다. 라이브러리의 구성은 - HTML 파서, 토큰 분리기, 기분석 사전, 형태소 분석기, 오류 복구, 문장 분리, 문장단위 품사 태깅, Chunking, 격분석, 구단위 묶기, Fact 추출 들로 이루어 졌습니다. 아래의 자료는 회사의 고유자산으로 생각되어 PDF로 작성되었습니다. ^^;; ![]() |
|||
IR & NLP |
인터넷 서비스 업종에 종사하면서, 정보검색에 관심이 있는 분들을 위한 Guide성 발표자료입니다. 정보검색 분야를 공부한다면 어떠한 항목이 있는지, 어떤 교재가 좋은지에 대한 가이드와, 검색의 이해, 현실적 문제, 앞으로의 추세에 대해서 간략히 정리하였습니다. ![]() 아래의 자료는 2005년 국어정보화아카데미에서 강의한 자료입니다. 정보검색의 이해와 언어처리 부분이 어떻게 사용되는 지를 정리한 자료입니다.
|
|||
Text Retieval & Mining |
아래의 자료들은 Text Retrieval and Mining 이란 강의를 진행하면서 작성한 강의용 자료입니다. 아래의 자료는 수정 재배포하실 수 있습니다. 지식은 널리 퍼져야 하니까요. ^^ 본 자료에서 기초부분은 (1) 숭실대학교 이준호 교수의 정보검색론 강의 교제를 정리하였고, 확장과 마이닝 부분은 (2) Carnegie Mellon 대학의 Information Retrieval 11-741 강의 교제와 (3) Stanford 대학교의 강의 CS276a IR and Mining, CS276b Web Search and Mining, CS276b Text information Retrieval and Minig의 강의자료를 기본으로 하여 재구성하였습니다. Biz부분은 Search Engine Meeting Conference에서 각 기업이 발표한 내용을 수정없이 게재하였습니다. 마지막으로 총정리 부분은 본 자료의 내용을 정리하였는데, ICU의 맹성현 교수님의 자료를 일부 참조하였습니다. |