데이터

말뭉치

다음의 말뭉치(corpus)를 사용할 수 있습니다:

  1. kolaw: 한국 법률 말뭉치.
    • constitution.txt
  2. kobill: 대한민국 국회 의안 말뭉치. 파일 ID는 의안 번호를 의미합니다.
    • 1809890.txt - 1809899.txt

KoNLPy에 포함된 말뭉치의 사용은 corpus Package 에서 더 자세하게 확인해볼 수 있습니다.

>>> from konlpy.corpus import kolaw
>>> c = kolaw.open('constitution.txt').read()
>>> print c[:10]
대한민국 헌법

유구한 역사와
>>> from konlpy.corpus import kobill
>>> d = kobill.open('1809890.txt').read()
>>> print d[:15]
지방공무원법 일부개정법률안

사전

사전은 대부분 말뭉치 를 이용해 구축되었으며 형태소 분석 및 품사 태깅 를 하는데 사용됩니다.

Hannanum 시스템 사전

KAIST 말뭉치를 이용해 생성된 사전. (4.7MB)

./konlpy/java/data/kE/dic_system.txt 에 위치해있으며, 아래에서 파일의 일부를 보실 수 있습니다.:

...
나라경제        ncn
나라기획        nqq
나라기획회장    ncn
나라꽃  ncn
나라님  ncn
나라도둑        ncn
나라따르        pvg
나라링링프로덕션        ncn
나라말  ncn
나라망신        ncn
나라박물관      ncn
나라발전        ncpa
나라별  ncn
나라부동산      nqq
나라사랑        ncn
나라살림        ncpa
나라시  nqq
나라시마        ncn
...

사용자 사전에 새로운 항목을 추가하기 위해서는 ./konlpy/java/data/kE/dic_user.txt 를 수정하시면 됩니다.

Kkma 시스템 사전

세종 말뭉치를 이용해 생성된 사전. (32MB)

꼬꼬마 형태소 분석기의 .jar 파일 안에 위치해 있습니다. 사전 파일을 직접 보기 위해서는 꼬꼬마 미러 를 확인해보시기 바랍니다. kcc.dic 는 다음과 같은 형태를 가집니다.:

아니/IC
후우/IC
그래서/MAC
그러나/MAC
그러니까/MAC
그러면/MAC
그러므로/MAC
그런데/MAC
그리고/MAC
따라서/MAC
하지만/MAC
...

Mecab 시스템 사전

세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB)

컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedWord.csv 파일의 일부를 아래에서 보실 수 있습니다.:

가오티,0,0,0,NNG,*,F,가오티,*,*,*,*,*
갑툭튀,0,0,0,NNG,*,F,갑툭튀,*,*,*,*,*
강퇴,0,0,0,NNG,*,F,강퇴,*,*,*,*,*
개드립,0,0,0,NNG,*,T,개드립,*,*,*,*,*
갠소,0,0,0,NNG,*,F,갠소,*,*,*,*,*
고퀄,0,0,0,NNG,*,T,고퀄,*,*,*,*,*
광삭,0,0,0,NNG,*,T,광삭,*,*,*,*,*
광탈,0,0,0,NNG,*,T,광탈,*,*,*,*,*
굉천,0,0,0,NNG,*,T,굉천,*,*,*,*,*
국을,0,0,0,NNG,*,T,국을,*,*,*,*,*
귀요미,0,0,0,NNG,*,F,귀요미,*,*,*,*,*
...

사용자 사전을 추가하기 위해서는 이 곳 을 참고해주시기 바랍니다.

주석

시스템 사전과 사용자 사전 모두에 새로운 항목을 추가할 수 있지만, 두 경우에는 약간의 차이가 있습니다.

  • 시스템 사전에 항목 추가하기: 사전 업데이트가 잦지 않은 경우, 속도 저하를 원하지 않는 경우.
  • 사용자 사전에 항목 추가하기: 사전 업데이트가 잦은 경우, 관리자(root) 권한이 없는 경우.