Project/DACON 청와대 청원 분류 (2) 썸네일형 리스트형 Colab에서 konlpy와 mecab 설치하기 NLP 초심자로 작년 상반기에 진행했던 프로젝트에서 사용했던 mecab은 설치가 까다로웠다. 그래서 colab에서 쉽게 사용하였는데 설치했던 과정을 소개한다. (링크에서 코드 확인가능) 1. bash 셸로 명령어를 입력하여 설치 %%bash apt-get update apt-get install g++ openjdk-8-jdk python-dev python3-dev pip3 install JPype1 pip3 install konlpy 2. 환경변수 설정 %env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64" 3. mecab 설치 (시간 좀 걸림) %%bash bash Colab에서 soynlp로 토큰화(tokenizing)하고 konlpy와 비교 Konlpy의 okt, mecab을 이용해서 형태소분석을 한 후 쉽고 간편하게 토큰화를 할 수 있다. 더 좋은 토크나이저를 찾아 다니다가 유툽에서 soynlp를 발견 Colab에서 적용해보았다. 사용법은 soynlp 깃헙레포에 자세히 나와있다. lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com soynlp로 토큰화(tokenizing)하기 Tokenizer 정의 명사분석기의 noun score과 cohesion score를 함께 이용해서, L part의 단어 분석을 하면, 나머지 부분은 자연스레 R part가 된다. ex) '밥을' → '밥'(L part), '을'(R .. 이전 1 다음