시작에 앞서
해당 내용은 <파이썬으로 데이터 주무르기> -민형기 저, BJPUBLIC 출판사 의 내용을 토대로 작성되었습니다.
보다 자세한 내용은 해당 교재를 확인하여 주시기 바랍니다.
자연어 처리(NLP)란?
자연어처리 (NLP; Natural language Processing) 가 무엇인지 궁금하다면 하단의 글 참고
한글 자연어 처리를 위한 KoNLPy 모듈 설치
※ KoNLPy 모듈은 Lucy Park 이라는 분이 개발한 한글 자연어 처리를 파이썬으로 하는 것을 도와주는 모듈이다.
이는 꼬꼬마, 한나눔, MeCab-ko 등 국내외에서 개발된 여러 형태소 분석기를 포함하고, 자연어처리에 필요한 각종 사전, 말뭉치, 도구 및 다양한 튜토리얼을 포함하여 손쉽게 한국어 분석을 할 수 있도록 만들었다.
[KoNLPy; 쉽고 간결한 한국어 정보처리 파이썬 패키지 요약문 中]
해당 모듈을 설치하기 위해서는 몇몇 과정을 거쳐야 한다.
터미널 (윈도우+R키→cmd 입력)에서 pip install konlpy 명령으로 먼저 konlpy를 설치
Java SDK 다운로드 페이지에서 JDK 다운로드
(나는 이미 다운로드 및 설치가 되어 있으므로, 자세한 내용은 하단 블로그 참고)
JAVA jdk 다운로드
만약 설치 오류가 난다면 하단의 글을 참고해도 좋다.
anaconda prompt 에서 conda install -c conda-forge jpype1 입력하여 JPype1 설치
(cmd를 통해 설치하여도 무방)
※ JPype1은 Python에서 Java와 상호 작용할 수 있게 해주는 패키지이다. JPype1은 Java Virtual Machine (JVM)과의 통합을 통해 Java 라이브러리를 Python에서 직접 호출할 수 있도록 해준다.
터미널에서 pip install nltk 를 입력하여 nltk 설치
터미널에서 python 입력 후, 하단의 명령어(2줄) 입력
import nltk
nltk.download()
nltk에서 stopwards와 punkt 다운로드
nltk - All Package 탭에서 stopwards와 punkt 다운로드 (nltk.download 화면에서는 마우스 휠이 잘 인식되지 않는다)
이럴때는 전체 다운로드를 선택하는 것도 좋다.
워드 클라우드 설치 (cmd에서 파이썬 모드 종료 필수!)
먼저 cmd 에서 파이썬을 종료하고 ※종료 명령어: exit()
pip install wordcloud 명령으로 워드 클라우드 설치
gensim 설치
마지막으로 pip install gensim 명령으로 gensim 설치
※ Gensim은 Python에서 토픽 모델링 및 자연어 처리를 위한 라이브러리
위 명령을 실행하면 Gensim 패키지와 이 패키지가 의존하는 다른 라이브러리가 자동으로 설치되고, Gensim을 설치한 후에는 Python에서 토픽 모델링, 단어 임베딩, 문서 유사도 등을 구현할 수 있다.
다음 챕터에서는 한글 자연어 처리의 기초 내용에 대해 진행
다음글
'[파이썬 Projects] > <파이썬 데이터 분석>' 카테고리의 다른 글
[파이썬] 자연어 처리(NLP) 시작하기 - 3 (0) | 2024.05.08 |
---|---|
[파이썬] 자연어 처리(NLP) 시작하기 - 2 (0) | 2024.05.08 |
[파이썬] 시계열 데이터 다루기 - Growth Model / Holiday Forecast (0) | 2024.05.06 |
[파이썬] 시계열 데이터 다루기 - 3 (0) | 2024.05.06 |
[파이썬] 시계열 데이터 다루기 - 2 (0) | 2024.05.06 |