TOP
class="layout-aside-left paging-number">
본문 바로가기
데이터분석 만능열쇠 [파이썬]/<파이썬 데이터 분석>

[파이썬] 자연어 처리(NLP) 시작하기 - 1

by 기록자_Recordian 2024. 5. 6.
728x90
반응형
시작에 앞서
해당 내용은 <파이썬으로 데이터 주무르기> -민형기 저, BJPUBLIC 출판사 의 내용을 토대로 작성되었습니다.
보다 자세한 내용은 해당 교재를 확인하여 주시기 바랍니다.

자연어 처리(NLP)란?

 
자연어처리 (NLP; Natural language Processing) 가 무엇인지 궁금하다면 하단의 글 참고

 

자연어(NL), 자연어 처리(NLP)란?

자연어(NL)란? 출처: 나무위키  자연적으로 발생한 언어는 자연어(자연 언어, NL; Natural language)라고 정의한다. 사람들이 쓰는 언어는 대부분 자연어이다. 여기서 자연이란 뜻은 다음과 같다. 사회

puppy-foot-it.tistory.com


한글 자연어 처리를 위한 KoNLPy 모듈 설치

 
※ KoNLPy 모듈은 Lucy Park 이라는 분이 개발한 한글 자연어 처리를 파이썬으로 하는 것을 도와주는 모듈이다.
이는 꼬꼬마, 한나눔, MeCab-ko 등 국내외에서 개발된 여러 형태소 분석기를 포함하고, 자연어처리에 필요한 각종 사전, 말뭉치, 도구 및 다양한 튜토리얼을 포함하여 손쉽게 한국어 분석을 할 수 있도록 만들었다.

[KoNLPy; 쉽고 간결한 한국어 정보처리 파이썬 패키지 요약문 中]

 
해당 모듈을 설치하기 위해서는 몇몇 과정을 거쳐야 한다.
터미널 (윈도우+R키→cmd 입력)에서 pip install konlpy 명령으로 먼저 konlpy를 설치

konlpy 설치

 

Java SDK 다운로드 페이지에서 JDK 다운로드

(나는 이미 다운로드 및 설치가 되어 있으므로, 자세한 내용은 하단 블로그 참고)
 
JAVA jdk 다운로드

 

Download the Latest Java LTS Free

Subscribe to Java SE and get the most comprehensive Java support available, with 24/7 global access to the experts.

www.oracle.com

 

자바 SDK란, open jdk 란, 자바 SDK 설치(windows), Java SDK란, Java SDK 설치 (윈도))

Java SDK 란 한만디로 Java언어로 응용프로그램을 만들 수 있게 해주는 도구 모음입니다. 소프트웨어 ...

blog.naver.com

만약 설치 오류가 난다면 하단의 글을 참고해도 좋다.

 

'java'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다. 문제

cmd 창에 java 라고 입력 시 아래와 같은 화면처럼 "'java'은(는) 내부 또는 외부 명령, 실...

blog.naver.com

 

anaconda prompt 에서 conda install -c conda-forge jpype1 입력하여 JPype1 설치
(cmd를 통해 설치하여도 무방)

 
※ JPype1은 Python에서 Java와 상호 작용할 수 있게 해주는 패키지이다. JPype1은 Java Virtual Machine (JVM)과의 통합을 통해 Java 라이브러리를 Python에서 직접 호출할 수 있도록 해준다.

JPype1 설치

 

터미널에서 pip install nltk 를 입력하여 nltk 설치

nltk 설치

 

터미널에서 python 입력 후, 하단의 명령어(2줄) 입력
import nltk
nltk.download()

nltk import

 

nltk에서 stopwards와 punkt 다운로드

 
nltk - All Package 탭에서 stopwards와 punkt 다운로드 (nltk.download 화면에서는 마우스 휠이 잘 인식되지 않는다)
이럴때는 전체 다운로드를 선택하는 것도 좋다.

punkt 다운로드

 

워드 클라우드 설치 (cmd에서 파이썬 모드 종료 필수!)

 
먼저 cmd 에서 파이썬을 종료하고 ※종료 명령어: exit()
pip install wordcloud 명령으로 워드 클라우드 설치

wordcloud 설치
word cloud 설치가 잘 되었다

gensim 설치

 
마지막으로 pip install gensim 명령으로 gensim 설치
※ Gensim은 Python에서 토픽 모델링 및 자연어 처리를 위한 라이브러리
 
위 명령을 실행하면 Gensim 패키지와 이 패키지가 의존하는 다른 라이브러리가 자동으로 설치되고, Gensim을 설치한 후에는 Python에서 토픽 모델링, 단어 임베딩, 문서 유사도 등을 구현할 수 있다.

gensim 다운로드

 
다음 챕터에서는 한글 자연어 처리의 기초 내용에 대해 진행


다음글

[파이썬] 자연어 처리(NLP) 시작하기 - 2

728x90
반응형