TOP
class="layout-aside-left paging-number">
본문 바로가기
데이터분석 만능열쇠 [파이썬]/<파이썬 데이터 분석>

[파이썬] 서울시 구별 CCTV 현황 분석

by 기록자_Recordian 2024. 4. 10.
728x90
반응형
시작에 앞서
해당 내용은 <파이썬으로 데이터 주무르기> -민형기 저, BJPUBLIC 출판사 의 내용을 토대로 작성되었습니다.
보다 자세한 내용은 해당 교재를 확인하여 주시기 바랍니다.

CCTV 현황과 인구 현황 데이터 구하기

 
서울시의 CCTV 현황 및 서울시 인구 통계 내용과 형식이 저자가 해당 내용을 작성한 시점과 다르기 때문에, 저자가 Git hub 에 올려둔 자료로 대체한다.
※ 참고로, 실제 서울시의 CCTV 현황과 서울시 인구 통계 데이터들은 아래의 링크를 통해 다운 받을 수 있다.

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr


먼저 서울시의 CCTV 데이터(CSV 파일) 를 파이썬으로 불러온다.

서울시 cctv 데이터 파이썬으로 불러오기

 
파일이 한글로 되어 있는 경우에는 인코딩에 신경써야 하는데, 현재 이 데이터는 UTF-8로 인코딩 되어 있어 read_csv 명령을 쓸 때 옵션에 UTF-8 이라고 지정해야 함.
 
head() 명령은 pandas 데이터의 첫 5행만 보여달라는 뜻
 
※ 'Imports pandas as pd' 와 같은 구문을 왜 사용하는지는 아래 링크를 통해 확인

Pandas 기초 정리 (Pandas/Series/DataFrame)

데이터과학은 데이터를 연구하는 분야이고, 데이터 자체가 가장 중요한 자원이다. 실제로 데이터 분석 업무의 80~90%는 데이터를 수집하고 정리하는 일이다. 나머지 10~20%는 알고리즘을 선택하고,

velog.io


컬럼명 변경하기

 
먼저 컬럼명을 조회해본다.

서울시 cctv 컬럼명 파이썬으로 조회하기

컬럼의 순은 0, 1, 2, 3, 4, ..... 로 0부터 시작하고, '기관명' 컬럼은 제일 앞에 있으므로 '0'이 된다.

서울시 cctv 파일 첫번째 컬럼 조회하기

 
컬럼명 중 '기관명' 을 '구별' 로 변경한다. (rename 명령 사용)

파이썬으로 컬럼명 변경하기

 
여기에서 사용된 'inplace' 관련 자세한 사항은 하단 링크를 통해 확인

파이썬 판다스 inplace 옵션

inplace뜻은 '제자리에','가동할 준비가 되어 있는', '~을 위한 준비가 되어 있는' 라는 의미를 가지고 있다. 그렇다면 코딩에서 inplace는 어떤 의미를 가지고 있을까? rename, drop등의 메서드를 사용할

story-opinion.tistory.com


서울시 인구(엑셀 파일) 불러오기

 
엑셀 파일을 열어보면, 아래와 같은 형식으로 되어 있다.

서울시 인구 엑셀파일 파이썬으로 불러오기

 
따라서, read_excel 명령어를 사용하는데, CSV 와 달리 옵션을 좀 더 적용하여야 한다.

파이썬으로 엑셀파일 불러오기 오류
parse_cols는 더이상 사용되지 않고, usecols 로 변경됨

 
※ 엑셀 파일을 불러올 때 'encoding=utf-8' 구문으로 오류가 나는 경우.,
'pip install xlrd' 구문을 입력 후에 'encoding=utf-8' 을 제외한 나머지 내용을 입력하면
엑셀 데이터가 이상없이 로딩 된다. (구글링을 한참 해서 겨우 찾아냈다...)

파이썬으로 xlrd import 하기

※ usecols: 파이썬에서 row(행) 기준 데이터를 선택할 때 사용하는 명령

파이썬으로 엑셀 불러올 때 usecols 사용하기
encoding='utf-8' 제외한 결과

 


불러온 엑셀 데이터의 컬럼명 변경하기

 
usecols를 통해 특정 칼럼을 불러왔으나, 칼럼명이 계, 계.1, 계.2 등으로 어떤 데이터의 합계인지 파악하기가 어렵다.
따라서, rename 명령을 사용하여 컬럼명 변경

파이썬으로 엑셀 데이터 컬럼명 변경하기

 
이렇게 함으로써 CCTV_Seoul 변수에는 '구별 CCTV 현황'을, pop_Seoul 변수에는 '구별 인구 현황'을 저장했다.
이후 내용은 다음 파트에서 계속.


다음글

[파이썬 기초] 서울시 구별 CCTV 현황 분석-2

 

728x90
반응형