류동균의 R 공부방입니다.
서울시 먹거리분석 #1 본문
SK Data Hub사이트에 접속하면 매달 카테고리별로 나오는 Data들이 있다. 오늘은 이중에서도 가장 친근한 배달음식 데이터를 분석해보려한다. SK Data hub에 있는 데이터는 SKT에 관련된 통화량만을 조사했음으로 전체시장의 통화량을 커버한다고 하기에는 어려움이 있지만 단순히 표본집단이라는 생각으로 분석해볼 예정이다. 2019년 전체의 데이터를 분석할 예정이고 처음에는 가볍게 1월의 데이터만을 가져와서 데이터를 살펴보려고 한다.
데이터불러오기
우선 19년 1월 서울시 치킨 판매업종 이용 통화량이라는 데이터를 csv파일로 받아 R로 받아오자
# 19 1월 치킨 통화량 데이터
chicken_df <- read.csv("CALL_CHICKEN_01MONTH.csv")
데이터파악
간단하게 데이터의 구조파악과 결측치가 있는지 살펴보자. dim() 함수를 사용하여 데이터의 row와 column의 개수부터 파악해보자
# 데이터의 구조파악
> dim(chicken_df)
[1] 30245 9
이 데이터는 30245개의 row와 9개의 column으로 이루어진 것을 확인할 수 있다. 이제 간단하게 분포나 최대, 최소, 평균 값들을 확인하기 위해 summary() 함수를 사용하여 알아보자.
# 데이터 요약
summary(chicken_df)
9개의 컬럼은 기준일, 요일, 성별, 연령대, 시도, 시군구, 읍면동, 업종, 통화건수로 되어있다. 통화건수의 최댓값이 5인것은 SK data hub에 통화량이 5건 미만인 것은 5로 표기한다고 쓰여있다. 이번엔 혹시 NA값이 있는지 찾아보자
# 결측치 파악
sum(is.na(chicken_df))
[1] 0
다행히도 데이터에 결측치는 존재하지않아 따로 처리해 줄 필요는 없어보인다. 이번엔 데이터가 어떤 자료형을 가지고있는지 파악해보자
# 데이터의 자료형 파악
str(chicken_df)
'data.frame': 30245 obs. of 9 variables:
$ 기준일 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 ...
$ 요일 : Factor w/ 7 levels "금","목","수",..: 7 7 7 7 7 7 7 7 7 7 ...
$ 성별 : Factor w/ 2 levels "남","여": 2 2 1 1 1 1 1 2 2 1 ...
$ 연령대 : Factor w/ 6 levels "10대","20대",..: 2 2 1 1 1 1 1 6 6 2 ...
$ 시도 : Factor w/ 1 level "서울특별시": 1 1 1 1 1 1 1 1 1 1 ...
$ 시군구 : Factor w/ 25 levels "강남구","강동구",..: 1 1 1 1 1 1 1 1 1 1 ...
$ 읍면동 : Factor w/ 249 levels "가락동","가리봉동",..: 103 187 157 103 50 48 38 157 38 7 ...
$ 업종 : Factor w/ 1 level "치킨": 1 1 1 1 1 1 1 1 1 1 ...
$ 통화건수: int 12 5 5 11 5 5 5 5 5 13 ...
기준일, 통화건수를 제외하고는 모두 Factor로 잘 만들어져 있다. 다만 기준일이 int 형식으로 되어있는것을 날짜형으로 바꾸어주면 좋을 것 같다. 또한 조금 어려운 얘기지만 시간대 데이터가 없는것이 다소 아쉽다고 할 수 있다. 어떠한 시간대에 가장 주문이 많이 들어오는지도 궁금했으니 말이다. 이번 블로그는 간단하게 여기까지 마무리하고 다음블로그에서 데이터의 변환과 좀더 본격적으로 분석을 해볼 예정이다.
'Data Analysis' 카테고리의 다른 글
서울시 먹거리분석 #3 (0) | 2019.10.17 |
---|---|
서울시 먹거리분석 #2 (0) | 2019.10.16 |
K-겹 교차검증(K- fold Cross Validation) (0) | 2019.10.02 |
캐글(Kaggle) (0) | 2019.09.28 |
혼동행렬(Confusion Maxtrix) (0) | 2019.09.22 |