목록Data Analysis (10)
류동균의 R 공부방입니다.
저번글에 이어 서울시 2018 치킨, 중식, 피자 통화량 데이터를 분석해보고자 한다. 분석하기에 앞서 우선 1년치 자료를 다 통합해야하는데 그 과정에 조금 문제가 생긴다. 우선 이러한 문제를 해결하고 2018년도 1년치 치킨, 중식, 피자 데이터를 통합해보자. 우선 데이터를 2018 1월 ~12월 데이터를 준비해보자 데이터는 다음의 링크에서 다운받아 주도록한다. sk data hub : https://www.bigdatahub.co.kr/index.do SKT Data Hub [2018년 데이터 총 결산] 배달업종 이용현황 분석 빅데이터 허브에서 제공해 드리는 데이터 [배달업종 이용현황 분석]을 이용하여, 2018년도 배달음식 통화량에 대해 분석했습니다. www.bigdatahub.co.kr 데이터를 받..
이번 블로그에서는 배달음식의 3대장이라고 할 수 있는 피자, 치킨, 중식 데이터를 통합해보려한다. 바로 시작해보자. 데이터불러오기 # 필요한 패키지 library(ggplot2) # 데이터 시각화 library(dplyr) # 데이터 핸들링 # 데이터 불러오기 cfood_df # 데이터 자료형 파악 > str(pizza_df) 'data.frame':21203 obs. of 8 variables: $ 일자 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 ... $ 요일 : Factor w/ 7 levels "금","목","수",..: 7 7 7 7 7 7 7 7 7 7 ... $ 성별 : Factor w/ 2 le..
이번 블로그에는 저번블로그에 이어 중국음식 통화량을 분석해보고자 한다. 치킨집 통화량과 뭔가 다른 것이 있는지 한번 살펴보자. 데이터 불러오기 # 필요한 패키지 library(dplyr) # 데이터 핸들링 library(ggplot2) # 데이터 시각화 # 19년 1월 중국음식 데이터 cfood_df dim(cfood_df) [1] 28499 9 그럼 컬럼은 치킨데이터와 똑같이 되어있을까? 한번 살펴보자. # 데이터 자료형 파악 > str(cfood_df) 'data.frame':28499 obs. of 9 variables: $ 기준일 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 2019010 ... $ 요일 : Factor..
본격적으로 데이터 분석을 하기에 앞서 지난 블로그에서 데이터의 구조에 대해 몇가지 좀 바꿔야 할 점이 있었다. 다시한번 데이터의 형식을 보자 str(chicken_df) 'data.frame':30245 obs. of 9 variables: $ 기준일 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 ... $ 요일 : Factor w/ 7 levels "금","목","수",..: 7 7 7 7 7 7 7 7 7 7 ... $ 성별 : Factor w/ 2 levels "남","여": 2 2 1 1 1 1 1 2 2 1 ... $ 연령대 : Factor w/ 6 levels "10대","20대",..: 2 2 1 1..
SK Data Hub사이트에 접속하면 매달 카테고리별로 나오는 Data들이 있다. 오늘은 이중에서도 가장 친근한 배달음식 데이터를 분석해보려한다. SK Data hub에 있는 데이터는 SKT에 관련된 통화량만을 조사했음으로 전체시장의 통화량을 커버한다고 하기에는 어려움이 있지만 단순히 표본집단이라는 생각으로 분석해볼 예정이다. 2019년 전체의 데이터를 분석할 예정이고 처음에는 가볍게 1월의 데이터만을 가져와서 데이터를 살펴보려고 한다. 데이터불러오기 우선 19년 1월 서울시 치킨 판매업종 이용 통화량이라는 데이터를 csv파일로 받아 R로 받아오자 # 19 1월 치킨 통화량 데이터 chicken_df dim(chicken_df) [1] 30245 9 이 데이터는 30245개의 row와 9개의 column..
K-겹 교차검증의 개념과 목적 k-겹 교차검증 이하 K-fold란 데이터를 K개의 data fold로 나누고 각각의 데이터들을 train,test 데이터로 나누어 검증하는 방법이다. 우리는 일반적으로 모델을 구성할때 train,test 데이터를 7:3 혹은 8:2 등의 비율로 나누어서 train데이터로 모델을 만들고 test데이터에 적용시킨다. 그러나 K-fold는 train 데이터를 다시 K개의 data fold로 나누어서 train데이터에서 다시 train, test 데이터로 K개 만큼 교차시켜 만들어 검증하는 것이다. K-fold의 목적은 여러번의 교차검증을 통해 모델들의 평균을 구하거나 최적의 모델을 구하는 것이다. 기존의 분석 데이터에 적용 이전에 Kaggle에서 Titanic data를 주제로..