목록전체 글 (35)
류동균의 R 공부방입니다.
리눅스서버에 접속하기 위해 Modaxterm을 이용해보자. Modaxterm은 무료로 사용할 수 있으며 Linux환경에 접속했을때 약간의 UI가 제공되어 보기쉽다는 장점이 있다. Mobaxterm에서 Linux로 접속하기 위해서는 putty Session, key가 존재해야 한다. 이에 대한 글은 다음의 링크에서 AWS서버에서 Linux를 접속하는 부분까지 참고하면 된다. 링크 : AWS에 Rstudio server 구축 그럼 putty로 Linux가 접속된다는 가정하에 바로 시작해보자. Modaxterm Download modaxterm을 다운로드 받기위해 아래의 링크에 접속해서 Download를 누르자 modaxterm 무료버전을 사용하기위해 Home Edition의 Download now를 클릭 M..
이번 블로그에서는 배달음식의 3대장이라고 할 수 있는 피자, 치킨, 중식 데이터를 통합해보려한다. 바로 시작해보자. 데이터불러오기 # 필요한 패키지 library(ggplot2) # 데이터 시각화 library(dplyr) # 데이터 핸들링 # 데이터 불러오기 cfood_df # 데이터 자료형 파악 > str(pizza_df) 'data.frame':21203 obs. of 8 variables: $ 일자 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 ... $ 요일 : Factor w/ 7 levels "금","목","수",..: 7 7 7 7 7 7 7 7 7 7 ... $ 성별 : Factor w/ 2 le..
이번 블로그에는 저번블로그에 이어 중국음식 통화량을 분석해보고자 한다. 치킨집 통화량과 뭔가 다른 것이 있는지 한번 살펴보자. 데이터 불러오기 # 필요한 패키지 library(dplyr) # 데이터 핸들링 library(ggplot2) # 데이터 시각화 # 19년 1월 중국음식 데이터 cfood_df dim(cfood_df) [1] 28499 9 그럼 컬럼은 치킨데이터와 똑같이 되어있을까? 한번 살펴보자. # 데이터 자료형 파악 > str(cfood_df) 'data.frame':28499 obs. of 9 variables: $ 기준일 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 2019010 ... $ 요일 : Factor..
본격적으로 데이터 분석을 하기에 앞서 지난 블로그에서 데이터의 구조에 대해 몇가지 좀 바꿔야 할 점이 있었다. 다시한번 데이터의 형식을 보자 str(chicken_df) 'data.frame':30245 obs. of 9 variables: $ 기준일 : int 20190101 20190101 20190101 20190101 20190101 20190101 20190101 20190101 ... $ 요일 : Factor w/ 7 levels "금","목","수",..: 7 7 7 7 7 7 7 7 7 7 ... $ 성별 : Factor w/ 2 levels "남","여": 2 2 1 1 1 1 1 2 2 1 ... $ 연령대 : Factor w/ 6 levels "10대","20대",..: 2 2 1 1..
SK Data Hub사이트에 접속하면 매달 카테고리별로 나오는 Data들이 있다. 오늘은 이중에서도 가장 친근한 배달음식 데이터를 분석해보려한다. SK Data hub에 있는 데이터는 SKT에 관련된 통화량만을 조사했음으로 전체시장의 통화량을 커버한다고 하기에는 어려움이 있지만 단순히 표본집단이라는 생각으로 분석해볼 예정이다. 2019년 전체의 데이터를 분석할 예정이고 처음에는 가볍게 1월의 데이터만을 가져와서 데이터를 살펴보려고 한다. 데이터불러오기 우선 19년 1월 서울시 치킨 판매업종 이용 통화량이라는 데이터를 csv파일로 받아 R로 받아오자 # 19 1월 치킨 통화량 데이터 chicken_df dim(chicken_df) [1] 30245 9 이 데이터는 30245개의 row와 9개의 column..
R에서 통계분포에 따라 난수를 발생시키는 다양한 함수들이 존재한다. 함수들은 각각 random을 뜻하는 난수 r + 분포명 과 같은 형태이다. @@난수목록@@ 함수들의 인자들은 원하는 난수의 개수와 각 확률 분포의 파라미터들이다. 예를 들어, 정규분포는 평균, 표준편차를 인자로 받는다. 한번 평균 0, 표준편차 10인 정규분포로분터 난수 10개를 뽑아보자. # 정규분포 난수 rnorm(난수의 개수, 평균, 표준편차) rnorm(10,0,10) 이렇게 정규분포의 난수를 생성했을때 생성된 난수들이 다음과 같이 정규분포의 형태를 띄는 것을 알 수 있다. 확률 밀도함수 또는 확률 질량함수는 d + 분포명 과 같은 형태를 띈다. ex) 정규분포 dnorm() 분포함수는 p + 분포명 과 같은 형태를 띈다. ex)..