목록Data Analysis (10)
류동균의 R 공부방입니다.
데이터 분석에 대해 공부하던 중 Kaggle이라는 사이트를 알게 되었다. 이번엔 캐글의 소개와 데이터 분석(주제 : Titanic)에 참가하는 글을 써볼 예정이다. Kaggle을 한문장으로 표현하면 데이터분석 경연대회 같은 것이다. 여러가지 분석 주제가 있고 상금또한 걸려있다. 하지만 너무어려운 주제로 접근하기에는 무리가 있으니 이미 기한이 끝난 Titanic이라는 주제의 Competition에 참가해 보자. 우선 Kaggle에 접속을 로그인을 해보자. - 구글로 로그인을 하는 것을 추천 캐글 : Kaggle Kaggle: Your Home for Data Science www.kaggle.com 로그인을 했다면 다음과 같은 화면이 나올 것이다. 여기서 Competition을 눌러보자. 여러가지 Comp..
혼동행렬에 대해 알아보려고 한다. 혼동행렬은 클래스의 분류의 결과를 정리한 표이며 모델 의 성능을 파악하는 지표라고 할 수 있다. 혼동행렬은 2 x 2 의 행렬로 다음과 같이 구성된다. 혼동행렬을 통하여 다음과 같은 지표를 얻을 수 있다. 특이도(Specificity) 민감도(Sensitivity) 양성 예측도(Positive Prediction Value) 음석 예측도(Negative prediction Value) 긍정오류율(False Positive Rate) 부정오류율(False Negative Rate) 정확도(Accuracy) 다음의 그림과 설명을 통해 이러한 지표들을 개념과 구하는 공식을 알아보자. 이렇게 혼동행렬의 개념과 구하는 공식을 알아보았다. 그럼 의사결정나무에서 공부한 내용을 가지고..
R로 카카오톡 채팅방 분석을 해보려 한다. 우선 결과적으로 R로 카카오톡 채팅방 분석을 통해 얻을 수 있는 자료들은 채팅이 가장 활발한 달, 일, 시간대 그리고 채팅방에서 가장 많이 나오는 단어, 유저별 채팅 점유율 등 분석목적에 따라 다양한 데이터를 얻을 수 있다. 카카오톡 채팅 분석글은 우선 카카오톡을 분석하기위해 필요한 RAW데이터를 정제시키는 1편 정제된 데이터들을 분석하고 시각화하는 2편으로 나누어 작성할 예정이다. 그럼 시작해보겠다. 우선 필요한 4가지 패키지들에 대한 간단한 설명이다 #텍스트마이닝을 하고 분석에 필요한 dplyr패키지 library(dplyr) #문자로 되어있는 날짜를 날짜형식의 데이터로 바꿔줄 lubridate library(lubridate) #문자열 데이터를 다루는데 필..
2번째글에서는 크롤링을 통해 필요한 데이터를 추출하고 그것을 가공하는것을 배워보았다. 크롤링을 하기위해서는 우선 DV, rvest라는 패키지를 인스톨 해야한다. 그리고 url주소를 얻어야한다. 이때 url 주소가 가지는 일정한 패턴을 파악하는것이 중요하다. 다음의 url에서는 category, year, tab 이라는 변수를 가지기때문에 이러한 변수들의 값을 잘 바꿔 원하는 데이터를 추출할 수 있다. 다음과같이 year라는 변수의 값을 for문으로 바꿔가며 epl카테고리의 year(연도)별 player 축구선수들의 목록을 가져 올 수 있다. # url 주소 추출 # url % t() %>% as.data.frame() #rowname 제거 rownames(team_player) % group_by(pla..