목록분류 전체보기 (35)
류동균의 R 공부방입니다.
R로 카카오톡 채팅 분석하기#1 에서 비정형데이터를 정형데이터로 바꾸는 작업을 완료하였다. 이번엔 그러한 정형데이터를 통해 오픈채팅방을 그래프, 표, 워드클라우드로 분석해보자. 분석하기에 앞서 밑의 코드는 Rmd확장자명을 가지는 R마크다운으로 작성하였다. R마크다운은 청크라는 것이 있는데, 이는 쉽게 구간을 나누어놓은 것이다. 직관성이 좋고 유지보수가 쉽고 웹에 올리기가 좋다. 이번엔 이를 이용하여 Rpubs에 간단한 보고서를 publish하는 과정까지 진행할 예정이다. 간단하게 R마크다운 사용법을 알아보면 다음과 같다. 청크생성 ctrl + alt + i 전체실행 ctrl + shfit + k 청크 실행 ctrl + shfit + enter 청크옮기기 ctrl + pageup/down 청크사이에는 sc..
AWS(Amazon Web Service)서버에 R환경을 구축하는 방법을 써보려고한다. 우선 가장 먼저 필요한 것은 AWS에 접속하여 아이디를 만드는 것 Google에 AWS라고 치고 AWS 홈페이지를 들어가서간단하게 로그인을 하면된다. 주의해야할 점은 결제수단이 필요한데 master card, visa와 같은 결제카드가 준비되어있어야한다. 그럼 로그인까지 성공했다는 가정하 에 본격적으로 R환경을 구축하는 방법을 알아보도록 하자. AWS로고 옆에있는 서비스 버튼을 클릭하면 다음과같은 화면이 나오는데 컴퓨팅 카테고리의 EC2를 클릭한다. EC2 인스턴스라는 가상 서버를 시작하기위해 인스턴스 시작 버튼을 눌러준다. 다음과 같이 Amazon Linux 2 AMI를 선택 해주도록한다. 인스턴스의 유형은 여러가지..
R로 카카오톡 채팅방 분석을 해보려 한다. 우선 결과적으로 R로 카카오톡 채팅방 분석을 통해 얻을 수 있는 자료들은 채팅이 가장 활발한 달, 일, 시간대 그리고 채팅방에서 가장 많이 나오는 단어, 유저별 채팅 점유율 등 분석목적에 따라 다양한 데이터를 얻을 수 있다. 카카오톡 채팅 분석글은 우선 카카오톡을 분석하기위해 필요한 RAW데이터를 정제시키는 1편 정제된 데이터들을 분석하고 시각화하는 2편으로 나누어 작성할 예정이다. 그럼 시작해보겠다. 우선 필요한 4가지 패키지들에 대한 간단한 설명이다 #텍스트마이닝을 하고 분석에 필요한 dplyr패키지 library(dplyr) #문자로 되어있는 날짜를 날짜형식의 데이터로 바꿔줄 lubridate library(lubridate) #문자열 데이터를 다루는데 필..
2번째글에서는 크롤링을 통해 필요한 데이터를 추출하고 그것을 가공하는것을 배워보았다. 크롤링을 하기위해서는 우선 DV, rvest라는 패키지를 인스톨 해야한다. 그리고 url주소를 얻어야한다. 이때 url 주소가 가지는 일정한 패턴을 파악하는것이 중요하다. 다음의 url에서는 category, year, tab 이라는 변수를 가지기때문에 이러한 변수들의 값을 잘 바꿔 원하는 데이터를 추출할 수 있다. 다음과같이 year라는 변수의 값을 for문으로 바꿔가며 epl카테고리의 year(연도)별 player 축구선수들의 목록을 가져 올 수 있다. # url 주소 추출 # url % t() %>% as.data.frame() #rowname 제거 rownames(team_player) % group_by(pla..
본격적으로 R programming Study를 하려고한다. R로 개발을 할때 R studio라는 것을 쓰고 있었지만, R cloud라는 것이 있게 된 것을 알고 R cloud를 사용하게되었다. R cloud는 구글시트와 비슷하게 웹환경에서 R언어를 깔지 않아도 R을 개발할 수 있는 환경이다. 듣기로는 메모리도 40GB라고 하니 필수적으로 사용해야 한다고 생각한다. 기본적으로 R은 vector라는 것을 쓴다. vector를 생성하기위해선 c(1 ,2 ,3) 와 같이 작성하면된다. #1~5까지 수를 생성하기 c(1:5) or seq(1, 5) #1, 3, 5, 7, 9와 같이 간격을 두고 연속된수를 생성 seq(1, 10 , by = 2) #컬럼을 추가, 합치기 cbind(x, y) #행을 추가, 합치기 ..