목록전체 글 (35)
류동균의 R 공부방입니다.
외부파라미터를 받아 R파일에서 Rmd 파일을 호출하여 보고서를 저장하는 방식으로 작성해보려한다. 말이 어렵지만 그림으로 이해해보자. 이제 한번 리눅스에서 R파일을 실행하여 외부파라미터를 받아 html파일을 만들어보자. 이 작업에는 R, Rmd 두가지 유형의 파일을 만들어야 한다. 그럼 먼저 R파일부터 살펴보자. 필요한패키지 및 옵션 # R에서 Rmd를 호출하기위한 옵션 Sys.setenv(RSTUDIO_PANDOC="/usr/lib/rstudio-server/bin/pandoc") # 필요한패키지 library(rmarkdown) 외부 파라미터를 받고 Rdata로 저장 이제 R파일에서 외부에서 parameter를 받을수 있게 args를 설정해주어야한다. 그리고 필요한 parameter를 받고 Rdata로..
인터넷에 많은 파일들을 다운받아본적이 있을 것이다. 예를들어 기출문제 같은것을 사이트에서 다운받을때 일일이 특정회차 에 들어가 파일을 다운받고 또다시 다음회차글에 들어가 다운을받고 나오는 작업을 반복적으로 한 경험이 있을 것이다. 이러한 작업을 R 코드로 자동으로 해주는 방법이 있어 블로그에 글을 쓰게 되었다. 그럼 시작해보자 “최강 자격증 기출문제 전자문제집 CBT”이라는 곳에서 리눅스 마스터 2급 기출문제집을 다운받을 예정이다. (링크 : https://www.comcbt.com/xe/r2) 링크에 접속하면 다음과 같은 화면이 나올것이다. 우리가 필요한것은 빨간색으로 표시된 교사용, 학생용 파일이다. 폴더생성 파일을 다운로드 받기위해 폴더를 하나 생성해주어야 한다. 다음과 같이 실행해보자. 실행 했다..
트렐로(Trello)란 무엇인가? 트렐로란 프로젝트를 관리하는 툴이다. Boards에 마치 포스트잇을 붙여놓은 것처럼 일정 및 프로젝트 관리를 해주는 툴이다. 필자는 공부를 하고 있는 학생인데, 스터디를 할때 스터디 구성원 들과 사용중이다. 트렐로의 장점 트렐로의 장점이라고 하면 어떠한 프로젝트가 진행되는 상황을 간단하게 볼 수 있다는 점이다. 또한 어떠한 일정을 생성하고 라벨을 만들며 중요도에 따라 라벨의 색깔을 변화시킬 수도 있다. 직접사용해본다면 얼마나 쉽고 간단하고 직관적인지 알 수 있을 것이다. 또한 업무에 사용시 팀별로 여러가지 Borads를 생성하여 업무를 분할하여 프로젝트를 관리할 수 있다는 장점이 있다. 슬랙과의 연동 트렐로의 또다른 장점 중 하나는 슬랙과 연동할 수 있다는 점이다. 슬랙..
슬랙이란 무엇인가 ? 슬랙이란 업무 협업 메신저이다. 현업에서 여러가지 메신저들이 사용중이겠지만 슬랙은 업무의 생산성을 좀더 높히기 위해 만들어진 메신저이다. 슬랙에는 뜻이 있는데 다음과같다. S : Searchable L : Log A : All C : Conversation K : Knowledge '모든 대화, 지식을 위한 검색 가능한 로그' Searchable Log of All Conversation and Knowledge. 슬랙의 장점 슬랙은 여러가지 많은 장점이 있다. 그중에 3가지 정도만 소개해보려한다. 1. 여러가지 앱들과의 동기화 슬랙은 트렐로, 구글 캘린더, 깃허브 등 업무와 관련된 앱들이 동기화가 가능하다. 그래서 특정 앱에서 이루어진 업무내용이 슬랙에 바로 노출이 되는데 이는 매..
AWS EC2 인스턴스를 사용할때 용량이 부족한 상황이 올 수 있다. AWS의 볼륨은 인스턴스를 생성할때 default값은 8GB인데, 프리티어에서는 30GB까지 지원이 되기때문에 default값으로 사용할 이유가 없다. 그럼 AWS 인스턴스의 볼륨을 증가시켜보자. EC2 대시보드에서 볼륨을 클릭 볼륨을 증가시킬 인스턴스에 오른쪽 버튼 클릭 후 볼륨수정 클릭 원하는 크기 설정 후 수정. 프리티어에서는 30GB까지만 무료 다음과 같은 메세지가 나타나면 예를 클릭 수정후에 볼륨의 샅애를 보면 optimizing이라고 나옵니다. 볼륨의 크기를 설정하기위해 작업이 완료될때까지 기다립니다. optimizing이 완료되고 볼륨이 in-use 상태가 되면 인스턴스를 실행하고 putty를 통해 볼륨이 정상적으로 확인되..
1. 표본추출의 정의 표본추출이란 데이터의 모집단 중 일부를 표본으로 추출하는 것을 말한다. 보통 데이터를 분석할때 train/test 데이터를 7:3 , 8:2 등의 비율로 나누게 되는데 여기서 그 과정에서 표본 추출이 중요하다. 만약 데이터를 train/test로 분리하지 않고 모델링과 모델 평가를 한다면 과적합이 발생해 예측력이 떨어질 수가 있다. 2. 표본추출의 종류 표본추출은 여러가지가 있는데 기본적으로는 '단순 임의 추출', '층화 임의 추출', '계통 추출' 이 있다. 이 글에서는 이 3개의 추출 방법만 다룰 예정이다. iris 데이터를 모집단으로 두고 코드를 실행시켜보며 차례대로 알아보도록 하자. 2-1. 단순 임의 추출 단순 임의 추출(Simple Random Sampling)이란 표본을..