목록통계 (2)
류동균의 R 공부방입니다.
R에서 통계분포에 따라 난수를 발생시키는 다양한 함수들이 존재한다. 함수들은 각각 random을 뜻하는 난수 r + 분포명 과 같은 형태이다. @@난수목록@@ 함수들의 인자들은 원하는 난수의 개수와 각 확률 분포의 파라미터들이다. 예를 들어, 정규분포는 평균, 표준편차를 인자로 받는다. 한번 평균 0, 표준편차 10인 정규분포로분터 난수 10개를 뽑아보자. # 정규분포 난수 rnorm(난수의 개수, 평균, 표준편차) rnorm(10,0,10) 이렇게 정규분포의 난수를 생성했을때 생성된 난수들이 다음과 같이 정규분포의 형태를 띄는 것을 알 수 있다. 확률 밀도함수 또는 확률 질량함수는 d + 분포명 과 같은 형태를 띈다. ex) 정규분포 dnorm() 분포함수는 p + 분포명 과 같은 형태를 띈다. ex)..
1. 표본추출의 정의 표본추출이란 데이터의 모집단 중 일부를 표본으로 추출하는 것을 말한다. 보통 데이터를 분석할때 train/test 데이터를 7:3 , 8:2 등의 비율로 나누게 되는데 여기서 그 과정에서 표본 추출이 중요하다. 만약 데이터를 train/test로 분리하지 않고 모델링과 모델 평가를 한다면 과적합이 발생해 예측력이 떨어질 수가 있다. 2. 표본추출의 종류 표본추출은 여러가지가 있는데 기본적으로는 '단순 임의 추출', '층화 임의 추출', '계통 추출' 이 있다. 이 글에서는 이 3개의 추출 방법만 다룰 예정이다. iris 데이터를 모집단으로 두고 코드를 실행시켜보며 차례대로 알아보도록 하자. 2-1. 단순 임의 추출 단순 임의 추출(Simple Random Sampling)이란 표본을..