목록전체 글 (35)
류동균의 R 공부방입니다.
이번엔 랜덤 포레스트로 데이터분류 모델을 만들어 보고자 한다. 랜덤 포레스터(Random Forest)란 앙상블기법의 일종으로 여러가지 기준을 가진 의사결정나무들 이 모인 숲과 같은 형태의 모델이라고 할 수 있다. 그러면 랜덤 포레스트를 통한 iris의 Species 데이터 분류를 시작해보자. 우선 랜덤 포레스트 패키지부터 설치하고 library를 불러오도록하자. #필요한 패키지 library(randomForest) 분석에 데이터한 데이터를 Traning/Test set으로 나누어주자. 비율은 7:3 으로 한다. # data 생성 df
혼동행렬에 대해 알아보려고 한다. 혼동행렬은 클래스의 분류의 결과를 정리한 표이며 모델 의 성능을 파악하는 지표라고 할 수 있다. 혼동행렬은 2 x 2 의 행렬로 다음과 같이 구성된다. 혼동행렬을 통하여 다음과 같은 지표를 얻을 수 있다. 특이도(Specificity) 민감도(Sensitivity) 양성 예측도(Positive Prediction Value) 음석 예측도(Negative prediction Value) 긍정오류율(False Positive Rate) 부정오류율(False Negative Rate) 정확도(Accuracy) 다음의 그림과 설명을 통해 이러한 지표들을 개념과 구하는 공식을 알아보자. 이렇게 혼동행렬의 개념과 구하는 공식을 알아보았다. 그럼 의사결정나무에서 공부한 내용을 가지고..
의사결정 나무란 여러가지 데이터가 있을때 마치 나무가 가지를 치듯이 노드를 통해 의사결정을 하여 분류를 하는 것이다. 그러면 이번엔 Decision Tree를 사용하여 iris데이터의 Species를 분류해보자. ## data set #필요한패키지 library(rpart) library(rpart.plot) library(caret) library(e1071) # data 생성 df
머신러닝기법에는 로지스틱 회귀분석(Logistic Regression Analysis)라는 것이 있다. 간단하게 설명하자면 위와같은 선형데이터를 분류할때 다음과같이 분류하는 선형분류기를 로지스틱 회귀분석 모델이라고 한다. 로지스틱회귀분석을 공부하기위해 iris데이터로 4가지의 컬럼으로 붓꽃의 종류를 분류하는 작업을 해볼 예정이다. 로지스틱회귀분석을 하기에 앞서 몇가지알아야 할 점이 있다. ##Traning, Test Set 회귀분석 모델을 만들때는 현실데이터를 7:3 혹은 8:2 비율로 traning set과 test set으로 나누어 traning set으로 만든 모델으로 test set 에 test를 하여 결과가 적합한지를 알아보아야한다. ## Outlier 이상치 정확한 모델을 만들기 위해 이상치를..
R의 기본적인 시각화 도구인 plot에 대해서 알아보려고 한다, ggplot2 등 더 좋은 여러 시각화 패키지들이 존재하지만 가장 기초가 되고 접근이 쉬운 plot로 먼저 트레이닝을 해보려한다. plot을 알아보기위해 R에 기본적으로 있는 iris 데이터를 사용하여 트레이닝을 시작해보자. plot(iris$Sepal.Length) iris의 Sepal.Length로 plot을 만들었을때 기본적으로 값을 나타내는 점들이 가운대가 뚤려있는것을 알 수 있다. 이 점들을 안이 채워져있는 형태로 바꾸어보자 plot(iris$Sepal.Length, pch = 20) pch라는 옵션을 사용하여 안이 채워진 형태의 점으로 시각화 하였다. pch의 옵션에는 여러가지가 있다. 점이 아니라 세모, 네모 등 여러가지 모형으..
머신러닝을 공부하면서 선형회귀분석(Linear regression analysis)라는 개념을 필수적으로 본적이 있을것이다. 오늘은 이 선형회귀분석의 기초적인 개념에 대해 공부해 보려고 한다. 우선 선형회귀의 개념은 간단하게 머신러닝을 공부하면서 선형회귀분석(Linear regression analysis)라는 개념을 필수적으로 본적이 있을것이다. 오늘은 이 선형회귀분석의 기초적인 개념에 대해 공부해 보려고 한다. 그에 앞서 알아둬야 할 점이 있다. 인공지능으로 데이터의 모델을 구하는데 있어서의 한계가 있다. 머신러닝이라는 것이 전지전능한 인공지능이 아니라 데이터에 의존을 하기 때문에 데이터에 따라서 model은 계속해서 바뀔 수가 있다. 우선 선형회귀분석의 개념은 간단하게 선형 즉 1차함수의 성격을 띄..