machine learning(66)
-
Machine Learning에서 validation set을 사용하는 이유
validation set은 machine learning 또는 통계에서 기본적인 개념 중 하나입니다. 하지만 실무를 할때 귀찮은 부분 중 하나이며 간과되기도 합니다. 그냥 training set으로 training을 하고 test만 하면 되지 왜 귀찮게 validation set을 나누는 것일까요? validation set을 사용하는 이유는 간단합니다. 바로 "모델의 성능을 평가하기 위해서" 입니다. training을 한 후에 만들어진 모형이 잘 예측을 하는지 그 성능을 평가하기 위해서 사용합니다. training set의 일부를 모델의 성능을 평가하기 위해서 희생하는 것입니다. 하지만 이 희생을 감수하지 못할만큼 data set의 크기가 작다면 cross-validation이라는 방법을 쓰기도 합니..
2023.02.09 -
모델 검증, Validation
이번 시간에는 validation set이 필요한 이유에 대해서 알아보자. Fig 1. Data 여기, 우리가 일반적으로 얻을 수 있는 Data가 있다. 이 Data란 어떻게 생겨먹은 것일까? Data의 종류는 크게 시계열, 이미지, 정형(Tabler)로 나뉘는 것이 일반적이다. 이 중 직관적으로 이해하기가 가장 쉬운 정형 Data를 예로 들어보자. Fig 2. 정형 데이터 연두색으로 표시된 부분이 실제 우리가 취득한 Data이고, 하늘색으로 표시된 부분이 해당 Data의 정답, Label이다. 테이블에 표시된 한 row가 하나의 sample point이고, 각 sample은 여러가지의 feature들을 갖는다. 캐글의 타이타닉 예제를 통해서 좀 더 구체적으로 예를 들어보면, sample1, samp..
2023.02.09 -
교차 검증(cross validation)
이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자. 교차 검증이 필요한 이유 여기에 우리가 사용할 데이터가 있고, 그 데이터는 label이 있는 train, test set으로 구성되어 있다. 이 경우에 만약 'train set을 다시 train set + validation set으로 분리하지 않는다'라고 가정하면, 우리는 모델 검증을 위해서 test set을 사용하여야 할 것이다. 사실상 test set이 아닌 valdiation set인 셈인데, 여기에 한 가지 약점이 존재한다. 고정된 test set을 가지고 모델의 성능을 확인하고 파라미터를 수정하고, 이 과정을 반복하면 결국 내가 만든 모델은 test set에만 잘 동작하는 모델이..
2023.02.09 -
Precision, Recall, Accuracy 쉽게 이야기하기
분류성능평가지표 중 Precision(정밀도), Recall(재현율), Accuracy(정확도)은 머신러닝(Machine Learning) 성능 평가 중 중요하고 기본이 되는 지표이기 때문에 한 번 알아보고자 합니다. Q. Precision, Recall, Accuracy가 뭔가요? Percision, Recall, Accuracy는 논문에서도 많이 보이는 지표이며 또 그만큼 중요하게 생각하는 지표입니다. 하지만 이것을 이야기하기전에 뭔저 알아야할 것이 있습니다. 그것은 바로 TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative)입니다. 이것에 대해 각각 이야기하면 아래와 같습니다. - TP(True Positive): 실..
2023.02.09 -
머신러닝 모델 성능 평가 - 정밀도(Precision), 재현율(Recall)
정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표입니다. 정밀도 = TP / (FP+TP) 재현율 = TP / (FN+TP) 정밀도는 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻합니다. 공식의 분모인 FP+TP는 예측을 Positive로 한 모든 데이터 건수이며, 분자인 TP는 예측과 실제 값이 Positive로 일치한 데이터 건수입니다. Positive예측 성능을 더욱 정밀하게 측정하기 위한 평가 지표로 양성 예측도라고도 불립니다. 재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻합니다. 공식의 분모인 FN+TP는 실제 값이 Positive인 모..
2023.02.09 -
머신러닝 모델 성능 평가 - 정확도 (Accuracy), Confusion Matrix
머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metrics)는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반합니다. 예를 들어 오차에 절댓값을 씌운 뒤 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형입니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. 특히 0과 1로 결정값이 한정되는 이..
2023.02.09