machine learning
-
머신러닝 모델 성능 평가 - 정밀도(Precision), 재현율(Recall)machine learning 2023. 2. 9. 10:02
정밀도와 재현율은 Positive 데이터 세트의 예측 성능에 좀 더 초점을 맞춘 평가 지표입니다. 정밀도 = TP / (FP+TP) 재현율 = TP / (FN+TP) 정밀도는 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻합니다. 공식의 분모인 FP+TP는 예측을 Positive로 한 모든 데이터 건수이며, 분자인 TP는 예측과 실제 값이 Positive로 일치한 데이터 건수입니다. Positive예측 성능을 더욱 정밀하게 측정하기 위한 평가 지표로 양성 예측도라고도 불립니다. 재현율은 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻합니다. 공식의 분모인 FN+TP는 실제 값이 Positive인 모..
-
머신러닝 모델 성능 평가 - 정확도 (Accuracy), Confusion Matrixmachine learning 2023. 2. 9. 10:00
머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metrics)는 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉩니다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반합니다. 예를 들어 오차에 절댓값을 씌운 뒤 평균 오차를 구하거나 오차의 제곱 값에 루트를 씌운 뒤 평균 오차를 구하는 방법과 같이 기본적으로 예측 오차를 가지고 정규화 수준을 재가공하는 방법이 회귀의 성능 평가 지표 유형입니다. 분류의 평가방법도 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하지만, 단순히 이러한 정확도만 가지고 판단했다가는 잘못된 평가 결과에 빠질수 있습니다. 특히 0과 1로 결정값이 한정되는 이..
-
머신러닝 모델 성능 평가, ROC-AUCmachine learning 2023. 2. 9. 09:58
ROC - AUC ROC, AUC Curve에 대해 : Receiver Operating Characteristic, Area Under the Curve AUC-ROC Curve는 다양한 임계값에서 모델의 분류 성능에 대한 측정 그래프를 나타낼 수 있습니다. ROC곡선과 이에 기반한 AUC스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표입니다 nicola-ml.tistory.com ROC 곡선과 이에 기반한 AUC 스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표입니다. ROC 곡선은 우리말로 수신자 판단 곡선으로 불립니다. 이름이 약간 이상한 것은 원래 2차대전 때 통신 장비 성능 평가를 위해 고안된 수치이기 때문입니다. 일반적으로 의학 분야에서 많이 사용되지만, 머신러닝..
-
머신러닝 모델 성능 평가 - F1machine learning 2023. 2. 9. 09:57
F1 Score F1 스코어(Score)는 정밀도와 재현율을 결합한 지표입니다. F1스코어는 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 값을 가집니다. F1 스코어의 공식은 다음과 같습니다. 만일 A예측 모델의 경우 정밀도가 0.9. 재현율이 0.1로 극단적인 차이가 나고, B예측 모델은 정밀도가 0.5, 재현율이 0.5로 정밀도와 재현율이 큰 차이가 없다면 A예측 모델의 F1스코어는 0.18이고, B예측 모델의 F1 스코어는 0.5로 B모델이 A모델에 비해 매우 우수한 F1 스코어를 가지게 됩니다.
-
파라미터와 하이퍼파라미터의 개념의 차이machine learning 2023. 2. 9. 09:29
머신러닝에서 하이퍼파라미터를 알기 위해서는 파라미터라는 개념을 알아야 합니다. 컴퓨터 프로그래밍에서의 파라미터(Parameter)는 어떤 시스템이나 함수의 특정한 성질을 나타내는 변수를 뜻하며, 매개변수라고도 합니다. 함수에 특정 파라미터를 전달함으로써 출력되는 값이 달라지게 되는데, 원하는 값을 얻기 위해서는 알맞은 파라미터를 입력해 주어야 합니다. 많은 사람들이 머신러닝을 배울 때 파라미터와 하이퍼파라미터의 개념의 차이를 잘 인지하지 못하는 경우가 대다수인데, 명확히 다른 개념인 것을 알아야 합니다. 그렇다면 머신러닝에서 사용하는 파라미터와 하이퍼파라미터는 어떤 것이며, 어떤 차이를 가지고 있을까요? 1. 파라미터(Parameter) 머신러닝에서 사용되는 파라미터는 모델 파라미터라고도 하며, 모델에 ..
-
텍스트 유사도, 두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까?machine learning 2023. 1. 27. 15:29
두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까? 대표적인 Text Similarity 측정 metric인 Cosine Similarity와 Jaccard Similarity를 통해 측정할 수 있을 것이다. 1. Jaccard Similarity 자카드 유사도 우선 자카드 유사도로 유사도를 측정하기 전에 Lemmatization 과정이 필요하다. 표제어 추출이라 번역될 수 있는 lemmatization이란 단어의 뿌리를 찾아가는 과정이라 볼 수 있다. 예를 들어, had와 has는 스펠링이 다르지만 뿌리는 모두 have이다. 이 때, had와 has의 표제어를 have라고 한다. 이렇게 표제어 추출 후 두 문장의 교집합과 합집합의 크기를 통해 자카드 유사도를 구한다. 다음의 두 ..
-
Kubeflow Pipelines 란 무엇인가machine learning 2023. 1. 13. 15:10
Kubeflow Pipelines 란 무엇인가 출처: Kubeflow Pipelines 란 무엇인가 - litiblue.com Kubeflow Pipelines 란 무엇인가 파이프라인은 머신러닝 워크플로우의 코드화된 표현 으로 첫 번째 이미지에 묘사된 연속된 단계들과 유사하고 워크플로우의 컴포넌트들과 그 것들 각각의 의존성을 포함 litiblue.com 파이프라인은 머신러닝 워크플로우의 코드화된 표현 으로 첫 번째 이미지에 묘사된 연속된 단계들과 유사하고 워크플로우의 컴포넌트들과 그 것들 각각의 의존성을 포함 보다 구체적으로, 파이프라인은 각 노드에 컨테이너화된 프로세스가 있는 방향성 비순환 그래프(DAG)이다 하나의 블록으로 표현되는 각각의 파이프라인 컴포넌트는 도커 이미지로 패키징된 독립적인 코드 조..
-
쿠버네티스 + mlflow(머신러닝) = Kubeflow 란 무엇인가machine learning 2023. 1. 13. 15:07
Kubernetes에서 실행되는 확장 가능하고 이식 가능한 분산 ML 플랫폼 실제 ML 시스템의 극히 일부만이 ML 코드로 구성됨. 필요한 주변 인프라는 방대하고 복잡함. Kubeflow 의 목적은 머신러닝 워크플로우를 Kubernetes 에 배포하는 것을 단순화 시키는 것 Kubeflow 가 해결하는 문제 더 빠르고 일관된 배포 더 강력한 보안을 위한 포트 및 구성 요소 액세스에 대한 더 나은 제어 과잉 프로비저닝 리소스로부터 보호, 비용 절감 완료 후 할당이 해제되지 않는 작업으로부터 보호하여 비용 절감 워크플로우 오케스트레이션 및 메타 데이터 수집 중앙 집중식 모니터링 및 로깅 모델을 안전하게 대규모로 프로덕션으로 이동하기위한 인프라 AI 조직을 대규모로 관리하면서 동일한 제어 품질을 유지할 수 있..