machine learning(66)
-
머신러닝 모델 성능 평가, ROC-AUC
ROC - AUC ROC, AUC Curve에 대해 : Receiver Operating Characteristic, Area Under the Curve AUC-ROC Curve는 다양한 임계값에서 모델의 분류 성능에 대한 측정 그래프를 나타낼 수 있습니다. ROC곡선과 이에 기반한 AUC스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표입니다 nicola-ml.tistory.com ROC 곡선과 이에 기반한 AUC 스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표입니다. ROC 곡선은 우리말로 수신자 판단 곡선으로 불립니다. 이름이 약간 이상한 것은 원래 2차대전 때 통신 장비 성능 평가를 위해 고안된 수치이기 때문입니다. 일반적으로 의학 분야에서 많이 사용되지만, 머신러닝..
2023.02.09 -
머신러닝 모델 성능 평가 - F1
F1 Score F1 스코어(Score)는 정밀도와 재현율을 결합한 지표입니다. F1스코어는 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 값을 가집니다. F1 스코어의 공식은 다음과 같습니다. 만일 A예측 모델의 경우 정밀도가 0.9. 재현율이 0.1로 극단적인 차이가 나고, B예측 모델은 정밀도가 0.5, 재현율이 0.5로 정밀도와 재현율이 큰 차이가 없다면 A예측 모델의 F1스코어는 0.18이고, B예측 모델의 F1 스코어는 0.5로 B모델이 A모델에 비해 매우 우수한 F1 스코어를 가지게 됩니다.
2023.02.09 -
파라미터와 하이퍼파라미터의 개념의 차이
머신러닝에서 하이퍼파라미터를 알기 위해서는 파라미터라는 개념을 알아야 합니다. 컴퓨터 프로그래밍에서의 파라미터(Parameter)는 어떤 시스템이나 함수의 특정한 성질을 나타내는 변수를 뜻하며, 매개변수라고도 합니다. 함수에 특정 파라미터를 전달함으로써 출력되는 값이 달라지게 되는데, 원하는 값을 얻기 위해서는 알맞은 파라미터를 입력해 주어야 합니다. 많은 사람들이 머신러닝을 배울 때 파라미터와 하이퍼파라미터의 개념의 차이를 잘 인지하지 못하는 경우가 대다수인데, 명확히 다른 개념인 것을 알아야 합니다. 그렇다면 머신러닝에서 사용하는 파라미터와 하이퍼파라미터는 어떤 것이며, 어떤 차이를 가지고 있을까요? 1. 파라미터(Parameter) 머신러닝에서 사용되는 파라미터는 모델 파라미터라고도 하며, 모델에 ..
2023.02.09 -
텍스트 유사도, 두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까?
두 단어 혹은 두 문장이 주어졌을 때, 유사도를 어떻게 측정할 수 있을까? 대표적인 Text Similarity 측정 metric인 Cosine Similarity와 Jaccard Similarity를 통해 측정할 수 있을 것이다. 1. Jaccard Similarity 자카드 유사도 우선 자카드 유사도로 유사도를 측정하기 전에 Lemmatization 과정이 필요하다. 표제어 추출이라 번역될 수 있는 lemmatization이란 단어의 뿌리를 찾아가는 과정이라 볼 수 있다. 예를 들어, had와 has는 스펠링이 다르지만 뿌리는 모두 have이다. 이 때, had와 has의 표제어를 have라고 한다. 이렇게 표제어 추출 후 두 문장의 교집합과 합집합의 크기를 통해 자카드 유사도를 구한다. 다음의 두 ..
2023.01.27 -
Kubeflow Pipelines 란 무엇인가
Kubeflow Pipelines 란 무엇인가 출처: Kubeflow Pipelines 란 무엇인가 - litiblue.com Kubeflow Pipelines 란 무엇인가 파이프라인은 머신러닝 워크플로우의 코드화된 표현 으로 첫 번째 이미지에 묘사된 연속된 단계들과 유사하고 워크플로우의 컴포넌트들과 그 것들 각각의 의존성을 포함 litiblue.com 파이프라인은 머신러닝 워크플로우의 코드화된 표현 으로 첫 번째 이미지에 묘사된 연속된 단계들과 유사하고 워크플로우의 컴포넌트들과 그 것들 각각의 의존성을 포함 보다 구체적으로, 파이프라인은 각 노드에 컨테이너화된 프로세스가 있는 방향성 비순환 그래프(DAG)이다 하나의 블록으로 표현되는 각각의 파이프라인 컴포넌트는 도커 이미지로 패키징된 독립적인 코드 조..
2023.01.13 -
쿠버네티스 + mlflow(머신러닝) = Kubeflow 란 무엇인가
Kubernetes에서 실행되는 확장 가능하고 이식 가능한 분산 ML 플랫폼 실제 ML 시스템의 극히 일부만이 ML 코드로 구성됨. 필요한 주변 인프라는 방대하고 복잡함. Kubeflow 의 목적은 머신러닝 워크플로우를 Kubernetes 에 배포하는 것을 단순화 시키는 것 Kubeflow 가 해결하는 문제 더 빠르고 일관된 배포 더 강력한 보안을 위한 포트 및 구성 요소 액세스에 대한 더 나은 제어 과잉 프로비저닝 리소스로부터 보호, 비용 절감 완료 후 할당이 해제되지 않는 작업으로부터 보호하여 비용 절감 워크플로우 오케스트레이션 및 메타 데이터 수집 중앙 집중식 모니터링 및 로깅 모델을 안전하게 대규모로 프로덕션으로 이동하기위한 인프라 AI 조직을 대규모로 관리하면서 동일한 제어 품질을 유지할 수 있..
2023.01.13