machine learning
-
머신러닝의 종류 및 대표적인 적용 사례 (1)machine learning 2023. 2. 9. 13:01
머신러닝의 대표적인 적용 사례 이미지 분류 : 제품 생산 시 제품의 이미지를 분석해 자동으로 분류하는 시스템 시맨틱 분할 : 인간의 뇌를 스캔하여 종양 여부의 진단 텍스트 분류(자연어 처리) : 자동으로 뉴스, 블로그 등의 게시글 분류 텍스트 분류 : 토론 또는 사이트 등에서의 부정적인 코멘트를 자동으로 구분 텍스트 요약 : 긴 문서를 자동으로 요약하여 요점 정리 자연어 이해 : 챗봇(chatbot) 또는 인공지능 비서 만들기 회귀 분석 : 회사의 내년도 수익 예측 음성 인식 : 음성 명령에 반응하는 프로그램 이상치 탐지 : 신용 카드 부정 거래 감지 군집 작업 : 구매 이력을 기반으로 고객 분류 후 서로 다른 마케팅 전략 계획 데이터 시각화 : 고차원의 복잡한 데이터셋을 그래프와 같은 효율적인 시각 표..
-
머신러닝의 종류 및 적용 사례 (2)machine learning 2023. 2. 9. 12:58
3. 실시간 훈련 여부 구분 3-1 배치 학습(Batch Learning) 배치 학습은 주어진 훈련 세트 전체를 사용하기 때문에 오프라인 환경에서 적합하여 오프라인 학습이라고도 합니다. 먼저, 시스템을 훈련시킨 후 더 이상의 학습 없이 제품 시스템에 적용하는 것입니다. 하지만 이는 컴퓨팅 자원(CPU, GPU, 저장장치 등)이 충분한 환경에서만 사용이 가능하며, 새로운 데이터가 들어오면 처음부터 새롭게 학습해야 하는 단점이 있습니다. 하지만, 이를 해결하기 위해 MLOps 등을 이용한 자동화 기능을 사용하고 있으며, 이후 이전 시스템의 사용을 중지하고 새로운 시스템으로 교체합니다. 3-2 온라인 학습(Online Learning) 온라인 학습 구조 온라인 학습은 하나씩 또는 적은 양의 데이터인 미니 배치..
-
머신러닝 학습 시 고려사항machine learning 2023. 2. 9. 12:57
머신러닝 훈련 조건 머신러닝을 통해 문제 해결을 위해서는 머신러닝 알고리즘도 중요하지만 가장 기본적인 훈련 데이터를 잘 다룰 줄 알아야 합니다. 간단한 문제일 지라도 훈련 데이터를 수집, 처리 등의 해결이 부족하면 결과물 또한 미흡한 결과물을 나타낼 수밖에 없습니다. 이러한 문제를 해결하기 위해선 어떤 준비를 해야 하며, 어떻게 분석 및 처리를 해야 할까요? 1. 가능한 많은 데이터가 필요하다. 머신러닝으로 문제를 해결하고 좋은 결과를 도출하기 위해서는 많은 데이터를 필요로 합니다. 예를 들어 이미지 분석, 음성 인식 등과 같은 문제를 해결하기 위해서는 수십 또는 수백만 개의 이르는 데이터가 필요할 수 있습니다. 훈련 알고리즘이 잘 짜여 있더라도 데이터량이 충분하지 않으면 알고리즘의 성능이 떨어질 수 있..
-
머신러닝 훈련 중 발생 가능한 문제 - 과대적합과 과소적합machine learning 2023. 2. 9. 12:55
과대적합과 과소적합 과대적합과 과소적합은 머신러닝 훈련과정 중 발생할 수 있는 문제로 데이터량, 특성, 샘플 등으로 인해 발생하는 문제와는 다소 차이가 있습니다. 앞서 데이터 설명한 것들은 데이터로 인해 발생할 수 있는 문제점이라면 과대적합과 과소적합은 훈련 알고리즘으로 인해 발생하는 문제입니다. 과대적합 과대적합은 훈련 세트에 특화되어 일빈화 성능이 떨어지는 현상을 말합니다. 이는 훈련 세트에 잘 맞기 때문에 좋은 결과 나타낼 수 있지 않느냐고 오해할 수 있으나 젼혀 그렇지 않습니다. 다음과 같이 과대적합을 잘 표현하는 예를 볼 수 있습니다. Wikipedia Commons / CC BY 사진상의 점들은 데이터를 나타내고 있으며 그 사이에 직선 또는 포물선을 통해 예측 데이터를 보여주고 있습니다. 검은..
-
Machine Learning에서 validation set을 사용하는 이유machine learning 2023. 2. 9. 10:20
validation set은 machine learning 또는 통계에서 기본적인 개념 중 하나입니다. 하지만 실무를 할때 귀찮은 부분 중 하나이며 간과되기도 합니다. 그냥 training set으로 training을 하고 test만 하면 되지 왜 귀찮게 validation set을 나누는 것일까요? validation set을 사용하는 이유는 간단합니다. 바로 "모델의 성능을 평가하기 위해서" 입니다. training을 한 후에 만들어진 모형이 잘 예측을 하는지 그 성능을 평가하기 위해서 사용합니다. training set의 일부를 모델의 성능을 평가하기 위해서 희생하는 것입니다. 하지만 이 희생을 감수하지 못할만큼 data set의 크기가 작다면 cross-validation이라는 방법을 쓰기도 합니..
-
모델 검증, Validationmachine learning 2023. 2. 9. 10:15
이번 시간에는 validation set이 필요한 이유에 대해서 알아보자. Fig 1. Data 여기, 우리가 일반적으로 얻을 수 있는 Data가 있다. 이 Data란 어떻게 생겨먹은 것일까? Data의 종류는 크게 시계열, 이미지, 정형(Tabler)로 나뉘는 것이 일반적이다. 이 중 직관적으로 이해하기가 가장 쉬운 정형 Data를 예로 들어보자. Fig 2. 정형 데이터 연두색으로 표시된 부분이 실제 우리가 취득한 Data이고, 하늘색으로 표시된 부분이 해당 Data의 정답, Label이다. 테이블에 표시된 한 row가 하나의 sample point이고, 각 sample은 여러가지의 feature들을 갖는다. 캐글의 타이타닉 예제를 통해서 좀 더 구체적으로 예를 들어보면, sample1, samp..
-
교차 검증(cross validation)machine learning 2023. 2. 9. 10:13
이번 시간에는 머신러닝에서 평가에 필수적으로 사용되는 교차 검증(cross validation)에 대해서 알아보자. 교차 검증이 필요한 이유 여기에 우리가 사용할 데이터가 있고, 그 데이터는 label이 있는 train, test set으로 구성되어 있다. 이 경우에 만약 'train set을 다시 train set + validation set으로 분리하지 않는다'라고 가정하면, 우리는 모델 검증을 위해서 test set을 사용하여야 할 것이다. 사실상 test set이 아닌 valdiation set인 셈인데, 여기에 한 가지 약점이 존재한다. 고정된 test set을 가지고 모델의 성능을 확인하고 파라미터를 수정하고, 이 과정을 반복하면 결국 내가 만든 모델은 test set에만 잘 동작하는 모델이..
-
Precision, Recall, Accuracy 쉽게 이야기하기machine learning 2023. 2. 9. 10:09
분류성능평가지표 중 Precision(정밀도), Recall(재현율), Accuracy(정확도)은 머신러닝(Machine Learning) 성능 평가 중 중요하고 기본이 되는 지표이기 때문에 한 번 알아보고자 합니다. Q. Precision, Recall, Accuracy가 뭔가요? Percision, Recall, Accuracy는 논문에서도 많이 보이는 지표이며 또 그만큼 중요하게 생각하는 지표입니다. 하지만 이것을 이야기하기전에 뭔저 알아야할 것이 있습니다. 그것은 바로 TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative)입니다. 이것에 대해 각각 이야기하면 아래와 같습니다. - TP(True Positive): 실..