machine learning(66)
-
XGBoost 알고리즘의 개념 이해
XGBoost는 Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리이다. Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율이 좋아서, 인기 있게 사용되는 알고리즘이다. XGBoost는 여러개의 Decision Tree를 조합해서 사용하는 Ensemble 알고리즘이다. 먼저 Decision Tree에 대한 개념을 보면 다음과 같다. 여러개의 이진 노드를 겹쳐서 피쳐별로 판단을 해서 최종 값을 뽑아내는 형태가 된다. Ensemble은 여러개의 모델을 조합해서 그 결과를 뽑아 내는 방법이다. 정확도가 높은 강한 모델을 하나 사용하는 것보다, 정확도가 낮은 약한 모델을 여러개 조합 하는 방식이 정확도가 높다는 방법에 기반한 방법..
2023.02.09 -
구글 클라우드의 AI 플랫폼 솔루션, vertex.AI
출처: Vertex.AI로 파이프라인과 metadata 구현하기 (tistory.com) Vertex.AI로 파이프라인과 metadata 구현하기 Vertex.AI Pipeline(Kubeflow pipeline) & metadata 조대협 (http://bcho.tistory.com) 이 글은 google developer codelab의 Using Vertex ML Metadata with Pipeline 예제를 기반으로 한다. . (코드 소스 : https://codelabs.developers.google.com/vert bcho.tistory.com Vertex.AI Pipeline(Kubeflow pipeline) & metadata 조대협 (http://bcho.tistory.com) 이 글..
2023.02.09 -
머신러닝의 종류 및 대표적인 적용 사례 (1)
머신러닝의 대표적인 적용 사례 이미지 분류 : 제품 생산 시 제품의 이미지를 분석해 자동으로 분류하는 시스템 시맨틱 분할 : 인간의 뇌를 스캔하여 종양 여부의 진단 텍스트 분류(자연어 처리) : 자동으로 뉴스, 블로그 등의 게시글 분류 텍스트 분류 : 토론 또는 사이트 등에서의 부정적인 코멘트를 자동으로 구분 텍스트 요약 : 긴 문서를 자동으로 요약하여 요점 정리 자연어 이해 : 챗봇(chatbot) 또는 인공지능 비서 만들기 회귀 분석 : 회사의 내년도 수익 예측 음성 인식 : 음성 명령에 반응하는 프로그램 이상치 탐지 : 신용 카드 부정 거래 감지 군집 작업 : 구매 이력을 기반으로 고객 분류 후 서로 다른 마케팅 전략 계획 데이터 시각화 : 고차원의 복잡한 데이터셋을 그래프와 같은 효율적인 시각 표..
2023.02.09 -
머신러닝의 종류 및 적용 사례 (2)
3. 실시간 훈련 여부 구분 3-1 배치 학습(Batch Learning) 배치 학습은 주어진 훈련 세트 전체를 사용하기 때문에 오프라인 환경에서 적합하여 오프라인 학습이라고도 합니다. 먼저, 시스템을 훈련시킨 후 더 이상의 학습 없이 제품 시스템에 적용하는 것입니다. 하지만 이는 컴퓨팅 자원(CPU, GPU, 저장장치 등)이 충분한 환경에서만 사용이 가능하며, 새로운 데이터가 들어오면 처음부터 새롭게 학습해야 하는 단점이 있습니다. 하지만, 이를 해결하기 위해 MLOps 등을 이용한 자동화 기능을 사용하고 있으며, 이후 이전 시스템의 사용을 중지하고 새로운 시스템으로 교체합니다. 3-2 온라인 학습(Online Learning) 온라인 학습 구조 온라인 학습은 하나씩 또는 적은 양의 데이터인 미니 배치..
2023.02.09 -
머신러닝 학습 시 고려사항
머신러닝 훈련 조건 머신러닝을 통해 문제 해결을 위해서는 머신러닝 알고리즘도 중요하지만 가장 기본적인 훈련 데이터를 잘 다룰 줄 알아야 합니다. 간단한 문제일 지라도 훈련 데이터를 수집, 처리 등의 해결이 부족하면 결과물 또한 미흡한 결과물을 나타낼 수밖에 없습니다. 이러한 문제를 해결하기 위해선 어떤 준비를 해야 하며, 어떻게 분석 및 처리를 해야 할까요? 1. 가능한 많은 데이터가 필요하다. 머신러닝으로 문제를 해결하고 좋은 결과를 도출하기 위해서는 많은 데이터를 필요로 합니다. 예를 들어 이미지 분석, 음성 인식 등과 같은 문제를 해결하기 위해서는 수십 또는 수백만 개의 이르는 데이터가 필요할 수 있습니다. 훈련 알고리즘이 잘 짜여 있더라도 데이터량이 충분하지 않으면 알고리즘의 성능이 떨어질 수 있..
2023.02.09 -
머신러닝 훈련 중 발생 가능한 문제 - 과대적합과 과소적합
과대적합과 과소적합 과대적합과 과소적합은 머신러닝 훈련과정 중 발생할 수 있는 문제로 데이터량, 특성, 샘플 등으로 인해 발생하는 문제와는 다소 차이가 있습니다. 앞서 데이터 설명한 것들은 데이터로 인해 발생할 수 있는 문제점이라면 과대적합과 과소적합은 훈련 알고리즘으로 인해 발생하는 문제입니다. 과대적합 과대적합은 훈련 세트에 특화되어 일빈화 성능이 떨어지는 현상을 말합니다. 이는 훈련 세트에 잘 맞기 때문에 좋은 결과 나타낼 수 있지 않느냐고 오해할 수 있으나 젼혀 그렇지 않습니다. 다음과 같이 과대적합을 잘 표현하는 예를 볼 수 있습니다. Wikipedia Commons / CC BY 사진상의 점들은 데이터를 나타내고 있으며 그 사이에 직선 또는 포물선을 통해 예측 데이터를 보여주고 있습니다. 검은..
2023.02.09