머신러닝은 레이블이 있는 입력 데이터를 모델에 투입하면 그 사이의 관계를 찾습니다.

따라서 새로운 데이터를 입력했을 때 파악한 관계식을 적용하여 결과를 예측할 수 있습니다.

정답이 주어지지 않았다면 데이터 속에 숨어있는 패턴이나 규칙을 알아내는 것도 가능합니다.

 

이처럼 머신러닝컴퓨터가 스스로 데이터를 학습하여 문제를 해결하는 과정을 말합니다.


정답 레이블의 여부에 따라 머신러닝은 두 가지 유형으로 분류됩니다.

 

지도학습은 학습 과정에서 정답 Y가 주어집니다.

즉, 입력 데이터 X와 출력 데이터 Y를 모두 알고 있는 상태에서, Y=aX+b와 같이 X와 Y의 관계식을 알아내는 머신러닝 알고리즘입니다.

 

- Y 변수 = 예측 목표 = 목표 변수 = 타깃

- X 변수 = 목표 변수 예측할 때 사용되는 변수 = 설명 변수 = 피처

 

비지도학습은 학습 과정에서 X 데이터만 제공됩니다.

따라서 정답 Y를 예측하는 것이 목표가 아니라, X 데이터 사이에 존재하는 패턴 또는 규칙을 찾는 것이 목표입니다.

예) 군집(서로 비슷한 데이터끼리 묶어서 그룹을 나눕니다.)


지도학습의 유형 중 회귀와 분류에 대해서 알아보겠습니다.

 

회귀 문제는 설명 변수 (X)와 목표 변수 (Y) 사이의 회귀 관계식을 찾습니다.

목표 변수 (Y)는 연속적은 값을 갖는 숫자형 데이터입니다.

예) 미래 주가 예측, 중고차 가격 예측 등

=>데이터의 분포를 잘 설명할 수 있는 X, Y 사이의 함수 식

 

분류 문제는 설명 변수 (X)와 목표 변수 (Y) 사이의 관계를 찾지만, 목표 레이블이 연속적이지 않고 이상적인 값(0, 1, 2)을 갖는 경우를 말합니다. 

예) 이진 분류, 다중 분류 등

=> 섞여 있는 데이터 중 목표 레이블을 잘 구분할 수 있는 경계를 나타내는 함수 식


경진대회 및 데이터 분석의 과정

[문제 파악] - [데이터 탐색] - [데이터 전처리] - [모델 학습] - [예측]


본 내용은 '파이썬 딥러닝 머신러닝 입문'을 기반으로 공부한 내용을 정리한 글입니다.