no image
[머신러닝] 분류 - 붓꽃의 품종 판별 -1
지도학습 유형 중 분류 문제를 살펴보겠습니다. [데이터 로딩] # 라이브러리 환경 import pandas as pd import numpy as np 기본 라이브러리를 불러옵니다. # skleran 데이터셋에서 iris 데이터셋 로딩 from sklearn import datasets iris = datasets.load_iris() # iris 데이터셋은 딕셔너리 형태이므로, key 값을 확인 iris.keys() 사이킷런 패키지는 붓꽃 데이터셋을 내장하고 있습니다. load_iris() 함수를 통해 불러옵니다. # DESCR 키를 이용하여 데이터셋 설명(Description) 출력 print(iris['DESCR']) 3가지 품종 중에서 하나를 선택하는 다중 분류 문제입니다. 4개의 피처(설명 변수..
2022.04.28
no image
[머신러닝] 일차함수 관계식 찾기
*경진대회 및 데이터 분석의 과정 [문제 파악] - [데이터 탐색] - [데이터 전처리] - [모델 학습] - [예측] 위의 과정에 따른 간단한 머신러닝 프로젝트를 만들어보겠습니다. [문제 파악] x = [-3, 31, -11, 4, 0, 22, -2, -5, -25, -14] y = [ -2, 32, -10, 5, 1, 23, -1, -4, -24, -13] print(x) print(y) 각 10개의 숫자를 원소로 갖는 리스트 x와 y가 있습니다. 둘은 y= x + 1 관계에 있습니다. [데이터 탐색] import matplotlib.pyplot as plt plt.plot(x, y) plt.show() 맷플록립(matplolib) 패키지를 활용해 x, y 변수 사이의 관계식을 그래프로 그려봅니다. ..
2022.04.28
[머신러닝] 머신러닝
머신러닝은 레이블이 있는 입력 데이터를 모델에 투입하면 그 사이의 관계를 찾습니다. 따라서 새로운 데이터를 입력했을 때 파악한 관계식을 적용하여 결과를 예측할 수 있습니다. 정답이 주어지지 않았다면 데이터 속에 숨어있는 패턴이나 규칙을 알아내는 것도 가능합니다. 이처럼 머신러닝은 컴퓨터가 스스로 데이터를 학습하여 문제를 해결하는 과정을 말합니다. 정답 레이블의 여부에 따라 머신러닝은 두 가지 유형으로 분류됩니다. 지도학습은 학습 과정에서 정답 Y가 주어집니다. 즉, 입력 데이터 X와 출력 데이터 Y를 모두 알고 있는 상태에서, Y=aX+b와 같이 X와 Y의 관계식을 알아내는 머신러닝 알고리즘입니다. - Y 변수 = 예측 목표 = 목표 변수 = 타깃 - X 변수 = 목표 변수 예측할 때 사용되는 변수 = ..
2022.04.28
no image
[머신러닝] 판다스 자료구조
머신러닝에서 데이터셋을 다룰 때 판다스(pandas) 라이브러리를 주로 사용합니다. 판다스가 지원하는 자료구조는 두 가지입니다. 1차원 배열 형태의 자료구조인 시리즈(Series)는 인덱스로 각 원소를 식별합니다. 이러한 시리즈를 여러 개로 붙여 2차원 배열 형태가 되면 이를 데이터프레임(DataFrame) 자료구조라고 합니다. 모든 실습은 구글 코랩에서 진행하였습니다. import pandas as pd print(pd.__version__) 판다스 라이브러리를 사용하기 위해서는 import 를 통해 불러와야 합니다. as 명령어를 통해 pandas를 pd라고 사용하도록 하겠습니다. __version__ 속성을 통해 판다 패키지의 배포 버전을 확인합니다. 1.3.5 버전임을 확인할 수 있었습니다. da..
2022.04.28