[혼공 머신러닝+딥러닝] 로지스틱 회귀

Programming/etc

[혼공 머신러닝+딥러닝] 로지스틱 회귀

mnzy🌱 2024. 3. 17. 01:04

시나리오

럭키백 이벤트 상품
럭키백에 포함된 생선의 확률을 고객에게 알려줌
- A 럭키백에는 도미 확률이 높음
따라서 럭키백에 들어있을 생선의 확률을 구해야 됨
럭키백에 들어갈 수 있는 생선은 7개
럭키백에 들어간 생선의 크기, 무게, 길이, 높이, 두께, 대각선 특성이 주어짐

1. k-최근접 이웃 분류기를 이용한 예측

이웃의 클래스 비율로 예측

즉, 샘플 X 주의에 삼각형이 3개, 사각형이 5개, 원이 2개라면 샘플X가 삼각형일 확률은 30%, 사각형일 확률은 50%, 원일 확률은 20%인 것이다.

(1) 데이터 준비

unique(고유)한 값인 species를 타깃으로 만들고, 나머지 5개의 열은 입력 데이터로 활용한다.

#데이터 준비 -> pandas

import pandas as pd

fish = pd.read_csv('Fish_csv_data.csv')
fish.head()

print(pd.unique(fish['Species'])) # 열에서 고유한 값 출력
#['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']

fish_target = fish['Species'].to_numpy()
print(fish_target)

데이터 처리

from sklearn.model_selection import train_test_split

#훈련세트와 테스트세트로 나눠주기
train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target, random_state=42)

#표준화 전처리
from sklearn.preprocessing import StandardScaler
#입력 데이터 전처리
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

(2) 예측

훈련 세트와 테스트 세트의 타깃 데이터에는 모두 7개의 생선 종류가 들어가 있다.

이렇게 타깃 데이터에 2개 이상의 클래스가 포함된 문제를 다중 분류라고 한다.

이는 이진분류와 모델을 만들고 훈련하는 방식은 동일하다.

이진 분류를 했을 때에는 양성과 음성 클래스를 0과 1로 지정하게 타깃 데이터를 만들었다. 이처럼 다중 분류에서도 타깃값을 숫자로 바꿀 수 있지만, 사이킷런에서는 편리하게 문자열로 된 타깃값을 그대로 사용할 수 있다.

타깃값 그대로 사이킷런 모델에 전달하면 순서가 자동으로 알파벳순으로 매겨진다.

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier(n_neighbors=3)
kn.fit(train_scaled, train_target)


print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))
##0.8907563025210085
##0.85

테스트 세트에 있는 5개의 샘플 예측 진행

5개 샘플에 대한 예측을 진행해보았다.

사이킷런은 predict_proba()메서드로 클래스별 확률값을 반환한다. predict_proba() 메서드의 출력 순서는 classes_ 속성과 같다.

즉 ['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish'] 순서이다.

첫번째 샘플은 빼박 perch고, 두번째 샘플도 빼박 smelt, 세번째 샘플은 perch, 네번째 샘플과 다섯번째 샘플은 perch일 확률이 0.6667(2/3), Roach일 확률은 0.333(1/3)이다.

하지만, 이렇게 되면 3개의 최근접을 이용하기 때문에 가능한 확률은 0/3, 1/3, 2/3, 3/3이 전부이다.

2. 로지스틱 회귀

로지스틱 회귀는 이름은 회귀이지만 분류 모델이다.

선형 회귀와 동일하게 선형 방정식을 학습한다.

z= a * 무게 + b * 길이 + c * ..

여기에서 a,b,c..,e는 가중치 혹은 계수이다.

특성은 늘어났지만 이전에 다뤘던 다중 회귀를 위한 선형 방정식과 동일하다.

z(확률 즉, 구하려는 값)은 어떤 값도 가능하지만, 확률이 되려면 0~1 사이의 값이 되어야 한다.

z가 아주 큰 음수일 때에는 0이 되고, 아주 큰 양수일 때 1이 되도록 바꾸기 위해서는 시그모이드 함수(=로지스틱 함수)를 사용하면 가능하다.

사이킷런에는 로지스틱 회귀 모델은 LogicsticRegression 클래스가 준비되어 있다.

(2) 로지스틱 회귀로 이진 분류 해보기

본격적인 훈련 이전에 시그모이드 함수의 출력이 0.5보다 크면 양성, 작으면 음성으로 판단하는 이진 분류를 먼저 수행해볼 것이다.

넘파이 배열은 True, False 값을 전달하여 행을 선택할 수 있다.

이를 불리언 인덱싱이라고 한다.

char_arr = np.array(['A','B','C','D','E']) #'A'와 'C' 골라내기
print(char_arr[[True, False, True, False, False]])

불리언 인덱싱 방법을 사용하여 도미와 빙어의 행만 고른다.

train_target 배열에서 Bream이나 smelt일 경우 True이고 그 외에는 모두 False를 넣는다.

이후 비트 연산자(|) 를 통해 합치면 도미와 빙어에 대한 행만 골라낼 수 있다.

bream_smelt_indexes = (train_target == "Bream") | (train_target == "Smelt")
train_bream_smelt = train_scaled[bream_smelt_indexes]
target_bream_smelt = train_target[bream_smelt_indexes]

print(bream_smelt_indexes.shape)
print(train_bream_smelt.shape)
print(target_bream_smelt.shape)

훈련

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_bream_smelt, target_bream_smelt)

샘플 5개에 대한 예측 결과를 확인한다. 두 번째 샘플을 제외하고는 전부 Smelt로 예측하였다.

실제로 두번째 샘플에서만 후자의 확률이 더 높고, 나머지는 전자의 확률이 훨씬 높다.

사이킷런은 타깃값을 알파벳순으로 정렬하므로, Bream, Smelt의 순서이다.

따라서 이진분류가 제대로 된 것을 확인할 수 있다.

(2) 로지스틱 회귀로 다중 분류하기

LogisitcRegression 클래스는 기본적으로 반복적인 알고리즘을 사용한다.

max_iter 매개변수에서 반복 회수를 지정하며 기본값은 100이다. 여기서는 1000으로 늘려 사용한다.

로지스틱 회귀는 기본적으로 계수의 제곱을 규제한다. (=L2규제)

C의 기본값은 1이며, C는 작을 수록 규제가 커진다. 여기서는 20으로 늘려 사용한다.

결과가 과대적합이나 과소적합으로 보이지 않는다.

테스트 세트 5개의 샘플에 대한 예측을 출력해보니, 5개의 행이 출력된다.

7개의 생선 종류에 대한 확률이므로 7개의 열이 출력되었다.

계산 결과 가장 높은 확률인 생선의 종류로 예측한다.

이 데이터는 5개의 특성을 사용하므로 coef_ 배열의 열은 5개이다.

행과 intercrpt_가 7개인 이유는 이진분류에서 보았던 z를 7개나 계산한다는 것이다.

즉, 다중 분류는 클래스마다 z값을 하나씩 계싼한다.

다중 분류는 이와 달리 소프트맥스 함수를 사용하여 7개의 확률로 z값을 변환했다.