[AIB] Logistic Regression

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

Codelog

[AIB] Logistic Regression 본문

Boot Camp/section2

[AIB] Logistic Regression

minzeros 2022. 3. 30. 18:34

💡 Classification 문제

회귀 문제에서는 보통 타겟 변수의 평균값을 기준모델로 사용한다.

분류 문제에서는 보통 타겟 변수에서 가장 빈번하게 나타나는 범주를 기준모델로 설정한다.

시계열 데이터는 보통 어떤 시점을 기준으로 이전 시간의 데이터가 기준모델이 된다.

분류 문제에는 타겟 변수가 편중된 범주 비율을 갖는 경우가 많아서 항상 먼저 타겟 범주의 비율을 확인해야 한다.

또한 분류에서는 회귀와 다른 평가지표를 사용한다.

정확도(Accuracy)는 분류 문제에서 사용하는 평가지표이다.

💡 Logistic Regression

로지스틱 회귀는 특성변수를 로지스틱 함수 형태로 표현한다.

따라서 결과적으로 관측치가 특정 클래스에 속할 확률값으로 계산된다.

분류 문제에서는 확률값을 사용하여 분류를 하는데, 확률값이 정해진 기준값보다 크면 1 아니면 0이라고 예측한다.

Logit Transformation

로지스틱 회귀의 계수는 비선형 함수 내에 있어 직관적으로 해석하기가 어렵다.

하지만 오즈(Odds)를 사용하면 선형결합 형태로 변환이 가능하여 쉽게 해석이 가능해진다.

오즈는 실패확률에 대한 성공확률의 비인데 오즈가 4 이면 성공확률이 실패확률의 4배라는 뜻이다.

이때, 아래 식처럼 오즈에 로그를 취해 변환하는 것을 로짓변환(Logit Transformation) 이라고 한다.

로짓변환을 통해 비선형형태인 로지스틱 함수를 선형형태로 만들어 회귀계수의 의미를 해석하기 쉽게 한다.

특정 특성(feature)의 증가에 따라 로짓(ln(odds))이 얼마나 증가 혹은 감소했다고 해석할 수 있다.

✨ Logistic Regression 예제

Kaggle의 Titanic: Machine Learning from Disaster 데이터 사용

import pandas as pd
train = pd.read_csv('titanic_train.csv')
test = pd.read_csv('titanic_test.csv')

# 훈련 데이터를 다시 훈련/검증 세트로 분리

from sklearn.model_selection import train_test_split
train, val = train_test_split(train, random_state=2)

분류 문제의 기준모델 (major class)로 예측 수행

# 타겟 설정
target = 'Survived'
y_train = train[target]

# mode() : Return the highest frequency value in a Series
major = y_train.mode()[0]

# 타겟 샘플 수 만큼 0이 담긴 리스트를 만들어 기준모델로 예측
y_pred = [major] * len(y_train)

from sklearn.metrics import accuracy_score

# 훈련 데이터에서의 기준모델 정확도
print("training accuracy: ", accuracy_score(y_train, y_pred))
>>> training accuracy:  0.625748502994012

# 검증 데이터에서의 기준모델 정확도
y_val = val[target]
y_pred = [major] * len(y_val)
print("validation accuracy: ", accuracy_score(y_val, y_pred))
>>> validation accuracy:  0.5874439461883408

선형회귀모델로 학습한 결과

from sklearn.linear_model import LinearRegression

linear_model = LinearRegression()

# 숫자형 특성만 사용
features = ['Pclass', 'Age', 'Fare']
X_train = train[features]
X_val = val[features]

# Age, Cabin의 결측치를 평균 값으로 대체하기 위해서 SimpleImputer 모델 사용
from sklearn.impute import SimpleImputer

# default, imputing 'mean' value
imputer = SimpleImputer() 
X_train_imputed = imputer.fit_transform(X_train)
X_val_imputed = imputer.transform(X_val)

# 학습
linear_model.fit(X_train_imputed, y_train)

# 예측
pred = linear_model.predict(X_val_imputed)

# 회귀계수 확인
pd.Series(linear_model.coef_, features)

output :

Pclass 값이 높을수록(2,3등석) 생존율이 떨어짐
Age 값이 많을수록 생존율이 떨어짐
Fare 값이 높을수록 수치가 작지만 생존율이 올라감

로지스틱 회귀모델로 학습한 결과

from sklearn.linear_model import LogisticRegression

logistic = LogisticRegression()

# 학습
logistic.fit(X_train_imputed, y_train)

# 예측
pred = logistic.predict(X_val_imputed)

print('검증세트 정확도', logistic.score(X_val_imputed, y_val))
>>> 검증세트 정확도 0.7130044843049327

print(features)
print(logistic.coef_)

output :

타이타닉 데이터의 모든 특성을 사용한 모델 학습 결과
['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']

카테고리 데이터 처리를 위한 OneHotEncoder
결측치 처리를 위한 SimpleImputer
특성들의 척도를 맞추기를 위해 표준정규분포로 표준화하는 StandardScaler

from category_encoders import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
target = 'Survived'

X_train = train[features]
y_train = train[target]

X_val = val[features]
y_val = val[target]

# 범주형 데이터 처리
encoder = OneHotEncoder(use_cat_names=True)
X_train_encoded = encoder.fit_transform(X_train)
X_val_encoded = encoder.transform(X_val)

# 결측치 처리
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train_encoded)
X_val_imputed = imputer.transform(X_val_encoded)

# 표준화
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_imputed)
X_val_scaled = scaler.transform(X_val_imputed)

model = LogisticRegression(random_state=1)

# 학습
model.fit(X_train_scaled, y_train)

# 예측
y_pred = model.predict(X_val_scaled)

accuracy_score(y_val, y_pred)
>>> 0.7892376681614349

coefficients = pd.Series(model.coef_[0], X_train_encoded.columns)
coefficients

output :

좌석 등급이 높을수록, 나이가 어릴수록, 남성보다는 여성의 생존율이 더 높다.

coefficients.sort_values().plot.barh()

output :

저작자표시 (새창열림)

'Boot Camp > section2' 카테고리의 다른 글

[AIB] One Hot Encoding, Feature Selection, Ridge Regression (0)	2022.03.30
[AIB] Bias, Variance, R-Square, Multiple Regression, Evaluation Metrics (0)	2022.03.25
[AIB] OLS, MAE, RSS, Simple Regression (0)	2022.01.07

'Boot Camp/section2' Related Articles

Codelog

[AIB] Logistic Regression 본문

[AIB] Logistic Regression

💡 Classification 문제

💡 Logistic Regression

✨ Logistic Regression 예제

'Boot Camp > section2' 카테고리의 다른 글

티스토리툴바