[AIB] High dimensional Data

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

Codelog

[AIB] High dimensional Data 본문

Boot Camp/section1

[AIB] High dimensional Data

minzeros 2022. 1. 6. 17:44

💡 Vector transformation

벡터 변환은 임의의 두 벡터를 더하거나 혹은 스칼라 값을 곱하는 것을 의미한다.

벡터 변환으로써의 매트릭스-벡터 곱

f 라는 transformation을 사용하여
임의의 벡터 [x1, x2]에 대해서
[2x1+x2, x1-3x2] 로 변환

여기서 원래 벡터 [x1, x2]는 유닛벡터를 이용하여 아래처럼 분리할 수 있는데,

분리된 각 유닛벡터는 transformation을 통해서 각각

2x1, x1과
x2, -3x2 라는 결과가 나와야 한다는 것을 알 수 있다.

이를 매트릭스 형태로 합치게 되면, 아래와 같은 T 매트릭스를 얻을 수 있다.

이 매트릭스를 처음 벡터에 곱했을 경우 transformation이 원하는 대로 이루어진다는 것을 알 수 있다.

즉, 임의의 R2 벡터를 다른 R2 내부의 벡터로 변환하는 과정은, 특정 T라는 매트릭스를 곱하는 것과 동일한 과정이다.

따라서 Vector transformation은 선형, 즉 곱하고 더하는 것으로만 이루어졌기 때문에 매트릭스와 벡터의 곱으로 표현할 수 있다.

💡 고유벡터 (Eigenvector)

Transformation은 matrix를 곱하는 것을 통해, 벡터를 다른 위치로 옮긴다 라는 의미를 가지고 있다.

이번에는 R3 공간에서의 transformation을 예시로 들어볼 것이다.

지구본을 R3 공간으로 보면, R3 공간이 회전할 때, 위치에 따라서 변화하는 정도가 다르다는 것을 알 수 있다.

가령 적도 부근에 있는 점의 변화되는 거리와 극지방에 있는 점의 위치가 변화되는 거리는 다를 것이다.

이는 회전축으로 가까이 갈수록 / 멀어질수록 더욱 명확해지며, 정확하게 회전축에 위치해있는 경우, transformation을 통해 위치가 변하지 않는다.

이렇게 transformation에 영향을 받지 않는 회전축, 혹은 벡터를 공간의 고유벡터라고 부른다.

Eigenvector는 데이터에 대해 공분산 행렬을 적용하여 선형 변환을 시행했지만, 방향은 변화하지 않고 크기만 변화하는 벡터를 말한다. PCA 과정에서는, 이렇게 찾아지는 Eigenvector의 Eigenvalue가 큰 순서대로 PC1, PC2를 채택하게 된다.

즉 Eigenvalue의 값을 통해서 어떤 것을 PC축으로 선택할 지 정하게 된다.

💡 고유값 (Eigenvalue)

앞서 봤던 고유벡터는 주어진 transformation에 대해서 크기만 변하고 방향은 변화하지 않는 벡터이다.

여기서 변화하는 크기는 결국 스칼라 값으로 변화할 수 밖에 없는데, 이 특정 스칼라 값을 고유값이라고 한다.

고유값, 고유벡터 계산하기

고유값, 고유벡터 계산 내용은 Matrix Diagonalization과 Gaussian Elimination 등, 선형대수의 복잡한 내용들을 포함하고 있기 때문에 대신 이를 응용하는 Principle Component Analysis(PCA) 에 관련된 내용을 알아보려고 한다.

💡 Dimension Reduction

데이터의 시각화나 탐색이 어려워지는 것 뿐만 모델링에서의 overfitting 이슈를 포함하는 등 빅데이터 데이터셋의 feature가 많으면 많을수록 이로 인해 발생하는 문제는 점점 많아질 것이다.

머신러닝에서는 이를 위한 다양한 차원축소 기술들이 이미 연구되어 있다.

1. Feature Selection

Feature Selection이란 데이터셋에서 덜 중요한 feature를 제거하는 방법을 의미한다.

선택된 feature 해석이 쉽다.
feature들간의 연관성을 고려해야 한다.
Ex) LASSO, Genetic algorithm 등

2. Feature Extraction

기존에 있는 feature 혹은 그들을 바탕으로 조합된(feature engineering) feature를 사용하는 방법을 의미한다.

feature들간의 연관성이 고려된다.
feature의 수를 많이 줄일 수 있다.
feature 해석이 어렵다.
Ex) PCA, Auto-encoder 등

💡 PCA (Principal Component Analysis)

고차원 데이터를 효과적으로 분석하기 위한 기법
낮은 차원으로 차원축소
고차원 데이터를 효과적으로 시각화 + clustering
원래 고차원 데이터의 정보(분산)를 최대한 유지하는 벡터를 찾고, 해당 벡터에 대해 데이터를 (Linear) Projection

PCA의 목적은 차원 축소, 즉 feature 개수 감소이다.

차원이 많으면 (feature가 많으면) 분석에 영향력이 없는 feature를 모두 반영하고, feature들끼리 나타내는 값이 중복되기 때문에 overfitting이 발생하기 쉽다. PCA는 이러한 overfitting 방지에도 도움을 준다.

cf.

데이터가 유의미한 정보를 많이 담고 있다는 것은 데이터의 분산이 크다고 볼 수 있다.

데이터를 가지고 분석을 하려면 서로 다른 값을 갖는 부분(데이터)가 필요하다.

예를 들면, 사자와 호랑이 분류 모델에서 갈기의 유무와 같은 차이를 갖는 데이터를 말할 수 있다.

따라서 데이터 값이 다르다는 것이 결국 데이터의 분산이 크다는 것을 의미한다.

🔥 PCA Process

다차원의 데이터를 시각화하기 위해서 정보 손실이 제일 적은 2차원으로 축소해야 한다.

1) 데이터 준비

import numpy as np

X = np.array([ 
              [0.2, 5.6, 3.56], 
              [0.45, 5.89, 2.4],
              [0.33, 6.37, 1.95],
              [0.54, 7.9, 1.32],
              [0.77, 7.87, 0.98]
])

2) 각 열에 대해서 평균을 빼고, 표준편차로 나누어 Normalize 진행함

standardized_data = (X - np.mean(X, axis=0)) / np.std(X, ddof=1, axis=0)
print("\n Standardized Data: \n", standardized_data)

output :

3) Z의 분산-공분산 매트릭스를 계산함

covariance_matrix = np.cov(standardized_data.T)
print("\n Covariance Matrix: \n", covariance_matrix)

output :

4) 분산-공분산 매트릭스의 고유벡터와 고유값을 계산함

values, vectors = np.linalg.eig(covariance_matrix)
print("\n Eigenvalues: \n", values)
print("\n Eigenvectors: \n", vectors)

output :

5) 데이터를 고유벡터에 Projection 시킴 (matmul 사용)

Z = np.matmul(standardized_data, vectors)
print("\n Projected Data: \n", Z)

output :

결과

PCA는 고차원의 데이터를 분산을 유지하는 축(PC)을 기반으로 데이터를 변환한 것이며,

해당 PC들 중 일부를 사용하는 것으로 차원 축소를 할 수 있다.

따라서 Z 매트릭스 중 pc1, pc2 만을 사용할 경우 2차원으로 축소했다 라는 의미가 있게 된다.

✨ 라이브러리를 사용한 PCA

from sklearn.preprocession import StandardScaler, Normalizer
from sklearn.decomposition import PCA

print("Data: \n", X)

scaler = StandardScaler()
Z = scaler.fit_transform(X)
print("\n Standardized Data: \n", Z)

pca = PCA(2)

pca.fit(Z)

print("\n Eigenvectors: \n", pca.components_)	# 고유벡터
print("\n Eigenvalues: \n",pca.explained_variance_)	# 고유값

B = pca.transform(Z)
print("\n Projected Data: \n", B)

output :

중간에 Standardized Data가 이전과 다른 이유

standardized_data = (X - np.mean(X, axis=0)) / np.std(X, ddof=1, axis=0) 에서

standard deviation에 쓰이는 자유도가 1이냐 혹은 0이냐의 차이

💡 PCA의 특징

데이터에 대해 독립적인 축을 찾는데 사용할 수 있음
데이터의 분포가 정규성을 띄지 않는 경우 적용이 어려움 -> 커널 PCA 사용 가능
분류 / 예측 문제에 대해서 데이터의 라벨을 고려하지 않기 때문에 효과적 분리가 어려움 -> PLS 사용 가능

저작자표시 (새창열림)

'Boot Camp > section1' 카테고리의 다른 글

[AIB] Clustering (+ PCA 개념) (0)	2022.02.09
[AIB] Intermediate Linear Algebra (0)	2021.12.28
[AIB] Vector/Matrices (0)	2021.12.20
[AIB] Bayesian (0)	2021.11.02
[AIB] Confidence Intervals (0)	2021.11.02

'Boot Camp/section1' Related Articles

Codelog

[AIB] High dimensional Data 본문

[AIB] High dimensional Data

💡 Vector transformation

💡 고유벡터 (Eigenvector)

💡 고유값 (Eigenvalue)

💡 Dimension Reduction

💡 PCA (Principal Component Analysis)

🔥 PCA Process

✨ 라이브러리를 사용한 PCA

💡 PCA의 특징

'Boot Camp > section1' 카테고리의 다른 글

티스토리툴바