[AIB] Intermediate Linear Algebra

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

Codelog

[AIB] Intermediate Linear Algebra 본문

Boot Camp/section1

[AIB] Intermediate Linear Algebra

minzeros 2021. 12. 28. 01:02

💡 Variance, 분산

분산은 데이터가 얼마나 퍼져있는지를 측정하는 방법이다.

이는 각 값들의 평균으로부터 차이의 제곱 평균값이다.

즉, 분산을 구하기 위해서는 일반적으로 평균을 먼저 계산해야한다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random

# 랜덤한 50개의 정수를 포함하는 2 변수 설정.
variance_one = []
variance_two = []

for x in range(50):
  variance_one.append(random.randint(25,75))
  variance_two.append(random.randint(0,100))
  
variance_data = {'v1': variance_one, 'v2': variance_two}

variance_df = pd.DataFrame(variance_data)
variance_df['zeros'] = pd.Series(list(np.zeros(50)))

variance_df.head()

output :

# scatter plot

plt.scatter(variance_df.v1, variance_df.zeros)
plt.xlim(0,100)
plt.title("Plot 1")
plt.show()

plt.scatter(variance_df.v2, variance_df.zeros)
plt.xlim(0,100)
plt.title("Plot 2")
plt.show()

output :

위의 두 데이터에 대해서, 퍼져있는 정도의 차이를 쉽게 확인할 수 있다.

분산은 일반적으로 소문자 v로 표기되며 필요에 따라 σ^2 로 표기되기도 한다.

# 평균
v1_mean = variance_df.v1.mean()
print("v1 mean: ", v1_mean)
v2_mean = variance_df.v2.mean()
print("v2 mean: ", v2_mean)

# 각 데이터로부터 평균까지의 거리
variance_df['v1_distance'] = variance_df.v1 - v1_mean
variance_df['v2_distance'] = variance_df.v2 - v2_mean

variance_df.head()

output :

# 제곱
variance_df['v1_squared_distance'] = variance_df.v1_distance ** 2
variance_df['v2_squared_distance'] = variance_df.v2_distance ** 2

# 제곱을 통해서 음수를 양수로 바꿀 수 있다.
variance_df.head()

output :

# 더하고 나눔
observations = len(variance_df)
print("Number of Observations: ", observations)

Variance_One = variance_df.v1_squared_distance.sum() / observations
Variance_Two = variance_df.v2_squared_didstance.sum() / observations

print("Variance One: ", Variance_One)
print("Variance Two: ", Variance_Two)

output :

random number를 생성할 때, v1은 25~75 범위에서, v2는 0~100 범위에서 서로 2배 정도 차이가 나게 생성했지만,

분산 차이는 2배보다 훨씬 더 크다.

✨ 파이썬 내장 함수를 사용해서 Variance 쉽게 계산하기

print(variance_df.v1.var(ddof = 1))
print(variance_df.v2.var(ddof = 1))

# ddof 파라미터
# Delta Degrees of Freedom, 자유도

output :

주의할 점으로, 위의 결과는 이전에 직접 계산했던 결과와 조금은 다르다.

그 이유는 분산을 계산하는 방법이 모집단이냐 혹은 샘플이냐에 따라서 달라지기 때문이다.

일반적으로, 샘플의 분산을 계산할 때는 N-1 로 나누어야 한다.

앞서 우리가 데이터를 통해 계산했던 방식은 모집단의 분산이다.

그렇기 때문에 자유도를 0으로 설정하는 경우, 동일한 값을 얻을 수 있다.

💡 Standard Deviation, 표준편차

표준편차는 분산에 루트(√)를 씌운 값이다.

분산을 구할 때, 제곱 값들을 더하는 과정이 있는데 그렇기 때문에 평균에 비해서 스케일이 커지는 문제가 발생한다.

표준편차는 이를 해결하기 위해서 제곱된 스케일을 낮추는 방법이다.

print(variance_df.v1.std(ddof = 0))
print(variance_df.v2.std(ddof = 0))

output :

💡 Covariance, 공분산

공분산이란, 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것이다.

(하나가 증가할 때, 다른 하나도 증가하는 경향을 파악하는 것.)

첫번째 그래프의 경우, y의 값이 높을 때 x의 값은 낮다. 이는 negative 공분산 값을 갖는다 라고 표현한다.
두번째 그래프에서는 두 변수의 높고 낮음에 대하여 관련성을 알 수 없다. 그러므로 이러한 형태는 0에 가까운 공분산 값을 갖는다.
세번째 그래프에서 y 값이 낮을 때 x의 값도 낮으며, 높을 때는 같이 높아진다. 이 경우 변수간의 공분산 값은 positive 값을 기대할 수 있다.

큰 값의 공분산은 두 변수간의 큰 연관성을 나타낸다.

그러나 만약 변수들이 다른 스케일을 가지고 있다면 공분산은 실제 변수의 연관성에 관계 없이 영향을 받게 될 것이다.

만약 두 변수가 연관성이 적더라도 큰 스케일을 가지고 있다면, 연관이 높지만 스케일이 작은 변수들에 비해서 높은 공분산 값을 가지게 될 것이다.

a = b = np.arange(5, 50, 5)
c = d = np.arange(10, 100, 10)

fake_data = {"a" : a, "b" : b, "c" : c, "d" : d}

df = pd.DataFrame(fake_data)

plt.scatter(df.a, df.b)
plt.xlim(0, 100)
plt.ylim(0, 100)
plt.show()

plt.scatter(df.c, df.d)
plt.xlim(0, 100)
plt.ylim(0, 100)
plt.show()

output :

💡 Variance-covariance matirx, 분산-공분산 행렬

df.cov()	# 공분산 계산

output :

위 데이터에 대해서 공분산을 계산한 결과이다. 이러한 matrix를 variance-covariance matrix 라고 표현하며,

대각선 부분은 공분산이 아닌, 분산을 표현한다.

💡 Correlation coefficient

분산에서 스케일을 조정하기 위해서 표준편차를 사용했던 것처럼, 이번에도 공분산의 스케일을 조정할 수 있다.

공분산을 두 변수의 표준편차로 각각 나눠주면 스케일을 조정할 수 있고, 이를 상관계수 라고 부른다.

상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 가지며 선형연관성이 없는 경우 0에 근접하게 된다.

대부분의 경우 상관계수가 공분산보다 더 좋은 지표로써 사용되며 그 이유는 다음과 같다.

공분산은 이론상 모든 값을 가질 수 있지만, 상관계수는 -1 ~ 1 사이로 정해져 비교하기가 쉽다.
공분산은 항상 스케일, 단위를 포함하고 있지만, 상관계수는 이에 영향을 받지 않는다.
상관계수는 데이터의 평균 혹은 분산의 크기에 영향을 받지 않는다.

상관계수는 일반적으로 소문자 r로 표현된다.

df.corr()	# 상관계수 계산

상관계수가 1이라는 것은 한 변수가 다른 변수에 대해서 완벽한 양의 선형관계를 갖고 있다는 것을 의미한다.

🔥 Spearman correlation

위에서 배운 correlation coefficient는 Pearson correlation 이라 부르며 이는 데이터로부터 분산과 같은 통계치를 계산할 수 있을 때 사용가능하다. 그러나 만약 데이터가 numeric이 아니라 categorical 이라면 Spearman correlation coefficient 를 사용해야한다. Spearman correlation coefficient는 값들에 대해서 순서 혹은 rank를 매기고, 그를 바탕으로 correlation을 측정하는 Non-parametric한 방식이다.

### Pearson correlation
import scipy.stats

r, p = scipy.stats.pearsonr(x, y)

r	# coefficient
>>> 0.7586402890911869

p	# pvalue
>>> 0.010964341301680829

np.corrcoef(x, y)
>>> array([[1.        , 0.75864029],
  	   [0.75864029, 1.        ]])

### Spearman correlation
import scipy.stats

result = scipy.stats.spearmanr(x, y)
result
>>> SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06)

result.correlation
>>> 0.9757575757575757

result.pvalue
>>> 1.4675461874042197e-06

💡 Unit Vectors, 단위 벡터

선형대수에서, 단위 길이(1)을 갖는 모든 벡터를 말한다.

💡 Span

Span이란, 주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합이다.

1. 선형 관계의 벡터 (Linearly Dependent Vector)

만약 두 벡터가 같은 선상에 있는 경우, 이 벡터들은 선형 관계에 있다고 표현한다.

즉, 이 두 벡터들은 조합을 통해서 선 외부의 새로운 벡터를 생성할 수 없다.

이러한 벡터의 Span은 평면 공간이 아닌, 벡터가 이미 올려져 있는 선으로 제한된다.

2. 선형 관계가 없는 벡터 (Linearly Independent Vectors)

반대로 같은 선상에 있지 않은 벡터들은 선형적으로 독립되어 있다고 표현하며, 주어진 공간(2개의 벡터의 경우 R2 평면)의 모든 벡터를 조합을 통해 만들어 낼 수 있다.

✨ Rank

매트릭스의 rank란, 매트릭스의 열을 이루고 있는 벡터들로 만들 수 있는 (Span) 공간의 차원이다.
매트릭스의 차원과는 다를 수도 있으며 그 이유는 행과 열을 이루고 있는 벡터들 가운데 서로 선형 관계가 있을 수도 있기 때문이다.
Rank를 확인하는 방법은 여러가지가 있지만, 그 중 하나인 Gaussian Elimination을 통해 알아볼 수 있다.

💡 Gaussian Elimiantion

Gaussian Elimination은 주어진 매트릭스를 "Row Echelon form"으로 바꾸는 계산과정이다.

Row-Echelon form 이란, 각 행에 대해서 왼쪽에 1, 그 이후 부분은 0으로 이루어진 형태이다.

이러한 매트릭스는 일반적으로 upper-triangular의 형태를 가지고 있다.

마지막 줄이 [0, 0, 0] 이 되는 것은 3개의 행이 선형 관계를 갖는다는 의미이다.

따라서 처음 주어졌던 매트릭스의 Rank는 2이며, 이는 3x3 매트릭스이지만 R3 공간이 아닌 R2만을 벡터들로 만들어 낼 수 있음을 의미한다.

Row Echelon form (행 사다리꼴 형식) 의 조건

all zeros row : 모든 값이 0인 행 ex) [0, 0, 0]
nonzero row : 1개라도 0이 아닌 값을 갖고 있는 행 ex) [0, 1, 2]
leading entry : nonzero row에서 가장 왼쪽에 위치한 nonzero entry ex) [0, 1, 2]에서의 leading entry는 1

모든 nonzero row는 all zeros row 보다 위쪽에 위치해야한다.
각 행의 leading entry 는 자신보다 위쪽에 위치한 행의 leading entry 보다 오른쪽에 존재한다.
leading entry는 반드시 1 이어야한다.

reference.

https://www.youtube.com/watch?v=2GKESu5atVQ

저작자표시 (새창열림)

'Boot Camp > section1' 카테고리의 다른 글

[AIB] Clustering (+ PCA 개념) (0)	2022.02.09
[AIB] High dimensional Data (0)	2022.01.06
[AIB] Vector/Matrices (0)	2021.12.20
[AIB] Bayesian (0)	2021.11.02
[AIB] Confidence Intervals (0)	2021.11.02

'Boot Camp/section1' Related Articles

Codelog

[AIB] Intermediate Linear Algebra 본문

[AIB] Intermediate Linear Algebra

💡 Variance, 분산

✨ 파이썬 내장 함수를 사용해서 Variance 쉽게 계산하기

💡 Standard Deviation, 표준편차

💡 Covariance, 공분산

💡 Variance-covariance matirx, 분산-공분산 행렬

💡 Correlation coefficient

🔥 Spearman correlation

💡 Unit Vectors, 단위 벡터

💡 Span

✨ Rank

💡 Gaussian Elimiantion

'Boot Camp > section1' 카테고리의 다른 글

티스토리툴바