목록전체 글 (28)
Codelog

Type I Error 귀무가설(Null Hypothesis)이 실제로 참이지만, 귀무가설을 기각하는 오류 실제 음성(negative)인 것을 양성(positive)으로 판정 거짓 양성(false positive, FP) 또는 알파 오류(α error)라고 불림 Type 1 error의 0.05 및 5% 유의수준은 귀무가설이 5% 확률로 잘못 기각된다는 의미 Type II Error 귀무가설이 실제로 거짓이지만, 귀무가설을 채택하는 오류 실제 양성(positive)인 것을 음성(negative)으로 판정 거짓 음성(false negative, FN) 또는 베타 오류(β error)라고 불림 Type I Error 예제 1. '한 사람이 무고하다'는 귀무가설 하에서, 죄가 없는 사람에게 유죄를 내린 경우 ..

T-test + t-test는 그룹의 평균값에 대해서 비교하는 가설검정 방법이다. 그러나 사실 t-test를 사용하기 위해서는 몇가지 조건이 가정되어야 한다. 독립성 : 두 그룹이 연결되어 있는(paired) 쌍인지 등분산성 : 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지 정규성 : 데이터가 정규성을 나타내는지 ( 정규성을 확인하는 함수는 scipy 라이브러리에 구현되어있다. -> stats.normaltest() ) 만약 정규성을 띄지 않는다면? 모집단이 특정 확률분포를(ex. normal) 따른다는 조건을 가정하지 않는 검정 방식을 채택한다. → Non-parametric method (비모수적 방식) Non-Parametric Methods 모집단이 특정 확률 분포를 따른다는 전제를 하지 ..

학습목표 Extimation / Sampling 의 목적과 방법에 대해서 이해한다. 가설검정에 대해서 이해한다. T-test의 목적과 사용예시를 설명할 수 있다. Descriptive Statistics (기술 통계) count, mean, standard, dev, min, 1Q, median, 3Q, max 등의 데이터를 설명하는 값 (혹은 통계치) 수집한 데이터를 요약, 묘사, 설명하는 통계 기법 기술 통계 기법은 크게 두 가지로 구분할 수 있다. 하나는 우리가 수집한 데이터를 대표하는 값이 무엇인지 또는 어떤 값에 집중되어 있는지를 다루는 기법이다. 데이터의 집중화 경향(Central tendency)에 대한 기법이라고 할 수 있다. 평균, 중앙값, 최빈값 등이 여기 속한다. 다른 하나는 우리가 ..

노트북이나 컴퓨터 드라이브 내부에 있는 파일을 사용하기 위해서 해당 파일의 경로를 복사해 바로 붙여넣으면 (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape 에러가 발생한다. 이때, 파일 경로의 '\' 를 '/' 로 바꿔주면 해결된다.

Pandas로 데이터프레임 합치기 1. Concat (Concatenate) 열이나 행을 기준으로 데이터프레임을 더할 수 있다. 데이터프레임을 더할 때, 일반적으로는 더해지는 행, 열의 이름이나 인덱스 값이 일치해야한다. 만약 행, 열의 이름이 다른 경우, 비어있는 부분에 대해서는 NaN값으로 채워진다. import pandas as pd x = pd.DataFrame([['AX','AY'],['BX','BY']], index = ['A','B'], columns = ['X','Y']) y = pd.DataFrame([['AX','AZ'],['CX','CZ']], index = ['A','C'], columns = ['X','Z']) df1 = pd.concat([x,y])# concate by row ..
pandas.crosstab pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False) 1. index → 교차표의 index로 사용할 feature 지정 2. columns → 교차표의 column으로 사용할 feature 지정 3. values → 교차표의 각 column에 해당하는 value값을 지정, array-like 형태만을 받는다. values parameter는 aggfunc parameter와 반드시 함께 쓰여야 한다. 4. rownames → 교차표의 index 이름 설정 ..
pandas.DataFrame.count DataFrame.count(axis=0, level=None, numeric_only=False) → DataFrame.count() or Series.count() 형태로 사용하고, column별 행의 개수를 카운트해준다. pandas.DataFrame.value_counts DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True) → 데이터프레임에서 각 value마다의 개수를 카운트해준다. 1. normalize → True일 때 상대비율을 구하고, False일 때 개수를 구한다. 2. sort → True일 때 카운트한 개수를 기준으로 정렬하고(내..
pandas.DataFrame.rename DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None, errors='ignore') 1. index → index 명을 바꿀 때 사용한다. 리스트 or 딕셔너리를 인수로 줄 수 있다. 2. columns → column 명을 바꿀 때 사용한다. 리스트 or 딕셔너리를 인수로 줄 수 있다. 3. axis → axis값이 0이면 행(index) 기준, 1이면 열(column) 기준 4. inplace → inplace 값이 True이면 데이터프레임에 변화를 적용시킨다. # 에시 df1.rename(columns={'매출액':'sale..