본문 바로가기
IT.데이터

빅데이터 분석기사 실기 - 작업형 3유형 준비 / t-test, ANOVA

by JROK 2023. 6. 19.

 

작업형 3유형의 예시문제로 t-test가 나왔다.

오늘은 t-test에 대해서 알아보자.

또한 ANOVA 분석 중 하나인 일원분산 분석인 One-Way ANOVA에 대해 알아보겠다.

 

빅데이터 분석기사는 t-test에 대한 이론이 아닌 실습이 위주이기에 실습 위주로 설명을 하겠다.

 

 

t-test

스튜던트 t-테스트(Student's t-test)라고도 하며, 검정 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정

표본을 사용한 모평균 검정 및 두 데이터 세트(집단)의 모평균이 서로 유의하게 다른지 여부를 판별 할 수 있음

검정통계량이 정규 분포를 따르며 모집단의 분산, 표준편차를 알지 못할 때 표본으로 부터 추정된 분산/표준편차를 사용해 검정함

▪ t-test를 실시하기 위해서는 정규성 및 등분산성의 조건이 만족되어야 함

 

 

T-검정 방법 - 특징, 예시

One Sample t-test

표본을 사용한 모평균 검정 방법

▪ 귀무가설 : S사 USB의 평균 수명은 20000 시간이다

 

Paired t-test 대응표본 t-검정

동일 개체에 어떤 처리를 하기 전, 후의 자료를 얻을 때 차이 값에 대한 평균 검정을 위한 방법

▪ 예) 매일 1시간 한달 걸으면 2Kg이 빠진다 (걷기 수행 전/수행 후)

▪ 가능한 동일한 특성을 갖는 두 개체에 서로 다른 처리를 하여 그 처리의 효과를 비교하는 방법 ▪ 예) X질병 환자들을 두 집단으로 나누어 A, B 약을 투약해 약의 효과 비교

 

Two sample t-test 독립표본 t-검정

서로 다른 두 그룹의 표본 평균을 비교하여 두 모집단의 평균 차이가 있는지 검정하는 방법

▪ 귀무가설 - 두 집단의 평균 차이 값이 0이다, 2학년과 3학년의 결석률은 같다

 

 

T-검정 방법 - 함수 (scipy.stats) & 주요 parameter

One sample T test 1표본 평균 검정

ttest_1samp(a, popmean, alternative='two-sided’) → statistic, p-value

 

Paired T test 쌍체(대응) 표본 t-검정

ttest_rel(a, b, alternative='two-sided’) → statistic, p-value

 

Two sample T test 2표본 평균 검정

ttest_ind(a, b, alternative='two-sided’, equal_var=True) → statistic, p-value

equal_var=False인 경우 Welch’s t-test 를 수행함

 

alternative 소개

▪ ‘two-sided’: 두 집단의 평균이 다르다

▪ ‘less’: 첫 번째 집단의 평균이 두 번째 집단의 평균보다 작다

▪ ‘greater’: 첫 번째 집단의 평균이 두 번째 집단의 평균보다 크다

 

 

- 실전 예시(df라는 데이터가 제공되었다고 가정)

one sample t-test

from scipy.stats import ttest_1samp

popmean = 4 # 평균이 제시되어 있을 것

statistic, pvalue = ttest_1samp(df['column1'], popmean,  alternative='two-sided')

 

Paired T test 

이전 포스팅에 소개

from scipy.stats import ttest_rel

statistic, pvalue = ttest_rel(a['bp_after'], a['bp_before'], alternative = 'less')

 

Two sample T test 2

from scipy.stats import ttest_ind

statistic, pvalue = ttest_ind(df1, df2, alternative='less')

 

 

 

 

T-test와 ANOVA의 차이

: T-test는 두 집단 간 차이고, ANOVA는 셋 이상 집단 간 차이

 

ANOVA의 종류

일원분산분석 (One-Way ANOVA)

▪ 범주형 독립 변수가 한 개인 경우 사용

▪ 예) 계절별 아이스크림 판매량 평균이 동일하다

- 일원분산분석의 귀무가설/대립가설

H0 : 모든 집단의 평균이 같다

H1 : 하나 이상의 집단의 평균이 다르다

 

이원분산분석 (Two-Way ANOVA)

▪ 범주형 독립 변수가 두 개인 경우 사용 (K-Way ANOVA, 범주형 변수가 K개인 경우)

▪ 각 변수의 주효과 및 두 변수의 상호작용효과를 분석함 (주효과 : 각 변수로 일원분산분석한 결과)

▪ 귀무가설, 대립가설이 3개 세트

▪ 예) 날씨 및 계절의 아이스크림 판매량에 대한 각각의 영향도와 상호작용을 확인한다 (두 요인이 연속형 종속변수에 영향을 주는지 안 주는지 분석하는 것)

 

 

빅데이터 분석기사의 경우 scipy.stats를 사용하기에 One-Way ANOVA만 출제될 가능성이 높다.

모듈 함수 & 주요 parameter

scipy.stats

from scipy.stats import f_oneway → F-statistic, p-value

f_oneway(*samples)

댓글