작업형 3유형의 예시문제로 t-test가 나왔다.
오늘은 t-test에 대해서 알아보자.
또한 ANOVA 분석 중 하나인 일원분산 분석인 One-Way ANOVA에 대해 알아보겠다.
빅데이터 분석기사는 t-test에 대한 이론이 아닌 실습이 위주이기에 실습 위주로 설명을 하겠다.
t-test
스튜던트 t-테스트(Student's t-test)라고도 하며, 검정 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정
▪ 표본을 사용한 모평균 검정 및 두 데이터 세트(집단)의 모평균이 서로 유의하게 다른지 여부를 판별 할 수 있음
▪ 검정통계량이 정규 분포를 따르며 모집단의 분산, 표준편차를 알지 못할 때 표본으로 부터 추정된 분산/표준편차를 사용해 검정함
▪ t-test를 실시하기 위해서는 정규성 및 등분산성의 조건이 만족되어야 함
T-검정 방법 - 특징, 예시
One Sample t-test
▪ 표본을 사용한 모평균 검정 방법
▪ 귀무가설 : S사 USB의 평균 수명은 20000 시간이다
Paired t-test 대응표본 t-검정
▪ 동일 개체에 어떤 처리를 하기 전, 후의 자료를 얻을 때 차이 값에 대한 평균 검정을 위한 방법
▪ 예) 매일 1시간 한달 걸으면 2Kg이 빠진다 (걷기 수행 전/수행 후)
▪ 가능한 동일한 특성을 갖는 두 개체에 서로 다른 처리를 하여 그 처리의 효과를 비교하는 방법 ▪ 예) X질병 환자들을 두 집단으로 나누어 A, B 약을 투약해 약의 효과 비교
Two sample t-test 독립표본 t-검정
▪ 서로 다른 두 그룹의 표본 평균을 비교하여 두 모집단의 평균 차이가 있는지 검정하는 방법
▪ 귀무가설 - 두 집단의 평균 차이 값이 0이다, 2학년과 3학년의 결석률은 같다
T-검정 방법 - 함수 (scipy.stats) & 주요 parameter
One sample T test 1표본 평균 검정
ttest_1samp(a, popmean, alternative='two-sided’) → statistic, p-value
Paired T test 쌍체(대응) 표본 t-검정
ttest_rel(a, b, alternative='two-sided’) → statistic, p-value
Two sample T test 2표본 평균 검정
ttest_ind(a, b, alternative='two-sided’, equal_var=True) → statistic, p-value
equal_var=False인 경우 Welch’s t-test 를 수행함
alternative 소개
▪ ‘two-sided’: 두 집단의 평균이 다르다
▪ ‘less’: 첫 번째 집단의 평균이 두 번째 집단의 평균보다 작다
▪ ‘greater’: 첫 번째 집단의 평균이 두 번째 집단의 평균보다 크다
- 실전 예시(df라는 데이터가 제공되었다고 가정)
one sample t-test
from scipy.stats import ttest_1samp
popmean = 4 # 평균이 제시되어 있을 것
statistic, pvalue = ttest_1samp(df['column1'], popmean, alternative='two-sided')
Paired T test
이전 포스팅에 소개
from scipy.stats import ttest_rel
statistic, pvalue = ttest_rel(a['bp_after'], a['bp_before'], alternative = 'less')
Two sample T test 2
from scipy.stats import ttest_ind
statistic, pvalue = ttest_ind(df1, df2, alternative='less')
T-test와 ANOVA의 차이
: T-test는 두 집단 간 차이고, ANOVA는 셋 이상 집단 간 차이
ANOVA의 종류
일원분산분석 (One-Way ANOVA)
▪ 범주형 독립 변수가 한 개인 경우 사용
▪ 예) 계절별 아이스크림 판매량 평균이 동일하다
- 일원분산분석의 귀무가설/대립가설
H0 : 모든 집단의 평균이 같다
H1 : 하나 이상의 집단의 평균이 다르다
이원분산분석 (Two-Way ANOVA)
▪ 범주형 독립 변수가 두 개인 경우 사용 (K-Way ANOVA, 범주형 변수가 K개인 경우)
▪ 각 변수의 주효과 및 두 변수의 상호작용효과를 분석함 (주효과 : 각 변수로 일원분산분석한 결과)
▪ 귀무가설, 대립가설이 3개 세트
▪ 예) 날씨 및 계절의 아이스크림 판매량에 대한 각각의 영향도와 상호작용을 확인한다 (두 요인이 연속형 종속변수에 영향을 주는지 안 주는지 분석하는 것)
빅데이터 분석기사의 경우 scipy.stats를 사용하기에 One-Way ANOVA만 출제될 가능성이 높다.
모듈 함수 & 주요 parameter
scipy.stats
from scipy.stats import f_oneway → F-statistic, p-value
f_oneway(*samples)
'IT.데이터' 카테고리의 다른 글
빅데이터 분석기사 실기 - 작업형 2유형 준비 / 평가 함수, 사용 라이브러리 import (0) | 2023.06.20 |
---|---|
빅데이터 분석기사 실기 - 작업형 3유형 준비 / 카이제곱, 피셔의 정확 검정 (Fisher's Exact Test), 비모수 검정 (0) | 2023.06.20 |
빅데이터 분석기사 실기 - 작업형 3유형 준비 / 예상문제 풀이 (0) | 2023.06.19 |
GUID 파티션 테이블 GPT(GUID Partition Table) Partition Structure Analysis (0) | 2023.05.03 |
CHAT GPT에 대하여 (0) | 2023.05.03 |
댓글