본문 바로가기

[Python]

[Python] 통계 기본 정리

* 모수검정  
모집단에서 추출한 샘플을 사용해 모집단의 평균이나 분산과 같은 파라미터를 추정하여 가설을 테스트 하는 방법

* 표준점수  
z 점수라고도 부르며 정규분포 상에서 데이터 포인트가 원점에서 얼마나 떨어져 있는지를 표준편차의 비율로 나타내는 점수  
(데이터 포인트 - 평균) / 표준편차

* 중심극한정리  
동일한 분포에서 무작위로 n개의 샘플을 추출해 평균을 구할 때
n이 어느정도 크다면 이 평균이 정규분포에 가까워진다는 개념

* 신뢰구간  
알려지지 않은 모집단의 파라미터를 추정한 범위  
일반적으로 95% 신뢰구간을 사용하고 90~99사용도 가능

* 가설검정  
표본의 통계치를 기반으로 모집단에 대한 가설을 받아드릴지 기각할지 결정하는 방법 (영가설 - 대립가설)

* 순열검정  
정규분포에 대한 가정을 하지 않고 수행  
두 표본의 데이터를 무작위로 섞은 뒤 원래 통계량과의 차이를 비교하는 과정을 여러번 반복

 

* 통계 함수와 메서드 정리

함수/메서드 기능
scipy.stats.zscore() z점수를 계산
scipy.stats.norm.cdf() 정규분포의 누적분포 비율을 계산
scipy.stats.norm.ppf() cdf()메서드와 반대로 분포의 비율을 입력하면 z점수를 반환
Series.sample() 데이터프레임에서 무작위로 값 추출
scipy.stats.ttest_ind() 두 표본의 평균에 대한 t-검정 수행
scipy.stats.permutation_test() 두 표본의 대한 순열검정 수행