[알쓸통계] 95% CI(confidence Interval) 알아보기
최근 classification 논문을 읽다가 결과 부분에서 AUC를 다루며 95%CI라는 단어를 많이 보게 되었습니다. CI에 대해 딥러닝 결과 추출에서 필요한 만큼만 공부를 해보도록 하겠습니다. 혼자 공부하면서 올리는 포스팅인만큼 내용이 틀릴수도 있습니다. 혹시 틀린 부분이 있다면 댓글로 알려주시면 감사하겠습니다:)
CI는 confidence interval, 즉 신뢰구간을 의미합니다. 사실 신뢰구간이라는 말은 고등학교 통계 시간에도 꽤 듣는 말입니다. 신뢰구간은 모집단이 큰 경우에 많이 사용되는 개념입니다.
모집단은 우리가 통계를 내고자 하는 집단의 전체를 말합니다. 그렇기 때문에 대부분의 모집단은 구하기 힘들 수 밖에 없죠. 예를 들어, 우리나라의 난소암 발병 통계를 내본다고 가정해봅시다. 그렇다면, 모평균은 대한민국의 여성 전체가 됩니다. 현실적으로 대한민국 여성 전첸 난소암 발병 통계를 내는 것은 불가능하죠. 그렇기 때문에 표본을 추출하여 모집단을 추정하게 됩니다.
이렇게 추출한 표본에서 나온 평균과 분산을 모집단의 평균과 분산으로 추정합니다. 이 때, 이 표본평균과 표본 분산이 모평균과 모분산의 추정치로 신뢰할 수 있는지 구하는 것이 신뢰구간입니다. 신뢰구간은 모평균과 모분산이 표본 평균과 표본 분산 내에 있을 확률을 말합니다.
95% CI라는 말은 모평균과 모분산이 표본평균과 표본분산 내에 있을 확률이 95%라는 뜻이 되는 것이죠. 여기서 주의해야 할 점이 있습니다. 모집단이 워낙 큰 만큼 표본집단을 여러 번 추출하면, 그 표본집단들이 다 같을 순 없습니다. 그래서 신뢰구간을 단순히 모평균을 포함할 확률이 95%인 구간 이 아니라 모집단에서 같은 방법으로 표본을 100번 정도 추출했을 때 추출되는 100개의 신뢰구간 중 모평균을 포함한 표본평균이 95개 정도 나온다! 라고 생각하시는 것이 좋습니다.
참고자료
https://blog.naver.com/vnf3751/220823007712
신뢰구간(Confidence Interval)의 정확한 의미
'대통령 지지율의 95% 신뢰구간이 20%~30%이다' 뉴스나 신문 기사에서 간혹 접하는 말이죠. ...
blog.naver.com