알 수 없는 영역

통계에 자주 나오는 개념 중에 '자유도'라는 것이 있다.
(물론 이 개념은 다른 곳에서도 많이 사용된다.
예를 들면 게임?)

영어로는 degree of freedom(df) 즉, 자유로운 정도를 말한다.
자유로운 정도라.....
너무 추상적이다;;; 예를 들어보자.



영화시사회가 있다고 가정하자.
4명이 초대되었고 자리도 4자리가 준비되어있다.
지정석이 아니라 선착순인 경우
먼저 온 3명은 자유도가 존재한다.

(물론 3번째 온 사람은 두 자리중 하나를 고르는 것이겠지만 그래도 둘 중에 하나를 고를 수 있는 '자유'가 존재하기 때문에-)

이 경우 자유도는 3이다. (N-1)


이번엔 숫자를 가지고 예를 들어보자.

어떤 4개의 수의 평균값이 15라고 하면
앞에 3개 숫자를 뭐를 고르던 마지막 하나를 통해 평균을 15로 정할 수 있다.

이번에도 4개숫자에 대한 자유도는 3이다.

위에서 설명한 것을 보면 자유도를 계산할 때 단지 샘플 수에서 1을 빼면 되는 것 처럼 설명을 해놨다.

df값을 정할 때 N-k(N은 사례수, k는 통계적 제한조건의 수)로 계산한다.

위의 두 경우 모두 제한 조건이 1이었기 때문에 1을 빼줬던 것 뿐.


앞서 자유도라는 것이 통계에 관련된 용어라 했으니 좀더 통계스럽게 설명해보면 다음과 같다.
(통계스럽게라고 해봤자 나오는 용어는 모집단, 표본집단, 평균, 표준편차 정도 뿐)

통계에서 자유도는 맘데로 변할수 있는 관측의 수를 말한다.


모집단에서 표본을 4개 고른다면 그 값은 말 그대로 랜덤일 것인데-

모집단에서 가지고 온 표본들을 가지고 모집단의 표준편차를 구하려한다면 좀 얘기가 달라(?)진다.

왜냐하면 표본들의 평균값을 통해 모집단의 평균값을 추정 해야 하기 때문이다.

즉, 표본집단의 평균이 15면 모집단의 평균도 15 라고 가정된다.

평균값이 고정되어 있기때문에 표본을 수집할 때 4개중 3개는 맘대로 자유롭게 가지고 올수 있지만-
하나는 (평균값을 모집단과 맞추기 위해?) 자유롭게 가지고 올수 없다.

그렇기 때문에 자유도가 표본의 수 보다 하나 작아지는 것이고, 표본값으로 모집단의 표준편차를 구할때 N이 아니라 N-1로 나누는 것이다.