알 수 없는 영역


 

일단, 조건부 확률을 알아야 시작이 가능하다.

조건부 확률을 살짝 변경해 보면 아래와 같이 쓸 수 있다.

 

 




                                                                                                     

베이즈 규칙.

생각보다 간단하다!

 

 

 

맞는지 한번 보면-

 

 

 

 

 

끝?!

 

근데 이거 어디에 쓰일까???

흠....

 

 

사건 A, 사건 B가 일어날 확률을 알고 있고,

사건 B가 일어난 상태에서 사건 A가 일어날 확률을 알고 있을 때-

 

사건 A가 일어난 상태에서 사건 B가 일어날 확률을 계산하고 싶을 때 사용한다.

 

 

응? 무슨소리....?

 

예를 들어보면-

A라는 질병에 걸릴 확률을 알고, 병원에서 검사를 했을 때 양성 반응이 나올 확률도 안다.

그리고 그 질병이 있을 때 양성 반응이 나올 확률도 알고 있다.

 

위 상태에서

양성반응이 나왔을 때 병에 걸렸을 확률을 계산할 수 있다!!

 

사실 위 예가 맘에 드는건 아니지만... 여튼;;;;;

 

 

                                                                                                      

Chain Rule of Probability

 

(미적에서 나오는 chain rule이 아님)

 

 

 

 

 

 

 

요런 아이이다.

뭔가 쓸게 많을 줄 알았는데... 흠....

 

'Basic Concepts > miscellaneous' 카테고리의 다른 글

조건부 확률, Conditional Probability  (0) 2018.01.06
Spectral Leakage  (0) 2017.12.31
자유도, degree of freedom  (0) 2017.12.01

조건부 확률. 

 

이것 저것 검색을 하다가 '조건부 확률'이 고등학교 과정에서 나온다는 사실에 조금 놀랐다.

(왜 난 배운 기억이 없는거지?????;;;;)

 

 

조건부 확률은 생각보다 간단(?)하다.

사건 B가 발생한 상태에서 사건 A가 일어날 확률을 의미한다-

(사건 B는 0보다 크다.)

 

 

 

 

위와 같이 표기하고-

영어로는 "The probability of A given B"라고 말한다.

 

 

벤 다이어그램으로 한번 살펴보자!

 

(그림 출처는 위키피디아ㅋ)

 

 

 

P(A)가 대략 0.5라고 했을 때, 다음을 계산해 보자.

 

 

 

......A에 완전 포함되어 있으므로 1이 된다.

......A와 교집합이 없으므로 0이 된다.

......P(A|B2)를 구하기 위해선 위 식에 대입해서 계산!(0.75)

 

 

대략 이렇다.

(생각보다) 간단하다.

 

 

                                                                                                                                                       

 

간단하게 조건부 확률을 이용해 아래 문제를 풀어보자.

 

두 개의 주사위가 있다.

주사위가 둘 다 같은 숫자가 나올 경우 그 때 숫자가 둘 다 1일 확률은???

 

 

두 개의 주사위가 모두 1이 나올 확률을 A

두 개의 주사위가 같은 숫자가 나올 확률을 B

 

 

 

 

두 개의 주사위가 모두 1이 나오는 경우는 

두 개의 주사위가 같은 숫자가 나오는 것의 특수한 경우이다.

따라서-

 

 

 

 

 

                                                                                                                                                       

일단 들어가기 앞서-
Spectral Leakage 과 Aliasing은 유사한 개념으로 이해된다.

이중 Spectral Leakage는 Windowing과 관련되어 더 많이 사용되는듯 싶다.

여튼- 
이번 포스팅에서는 Spectral Leakage가 '왜'라는 측면보다 '언제'발생하는지에 대해 적어본다.


일단 (음성) 신호를 주파수 영역에서 분석하는 경우
퓨리에 변환(Fourier Transform)을 통해 시간 영역에서 주파수 영역으로 변환시킨 후-
주파수 분석을 수행하게 된다.

만약에 7Hz의 순수 사인파를 녹음한 뒤 퓨리에 변환을 한 후에 주파수 영역에서 보는 경우 '원칙적으로' 7Hz에서만 값이 있고 그 외의 부분에서는 값이 없어야 한다.
하지만 많은 경우 실제 퓨리에 변환을 해보면 이렇게 깔끔하게 나오지 않는다.
(그렇게 나오는 경우도 있겠지만 아닌 경우가 더 많다.)


아래 3 경우를 한 번 보자.

경우 1.
'100Hz로 샘플링한 7Hz 사인파' 100초(700 cycle)를 FFT를 돌린 경우

7Hz에서 Peak가 선명하게 나타난다.


경우 2.
동일한 '100Hz로 샘플링한 7Hz 사인파' 1초(7 cycle)를 FFT를 돌린 경우





이 경우 약간의 spectral leakage가 발생한다. Spectral leakage가 발생하는 이유는 관측하는 interval이 너무 제한되어 있었기 때문이라고 볼 수 있다.
(700 cycle vs. 7 cycle)


경우 3.
위와 동일한 '100Hz로 샘플링한 7Hz 사인파' 1.4초 (9.8 cycle)에 대해 FFT를 돌린 경우.


위 1과 2의 경우 cycle이 정수배였으나 이번에는 그렇지 않다. 즉, 신호의 끝 부분에서의 amplitude가 0이 아니다. 이런 경우에 glitch가 발생하게 되고 더 많은 spectral leakage를 발생하게 된다.



Spectral Leakage가 발생하면 두 가지 문제가 발생할 수 있다.
1. 원했던 주파수 요소의 에너지가 100% 표시되지 않는다.
2. 성분이 강한 신호의 Spectral leakage는 작은 신호를 가릴 수도 있다. 이런 경우엔 작은 신호를 확인하거나 찾기란 쉽지 않다.

그렇다면 Spectral leakage를 줄이는 방법은?

측정 시간의 끝을 불연속하게 끊나지 않게 하는게 한가지 방법이 있을것이다.
하지만 FFT돌리기 전에 모든 신호를 시간 영역에서 확인하고 FFT 할 수는 없기에-
측정 시간의 끝을 0에 가깝게 줄이는 방법을 택하면 그나마 좀 나아질 수 있다.
즉, windowing을 적용하는 방법이 있겠다.


Spectral Leakage는 FFT때문에 발생한다라고 규정짓기 보다는 관측할 수 있는 시간이 한정적이라서 발생한다고 볼 수 있다.



통계에 자주 나오는 개념 중에 '자유도'라는 것이 있다.
(물론 이 개념은 다른 곳에서도 많이 사용된다.
예를 들면 게임?)

영어로는 degree of freedom(df) 즉, 자유로운 정도를 말한다.
자유로운 정도라.....
너무 추상적이다;;; 예를 들어보자.



영화시사회가 있다고 가정하자.
4명이 초대되었고 자리도 4자리가 준비되어있다.
지정석이 아니라 선착순인 경우
먼저 온 3명은 자유도가 존재한다.

(물론 3번째 온 사람은 두 자리중 하나를 고르는 것이겠지만 그래도 둘 중에 하나를 고를 수 있는 '자유'가 존재하기 때문에-)

이 경우 자유도는 3이다. (N-1)


이번엔 숫자를 가지고 예를 들어보자.

어떤 4개의 수의 평균값이 15라고 하면
앞에 3개 숫자를 뭐를 고르던 마지막 하나를 통해 평균을 15로 정할 수 있다.

이번에도 4개숫자에 대한 자유도는 3이다.

위에서 설명한 것을 보면 자유도를 계산할 때 단지 샘플 수에서 1을 빼면 되는 것 처럼 설명을 해놨다.

df값을 정할 때 N-k(N은 사례수, k는 통계적 제한조건의 수)로 계산한다.

위의 두 경우 모두 제한 조건이 1이었기 때문에 1을 빼줬던 것 뿐.


앞서 자유도라는 것이 통계에 관련된 용어라 했으니 좀더 통계스럽게 설명해보면 다음과 같다.
(통계스럽게라고 해봤자 나오는 용어는 모집단, 표본집단, 평균, 표준편차 정도 뿐)

통계에서 자유도는 맘데로 변할수 있는 관측의 수를 말한다.


모집단에서 표본을 4개 고른다면 그 값은 말 그대로 랜덤일 것인데-

모집단에서 가지고 온 표본들을 가지고 모집단의 표준편차를 구하려한다면 좀 얘기가 달라(?)진다.

왜냐하면 표본들의 평균값을 통해 모집단의 평균값을 추정 해야 하기 때문이다.

즉, 표본집단의 평균이 15면 모집단의 평균도 15 라고 가정된다.

평균값이 고정되어 있기때문에 표본을 수집할 때 4개중 3개는 맘대로 자유롭게 가지고 올수 있지만-
하나는 (평균값을 모집단과 맞추기 위해?) 자유롭게 가지고 올수 없다.

그렇기 때문에 자유도가 표본의 수 보다 하나 작아지는 것이고, 표본값으로 모집단의 표준편차를 구할때 N이 아니라 N-1로 나누는 것이다.