차이

문서의 선택한 두 판 사이의 차이를 보여줍니다.

차이 보기로 링크

양쪽 이전 판이전 판
다음 판
이전 판
tech:bayes_theorem [2013/01/21 09:08] V_Ltech:bayes_theorem [2016/07/12 00:56] (현재) – 바깥 편집 127.0.0.1
줄 1: 줄 1:
 +{{tag>bayes theorem 통계 확률}}
 +======Bayes' Theorem======
 +
 +베이즈 정리는 Thomas Bayes 가 ‘우연이라는 원칙으로 문제를 해결하는 방법에 관한 논문’ (Essay towards solving a problem in the doctrine of chances) 에 발표한 이론이다 ....
 +
 +
 +
 +베이즈 정리는 조건부 확률의 개념을 확장 개발한 이론이라 할 수 있다. 사건이 순차적으로 발생하는 경우에, 두 번째 사건의 발생에 대한 정보를 이용해서 역으로 첫 번째 사건의 발생에 대한 확률을 수정하여 새롭게 갱신하는 이론을 말한다.
 +
 +베이즈 정리는 '사전에 알고 있는 정보를 염두에 두고, 특정 사건이 일어날 확률'을 계산하는 이론입니다.
 +
 +조건부 확률에서는 새로운 정보를 알았을 때 확률의 개선이 일어나게 된다. 가끔 우리는 어떤 실험결과에서 나온 정보를 이용하여 어떤 사건의 처음 확률을 개선시킬 수 있는데, 여기서 처음 확률은 사전확률 (prior probability) 이라 하고, 개선된 확률을 사후확률 (posterior probability) 이라고 하며, 이러한 확률의 개선을 이룩하는 것이 베이즈의 정리 (Bayes' theorem) 이다.
 +
 +{{ http://www.aistudy.com/math/lee/bayes_theorem_htm_eqn19.gif }}
 +
 +예를 들어, 관측된 값이 없을 때 A라는 사건이 일어날 확률을 P(A)라 하고, B라는 데이터가 주어졌을 때 A가 일어날 확률을 P(A|B)라 하면, P(A)는 사전 확률, P(A|B)는 사후 확률이다.
 +사후 확률은 베이즈 정리에 의해 사전 확률과 우도 (통계)(가능도, likelihood function)을 통해 계산할 수 있다.
 +담배 피는 사람의 폐암이 걸릴 확률이 0.01%로 주어졌다고 할 때 이 확률이 보통 사전 확률로 취급된다. 이것은 의사가 배경 지식 및 통계에 근거해 개인적으로 추정한 것이다.
 +사후 확률은 그런 주어진 사전 확률에서 어떤 데이터나 조건이 부과되었을 때 기대되는 값이다. 
 +
 +=====예제=====
 +====마약 검사====
 +한 고등학교에서 학생들에게 마약테스트를 실시하였다. 이때 사용한 마약 테스트는 마약 성분에 대해 99%의 민감도(sensitivity)와 98%의 특이도(specificity)를 가지고 있다. 즉 마약을 사용하는 사람에게 99%의 확률로 양성 판정을 내리고, 마약을 사용하지 않는 사람에게는 98%의 확률로 음성 판정을 내린다. 신뢰할 만한 조사 결과에 따르면 고등학생의 0.5% 가 마약을 사용하는 것으로 나타났다.
 +
 +3학년 김대마 학생이 테스트결과 양성으로 판정 받았을 때 실제로 이 학생이 마약을 하고있을 확률은 얼마나 될까?
 +
 +D 를 마약을 사용하는 학생, N 을 마약을 사용하지 않는 학생, + 를 양성판정 이라고 하면
 +
 +P(D)는 테스트 전에 김대마 학생이 마약을 사용하고있다고 생각했던 확률로 값은 0.005 이다, 왜냐하면 0.5% 의 고등학생이 마약을 사용하기때문에.
 +P(N)는 김대마 학생이 마약을 사용하지 않는다고 생각했던 확률로 값은 1-P(D) = 0.995 이다.
 +P(+|D)는 마약을 하는 학생이 양성판정을 받을 확률 즉 민감도 이다. 값은 0.99 (99%)
 +P(+|N)는 마약을 하지 않는 학생이 양성 판정을 받을 확률로, 즉 특이도의 오류 확률이다. 값은 1-0.98(98%) = 0.02(2%)
 +김대마 학생은 양성판정을 받았기때문에 실제 김대마 학생이 마약을 하고 있을 확률은 P(D|+) 이 된다.
 +
 +베이즈의 정리 (Bayes' theorem) 를 이용하면
 +    P(D|+)=P(+|D)P(D)/P(+)
 +======P(+|D)P(D)/ ( P(+|D)P(D)+P(+|N)P(N))======
 +======0.99×0.005/ (0.99×0.005+0.02×0.995)======
 +       ≈0.1992
 +
 +김대마학생이 실제 마약을 하고있을 확률은 20%가 채 되지 않는다.((Bayes' theorem (18 August 2010) Retrieved August 20, 2010, from http://en.wikipedia.org/wiki/Bayes'_theorem))
 +
 +====핸드폰 불량률====
 +예를 들어서 한 회사의 핸드폰이 불량일 확률 (A)이 0.1%라고 가정하고, 불량 중에 배터리 오작동(B)일 경우에는 40%라고 가정해봅시다.
 + 
 +수식으로 나타낸다면
 +핸드폰이 불량일 확률 P(A) = 0.001
 +불량인 가정 하에 배터리 오작동일 경우 P(B|A) = 0.4 가 됩니다.
 + 
 +그런데 한 대리점의 핸드폰을 조사해 본 결과 그중 배터리 오작동이 10%가 된다고 한다면,
 + 
 +핸드폰이 배터리 오작동을 한 것 중 불량인 경우는 P(A|B) = P(B|A)P(A) / P(B) = 0.4 * 0.001 / 0.1 = 0.4% 가 되는 것이지요.
 + 
 +==== 조작된 주사위====
 +한 카지노에서 보통의 주사위를 100개중 95개, 조작된 주사위(숫자6이 계속 나옴)가 100개중 5개라고 합시다. 한 테이블에서 같은 주사위를 5번 던졌는데 6이 5번 다 나왔다면, 어라? 이거 주사위가 조작된거 아니야? 라고 생각하시겠죠? 그럼 실제로, 이 주사위가 조작된 주사위일 확률은 얼마일까요?
 + 
 +복잡해 보이지만 차근차근 풀어나가 봅시다.
 +보통의 주사위를 사용할 확률 P(A) = 0.95
 +조작된 주사위를 사용할 확률 P(B) = 0.05
 +보통의 주사위로 6이 5번 나올 확률 P(S|A) = 1/6 * 1/6 * 1/6 * 1/6 * 1/6 = 1/7776
 +조작된 주사위로 6이 5번 나올 확률 P(S|B) = 1 (무조건 나오겠죠?)
 + 
 +그러므로, 6이 5번 나왔을때 조작된 주사위일 확률은
 +P(B|S) = P(S|B) P(B) / P(A) = 1 * 0.05 / 0.95 = 0.0526316 으로
 +약 5.3% 정도 되는군요.
 +
 +흠....... 그러므로 다음에 라스베가스에 갈 때는 계속 진다고 조작된거라고 무작정 의심하면 안되겠군요...^^
 +
 +====한 여학생이 1학년일 경우는??====
 +
 +A:학년  B:여자
 +1학년 : 0.4         1학년중여자 : 0.4
 +2학년 : 0.3         2학년중여자 : 0.45
 +3학년 : 0.3         3학년중여자 : 0.5
 +
 +Q) 한 여학생이 1학년일 경우는??
 +공식을 간단히 열거해보자면,
 +P(B | A) = P(A | Bi) / [P(A | B1)+P(A | B2)+.....+P(A| Bk)] 라고 작성가능하고요.
 +
 +위 문제는 큰 응용없이 
 +베이즈 정리 공식의 communication 방식에 충실히 맞춰 기호화시키고, 공식에 대입시키면 풀리는 문제입니다.
 +
 +우선, 공식에 적합해지도록 문제를 변형시켜보죠.
 +
 +문제에서 주어진대로 A는 학년, B는 여학생이라고 정하고, 변형시켜보겠습니다.
 +
 +참고로 A옆의 아래첨자는 학년을 표시한 겁니다.
 +  1학년 : 0.4         1학년중여자 : 0.4
 +  =>  P(A1) = 0.4     P(B | A1) = 0.4
 +  2학년 : 0.3         2학년중여자 : 0.45
 +  => P(A2) = 0.3     P(B | A2) = 0.45
 +  3학년 : 0.3         3학년중여자 : 0.5
 +  => P(A3) = 0.3     P(B | A3) = 0.5
 +
 +Q) 한 여학생이 1학년일 경우는?? => P(A1 | B) =?
 +이를 위에 언급한 공식에 대입을 하는데, 제가 A,B를 거꾸로 작성했죠?
 +일반적으로 사용하는 용어대로 작성해서 저렇고요.
 +문제에 맞추어 식형태를 손좀보면,
 +P(A | B) = P(B | Ai) / [P(B | A1)+P(B | A2)+P(B| A3)]  이렇게 바뀌니,
 +P(A1) = 0.4, P(B | A1) = 0.4, P(A2) = 0.3, P(B | A2) = 0.45, P(A3) = 0.3, P(B | A3) = 0.5를 전부대입합니다.
 +그러므로, P(A | B) = (0.4 x 0.4) / [(0.4 x 0.4) + (0.3 x 0.45) + (0.3 x 0.5)] = 0.16 / 0.445 = 0.35955
 +즉, "임의로 추출한" 한 여학생이 1학년일 경우는 35.96%가 됩니다.
 +
 +=====참고=====
 +  * [[http://www.aistudy.com/math/bayes_theorem.htm|베이즈 정리 정의]]
 +  * [[http://musicetc.wikidot.com/bayes-theorem|베이즈 정리 개념]]
 +  * [[http://web5.jj.ac.kr/~khlee/stat/stat4.ppt|전주대 경영학부 강의 ppt]]
 +  * [[http://ruins880.tistory.com/25|설명과 예제]]
 +  * [[http://bayes.egloos.com/2979940|Why Use Bayesian? ]]
 +  * [[https://sites.google.com/site/lucyparklab/4-discussions/probability|frequentist vs. subjectivist]]
 +
 +
 +^  누구나 수정하실 수 있습니다. [[http://vaslor.net/syntax|위키 사용법]] 참고하세요. ^
 +