차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판이전 판다음 판 | 이전 판 | ||
tech:bayes_theorem [2013/01/21 09:07] – V_L | tech:bayes_theorem [2016/07/12 00:56] (현재) – 바깥 편집 127.0.0.1 | ||
---|---|---|---|
줄 1: | 줄 1: | ||
+ | {{tag> | ||
+ | ======Bayes' | ||
+ | |||
+ | 베이즈 정리는 Thomas Bayes 가 ‘우연이라는 원칙으로 문제를 해결하는 방법에 관한 논문’ (Essay towards solving a problem in the doctrine of chances) 에 발표한 이론이다 .... | ||
+ | |||
+ | |||
+ | |||
+ | 베이즈 정리는 조건부 확률의 개념을 확장 개발한 이론이라 할 수 있다. 사건이 순차적으로 발생하는 경우에, 두 번째 사건의 발생에 대한 정보를 이용해서 역으로 첫 번째 사건의 발생에 대한 확률을 수정하여 새롭게 갱신하는 이론을 말한다. | ||
+ | |||
+ | 베이즈 정리는 ' | ||
+ | |||
+ | 조건부 확률에서는 새로운 정보를 알았을 때 확률의 개선이 일어나게 된다. 가끔 우리는 어떤 실험결과에서 나온 정보를 이용하여 어떤 사건의 처음 확률을 개선시킬 수 있는데, 여기서 처음 확률은 사전확률 (prior probability) 이라 하고, 개선된 확률을 사후확률 (posterior probability) 이라고 하며, 이러한 확률의 개선을 이룩하는 것이 베이즈의 정리 (Bayes' | ||
+ | |||
+ | {{ http:// | ||
+ | |||
+ | 예를 들어, 관측된 값이 없을 때 A라는 사건이 일어날 확률을 P(A)라 하고, B라는 데이터가 주어졌을 때 A가 일어날 확률을 P(A|B)라 하면, P(A)는 사전 확률, P(A|B)는 사후 확률이다. | ||
+ | 사후 확률은 베이즈 정리에 의해 사전 확률과 우도 (통계)(가능도, | ||
+ | 담배 피는 사람의 폐암이 걸릴 확률이 0.01%로 주어졌다고 할 때 이 확률이 보통 사전 확률로 취급된다. 이것은 의사가 배경 지식 및 통계에 근거해 개인적으로 추정한 것이다. | ||
+ | 사후 확률은 그런 주어진 사전 확률에서 어떤 데이터나 조건이 부과되었을 때 기대되는 값이다. | ||
+ | |||
+ | =====예제===== | ||
+ | ====마약 검사==== | ||
+ | 한 고등학교에서 학생들에게 마약테스트를 실시하였다. 이때 사용한 마약 테스트는 마약 성분에 대해 99%의 민감도(sensitivity)와 98%의 특이도(specificity)를 가지고 있다. 즉 마약을 사용하는 사람에게 99%의 확률로 양성 판정을 내리고, 마약을 사용하지 않는 사람에게는 98%의 확률로 음성 판정을 내린다. 신뢰할 만한 조사 결과에 따르면 고등학생의 0.5% 가 마약을 사용하는 것으로 나타났다. | ||
+ | |||
+ | 3학년 김대마 학생이 테스트결과 양성으로 판정 받았을 때 실제로 이 학생이 마약을 하고있을 확률은 얼마나 될까? | ||
+ | |||
+ | D 를 마약을 사용하는 학생, N 을 마약을 사용하지 않는 학생, + 를 양성판정 이라고 하면 | ||
+ | |||
+ | P(D)는 테스트 전에 김대마 학생이 마약을 사용하고있다고 생각했던 확률로 값은 0.005 이다, 왜냐하면 0.5% 의 고등학생이 마약을 사용하기때문에. | ||
+ | P(N)는 김대마 학생이 마약을 사용하지 않는다고 생각했던 확률로 값은 1-P(D) = 0.995 이다. | ||
+ | P(+|D)는 마약을 하는 학생이 양성판정을 받을 확률 즉 민감도 이다. 값은 0.99 (99%) | ||
+ | P(+|N)는 마약을 하지 않는 학생이 양성 판정을 받을 확률로, 즉 특이도의 오류 확률이다. 값은 1-0.98(98%) = 0.02(2%) | ||
+ | 김대마 학생은 양성판정을 받았기때문에 실제 김대마 학생이 마약을 하고 있을 확률은 P(D|+) 이 된다. | ||
+ | |||
+ | 베이즈의 정리 (Bayes' | ||
+ | P(D|+)=P(+|D)P(D)/ | ||
+ | ======P(+|D)P(D)/ | ||
+ | ======0.99×0.005/ | ||
+ | | ||
+ | |||
+ | 김대마학생이 실제 마약을 하고있을 확률은 20%가 채 되지 않는다.((Bayes' | ||
+ | |||
+ | ====핸드폰 불량률==== | ||
+ | 예를 들어서 한 회사의 핸드폰이 불량일 확률 (A)이 0.1%라고 가정하고, | ||
+ | |||
+ | 수식으로 나타낸다면 | ||
+ | 핸드폰이 불량일 확률 P(A) = 0.001 | ||
+ | 불량인 가정 하에 배터리 오작동일 경우 P(B|A) = 0.4 가 됩니다. | ||
+ | |||
+ | 그런데 한 대리점의 핸드폰을 조사해 본 결과 그중 배터리 오작동이 10%가 된다고 한다면, | ||
+ | |||
+ | 핸드폰이 배터리 오작동을 한 것 중 불량인 경우는 P(A|B) = P(B|A)P(A) / P(B) = 0.4 * 0.001 / 0.1 = 0.4% 가 되는 것이지요. | ||
+ | |||
+ | ==== 조작된 주사위==== | ||
+ | 한 카지노에서 보통의 주사위를 100개중 95개, 조작된 주사위(숫자6이 계속 나옴)가 100개중 5개라고 합시다. 한 테이블에서 같은 주사위를 5번 던졌는데 6이 5번 다 나왔다면, | ||
+ | |||
+ | 복잡해 보이지만 차근차근 풀어나가 봅시다. | ||
+ | 보통의 주사위를 사용할 확률 P(A) = 0.95 | ||
+ | 조작된 주사위를 사용할 확률 P(B) = 0.05 | ||
+ | 보통의 주사위로 6이 5번 나올 확률 P(S|A) = 1/6 * 1/6 * 1/6 * 1/6 * 1/6 = 1/7776 | ||
+ | 조작된 주사위로 6이 5번 나올 확률 P(S|B) = 1 (무조건 나오겠죠? | ||
+ | |||
+ | 그러므로, | ||
+ | P(B|S) = P(S|B) P(B) / P(A) = 1 * 0.05 / 0.95 = 0.0526316 으로 | ||
+ | 약 5.3% 정도 되는군요. | ||
+ | |||
+ | 흠....... 그러므로 다음에 라스베가스에 갈 때는 계속 진다고 조작된거라고 무작정 의심하면 안되겠군요...^^ | ||
+ | |||
+ | ====한 여학생이 1학년일 경우는?? | ||
+ | |||
+ | A: | ||
+ | 1학년 : 0.4 | ||
+ | 2학년 : 0.3 | ||
+ | 3학년 : 0.3 | ||
+ | |||
+ | Q) 한 여학생이 1학년일 경우는?? | ||
+ | 공식을 간단히 열거해보자면, | ||
+ | P(B | A) = P(A | Bi) / [P(A | B1)+P(A | B2)+.....+P(A| Bk)] 라고 작성가능하고요. | ||
+ | |||
+ | 위 문제는 큰 응용없이 | ||
+ | 베이즈 정리 공식의 communication 방식에 충실히 맞춰 기호화시키고, | ||
+ | |||
+ | 우선, 공식에 적합해지도록 문제를 변형시켜보죠. | ||
+ | |||
+ | 문제에서 주어진대로 A는 학년, B는 여학생이라고 정하고, 변형시켜보겠습니다. | ||
+ | |||
+ | 참고로 A옆의 아래첨자는 학년을 표시한 겁니다. | ||
+ | 1학년 : 0.4 | ||
+ | => P(A1) = 0.4 P(B | A1) = 0.4 | ||
+ | 2학년 : 0.3 | ||
+ | => P(A2) = 0.3 P(B | A2) = 0.45 | ||
+ | 3학년 : 0.3 | ||
+ | => P(A3) = 0.3 P(B | A3) = 0.5 | ||
+ | |||
+ | Q) 한 여학생이 1학년일 경우는?? => P(A1 | B) =? | ||
+ | 이를 위에 언급한 공식에 대입을 하는데, 제가 A,B를 거꾸로 작성했죠? | ||
+ | 일반적으로 사용하는 용어대로 작성해서 저렇고요. | ||
+ | 문제에 맞추어 식형태를 손좀보면, | ||
+ | P(A | B) = P(B | Ai) / [P(B | A1)+P(B | A2)+P(B| A3)] 이렇게 바뀌니, | ||
+ | P(A1) = 0.4, P(B | A1) = 0.4, P(A2) = 0.3, P(B | A2) = 0.45, P(A3) = 0.3, P(B | A3) = 0.5를 전부대입합니다. | ||
+ | 그러므로, | ||
+ | 즉, " | ||
+ | |||
+ | =====참고===== | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[https:// | ||
+ | |||
+ | |||
+ | ^ 누구나 수정하실 수 있습니다. [[http:// | ||
+ | |||