통계분석

분석통계 방법의 내용 중 중요한 몇 가지에 대해서 간단히 설명.

설명의 편의상 독립 변수와 종속 변수의 관계로 구별한다. 아래 설명에서 -의 앞은 독립변수, 뒤는 종속변수 이다.

이산-이산 변수

Χ2 test (카이제곱 검정)

  • 단일표본 : 2개 이상 변수의 각 범주의 관찰 빈도와 기대 빈도 사이의 통계적 차이
  • 두 독립표본 : 두 집단간의 분포 차이의 유의도 검증
  • 조건
    • 자유도 = 1 : 전체 사례수 > 30, 각 셀의 빈도수 5 이상
    • 자유도 > 1 : 전체 사례수 > 30, 5 미만의 기대빈도의 셀 < 모든 칸의 20%
      모든 셀에 1.00 이상의 기대빈도 시 사용가능
  • 대응하는 비모수 검정: Fisher's exact test (자유도가 1인 경우 위의 조건을 만족치 못할 때 적용)

이산-연속 변수

Student t-test (t-test)

  • 두 집단의 평균 차이가 통계적으로 유의한지 파악(모집단의 분산을 모를 때 사용)
  • 독립 변수는 두개의 집단
  • 종속 변수는 반드시 연속 변수(등간.비율 척도)이며 정규분포를 따라야하고 관측치간에는 독립성이 있어야 함
  • 대응하는 비모수 검정 Mann-Whitney U test

Paired samples t-test

  • 동일한 표본에서 두 변수의 평균의 차이를 비교
  • 대응하는 비모수 검정: Wilcoxon matched-pairs signed-ranks test

One-way ANOVA

  • 독립 변수가 둘 이상 집단인 경우 종속 변수의 평균 차이가 유의한지 비교 (확대된 t-test)
  • 종속 변수 : 반드시 등간.비율 척도
  • 대응하는 비모수 검정: Kruskal-Wallis test

일반선형모델분석(GLM)

  • 독립 변수가 두 개 이상인 다변량 분석

연속-연속 변수

회귀분석(regression)과 상관분석(correlation)을 사용한다. 회귀 분석은 변수들 간의 관계를 파악하는데 유용하며 상관분석은 두 변수간의 관련성을 선형적인 강도를 통해 알아보는 방법이다.

Pearson 상관계수

  • 두 변수가 등간 또는 비율 척도 (연속 변수)
  • 조건 : 두 변수간 직선적 관계, 각 행과 열의 분산도가 비슷, 적어도 한 변수가 정상 분포
  • 적은 사례일 경우 신뢰할 수 없음
  • 대응하는 비모수 검정
    • Spearman's rho : 독립, 종속 변수가 서열 변수인 경우 단순 상관관계 산출
      자료의 등간성 의심, 변수의 점수가 극단적 분포, 서열 척도시 적용
    • Kendall's tau b : 독립, 종속 변수가 서열 변수시 적용

상관비(이타:η)

  • 곡선적 관계에 있는 두 변수간의 단순 상관계수 산출 방법
  • 두 변수가 직선 관계인지 곡선 관계는 plot 등의 그래프로 확인

회귀분석

  • 한 변수와 다른 변수들과 관계 분석 변수의 값을 가지고 다른 변수의 값을 예언 즉 변수들 간의 관계를 파악하는데 유용
  • 가정
    • 주어진 자료에서 독립변수와 종속변수의 값의 분포가 직선적인 관계
    • 오차들이 독립적
    • 오차들의 분산이 일정
    • 오차들의 분포가 정상분포
  • 단순회귀분석 : 독립, 종속변수가 하나씩일 때 독립변수가 종속변수에 미치는 영향, 관계, 인과 분석
  • 다중회귀분석 : 2개 이상의 독립변수를 사용하여 독립변수와 종속변수의 관계를 알아보고자 할 때 사용
  • 더미분석: 회귀모형에서 명목이나 서열 변수를 독립변수로 할 때

연속-이산 변수

로지스틱 회귀분석

  • 종속변수가 이분형이고 여러 가지 독립변수와의 관계를 파악

RR vs OR

http://blog.naver.com/PostView.nhn?blogId=p0gang&logNo=40107293171

Trt군과 Control군의 질병 발생율을 비교하는 연구라고 가정하면, 다음과 같이 볼 수 있다.

■ 정의

  1. RR (Relative risk ) = Trt에서 질병발생율 / control에서 질병 발생율
  2. OR (Odds ratio) = Trt에서 질병발생 Odds / control에서 질병 발생 Odds

■ 예제 (case control study의 예제)

Case1) 폐암환자 100명, 정상인 100명을 선정하여,

            최근 10년간 흡연여부를 조사하여,다음과 같은 결과를 보였다고 치고..

구분 암환자 정상인 합계 흡연 30 10 40 비흡연 70 90 160 합계 100 100 200

이때, RR과 OR은 다음과 같이 다르게 산출된다.

RR = (30/40) / (70/160) = 1.7 .. 흡연자중 암환자의 비율이 비흡연자중 암환자 비율의 1.7배

OR = (30/10) / (70/90) = 3.8 .. 흡연자 정상인 대비 흡연자 암환자의 비율이

                                                       비흡연자 정상인 대비 비흡연자 암환자의 비율대비 3.8배
                                                       (보통 논문에서는 Odds가 몇배라고 표현한다)
                                                         
           

Case2) 폐암환자 1,000명, 정상인 100명을 선정하여,

            최근 10년간 흡연여부를 조사하여, 다음과 같은 결과를 보였다고 치자.
            폐암환자수만 10배로 늘였고, 흡연여부도 동일한 비율로 10배씩 늘였다.
           

구분 암환자 정상인 합계 흡연 300 10 310 비흡연 700 90 790 합계 1,000 100 1,100

이때, RR과 OR은 다음과 같다.

          OR은 Case1과 같으나, RR값은 바뀐다.

RR = (300/310) / (700/790) = 1.1

          OR = (300/10) / (700/90)   = 3.8
  • 참고사항
  1. 질병발생율이 10~15% 이하라면 , 두 값은 유사하다고 한다.
  2. logistic regression을 하면 OR이 출력된다.
  3. Case control study에서는 위 예제와 같이 군별 인원을 어떻게 정하냐에 따라 RR이 변경되므로,

반드시 OR을 사용해야 한다.

[출처] OR (Odds Ratio) vs RR (Relative Risk)|작성자 조여사

메타분석 (Meta-analysis)

검사의 타당도

진단검사법의 타당도

검사 결과 병 있음병 없음전체
양성aba+b
음성cdc+d
전체a+cb+da+b+c+d
  • 민감도(감수성, sensitivity)=a/(a+c)
  • 특이도(특이성, specificity)=d/(b+d)
  • 위양성(의양성, false-positive rate)=b/(b+d) 질병이 없는데 검사결과가 양성이 나오는 경우
  • 위음성(의음성, false-negative rate)=c/(a+c)
  • 유병률(prevalence)=(a+c)/(a+b+c+d)
  • 양성 예측도(positive predictive value)=a/(a+b) 검사 결과 양성일 때 실제 질환을 갖고 있을 확률
  • 음성 예측도(negative predictive value)=d/(c+d)
  • 양성 가능도 비(likelihood ratio positive, LR+)=[a/(a+c)]/[b/(b+d)]
  • 음성 가능도 비(likelihood ratio negative, LR-)=[c/(a+c)]/[d/(b+d)]

역링크