33.카이제곱 검정(Chi-Square Test), 적합도 검정과 독립성 검정의 해석

카이제곱 검정(Chi-Square Test)은 관찰된 데이터와 기대되는 데이터 간의 차이를 평가하는 통계적 방법입니다. 이는 주로 범주형 데이터(categorical data)의 분석에 사용되며, 두 가지 주요 유형이 있습니다: 적합도 검정(Goodness of Fit Test)과 독립성 검정(Test of Independence). 본 글에서는 카이제곱 검정의 개념, 수식, 적합도 검정과 독립성 검정의 차이, 그리고 각 검정의 해석 및 적용 사례에 대해 자세히 설명하겠습니다.

1. 카이제곱 검정의 기본 개념

카이제곱 검정은 관찰된 빈도(observed frequency)와 기대 빈도(expected frequency) 간의 차이를 기반으로 데이터를 분석합니다. 카이제곱 값은 다음과 같이 계산됩니다:

카이제곱 통계량은 다음과 함께 정의됩니다:

χ² = ∑((Oᵢ – Eᵢ)² / Eᵢ)

여기서:

  • χ²: 카이제곱 통계량
  • Oᵢ: i번째 범주에서 관찰된 빈도
  • Eᵢ: i번째 범주에서 기대되는 빈도

카이제곱 통계량의 값이 크면 관찰된 빈도와 기대 빈도 간의 차이가 크다는 것을 의미하며, 이는 가설을 기각할 근거가 됩니다.

2. 적합도 검정(Goodness of Fit Test)

적합도 검정은 단일 범주형 데이터 세트가 특정 분포를 따르는지를 검정하는 방법입니다. 예를 들어, 주사위를 던졌을 때 각 면이 나올 확률은 동일하다고 가정할 수 있습니다. 이때 주사위가 공정하지 않다는 가설을 검증하기 위해 적합도 검정을 사용합니다.

2.1. 적합도 검정의 절차

  1. 가설 설정
    • 귀무가설(H0): 데이터가 특정 분포를 따른다.
    • 대립가설(H1): 데이터가 특정 분포를 따르지 않는다.
  2. 기대 빈도 계산
    • 각 범주에 대한 기대 빈도를 계산합니다. 예를 들어, 주사위를 60번 던졌다면 각 면에 대한 기대값은 60/6 = 10입니다.
  3. 카이제곱 통계량 계산
  4. p-값 계산
  5. 결정

2.2. 예제

가정: 주사위를 60번 던졌을 때 각 면이 나온 횟수는 다음과 같다고 합시다:

  • 1: 8회
  • 2: 12회
  • 3: 10회
  • 4: 20회
  • 5: 5회
  • 6: 5회

각 면의 기대 빈도는 10으로 설정됩니다. 이 데이터를 바탕으로 카이제곱 통계량을 계산하면:

χ² = ((8-10)²/10) + ((12-10)²/10) + ((10-10)²/10) + ((20-10)²/10) + ((5-10)²/10) + ((5-10)²/10) = 6.0

자유도(df)는 (범주의 수 – 1)로 계산됩니다. 여기서는 6 – 1 = 5입니다. 카이제곱 분포를 사용하여 p-값을 확인하고, 설정한 유의수준(예: α = 0.05)과 비교하여 귀무가설을 기각할지 결정합니다.

3. 독립성 검정(Test of Independence)

독립성 검정은 두 개의 범주형 변수가 서로 독립인지 여부를 검정하는 방법입니다. 예를 들어, 성별과 흡연 여부의 관계를 분석할 수 있습니다. 이 검정은 주로 교차 분할표(cross-tabulation)를 사용하여 데이터를 배열합니다.

3.1. 독립성 검정의 절차

  1. 가설 설정
    • 귀무가설(H0): 두 변수는 독립적이다.
    • 대립가설(H1): 두 변수는 독립적이지 않다.
  2. 기대 빈도 계산
  3. 기대 빈도는 다음의 공식을 사용하여 계산됩니다:

    Eᵢ = (행 합계 × 열 합계) / 전체 합계

  4. 카이제곱 통계량 계산
  5. p-값 계산
  6. 결정

3.2. 예제

예를 들어, 100명의 샘플에서 성별(남, 여)과 흡연 여부(흡연, 비흡연)의 교차표가 주어졌다고 가정합시다:

성별 흡연 비흡연 합계
30 20 50
10 40 50
합계 40 60 100

기대 빈도는 다음과 같이 계산됩니다:

E(남, 흡연) = (50 × 40) / 100 = 20
E(남, 비흡연) = (50 × 60) / 100 = 30
E(여, 흡연) = (50 × 40) / 100 = 20
E(여, 비흡연) = (50 × 60) / 100 = 30

이제 카이제곱 통계량을 계산합니다:

χ² = ((30-20)²/20) + ((20-30)²/30) + ((10-20)²/20) + ((40-30)²/30) = 10/20 + 10/30 = 0.5 + 0.333 = 0.833

자유도는 (행 수 – 1) × (열 수 – 1)로 계산됩니다. 여기서는 (2-1) × (2-1) = 1입니다. p-값을 계산하고 유의수준과 비교하여 귀무가설을 기각할지 결정합니다.

4. 결과 해석

검정을 통해 p-값이 유의수준보다 작은 경우 귀무가설을 기각하고, 변수 간의 관계가 차이가 있음을 시사합니다. 반면, p-값이 유의수준보다 큰 경우 귀무가설을 채택합니다.

4.1. 카이제곱 검정의 한계

카이제곱 검정은 몇 가지 한계가 있습니다:

  • 샘플 크기가 작을 경우 카이제곱 통계량이 신뢰할 수 없을 수 있습니다.
  • 기대 빈도가 5 이하인 경우 일부 범주에서는 신뢰할 수 있는 결과를 제공하지 않을 수 있습니다.
  • 카이제곱 검정은 범주형 데이터에만 적용 가능합니다.

4.2. 실제 적용 사례

카이제곱 검정은 다양한 분야에서 활용됩니다. 예를 들어:

  • 의학 연구에서 치료 방법과 환자의 반응을 비교할 때 사용됩니다.
  • 사회 조사에서 인구 통계학적 요인과 특정 행동 간의 관계를 평가하는 데 이용됩니다.
  • 마케팅에서 소비자의 구매 행동과 선호도 간의 관계를 분석합니다.

5. 결론

카이제곱 검정은 데이터 분석에 있어 중요한 도구로, 범주형 데이터 간의 관계 및 특징을 이해하는 데 도움을 줍니다. 적합도 검정과 독립성 검정을 통해 우리는 데이터에서 패턴과 통계를 발견하고, 가설을 검증함으로써 연구 및 비즈니스에 가치 있는 통찰을 제공할 수 있습니다.

카이제곱 검정을 올바르게 적용하고 해석하는 것은 데이터 분석에서 필수적인 역량입니다. 따라서, 검정 결과를 다각적으로 분석하고 이를 바탕으로 전략을 세우는 것이 중요합니다.