32.카이제곱 검정(Chi-Square Test), 카이제곱 분포와 자유도 개념

카이제곱 검정(Chi-Square Test)은 주로 두 가지 상황에서 통계적 유의성을 평가하기 위해 사용됩니다. 첫 번째는 범주형 변수가 서로 독립적인지를 판단하는 독립성 검정이며, 두 번째는 관찰된 분포와 기대되는 분포 간의 차이를 평가하는 적합도 검정입니다. 이 검정은 사회과학, 생물학, 의학, 경제학, 마케팅 등 다양한 분야에서 널리 사용됩니다. 본 강좌에서는 카이제곱 검정의 개념, 계산 방법, 예제 및 해석 방법에 대해 자세히 알아보겠습니다.

1. 카이제곱 분포(Chi-Square Distribution)

카이제곱 분포는 주어진 수의 독립적인 표준 정규 분포에서 나온 제곱값들의 합으로 정의됩니다. 이 분포는 주로 카이제곱 검정에서 활용되며, 자주 사용되는 두 가지 중요 파라미터는 자유도(degrees of freedom)와 분포의 모양입니다. 자유도는 제곱이 이루어지는 변수가 몇 개인지를 나타내며, 일반적으로 표본 크기나 범주 수와 관련이 있습니다.

2. 자유도(degrees of freedom)의 개념

자유도는 통계적 추론에서 매우 중요한 개념입니다. 카이제곱 검정에서는 최대 몇 개의 데이터 포인트가 자유롭게 변할 수 있는지를 나타냅니다. 예를 들어, 어떤 표본에서 k개의 카테고리 결과가 있을 때, 자유도는 (k – 1)로 계산됩니다. 이는 모든 카테고리의 합이 고정되어 있기 때문에 하나의 카테고리 결과는 다른 결과들에 의해 결정된다는 사실에서 출발합니다.

2.1. 다양한 자유도의 예제

  • 독립성 검정: 두 개의 범주형 변수(A와 B)가 독립적인지를 검정할 때, 자유도는 (행의 수 – 1) × (열의 수 – 1)로 계산됩니다.
  • 적합도 검정: 관찰된 빈도와 기대 빈도 간의 차이를 검정할 때, 자유도는 (범주의 수 – 1)로 계산됩니다.

3. 카이제곱 검정의 유형

3.1. 독립성 검정

독립성 검정은 두 개의 범주형 변수 간의 관계를 평가합니다. 예를 들어, 특정 제품의 선호도와 소비자의 성별 간의 관계를 분석하고자 할 때 이 검정을 사용할 수 있습니다. 검정의 절차는 다음과 같습니다:

  1. 대립가설(H1): 두 변수는 독립적이지 않다.
  2. 귀무가설(H0): 두 변수는 독립적이다.
  3. 입력 데이터를 바탕으로 카이제곱 통계량을 계산한다.
  4. 자유도를 고려하여 카이제곱 분포를 통해 유의수준을 평가한다.

3.2. 적합도 검정

적합도 검정은 관찰된 데이터가 기대한 분포와 얼마나 잘 맞는지를 평가합니다. 예를 들어, 동전을 던졌을 때 홑면과 짝면의 비율이 각각 50%인지 검정할 수 있습니다. 검정의 절차는 다음과 같습니다:

  1. 대립가설(H1): 관찰된 데이터는 기대 분포와 다르다.
  2. 귀무가설(H0): 관찰된 데이터는 기대 분포와 같다.
  3. 관찰된 빈도와 기대 빈도를 바탕으로 카이제곱 통계량을 계산한다.
  4. 유의수준을 활용하여 가설을 판단한다.

4. 카이제곱 통계량의 계산

카이제곱 통계량(χ²)은 다음의 수식을 통해 계산됩니다:

χ² = Σ((O - E)² / E)

여기서 O는 관찰된 빈도, E는 기대 빈도를 나타냅니다. 모든 범주에 대해 각 범주의 (O-E)²/E의 합을 취하여 최종 카이제곱 통계량을 구합니다.

4.1. 예제

가정: 동전 던지기 실험을 통해 100번의 실험 결과가 다음과 같다고 합시다. 홑면: 45회, 짝면: 55회. 기대 빈도는 각 면이 50회입니다.

  • O(H기): 45, E(기대): 50
  • O(짝): 55, E(기대): 50

카이제곱 통계량은 다음과 같이 계산됩니다:

χ² = ((45 - 50)² / 50) + ((55 - 50)² / 50)
   = (25/50) + (25/50) = 0.5 + 0.5 = 1

5. 유의성 판단

카이제곱 통계량이 계산되면, 자유도를 이용하여 카이제곱 분포에서 해당 통계량 이상의 값이 나올 확률을 구합니다. 이 확률이 미리 정해놓은 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 받아들입니다.

5.1. 신뢰구간과 유의수준

유의수준(α)은 귀무가설이 진짜일 때 이를 잘못 기각할 확률입니다. 일반적으로 사용되는 신뢰수준은 95%로, 이에 해당하는 유의수준은 0.05입니다. 신뢰구간은 결과의 범위를 나타내며, 카이제곱 검정에서는 이 신뢰구간을 통해 결과의 통계적 유의성을 평가할 수 있습니다.

6. 카이제곱 검정의 한계

카이제곱 검정은 몇 가지 한계가 있습니다:

  • 표본 크기: 작은 표본 크기를 사용할 경우 카이제곱 검정의 결과가 신뢰할 수 없을 수 있습니다.
  • 빈도가 낮은 범주: 기대 빈도가 5 미만인 범주에서 카이제곱 검정을 수행하면 잘못된 결과가 나올 수 있습니다.
  • 이원적인 검정: 오직 범주형 데이터에 대해 수행될 수 있으며, 연속형 데이터에는 적합하지 않습니다.

7. 카이제곱 검정의 실제 예

실제 데이터를 통해 카이제곱 검정을 적용해보겠습니다. 데이터는 특정 제품의 선호도와 소비자의 성별을 조사한 결과로 가정합니다:

성별 제품 A 제품 B 제품 C
남성 30 20 10
여성 20 30 15

위 데이터를 바탕으로 카이제곱 검정을 수행하면:

1. 관찰된 빈도 O: 
   남성-A: 30, 남성-B: 20, 남성-C: 10
   여성-A: 20, 여성-B: 30, 여성-C: 15

2. 각 범주의 총합:
   남성: 60, 여성: 65
   전체: 125

3. 기대 빈도 E 계산:
   E(남성-A) = (60 * 50) / 125 = 24
   E(남성-B) = (60 * 50) / 125 = 24
   E(남성-C) = (60 * 25) / 125 = 12
   E(여성-A) = (65 * 50) / 125 = 26
   E(여성-B) = (65 * 50) / 125 = 26
   E(여성-C) = (65 * 25) / 125 = 13

4. 카이제곱 통계량 χ² 계산:
   χ² = ((30-24)²/24) + ((20-24)²/24) + ((10-12)²/12) + ((20-26)²/26) + ((30-26)²/26) + ((15-13)²/13)
      = 1.5 + 0.67 + 0.33 + 1.38 + 0.61 + 0.31
      = 4.0

5. 유의수준 평가: 자유도는 (2-1)(2-1) = 1이며, α = 0.05의 경우 카이제곱 분포에서 4.0 이상인 경우의 수를 찾는다.

결론

카이제곱 검정은 범주형 데이터 분석에서 중요한 통계적 도구로, 변수 간의 관계를 평가하거나 데이터의 적합도를 판단하는 데 유용합니다. 하지만 작은 표본 크기나 빈도가 낮은 범주에서는 주의가 필요하며, 신뢰할 수 있는 데이터 기반에서 결과를 해석해야 합니다. 통계적 분석을 통해 얻은 인사이트는 의사결정의 중요한 요소가 됩니다.

참고 문헌

  • Statistics for Business and Economics by Newbold, Birk, and William.
  • Practical Statistics for Data Scientists by Peter Bruce and Andrew Bruce.
  • Applied Multivariate Statistical Analysis by Johnson and Wichern.