35.t-분포(t-Distribution)와 t-검정(t-Test), 단일표본, 독립표본, 대응표본 t-검정

통계학에서 t-분포는 분산이 알려져 있지 않은 정규 분포에서 표본의 평균을 분석하는 데 중요한 역할을 합니다. t-분포는 샘플 크기가 작을 때(즉, n < 30) 사용되며, 표본의 크기가 커질수록 정규 분포에 가까워지는 특성을 가지고 있습니다. t-검정은 두 집단 간의 평균 차이를 비교하는 방법으로, 표본의 분산을 고려하여 검정 통계량을 계산합니다.

1. t-분포(t-Distribution)

t-분포는 학생의 t-분포라고도 알려져 있으며, W.S. Gosset이 ‘Student’라는 필명으로 발표한 자료에 기인합니다. t-분포의 특성은 다음과 같습니다:

  • 대칭성: t-분포는 정규 분포와 같은 대칭성을 가지고 있습니다.
  • 두꺼운 꼬리: t-분포는 정규 분포에 비해 두꺼운 꼬리를 가지고 있어 극단적인 값에 더 민감합니다.
  • 자유도(degrees of freedom): t-분포는 자유도에 따라 형태가 달라지며, 자유도가 증가함에 따라 정규 분포에 가까워집니다.

2. t-검정(t-Test)

t-검정은 주로 다음의 세 가지 유형으로 분류됩니다:

  1. 단일표본 t-검정 (One-Sample t-Test): 한 집단의 평균이 주어진 값과 차이가 있는지를 검증합니다.
  2. 독립표본 t-검정 (Independent Two-Sample t-Test): 두 독립된 집단의 평균이 동일한지를 검증합니다.
  3. 대응표본 t-검정 (Paired Sample t-Test): 두 관련 집단의 평균 차이를 검증합니다.

2.1 단일표본 t-검정 (One-Sample t-Test)

단일표본 t-검정은 관찰된 평균이 주어진 값(모집단 평균)과 유의미하게 다른지를 검정하는 방법입니다. 가설 설정은 다음과 같습니다:

  • 귀무가설(H0): μ = μ0 (모집단 평균이 주어진 값과 같다)
  • 대립가설(H1): μ ≠ μ0 (모집단 평균이 주어진 값과 다르다)

단일표본 t-검정의 검정통계량(t)은 다음과 같이 정의됩니다:

t = (X̄ - μ0) / (s / √n)

여기서,

  • X̄는 표본 평균,
  • μ0는 비교하고자 하는 모집단 평균,
  • s는 표본의 표준편차,
  • n은 표본 크기입니다.

예제:

어떤 학교의 학생들의 수학 시험 평균 점수가 75점이라고 알려져 있습니다. 10명에 대한 표본을 추출한 결과, 평균 점수가 78점이고 표준편차가 10점이었다면, 이 표본이 모집단의 평균과 차이가 있는지를 검정합시다.

  1. 가설 설정
    • 귀무가설: μ = 75
    • 대립가설: μ ≠ 75
  2. 검정통계량 계산
  3. 표본 평균(78), 모집단 평균(75), 표본 표준편차(10), 표본 크기(10)로 t 값을 계산하면:

    t = (78 - 75) / (10 / √10) = 0.9487

  4. t-분포표를 사용하여 유의수준 0.05에서 자유도 9에 해당하는 t-임계값을 찾습니다. 약 ±2.262입니다.
  5. 결과 비교: |0.9487| < 2.262이므로 귀무가설을 기각하지 못합니다. 즉, 표본 평균은 모집단 평균과 유의미한 차이가 없습니다.

2.2 독립표본 t-검정 (Independent Two-Sample t-Test)

독립표본 t-검정은 두 집단이 서로 독립적일 때 평균의 차이를 검정합니다. 가설 설정은 다음과 같습니다:

  • 귀무가설(H0): μ1 = μ2 (두 집단의 평균이 같다)
  • 대립가설(H1): μ1 ≠ μ2 (두 집단의 평균이 다르다)

검정통계량 t는 다음과 같이 정의됩니다:

t = (X̄1 - X̄2) / √((s12/n1) + (s22/n2))

여기서,

  • 1과 X̄2는 각각의 표본 평균,
  • s1과 s2는 각각의 표본 표준편차,
  • n1과 n2는 각각의 표본 크기입니다.

예제:

두 학교의 학생들의 수학 시험 점수를 비교하고자 합니다. 학교 A에서 12명의 학생 평균 점수가 82점, 표준편차 8점이고, 학교 B에서 14명의 학생 평균 점수가 78점, 표준편차 6점입니다. 두 학교의 평균 점수가 유의미한 차이가 있는지 검정해 보겠습니다.

  1. 가설 설정
    • 귀무가설: μA = μB
    • 대립가설: μA ≠ μB
  2. 검정통계량 계산
  3. 표본 평균, 표준편차, 표본 크기로 t 값을 계산하면:

    t = (82 - 78) / √((82/12) + (62/14)) = 1.667

  4. t-분포표를 사용해 자유도 24(12+14-2)에서 유의수준 0.05에 해당하는 t-임계값 약 ±2.064을 찾아 비교합니다.
  5. 결과 비교: |1.667| < 2.064이므로 귀무가설을 기각하지 못합니다. 즉, 두 학교의 평균 점수는 유의미한 차이가 없습니다.

2.3 대응표본 t-검정 (Paired Sample t-Test)

대응표본 t-검정은 같은 집단의 두 시점에서의 측정값을 비교할 때 사용되며, 예를 들어 같은 학생들의 시험 전과 후의 점수를 비교하는 경우입니다. 가설 설정은 다음과 같습니다:

  • 귀무가설(H0): μ = 0 (두 집단의 평균 차이가 없다)
  • 대립가설(H1): μ ≠ 0 (두 집단의 평균 차이가 있다)

검정통계량 t는 다음과 같이 정의됩니다:

t = (X̄d - 0) / (sd / √n)

여기서,

  • d는 차이의 평균,
  • sd는 차이의 표준편차,
  • n은 쌍의 수입니다.

예제:

10명의 학생이 시험을 치렀습니다. 각 학생의 점수는 다음과 같습니다: [60, 65, 70, 75, 80, 85, 90, 95, 100, 105]. 시험 후 각 학생의 점수가 [62, 67, 72, 78, 83, 88, 92, 96, 102, 107]로 증가하였습니다. 이 차이가 유의미한지를 검증해보겠습니다.

  1. 가설 설정
    • 귀무가설: μd = 0
    • 대립가설: μd ≠ 0
  2. 차이 계산 및 통계량 계산
  3. 각 학생의 점수 차이는: [2, 2, 2, 3, 3, 3, 2, 1, 2, 2]입니다. 이 차이의 평균과 표준편차를 계산하여 t 값을 구하면:

    d = 2.2, sd = 0.836, n = 10

    t = (2.2 - 0) / (0.836 / √10) = 7.32

  4. t-분포표를 사용해 자유도 9에서 유의수준 0.05에 해당하는 t-임계값 약 ±2.262을 찾아 비교합니다.
  5. 결과 비교: |7.32| > 2.262이므로 귀무가설을 기각합니다. 즉, 두 점수 간의 차이는 유의미합니다.

3. 결론

t-분포와 t-검정은 통계학에서 매우 중요한 개념입니다. 샘플 크기가 작고 모집단의 분산이 알려져 있지 않은 경우에 적합하며, 표본의 평균을 기준으로 모집단의 평균을 비교하는 데 사용됩니다. 단일표본, 독립표본, 대응표본 t-검정 모두 데이터의 특성과 연구의 목적에 따라 적절하게 선택하여 사용해야 합니다. 이를 통해 연구자들은 올바른 결론을 도출할 수 있으며, 통계적 의사결정을 지원하는 강력한 도구로 활용할 수 있습니다.