35.t-분포(t-Distribution)와 t-검정(t-Test), 단일표본, 독립표본, 대응표본 t-검정

통계학에서 t-분포는 분산이 알려져 있지 않은 정규 분포에서 표본의 평균을 분석하는 데 중요한 역할을 합니다. t-분포는 샘플 크기가 작을 때(즉, n < 30) 사용되며, 표본의 크기가 커질수록 정규 분포에 가까워지는 특성을 가지고 있습니다. t-검정은 두 집단 간의 평균 차이를 비교하는 방법으로, 표본의 분산을 고려하여 검정 통계량을 계산합니다.

1. t-분포(t-Distribution)

t-분포는 학생의 t-분포라고도 알려져 있으며, W.S. Gosset이 ‘Student’라는 필명으로 발표한 자료에 기인합니다. t-분포의 특성은 다음과 같습니다:

대칭성: t-분포는 정규 분포와 같은 대칭성을 가지고 있습니다.
두꺼운 꼬리: t-분포는 정규 분포에 비해 두꺼운 꼬리를 가지고 있어 극단적인 값에 더 민감합니다.
자유도(degrees of freedom): t-분포는 자유도에 따라 형태가 달라지며, 자유도가 증가함에 따라 정규 분포에 가까워집니다.

2. t-검정(t-Test)

t-검정은 주로 다음의 세 가지 유형으로 분류됩니다:

단일표본 t-검정 (One-Sample t-Test): 한 집단의 평균이 주어진 값과 차이가 있는지를 검증합니다.
독립표본 t-검정 (Independent Two-Sample t-Test): 두 독립된 집단의 평균이 동일한지를 검증합니다.
대응표본 t-검정 (Paired Sample t-Test): 두 관련 집단의 평균 차이를 검증합니다.

2.1 단일표본 t-검정 (One-Sample t-Test)

단일표본 t-검정은 관찰된 평균이 주어진 값(모집단 평균)과 유의미하게 다른지를 검정하는 방법입니다. 가설 설정은 다음과 같습니다:

귀무가설(H₀): μ = μ₀ (모집단 평균이 주어진 값과 같다)
대립가설(H₁): μ ≠ μ₀ (모집단 평균이 주어진 값과 다르다)

단일표본 t-검정의 검정통계량(t)은 다음과 같이 정의됩니다:

t = (X̄ - μ₀) / (s / √n)

여기서,

X̄는 표본 평균,
μ₀는 비교하고자 하는 모집단 평균,
s는 표본의 표준편차,
n은 표본 크기입니다.

예제:

어떤 학교의 학생들의 수학 시험 평균 점수가 75점이라고 알려져 있습니다. 10명에 대한 표본을 추출한 결과, 평균 점수가 78점이고 표준편차가 10점이었다면, 이 표본이 모집단의 평균과 차이가 있는지를 검정합시다.

가설 설정

귀무가설: μ = 75
대립가설: μ ≠ 75

검정통계량 계산

표본 평균(78), 모집단 평균(75), 표본 표준편차(10), 표본 크기(10)로 t 값을 계산하면:

t = (78 - 75) / (10 / √10) = 0.9487

t-분포표를 사용하여 유의수준 0.05에서 자유도 9에 해당하는 t-임계값을 찾습니다. 약 ±2.262입니다.
결과 비교: |0.9487| < 2.262이므로 귀무가설을 기각하지 못합니다. 즉, 표본 평균은 모집단 평균과 유의미한 차이가 없습니다.

2.2 독립표본 t-검정 (Independent Two-Sample t-Test)

독립표본 t-검정은 두 집단이 서로 독립적일 때 평균의 차이를 검정합니다. 가설 설정은 다음과 같습니다:

귀무가설(H₀): μ₁ = μ₂ (두 집단의 평균이 같다)
대립가설(H₁): μ₁ ≠ μ₂ (두 집단의 평균이 다르다)

검정통계량 t는 다음과 같이 정의됩니다:

t = (X̄₁ - X̄₂) / √((s₁²/n₁) + (s₂²/n₂))

여기서,

X̄₁과 X̄₂는 각각의 표본 평균,
s₁과 s₂는 각각의 표본 표준편차,
n₁과 n₂는 각각의 표본 크기입니다.

예제:

두 학교의 학생들의 수학 시험 점수를 비교하고자 합니다. 학교 A에서 12명의 학생 평균 점수가 82점, 표준편차 8점이고, 학교 B에서 14명의 학생 평균 점수가 78점, 표준편차 6점입니다. 두 학교의 평균 점수가 유의미한 차이가 있는지 검정해 보겠습니다.

가설 설정

귀무가설: μ_A = μ_B
대립가설: μ_A ≠ μ_B

검정통계량 계산

표본 평균, 표준편차, 표본 크기로 t 값을 계산하면:

t = (82 - 78) / √((8²/12) + (6²/14)) = 1.667

t-분포표를 사용해 자유도 24(12+14-2)에서 유의수준 0.05에 해당하는 t-임계값 약 ±2.064을 찾아 비교합니다.
결과 비교: |1.667| < 2.064이므로 귀무가설을 기각하지 못합니다. 즉, 두 학교의 평균 점수는 유의미한 차이가 없습니다.

2.3 대응표본 t-검정 (Paired Sample t-Test)

대응표본 t-검정은 같은 집단의 두 시점에서의 측정값을 비교할 때 사용되며, 예를 들어 같은 학생들의 시험 전과 후의 점수를 비교하는 경우입니다. 가설 설정은 다음과 같습니다:

귀무가설(H₀): μ = 0 (두 집단의 평균 차이가 없다)
대립가설(H₁): μ ≠ 0 (두 집단의 평균 차이가 있다)

검정통계량 t는 다음과 같이 정의됩니다:

t = (X̄_d - 0) / (s_d / √n)

여기서,

X̄_d는 차이의 평균,
s_d는 차이의 표준편차,
n은 쌍의 수입니다.

예제:

10명의 학생이 시험을 치렀습니다. 각 학생의 점수는 다음과 같습니다: [60, 65, 70, 75, 80, 85, 90, 95, 100, 105]. 시험 후 각 학생의 점수가 [62, 67, 72, 78, 83, 88, 92, 96, 102, 107]로 증가하였습니다. 이 차이가 유의미한지를 검증해보겠습니다.

가설 설정

귀무가설: μ_d = 0
대립가설: μ_d ≠ 0

차이 계산 및 통계량 계산

각 학생의 점수 차이는: [2, 2, 2, 3, 3, 3, 2, 1, 2, 2]입니다. 이 차이의 평균과 표준편차를 계산하여 t 값을 구하면:

X̄_d = 2.2, s_d = 0.836, n = 10

t = (2.2 - 0) / (0.836 / √10) = 7.32

t-분포표를 사용해 자유도 9에서 유의수준 0.05에 해당하는 t-임계값 약 ±2.262을 찾아 비교합니다.
결과 비교: |7.32| > 2.262이므로 귀무가설을 기각합니다. 즉, 두 점수 간의 차이는 유의미합니다.

3. 결론

t-분포와 t-검정은 통계학에서 매우 중요한 개념입니다. 샘플 크기가 작고 모집단의 분산이 알려져 있지 않은 경우에 적합하며, 표본의 평균을 기준으로 모집단의 평균을 비교하는 데 사용됩니다. 단일표본, 독립표본, 대응표본 t-검정 모두 데이터의 특성과 연구의 목적에 따라 적절하게 선택하여 사용해야 합니다. 이를 통해 연구자들은 올바른 결론을 도출할 수 있으며, 통계적 의사결정을 지원하는 강력한 도구로 활용할 수 있습니다.

1. t-분포(t-Distribution)

2. t-검정(t-Test)

2.1 단일표본 t-검정 (One-Sample t-Test)

예제:

2.2 독립표본 t-검정 (Independent Two-Sample t-Test)

예제:

2.3 대응표본 t-검정 (Paired Sample t-Test)

예제:

3. 결론

관련