8.공분산(Covariance)과 상관계수(Correlation Coefficient), 공분산과 상관계수의 차이점과 계산법

통계학에서 두 변수 간의 관계를 이해하고 분석하는 것은 데이터 분석의 핵심입니다. 이때 공분산과 상관계수는 두 변수 간의 관계의 방향과 강도를 평가하는 데 사용되는 두 가지 중요한 개념입니다. 이 글에서는 공분산과 상관계수의 정의, 계산 방법, 그리고 둘 사이의 차이점에 대해 자세히 설명하겠습니다.

1. 공분산(Covariance)

공분산은 두 변수의 분산이 어떻게 함께 변하는지를 나타내는 통계적 수치입니다. 즉, 두 변수 X와 Y가 동시에 어떻게 변화하는지를 보여줍니다. 수학적으로 공분산은 다음과 같이 정의됩니다:

공분산 계산식:
Covariance formula

여기서:

  • Cov(X, Y): X와 Y의 공분산
  • Xi: X의 각 데이터 포인트
  • Yi: Y의 각 데이터 포인트
  • &barX: X의 평균
  • &barY: Y의 평균
  • N: 데이터 포인트의 수

1.1. 공분산의 해석

공분산의 값은 다음과 같이 해석할 수 있습니다:

  • 양수: 변수 X와 Y가 함께 증가하거나 함께 감소하는 경향이 있음을 나타냅니다. 즉, 두 변수가 긍정적인 관계를 가집니다.
  • 음수: 변수 X가 증가할 때 Y는 감소하는 경향이 있음을 나타냅니다. 즉, 두 변수가 부정적인 관계를 가집니다.
  • 0: 두 변수 간에 관계가 없거나 직선적인 관계가 없음을 나타냅니다.

2. 상관계수(Correlation Coefficient)

상관계수는 두 변수 간의 선형 관계의 강도를 정량적으로 측정하는 통계적 수치입니다. 상관계수는 -1에서 1까지의 값을 가지며, 이 값을 통해 두 변수 간의 관계를 명확하게 이해할 수 있습니다.

상관계수 계산식:
Correlation coefficient formula

여기서:

  • r: 상관계수
  • Cov(X, Y): X와 Y의 공분산
  • σX: X의 표준편차
  • σY: Y의 표준편차

2.1. 상관계수의 해석

상관계수는 다음과 같이 해석할 수 있습니다:

  • 1: 완벽한 양의 선형 관계(모든 데이터 포인트가 직선에 놓임).
  • -1: 완벽한 음의 선형 관계.
  • 0: 두 변수 간에 선형 관계가 없음.
  • 0 < r < 1: 약한 양의 상관관계.
  • -1 < r < 0: 약한 음의 상관관계.

3. 공분산과 상관계수의 차이점

공분산과 상관계수는 모두 두 변수 간의 관계를 나타내지만, 다음과 같은 몇 가지 중요한 차이점이 있습니다:

  • 값의 범위: 공분산은 실수로 표현되며, 그 값은 무한대에 이를 수 있지만, 상관계수는 -1과 1 사이의 값으로 제한됩니다.
  • 관계의 강도: 공분산은 두 변수의 단위에 따라 달라지기 때문에 해석이 모호할 수 있는 반면, 상관계수는 단위에 관계없이 관계의 강도를 나타내기 때문에 해석이 간편합니다.
  • 정규화: 상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화된 값이지만, 공분산은 그대로 두 변수의 단위로 계산됩니다.

4. 공분산과 상관계수 계산 예제

이 섹션에서는 간단한 예제를 통해 공분산과 상관계수를 계산해보겠습니다. 예를 들어, 두 변수 X와 Y의 데이터 세트가 다음과 같다고 가정합니다:

    X: [3, 4, 5, 6, 7]
    Y: [1, 2, 3, 4, 5]
    

4.1. 공분산 계산

먼저 X와 Y의 평균을 계산합니다:

  • &barX = (3 + 4 + 5 + 6 + 7) / 5 = 5
  • &barY = (1 + 2 + 3 + 4 + 5) / 5 = 3

이제 공분산을 계산합니다:

    Cov(X,Y) = (1/(5-1)) * [ (3-5)(1-3) + (4-5)(2-3) + (5-5)(3-3) + (6-5)(4-3) + (7-5)(5-3) ]
            = (1/4) * [ 4 + 1 + 0 + 1 + 4 ]
            = (1/4) * 10 = 2.5
    

4.2. 상관계수 계산

다음으로 X와 Y의 표준편차를 계산합니다:

  • σX = sqrt( [(3-5)² + (4-5)² + (5-5)² + (6-5)² + (7-5)²] / (5-1) ) = sqrt( [4 + 1 + 0 + 1 + 4] / 4 ) = sqrt(10/4) = sqrt(2.5)
  • σY = sqrt( [(1-3)² + (2-3)² + (3-3)² + (4-3)² + (5-3)²] / (5-1) ) = sqrt( [4 + 1 + 0 + 1 + 4] / 4 ) = sqrt(10/4) = sqrt(2.5)

이제 상관계수를 계산합니다:

    r = Cov(X,Y) / (σ_X * σ_Y) = 2.5 / (sqrt(2.5) * sqrt(2.5)) = 2.5 / 2.5 = 1
    

이 결과는 X와 Y가 완벽한 양의 선형 관계를 가진다는 것을 나타냅니다.

5. 결론

공분산과 상관계수는 두 변수 간의 관계를 분석하는 데 필수적인 도구입니다. 공분산은 두 변수가 함께 어떻게 변하는지를 보여주고, 상관계수는 그 관계의 강도를 정량적으로 나타냅니다. 따라서 데이터 분석 시, 이 두 개념을 이해하고 활용하는 것은 매우 중요합니다.