데이터 분석에서 중심 경향을 이해하는 것은 매우 중요한 작업입니다. 중심 경향은 데이터 집합의 전반적인 성질을 이해하는 데 필수적이며, 이를 위해 가장 많이 사용되는 두 가지 통계 척도가 바로 평균(Mean)과 중앙값(Median)입니다. 이 글에서는 평균과 중앙값의 정의부터 시작하여, 데이터 분포에 따라 이들이 가지는 의미와 그 활용에 대해 심도 있게 논의하겠습니다.
1. 평균(Mean)
평균은 데이터 집합의 전체 값을 데이터의 개수로 나눈 값을 의미합니다. 즉, 평균은 모든 값의 합을 값의 개수로 나누게 되는데, 수식으로 나타내면 다음과 같습니다.
평균(Mean) = (x1 + x2 + … + xn) / n
여기서, xi는 데이터 집합의 각 값, n은 데이터의 수를 나타냅니다. 평균은 직관적으로 데이터의 ‘중심’ 위치를 나타내며, 데이터가 대칭적으로 분포할 때에는 평균이 데이터의 중앙을 잘 나타냅니다. 하지만, 평균은 극단값(Outlier)에 민감하여, 데이터에 비정상적으로 큰 값이나 작은 값이 포함되면 평균이 왜곡될 수 있습니다.
1.1 평균의 예
한 고등학교의 수학 시험 점수를 살펴봅시다. 학생들의 점수가 다음과 같다고 가정합니다.
- 85, 90, 78, 92, 88
이 점수의 평균을 계산하면:
평균 = (85 + 90 + 78 + 92 + 88) / 5 = 86.6
따라서, 이 데이터 집합의 평균 점수는 86.6점입니다. 그런데 만약 한 학생이 부정행위를 하여 0점을 받았다면, 점수는 다음과 같이 변합니다.
- 85, 90, 78, 92, 0
이 경우 평균은:
평균 = (85 + 90 + 78 + 92 + 0) / 5 = 69
위의 예에서 볼 수 있듯이, 하나의 극단값이 전체 평균에 큰 영향을 미쳤습니다. 이는 평균의 한계점 중 하나입니다.
2. 중앙값(Median)
중앙값은 데이터 집합을 정렬한 후, 가운데 위치한 값을 의미합니다. 데이터의 개수가 홀수일 경우, 중앙값은 중앙에 위치한 값이며, 짝수일 경우에는 중앙의 두 값을 평균한 값이 중앙값이 됩니다. 수식으로 나타내면 다음과 같습니다.
중앙값(Median) =
if n is odd: x(n + 1)/2
if n is even: (xn/2 + x(n/2 + 1)) / 2
2.1 중앙값의 예
아래와 같은 수학 시험 점수를 살펴보겠습니다.
- 85, 90, 78, 92, 88
점수를 정렬하면: 78, 85, 88, 90, 92가 됩니다. 따라서 중앙값은 88입니다. 반면 아래와 같은 경우를 살펴봅시다.
- 85, 90, 78, 92
정렬하면: 78, 85, 90, 92가 되어, 중앙값은 (85 + 90) / 2 = 87.5가 됩니다.
3. 평균과 중앙값의 비교
평균과 중앙값은 데이터의 중심 경향성을 표현하는 데 중요한 역할을 합니다. 하지만 이들은 서로 다른 특성을 가지므로, 상황에 따라 적절한 척도를 선택하는 것이 필요합니다.
3.1 대칭 분포와 비대칭 분포
대칭 분포에서는 평균과 중앙값이 거의 비슷한 값을 가집니다. 정규 분포(Normal Distribution)의 경우 평균과 중앙값이 일치합니다. 그러나 데이터가 비대칭적으로 분포할 경우, 평균은 중앙값보다 극단값에 영향을 받아 왜곡된 값을 가질 수 있습니다.
예를 들어, 다음과 같은 데이터 집합을 생각해봅시다.
- 1, 2, 2, 3, 100
이 데이터의 평균과 중앙값은 다음과 같습니다.
평균 = (1 + 2 + 2 + 3 + 100) / 5 = 21.6
중앙값 = 2
여기서처럼 비대칭 분포에서는 평균이 데이터의 실제 중심을 반영하지 못하는 경우가 많습니다.
4. 평균과 중앙값의 활용
평균과 중앙값은 각각의 상황에 맞게 활용할 수 있습니다. 데이터가 대칭 분포를 이루고 있거나 분포가 정규적인 경우 평균을 사용하는 것이 바람직합니다. 반면, 데이터에 극단값이 존재하거나 비대칭적인 경우에는 중앙값이 더 유용합니다. 다양한 분석에서는 두 값을 모두 활용하여 데이터의 성질을 종합적으로 이해할 수 있습니다.
5. 실제 사례 분석
우리가 실제 상황에서 평균과 중앙값을 사용하여 데이터를 분석하는 과정은 간단하지만, 매우 효과적입니다. 예를 들어, 주택 가격 분석에서 특정 지역의 가격 분포를 확인할 때 평균과 중앙값을 비교하는 것이 일반적입니다.
한 부동산 웹사이트에서 수집된 데이터를 기반으로 다음과 같은 데이터가 있다고 가정해 봅시다.
- 150,000, 200,000, 250,000, 300,000, 2,000,000
이 자료의 평균 가격을 계산하면:
평균 = (150,000 + 200,000 + 250,000 + 300,000 + 2,000,000) / 5 = 578,000
하지만 중앙값은:
중앙값 = 250,000
이 경우 평균 가격은 극단값에 의해 크게 왜곡되어 중앙값과의 차이가 매우 큽니다.이 예시는 데이터 분석에서 평균과 중앙값을 동시에 고려해야 할 필요성을 잘 보여주고 있습니다.
6. 결론
평균과 중앙값은 데이터 분석에서 중심 경향성을 이해하는 중요한 도구입니다. 이를 통해 우리는 데이터의 장기적인 경향을 파악할 수 있으며, 올바른 해석을 통해 의사결정에 도움을 받을 수 있습니다.
어떤 상황에서는 평균이 더 적합할 수 있으며, 다른 경우에는 중앙값이 더 유용할 수 있습니다. 따라서 데이터의 분포 형태를 항상 고려해야 하며, 분석에 적합한 통계 데이터를 선택함으로써 더 나은 인사이트를 얻을 수 있습니다.
마지막으로, 데이터의 성격에 따른 분석 결과를 균형 있게 고려하여 통계적 통찰력을 강화하는 것이 중요합니다. 데이터 과학자 및 분석가는 평균과 중앙값의 사용을 통해 데이터를 더욱 심도 깊게 이해할 수 있는 기회를 누릴 수 있습니다.