도수분포표와 히스토그램: 데이터의 특징을 돋보이게 하는 도구
- 데이터 자체(단순한 숫자의 나열)을 뚫어져라 처다본다고 해서 어떤 정보를 속시원하게 알수가 없다.
- ex) 80명의 키를 정리한 데이터를 보고 어떠한 정보를 살펴볼수 있는지 알아보자
- 데이터를 본다면 모두 같지 않고 제각각의 수치로 나타난다는 점을 알수 있다.
- 이렇게 데이터가 다양한 수치로 나타나는 것을 전문적인 용어로 분포한다(discribute)라고 표현한다.
학생 80명의 키(cm)
151 154 160 160 163 156 158 156 154 160
154 162 156 162 157 162 162 169 150 162
154 152 161 160 160 153 155 163 160 159
164 158 150 155 157 161 168 162 153 154
158 151 155 155 165 165 154 148 169 158
146 166 161 143 156 156 149 162 159 164
162 167 159 153 146 156 160 151 151 157
151 156 166 159 157 156 159 156 156 161
- 분포가 생기는 이유
- 수치들이 결정된 이면에 어떤 불확실성(uncertainty)이 움직이고 있기 때문이다.
- 불확실성의 구조가 제각각인 키의 수치를 발생시킨다고 생각하는 것이다.
- 불확실이라는 말로 표현 해도 여기에는 고유한 특징이나 반복되는 것이 있는데 이를 분포의 특성이라고 한다.
- 분포의 특성과 반복되는것을 이끌어 내기 위한 것이 통계이다.
- 통계에서 사용되는 방법 '축약'
- 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출하는 것으로 2가지 방법을 사용한다.
- 그래프로 만들어서 그 특징을 파악할 수 있도록 해야한다.
- 숫자 하나로 특징을 대표하도록 한다.
- 축약을 대표하는 숫자를 통계량이라고 한다.
- 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출하는 것으로 2가지 방법을 사용한다.
히스토그램(막대그래프) 만들기
- 히스토그램을 만들기 위해서는 도수분표표를 만들어야 한다.
도수분표표 만들기
- 데이터 중에서 수치가 가장 큰 것(최대값)과 가장 작은 것 (최소값)을 찾는다.
- 최대값부터 최소값까지 포함되도록 하여 구간을 자르기 좋은 범위(작은 구간)들로 자른다. 이렇게 작은 범위를
'계급'(class)라고 한다. - 계급을 대표하는 수치를 정한다. 기본적으로 아무 값이나 대표로 정해도 되지만, 일반적으로 가장 가운데 값을 선택하는 경우가 많다. 이값을 '계급값'(class value)라고 한다.
- 각 계급에 들어가 있는 데이터의 총 개수를 센다 이것을 '도수(frequency)'라고 한다.
- 각 계급의 도수가 전체에서 차지하는 비율을 계산한다. 이것을 상대도수(relative frequency)라고 한다. 상대도수는 합하면 1이 된다.
- 어느 계급까지의 도수를 모두 합한다. 이것을 누적도수(cumulative frequency)라고 한다. 최종 누적도수는 데이터의 전체 개수와 같다.\
계급 | 계급값 | 도수 | 상대도수 | 누적도수 |
141 ~ 145 | 143 | 1 | 0.0125 | 1 |
146 ~ 150 | 148 | 6 | 0.0750 | 7 |
151 ~ 155 | 153 | 19 | 0.2375 | 26 |
156 ~ 160 | 158 | 30 | 0.3750 | 56 |
161 ~ 165 | 163 | 18 | 0.2250 | 74 |
166 ~ 170 | 168 | 6 | 0.0750 | 80 |
도수분포표의 특징
- 도수분표표를 만들면 잃어버리는 정보가 있다.
- 데이터에 나타나 있던 수치들 자체이다.
- 예를 들어 제 4계급인 150 ~ 160가지의 범위를 보면 30개의 데이터가 있다는걸 알 수 있지만 세부적인 수치는 알수가 없다.
- 도수분표표를 만드는 과정에서 축약을 하는 과정으로 인해 발생한 일이다.
- 도수분표표를 통해 얻을 수 있는 정보가 있다.
- 도수를 통해 다음과 같은 데이터의 특징을 발견할 수 있다.
- 데이터는 균등하게 분포하지 않고 어느 한 곳에 (156 ~ 160) 계급에 집중되어 있다.
- 집중되어 있는 곳을 기점으로 삼으면 작은편에 속하는지 큰편에 속하는지 추이를 알 수 있다. 즉 데이터 분포에 어느 한곳을 축으로 좌우 대칭성이 있다는 것이다.
- 여성들의 키가 정해지게 된 구조 뒤에는 어떠한 불확실성이 있지만 여기에는 고유한 특징이 있다.
- 어떠한 수치든지 가능한 것은 아니다.
- 어느 한 키(158cm) 주변에 집중되어 있다.
- 158cm 기점으로 해서 큰편과 작은 편은 '수치가 별로 보이지 않는다는점이 서로 비슷하다.
- 이러한 특징은 데이터 자체를 그냥 보았을 때 몰랐던 정보이다.
- 도수를 통해 다음과 같은 데이터의 특징을 발견할 수 있다.
- 데이터의 축약은 세부적인 수치를 희생시키지만 이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다.
- 즉 데이터의 축약은 요점을 정리하는 작업
예제의 히스토그램
출처: 세상에서 가장 쉬운 통계학 입문