도수분포표와 히스토그램: 데이터의 특징을 돋보이게 하는 도구

  • 데이터 자체(단순한 숫자의 나열)을 뚫어져라 처다본다고 해서 어떤 정보를 속시원하게 알수가 없다.
  • ex) 80명의 키를 정리한 데이터를 보고 어떠한 정보를 살펴볼수 있는지 알아보자
    • 데이터를 본다면 모두 같지 않고 제각각의 수치로 나타난다는 점을 알수 있다.
    • 이렇게 데이터가 다양한 수치로 나타나는 것을 전문적인 용어로 분포한다(discribute)라고 표현한다.

 

학생 80명의 키(cm)

151   154   160   160   163   156   158   156   154   160
154   162   156   162   157   162   162   169   150   162
154   152   161   160   160   153   155   163   160   159
164   158   150   155   157   161   168   162   153   154
158   151   155   155   165   165   154   148   169   158
146   166   161   143   156   156   149   162   159   164
162   167   159   153   146   156   160   151   151   157
151   156   166   159   157   156   159   156   156   161

 

  • 분포가 생기는 이유
    • 수치들이 결정된 이면에 어떤 불확실성(uncertainty)이 움직이고 있기 때문이다.
    • 불확실성의 구조가 제각각인 키의 수치를 발생시킨다고 생각하는 것이다.
    • 불확실이라는 말로 표현 해도 여기에는 고유한 특징이나 반복되는 것이 있는데 이를 분포의 특성이라고 한다.
    • 분포의 특성과 반복되는것을 이끌어 내기 위한 것이 통계이다.
  • 통계에서 사용되는 방법 '축약'
    • 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미 있는 정보만을 추출하는 것으로 2가지 방법을 사용한다.
      1. 그래프로 만들어서 그 특징을 파악할 수 있도록 해야한다.
      2. 숫자 하나로 특징을 대표하도록 한다.
    • 축약을 대표하는 숫자를 통계량이라고 한다.

히스토그램(막대그래프) 만들기

  • 히스토그램을 만들기 위해서는 도수분표표를 만들어야 한다.

도수분표표 만들기

  1. 데이터 중에서 수치가 가장 큰 것(최대값)과 가장 작은 것 (최소값)을 찾는다.
  2. 최대값부터 최소값까지 포함되도록 하여 구간을 자르기 좋은 범위(작은 구간)들로 자른다. 이렇게 작은 범위를
    '계급'(class)라고 한다.
  3. 계급을 대표하는 수치를 정한다. 기본적으로 아무 값이나 대표로 정해도 되지만, 일반적으로 가장 가운데 값을 선택하는 경우가 많다. 이값을 '계급값'(class value)라고 한다.
  4. 각 계급에 들어가 있는 데이터의 총 개수를 센다 이것을 '도수(frequency)'라고 한다.
  5. 각 계급의 도수가 전체에서 차지하는 비율을 계산한다. 이것을 상대도수(relative frequency)라고 한다. 상대도수는 합하면 1이 된다.
  6. 어느 계급까지의 도수를 모두 합한다. 이것을 누적도수(cumulative frequency)라고 한다. 최종 누적도수는 데이터의 전체 개수와 같다.\
계급 계급값 도수 상대도수 누적도수
141 ~ 145 143 1 0.0125 1
146 ~ 150 148 6 0.0750 7
151 ~ 155 153 19 0.2375 26
156 ~ 160 158 30 0.3750 56
161 ~ 165 163 18 0.2250 74
166 ~ 170 168 6 0.0750 80

 

도수분포표의 특징

  • 도수분표표를 만들면 잃어버리는 정보가 있다.
    • 데이터에 나타나 있던 수치들 자체이다.
    • 예를 들어 제 4계급인 150 ~ 160가지의 범위를 보면 30개의 데이터가 있다는걸 알 수 있지만 세부적인 수치는 알수가 없다. 
      • 도수분표표를 만드는 과정에서 축약을 하는 과정으로 인해 발생한 일이다.
  • 도수분표표를 통해 얻을 수 있는 정보가 있다.
    • 도수를 통해 다음과 같은 데이터의 특징을 발견할 수 있다.
      • 데이터는 균등하게 분포하지 않고 어느 한 곳에 (156 ~ 160) 계급에 집중되어 있다.
      • 집중되어 있는 곳을 기점으로 삼으면 작은편에 속하는지 큰편에 속하는지 추이를 알 수 있다. 즉 데이터 분포에 어느 한곳을 축으로 좌우 대칭성이 있다는 것이다.
    • 여성들의 키가 정해지게 된 구조 뒤에는 어떠한 불확실성이 있지만 여기에는 고유한 특징이 있다.
      1. 어떠한 수치든지 가능한 것은 아니다.
      2. 어느 한 키(158cm) 주변에 집중되어 있다.
      3. 158cm 기점으로 해서 큰편과 작은 편은 '수치가 별로 보이지 않는다는점이 서로 비슷하다.
    • 이러한 특징은 데이터 자체를 그냥 보았을 때 몰랐던 정보이다.
  • 데이터의 축약은 세부적인 수치를 희생시키지만 이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다.
    • 즉 데이터의 축약은 요점을 정리하는 작업

 예제의 히스토그램

도수분표표 히스토그램

출처: 세상에서 가장 쉬운 통계학 입문

+ Recent posts