본문 바로가기
하나. 빅데이터 머신러닝 /> R

박스플롯 (Box Plot)

by 여기블 2019. 9. 26.
반응형
  • 박스플롯이란?

최댓값, 최솟값, 중앙값, 사분편차를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 극단값들은 어떠한지 등을 쉽게 알 수 있도록 하는 그림이다.

 

정확한 명칭은 skeletal box-and-whisker plot.

 

  • 박스플롯 구성요소 

박스플롯은 박스와 박스 바깥의 선 (Whisker)로 이루어져 있다. 

 

> 박스플롯을 그리는 방법에 대해서는 여러가지 설명이 있지만, R에서 그려지는 박스플롯에 대한 값은 위의 표가 가장정확하게 나타내어주는 듯 하다.  

구분 설명
Whisker 상자의 좌우, 또는 상하로 뻗어나간 선 
박스 내부의 가로선  중앙값 (median) 
Lower whisker Maximum observation below upper fence
Upper whisker Minimum observation upper lower fence
IQR  (= Inter Quartile Range)  제 3사분위 수 - 제 1사분위수 (Q3-Q1) 
점 

이상치 > 

> 박스플롯을 사용하여 파악할 수 있는 것은 개별 변수가 어떠한 형태로 분포하고 있는지에 대한 것이다. 

> 또한, 주의해야 할 것은 여기에서 의미하는 MinX가 항상 변수의 min 값을 의미하는 것은 아니라는 점이다. 

> 즉 IQR 값을 기준으로 하여, 정규 분포에서 너무 멀리 떨어져 있는 이상치를 제외하여, 어느 정도 의미 있는 

   표본값들을 추린 후, 각 표본들이 중앙에서 얼마나 멀어져 있고, 어느 부분에 가장 많이 분포되어 있는지를 

   직감적으로 알 수 있게 하여 준다.

 

  • 생각정리 1. 

Kaggle에 올라온 avocado 연간 생산 및 가격 관련 데이터로 분석을 하면서 겪은 것. 

아보카도의 일별 총 생산량은 계절에 비해 그 변동폭이 매우 크다. 

 

Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
85    10839   107377   850644   432962 62505647 

 

다음과 같은 경우, Boxplot을 사용하면 이렇게 모든 값들이 이상치로 표시되는 현상을 경험할 수 있다. 

  • 생각정리 2. (추가 공부 필요) 

각 column들이 비슷한 범주 내의 group 들을 연속적인 Boxplot으로 어떻게 그릴 수 있는지? 

 

참고자료 

  1. 지친일상의 비상구 블로그 

  2. 투빅스 빅데이터 강의 

https://techntalk.tistory.com/entry/%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-Box-Plot%EA%B3%BC-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%ACnormal-distribution%EC%9D%98-%EA%B4%80%EA%B3%84-%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-%EA%B7%B8%EB%A6%AC%EB%8A%94-%EB%B2%95

 

박스플롯 (Box Plot)과 정규분포(normal distribution)의 관계 - 박스플롯 그리는 법

박스플롯 (Box Plot 또는 a box and whisker diagram)과 정규분포(normal distribution)의 관계는? 1. 박스플롯의 정의 박스플롯은 통계입문할때 재미있게 배우지만 별로 그때 이후로는 잘 이용을 하지 않는다. 실..

techntalk.tistory.com

http://www.datamarket.kr/xe/index.php?mid=board_AGDR50&page=2&document_srl=192

 

데이터시각화 - [BigData -Visualization for R] BoxPlot 2

BoxPlot에 관하여 추가적인 설명을 드리고자 합니다. 이번엔 R 내장 데이터 OrchardSprays 를 사용 하도록 할게요 OrchardSprays str(OrchardSprays) 를 실행하시면 str(OrchardSprays) 'data.frame': 64 obs. of 4 variables: $ decrease : num 57 95 8 69 92 90 15 2 84 6 ... $ rowpos : num 1 2 3 4 5 6 7 8 1 2 ...

www.datamarket.kr

추가 공부 자료

1. 변화량을 나타내는 통계량 및 사분위수에 대한 개념 

https://blog.naver.com/james_parku/220192307498

댓글