- 박스플롯이란?
최댓값, 최솟값, 중앙값, 사분편차를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 극단값들은 어떠한지 등을 쉽게 알 수 있도록 하는 그림이다.
정확한 명칭은 skeletal box-and-whisker plot.
- 박스플롯 구성요소
박스플롯은 박스와 박스 바깥의 선 (Whisker)로 이루어져 있다.
> 박스플롯을 그리는 방법에 대해서는 여러가지 설명이 있지만, R에서 그려지는 박스플롯에 대한 값은 위의 표가 가장정확하게 나타내어주는 듯 하다.
구분 | 설명 |
Whisker | 상자의 좌우, 또는 상하로 뻗어나간 선 |
박스 내부의 가로선 | 중앙값 (median) |
Lower whisker | Maximum observation below upper fence |
Upper whisker | Minimum observation upper lower fence |
IQR (= Inter Quartile Range) | 제 3사분위 수 - 제 1사분위수 (Q3-Q1) |
점 |
이상치 > |
> 박스플롯을 사용하여 파악할 수 있는 것은 개별 변수가 어떠한 형태로 분포하고 있는지에 대한 것이다.
> 또한, 주의해야 할 것은 여기에서 의미하는 MinX가 항상 변수의 min 값을 의미하는 것은 아니라는 점이다.
> 즉 IQR 값을 기준으로 하여, 정규 분포에서 너무 멀리 떨어져 있는 이상치를 제외하여, 어느 정도 의미 있는
표본값들을 추린 후, 각 표본들이 중앙에서 얼마나 멀어져 있고, 어느 부분에 가장 많이 분포되어 있는지를
직감적으로 알 수 있게 하여 준다.
- 생각정리 1.
Kaggle에 올라온 avocado 연간 생산 및 가격 관련 데이터로 분석을 하면서 겪은 것.
아보카도의 일별 총 생산량은 계절에 비해 그 변동폭이 매우 크다.
Min. 1st Qu. Median Mean 3rd Qu. Max.
85 10839 107377 850644 432962 62505647
다음과 같은 경우, Boxplot을 사용하면 이렇게 모든 값들이 이상치로 표시되는 현상을 경험할 수 있다.
- 생각정리 2. (추가 공부 필요)
각 column들이 비슷한 범주 내의 group 들을 연속적인 Boxplot으로 어떻게 그릴 수 있는지?
참고자료
-
지친일상의 비상구 블로그
- 투빅스 빅데이터 강의
http://www.datamarket.kr/xe/index.php?mid=board_AGDR50&page=2&document_srl=192
추가 공부 자료
1. 변화량을 나타내는 통계량 및 사분위수에 대한 개념
'하나. 빅데이터 머신러닝 > > R' 카테고리의 다른 글
[R] 워드 클라우드 만들기 (0) | 2019.10.01 |
---|---|
[R] ggplot2 활용하여 막대그래프 그리기 (0) | 2019.09.27 |
댓글