안녕하세요?
오늘은 통계에서 많이 쓰이는 박스플롯(box plot)에 대해 알아보겠습니다.
기술 통계학에서 박스 플롯은 수치적 자료를 표현하는 그래프입니다.
박스플롯의 각 요소
박스플롯은 상자 수염그림 이라고도 불리며 아래와 같이 생겼습니다.
- 최솟값 : 제 1사분위에서 1.5 IQR을 뺀 위치이다.
- 제 1사분위(Q1) : 25%의 위치를 의미한다.
- 제 2사분위(Q2) : 50%의 위치로 중앙값(median)을 의미한다.
- 제 3사분위(Q3) : 75%의 위치를 의미한다.
- 최댓값 : 제 3사분위에서 1.5 IQR을 더한 위치이다.
- 최솟값과 최댓값을 넘어가는 위치에 있는 값을 이상치(Outlier)라고 부른다.
- IQR(Interquartile range) : 제 3사분위(Q3) - 제 1사분위(Q1)
박스플롯 그리기
박스 플롯을 그리는 방법은 아래와 같습니다.
1. 주어진 데이터에서 각 사분위수를 계산합니다.
2. 제 1사분위수와 제 3사분위수를 기준으로 박스를 그립니다.
3. 제 2사분위수에 해당하는 위치에 선을 긋습니다.
4. 제 3사분위수에서 1.5IQR을 더한 위치에 가로 선을 긋고 제 3사분위수부터 가로선까지 세로선을 긋습니다.
5. 제 1사분위수에서 1.5IQR을 뺀 위치에 가로 선을 긋고 제 1사분위수부터 가로선까지 세로선을 긋습니다.
6. 4,5번에 그은 직선을 넘어서는 위치에 존재하는 값은 이상치로, 동그라미나 점으로 표시합니다.
Reference
https://newsjel.ly/archives/newsjelly/14177
https://leebaro.tistory.com/entry/%EB%B0%95%EC%8A%A4-%ED%94%8C%EB%A1%AFbox-plot-%EC%84%A4%EB%AA%85