- 상관관계란: 두 변수 간의 선형관계를 표현하는 통계적 측도
- 산점도 매트릭스(산점도 행렬)이란: 하나의 디스플레이에 여러 조합의 산점도가 존재 - 가능한 모든 변수 조합의 산점도를 만들어냄
산점도 매트릭스는 데이터의 분포 및 관계를 한눈에 파악할 수 있다. 따라서 변수 변환과 주요 변수 선택에 유용하며, 수치형 변수들 간의 연관성 분석, 아웃라이어 탐지, 군집 식별 등과 같은 비지도 학습에도 활용할 수 있다.
➢ R 시각화 예시
R로는 plot() 함수로 쉽게 표현할 수 있다. 기본 데이터 셋인 mtcars 데이터를 활용하여 시각화 해보았다.
# simple plot
plot(mtcars[, c(1, 3, 6, 7)])
좀 더 이쁘게 표현하기 위해서는 GGally 라이브러리의 ggpairs() 함수를 활용하면 좋다.
library(GGally)
ggpairs(mtcars[, c(1, 3, 6, 7)])
➢ 해석에 참고할 사항
- 대각선으로는 단일 변수에 대한 빈도분포가 나타나있다. 이상치를 확인할 수 있을 것이다.
- 종속변수와 독립변수 사이의 관계를 확인할 수 있다.
- 산점도의 모양이 다르면 관계도 다르다는 것을 알 수 있다.
- 독립변수간의 관계를 파악하여 다중공선성 문제를 확인할 수 있다.
'[R] 연습' 카테고리의 다른 글
[R] 데이터 시각화 - 스케일조절 (0) | 2022.09.25 |
---|---|
R 함수 참고용 (0) | 2022.09.09 |
[R] apply() 함수 (0) | 2022.05.21 |
[R] ggplot 이중축 그래프에서 축과 축 이름 색 바꾸기 (0) | 2022.05.20 |
[R] 맥에서 ggplot 한글 깨질 때 (0) | 2022.05.15 |