[R] 연습

[R] 상관관계 시각화 - 산점도 매트릭스(산점도 행렬)

Simon Yoon 2022. 9. 24. 23:41

- 상관관계란: 두 변수 간의 선형관계를 표현하는 통계적 측도

- 산점도 매트릭스(산점도 행렬)이란: 하나의 디스플레이에 여러 조합의 산점도가 존재 - 가능한 모든 변수 조합의 산점도를 만들어냄

 

산점도 매트릭스는 데이터의 분포 및 관계를 한눈에 파악할 수 있다. 따라서 변수 변환과 주요 변수 선택에 유용하며, 수치형 변수들 간의 연관성 분석, 아웃라이어 탐지, 군집 식별 등과 같은 비지도 학습에도 활용할 수 있다.


➢ R 시각화 예시

R로는 plot() 함수로 쉽게 표현할 수 있다. 기본 데이터 셋인 mtcars 데이터를 활용하여 시각화 해보았다.

# simple plot
plot(mtcars[, c(1, 3, 6, 7)])

plot() 함수 사용 예시

 

좀 더 이쁘게 표현하기 위해서는 GGally 라이브러리ggpairs() 함수를 활용하면 좋다.

library(GGally)
ggpairs(mtcars[, c(1, 3, 6, 7)])

ggpairs() 함수 사용 예시


➢ 해석에 참고할 사항

  1. 대각선으로는 단일 변수에 대한 빈도분포가 나타나있다. 이상치를 확인할 수 있을 것이다.
  2. 종속변수와 독립변수 사이의 관계를 확인할 수 있다.
  3. 산점도의 모양이 다르면 관계도 다르다는 것을 알 수 있다.
  4. 독립변수간의 관계를 파악하여 다중공선성 문제를 확인할 수 있다.