데이터 시각화 2

[R] 데이터 시각화 - 스케일조절

데이터 분석 과정에서 데이터를 전처리 하는 과정은 상당히 많은 시간이 소요된다. 이러한 작업 단계에서 기존의 변수를 변환하거나 새로운 파생 변수를 생성해 내기도 하는데, 기존 변수의 변환 과정에서 범주형 변수를 처리하던지, 수치형 변수를 그룹화 하거나 스케일을 조절하기도 한다. - 데이터 스케일링 보통 데이터들은 각 변수의 범위가 다양할 것이다. 예를 들어 서울의 집값은 몇 억 단위로 값이 저장되어 있겠지만, 각 집의 연식은 10년, 20년처럼 저장되어있을 것이다. 이러한 데이터 범위의 차이가 크게 발생하는 경우 알고리즘은 제대로 작동하지 않는다. 따라서 데이터 전처리 과정에서 스케일링 작업을 해주게 된다. ➢ R 시각화 예시 시각화를 하게 될 경우에 스케일을 변환하게 되면 변수 간의 관계를 부각시킬 수..

[R] 연습 2022.09.25

[R] 상관관계 시각화 - 산점도 매트릭스(산점도 행렬)

- 상관관계란: 두 변수 간의 선형관계를 표현하는 통계적 측도 - 산점도 매트릭스(산점도 행렬)이란: 하나의 디스플레이에 여러 조합의 산점도가 존재 - 가능한 모든 변수 조합의 산점도를 만들어냄 산점도 매트릭스는 데이터의 분포 및 관계를 한눈에 파악할 수 있다. 따라서 변수 변환과 주요 변수 선택에 유용하며, 수치형 변수들 간의 연관성 분석, 아웃라이어 탐지, 군집 식별 등과 같은 비지도 학습에도 활용할 수 있다. ➢ R 시각화 예시 R로는 plot() 함수로 쉽게 표현할 수 있다. 기본 데이터 셋인 mtcars 데이터를 활용하여 시각화 해보았다. # simple plot plot(mtcars[, c(1, 3, 6, 7)]) 좀 더 이쁘게 표현하기 위해서는 GGally 라이브러리의 ggpairs() 함수..

[R] 연습 2022.09.24