필요 라이브러리 임포트 및 파일 읽어오기
- 라이브러리를 alias로 임포트
# numpy import numpy as np # pandas import pandas as pd
- CSV 파일 읽어오기
# 파일명: data.csv # pandas read_csv 함수 활용 # df 변수로 저장 df = pd.read_csv('data.csv')
데이터 확인하기
- 데이터 일부 출력
df.head() df.tail()
- 자료구조 파악
# row, columns, not-null, type df.info()
- 데이터 인덱스, 컬럼명, Values 확인
df.index df.columns df.values
- Null 데이터 확인
df.isnull().sum()
- 통계 정보
df.describe()
데이터 전처리 수행
- 컬럼 삭제
df.drop('X_1', axis = 1, inplace = True)
- 컬럼 내용 변경하기
# 공백인 값(' ')을 '0'으로 변경 df['X_2'].replace(' ', '0', inplace = True)
- object 타입을 float로 변경
df['X_2'] = df['X_2'].astype(float)
만약 해당 컬럼 값에 문자가 포함되어 있어서 float 형으로 변경할 수 없는 경우,
ValueError: could not convert string to float
에러가 발생함
- 문자열 값을 숫자로 변경 - 추가
# 'Y_1' 컬럼의 ['Yes', 'No']를 [1, 0]으로 변경하기 df['Y_1'].replace(['Yes', 'No'], [1, 0], inplace = True) # 'Y_1' 컬럼의 데이터 분포 확인 df['Y_1'].value_counts()
- 결측치가 있는 행 제거
df.dropna(inplace = True)
Uploaded by N2T