[Python] 연습

Python을 활용한 AI 모델링 - 전처리 파트

Simon Yoon 2022. 9. 11. 23:38

필요 라이브러리 임포트 및 파일 읽어오기

  • 라이브러리를 alias로 임포트
    # numpy
    import numpy as np
    # pandas
    import pandas as pd
  • CSV 파일 읽어오기
    # 파일명: data.csv
    # pandas read_csv 함수 활용
    # df 변수로 저장
    
    df = pd.read_csv('data.csv')

데이터 확인하기

  • 데이터 일부 출력
    df.head()
    df.tail()
  • 자료구조 파악
    # row, columns, not-null, type
    df.info()
  • 데이터 인덱스, 컬럼명, Values 확인
    df.index
    df.columns
    df.values
  • Null 데이터 확인
    df.isnull().sum()
  • 통계 정보
    df.describe()

데이터 전처리 수행

  • 컬럼 삭제
    df.drop('X_1', axis = 1, inplace = True)
  • 컬럼 내용 변경하기
    # 공백인 값(' ')을 '0'으로 변경
    df['X_2'].replace(' ', '0', inplace = True) 
  • object 타입을 float로 변경
    df['X_2'] = df['X_2'].astype(float)

    만약 해당 컬럼 값에 문자가 포함되어 있어서 float 형으로 변경할 수 없는 경우, ValueError: could not convert string to float 에러가 발생함

  • 문자열 값을 숫자로 변경 - 추가
    # 'Y_1' 컬럼의 ['Yes', 'No']를 [1, 0]으로 변경하기
    df['Y_1'].replace(['Yes', 'No'], [1, 0], inplace = True)
    
    # 'Y_1' 컬럼의 데이터 분포 확인
    df['Y_1'].value_counts()
  • 결측치가 있는 행 제거
    df.dropna(inplace = True)


Uploaded by N2T