파이썬 4

[python] OneHotEncoding(원핫인코딩) using pandas, scikit learn

1. 예시 데이터와 목표 데이터 - 먼저 좌측의 X1, X2, X3 처럼 categorical variables 를 원핫인코딩을 통해 우측의 형태처럼 변경시키고자 한다. - 이때는 pandas의 get_dummies() 혹은 scikit learn의 OneHotEncoder 를 사용할 수 있다. 2. pandas → get_dummies() - 공식 레퍼런스 페이지: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html - get_dummies() 함수를 사용하는 법은 굉장히 쉽다. 간단하게 말하면 일단 object data type 인 컬럼을 확인하고, 그 컬럼들만 변경해준다. 아래의 과정을 참고하자. # object 컬럼 확인 df..

[Python] 연습 2022.10.23

텐서플로로 간단한 머신러닝 실습하기

이번 포스팅에서는 머신러닝의 흐름을 학습하고 간단하게 모델을 만들어 본 후 예측까지 실습을 진행해보겠습니다. 머신러닝의 흐름 막연히 머신러닝이라하면 어렵게만 느껴질수도 있지만, 실제로 그 흐름을 이해하고 나면 크게 어렵게 느껴지지 않을 것입니다. 다만 머신러닝을 이해하기 전에 기본적으로 데이터에 대한 이해가 어느정도 뒷받침이 되어 있다면 더욱 좋을 것입니다. 머신러닝 모델을 만드는 과정을 4개의 과정으로 단순화 해보겠습니다. 1단계: 과거의 데이터를 준비합니다. 이때의 과거 데이터는 독립변수와 종속변수가 있는 지도학습(Supervised Learning)이 가능한 데이터라고 하겠습니다. 2단계: 모델의 구조를 만듭니다. 우리는 모델을 만들기 위해서 텐서플로(tensorflow)의 케라스(keras)를 사..

[Python] 연습 2022.07.11

[Python] 판다스 특정 문자열 포함 판단하기

이번 포스팅에서는 데이터프레임의 열에 특정 문자열이 포함되었는지를 판단하고, 이 조건에 해당하는 행만 출력하는 방법을 알아보겠습니다. 이러한 경우에 사용할 수 있는 것이 str.contains( )입니다. 아래와 같은 예시 데이터를 통해서 코드를 실행해보겠습니다. 1. 하나의 열에서 특정 문자를 포함한 레코드만 출력하기 # 구매상품에 '투자'가 있는 레코드만 출력 df[df['구매상품'].str.contains('투자')] 구매상품에 '투자'라는 단어가 포함된 서적만 출력되었음을 알 수 있습니다. 2. 하나의 열에서 특정 문자를 포함한 레코드의 수를 구하기 # 구매상품에 '투자'가 포함된 레코드 수를 구하는 방법 len(df[df.구매상품.str.contains('투자')]) # 결과: 4 레코드의 수를..

[Python] 연습 2022.03.12

[Python] 판다스 문자열 구분자로 나누기

파이썬 판다스에는 문자열을 다룰 수 있는 여러 함수가 존재합니다. 그 중에서 자주 사용할 수 있는 것이 split()일 것입니다. str.split('구분자') 형식을 사용하면 쉽게 컬럼을 나눌 수 있습니다. 4가지 방법을 아래의 예시를 활용하여 연습해보겠습니다. 일단 아래의 예시 데이터를 가운데 공백을 구분자로 하여 '년월일'과 '시분' 정보로 구분해보겠습니다. - 방법1 이 방식은 문자열을 구분하여 발생하는 새로운 열을 직접 데이터프레임에 붙입니다. df['년월일'] = df['회원가입 정보'].str.split(' ').str[0] df['시분'] = df['회원가입 정보'].str.split(' ').str[1] df - 방법2 이 방법은 문자열을 구분하여 새로운 데이터프레임 형태로 바로 생성합니..

[Python] 연습 2022.03.11