pandas 3

[python] 리스트 형태의 값을 분리하여 각 하나의 값으로 표현하기

제목만 보면 어떤 말인지 이해하기 어려울 수 있으나, 아래의 예시 데이터처럼 값에 리스트가 들어가 있는 경우, 각 리스트 내 요소를 전개하여 따로 레코드를 생성해 주는 방법에 대한 것입니다. 이럴 때는 pandas 의 explode() 함수를 사용해주면 됩니다. ( pandas explode document 링크 ) 1. 예시 데이터 생성 import pandas as pd data = [[3, 1, ['가', '나', '다']], [4, 0, ['라', '마', '바']], [5, 1, ['아', '자', '차']]] col_names = ['x1', 'x2', 'x3'] df = pd.DataFrame(data=data, columns=col_names) df 2. explode 사용 'x3'에 리스..

[Python] 연습 2022.11.12

[python] json 파일 data frame 으로 읽기

1. 간단한 json 파일 [ { "id": "A001", "city": "Tokyo", "country": "Japan", }, { "id": "B012", "city": "Jerusalem", "country": "Isreal", }, { "id": "C123", "city": "Busan", "country": "South Korea", } ] 위와 같은 json 파일을 pandas 로 읽어오려면, 아래와 같이 코드를 작성할 수 있다. import pandas as pd df = pd.read_json('./data/simple.json') 2. json 파일 내부 요소를 불러오기 ( nest list 형태 ) 만약에 아래와 같은 구조를 보이는 json 파일이라면, 위에서처럼 단순히 read_jso..

[Python] 연습 2022.11.11

[python] OneHotEncoding(원핫인코딩) using pandas, scikit learn

1. 예시 데이터와 목표 데이터 - 먼저 좌측의 X1, X2, X3 처럼 categorical variables 를 원핫인코딩을 통해 우측의 형태처럼 변경시키고자 한다. - 이때는 pandas의 get_dummies() 혹은 scikit learn의 OneHotEncoder 를 사용할 수 있다. 2. pandas → get_dummies() - 공식 레퍼런스 페이지: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html - get_dummies() 함수를 사용하는 법은 굉장히 쉽다. 간단하게 말하면 일단 object data type 인 컬럼을 확인하고, 그 컬럼들만 변경해준다. 아래의 과정을 참고하자. # object 컬럼 확인 df..

[Python] 연습 2022.10.23