전체 글 166

FNet으로 Text Classification 해보기

인공지능 팩토리 세미나 발표 by 김노은 Source: https://keras.io/examples/nlp/fnet_classification_with_keras_nlp/ https://aifactory.space/learning/detail/2187 https://towardsdatascience.com/googles-fnet-mixing-tokens-with-fourier-transforms-f98778168c45 Introduction FNet: Mixing Tokens w/ Fourier Transforms Fourier Transforms(FTs) 푸리에 변환은 한 신호(signal)을 수학적인 처리를 통해 진동수(frequency)의 성분으로 분해하는 것이다. 푸리에 변환을 통해 특정 시간 ..

이론 2022.11.03

[python] 프로그래머스 신고결과받기

def solution(id_list, report ,k): answer = [] # id_dict, reporter 생성 id_dict = dict() for user in id_list: id_dict[user] = 0 reporter = id_dict.copy() # report 중복 제거 report = set(report) # count reported times for case in report: id_dict[case.split(' ')[1]] += 1 print(id_dict) # id_dict는 각 회원이 신고받은 횟수 # count messages to reporter for case in report: if id_dict[case.split(' ')[1]] >= k: reporter[..

[Python] 연습 2022.10.29

[python] OneHotEncoding(원핫인코딩) using pandas, scikit learn

1. 예시 데이터와 목표 데이터 - 먼저 좌측의 X1, X2, X3 처럼 categorical variables 를 원핫인코딩을 통해 우측의 형태처럼 변경시키고자 한다. - 이때는 pandas의 get_dummies() 혹은 scikit learn의 OneHotEncoder 를 사용할 수 있다. 2. pandas → get_dummies() - 공식 레퍼런스 페이지: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html - get_dummies() 함수를 사용하는 법은 굉장히 쉽다. 간단하게 말하면 일단 object data type 인 컬럼을 확인하고, 그 컬럼들만 변경해준다. 아래의 과정을 참고하자. # object 컬럼 확인 df..

[Python] 연습 2022.10.23

[solvesql] 지역별 주문의 특징

Q. region, category 별 주문량을 계산해 출력하는 쿼리를 작성해주세요. 결과 데이터는 아래와 같은 테이블 형태로 출력되어야 하고, Region 컬럼 기준 오름차순으로 정렬되어 있어야 합니다. - 문제 조건 확인 1. region, category 별 주문량을 계산 → group by 사용 2. 목표 테이블 형태 → pivot 테이블 형식으로 출력되도록 쿼리를 작성 3. Region 컬럼 기준 오름차순으로 정렬 → order by Region - 테이블 확인 - 풀이과정 1. 먼저 records table 을 확인한 후, region 만 추출 select region from records ; 2. CASE 문을 활용하여, category 가 Furniture 인 경우의 주문건수를 집계 - ..

[SQL] 연습 2022.10.20

[solvesql] 일별 블로그 방문자 수 집계

Q. 2021년 8월 2일부터 2021년 8월 9일까지 날짜별로 몇 명의 방문자가 방문했는지 알고 싶습니다. 해당 일자 내 로그 테이블에 이벤트가 하나라도 기록 된 경우 방문자로 집계합니다. 기간 별 방문자 수를 일별로 추출하는 쿼리를 작성해주세요. 결과 데이터에는 아래 2개 컬럼(dt - 방문일, users - 방문자수)이 들어가야하며, 방문일을 기준으로 오름차순 정렬되어있어야 합니다. - 문제 조건 확인 1. 2021년 8월 2일부터 2021년 8월 9일까지 날짜 → where date(~) >= date('2021-08-02') and date(~) = date('2021-08-02') and event_date_kst = date('2021-08-02') and event_date_kst

[SQL] 연습 2022.10.13

[solvesql] 복수 국적 메달 수상한 선수 찾기

Q. 2000년 이후의 메달 수상 기록만 고려했을 때, 메달을 수상한 올림픽 참가 선수 중 2개 이상의 국적으로 메달을 수상한 기록이 있는 선수의 이름을 조회하는 쿼리를 작성해주세요. 조회된 선수의 이름은 오름차순으로 정렬되어 있어야 합니다. - 문제 조건 확인 1. 2000년 이후의 올림픽 게임 기록만 사용 → where year >= 2000 2. 메달을 수상한 올림픽 참가 선수의 국적이 2개 이상 → where medal not null 사용 및 group by + count(distinct ~ ) 문 필요 예상 3. 조회된 선수의 이름은 오름차순 정렬 → order by name - 테이블 확인 - 풀이과정 1. records 테이블과 games 테이블을 조인, where 절 조건 추가 selec..

[SQL] 연습 2022.10.09

DLRM(Deep Learning Recommendation Model)

해당 포스팅은 DLRM에 관해 공부하면서 남긴 참고용 기록입니다. 영어와 한글을 계속 혼용하고 있으며, 정돈되지 않은 문장 사용은 양해 부탁드립니다. 1. Summary 딥러닝의 발전으로, 신경망 기반 추천 모델은 개인화와 추천 시스템의 중요한 툴임. Facebook research team이 recommendation systems와 predictive analytics의 두 가지 관점을 합쳐서 Deep Learning Recommendation Model(DLRM)을 개발하였고, PyTorch and Caffe2로 implementation을 provide함. 관련 github 링크는 하단의 References의 링크 확인 DLRM은 sparse features*를 임베딩하고, dense featur..

이론 2022.10.07

[책 서평] 바로 시작하는 태블로

데이터 분석을 하려고 데이터를 처음 확인하게 되면 막상 상황에 맞게 어떻게 시각화를 해야할지, 또 인사이트는 어떻게 찾아야 할지 생각보다 어렵다는 것을 느끼게 됩니다. 물론 기존의 엑셀도 데이터 시각화를 할 수 있는 훌륭한 수단이고, 최근에는 파이썬이나 R 처럼 프로그래밍 언어로 여러가지 시각화 차트를 만들어 낼 수도 있을 것입니다. 하지만 그 가운데서도 쉽고 빠르게 시각화를 할 수 있는 태블로라는 도구가 떠오르고 있습니다. 태블로를 한 번이라도 활용해보았다면 매우 직관적으로 인터페이스가 구성되어 있고 몇 번의 클릭과 드래그로 뚝딱 보기 좋은 시각화 자료를 만들어 낼 수 있다는 것을 아실겁니다. 다만 개인적으로 그동안 아쉬웠던 부분이 태블로 관련 국내 리소스가 생각보다 부족한 느낌이었고, 더군다나 책 형..

리뷰 2022.09.28

[R] 데이터 시각화 - 스케일조절

데이터 분석 과정에서 데이터를 전처리 하는 과정은 상당히 많은 시간이 소요된다. 이러한 작업 단계에서 기존의 변수를 변환하거나 새로운 파생 변수를 생성해 내기도 하는데, 기존 변수의 변환 과정에서 범주형 변수를 처리하던지, 수치형 변수를 그룹화 하거나 스케일을 조절하기도 한다. - 데이터 스케일링 보통 데이터들은 각 변수의 범위가 다양할 것이다. 예를 들어 서울의 집값은 몇 억 단위로 값이 저장되어 있겠지만, 각 집의 연식은 10년, 20년처럼 저장되어있을 것이다. 이러한 데이터 범위의 차이가 크게 발생하는 경우 알고리즘은 제대로 작동하지 않는다. 따라서 데이터 전처리 과정에서 스케일링 작업을 해주게 된다. ➢ R 시각화 예시 시각화를 하게 될 경우에 스케일을 변환하게 되면 변수 간의 관계를 부각시킬 수..

[R] 연습 2022.09.25

[R] 상관관계 시각화 - 산점도 매트릭스(산점도 행렬)

- 상관관계란: 두 변수 간의 선형관계를 표현하는 통계적 측도 - 산점도 매트릭스(산점도 행렬)이란: 하나의 디스플레이에 여러 조합의 산점도가 존재 - 가능한 모든 변수 조합의 산점도를 만들어냄 산점도 매트릭스는 데이터의 분포 및 관계를 한눈에 파악할 수 있다. 따라서 변수 변환과 주요 변수 선택에 유용하며, 수치형 변수들 간의 연관성 분석, 아웃라이어 탐지, 군집 식별 등과 같은 비지도 학습에도 활용할 수 있다. ➢ R 시각화 예시 R로는 plot() 함수로 쉽게 표현할 수 있다. 기본 데이터 셋인 mtcars 데이터를 활용하여 시각화 해보았다. # simple plot plot(mtcars[, c(1, 3, 6, 7)]) 좀 더 이쁘게 표현하기 위해서는 GGally 라이브러리의 ggpairs() 함수..

[R] 연습 2022.09.24