전체 글 187

[solvesql] 일별 블로그 방문자 수 집계

Q. 2021년 8월 2일부터 2021년 8월 9일까지 날짜별로 몇 명의 방문자가 방문했는지 알고 싶습니다. 해당 일자 내 로그 테이블에 이벤트가 하나라도 기록 된 경우 방문자로 집계합니다. 기간 별 방문자 수를 일별로 추출하는 쿼리를 작성해주세요. 결과 데이터에는 아래 2개 컬럼(dt - 방문일, users - 방문자수)이 들어가야하며, 방문일을 기준으로 오름차순 정렬되어있어야 합니다. - 문제 조건 확인 1. 2021년 8월 2일부터 2021년 8월 9일까지 날짜 → where date(~) >= date('2021-08-02') and date(~) = date('2021-08-02') and event_date_kst = date('2021-08-02') and event_date_kst

[SQL] 연습 2022.10.13

[solvesql] 복수 국적 메달 수상한 선수 찾기

Q. 2000년 이후의 메달 수상 기록만 고려했을 때, 메달을 수상한 올림픽 참가 선수 중 2개 이상의 국적으로 메달을 수상한 기록이 있는 선수의 이름을 조회하는 쿼리를 작성해주세요. 조회된 선수의 이름은 오름차순으로 정렬되어 있어야 합니다. - 문제 조건 확인 1. 2000년 이후의 올림픽 게임 기록만 사용 → where year >= 2000 2. 메달을 수상한 올림픽 참가 선수의 국적이 2개 이상 → where medal not null 사용 및 group by + count(distinct ~ ) 문 필요 예상 3. 조회된 선수의 이름은 오름차순 정렬 → order by name - 테이블 확인 - 풀이과정 1. records 테이블과 games 테이블을 조인, where 절 조건 추가 selec..

[SQL] 연습 2022.10.09

DLRM(Deep Learning Recommendation Model)

해당 포스팅은 DLRM에 관해 공부하면서 남긴 참고용 기록입니다. 영어와 한글을 계속 혼용하고 있으며, 정돈되지 않은 문장 사용은 양해 부탁드립니다. 1. Summary 딥러닝의 발전으로, 신경망 기반 추천 모델은 개인화와 추천 시스템의 중요한 툴임. Facebook research team이 recommendation systems와 predictive analytics의 두 가지 관점을 합쳐서 Deep Learning Recommendation Model(DLRM)을 개발하였고, PyTorch and Caffe2로 implementation을 provide함. 관련 github 링크는 하단의 References의 링크 확인 DLRM은 sparse features*를 임베딩하고, dense featur..

이론 2022.10.07

[책 서평] 바로 시작하는 태블로

데이터 분석을 하려고 데이터를 처음 확인하게 되면 막상 상황에 맞게 어떻게 시각화를 해야할지, 또 인사이트는 어떻게 찾아야 할지 생각보다 어렵다는 것을 느끼게 됩니다. 물론 기존의 엑셀도 데이터 시각화를 할 수 있는 훌륭한 수단이고, 최근에는 파이썬이나 R 처럼 프로그래밍 언어로 여러가지 시각화 차트를 만들어 낼 수도 있을 것입니다. 하지만 그 가운데서도 쉽고 빠르게 시각화를 할 수 있는 태블로라는 도구가 떠오르고 있습니다. 태블로를 한 번이라도 활용해보았다면 매우 직관적으로 인터페이스가 구성되어 있고 몇 번의 클릭과 드래그로 뚝딱 보기 좋은 시각화 자료를 만들어 낼 수 있다는 것을 아실겁니다. 다만 개인적으로 그동안 아쉬웠던 부분이 태블로 관련 국내 리소스가 생각보다 부족한 느낌이었고, 더군다나 책 형..

리뷰 2022.09.28

[R] 데이터 시각화 - 스케일조절

데이터 분석 과정에서 데이터를 전처리 하는 과정은 상당히 많은 시간이 소요된다. 이러한 작업 단계에서 기존의 변수를 변환하거나 새로운 파생 변수를 생성해 내기도 하는데, 기존 변수의 변환 과정에서 범주형 변수를 처리하던지, 수치형 변수를 그룹화 하거나 스케일을 조절하기도 한다. - 데이터 스케일링 보통 데이터들은 각 변수의 범위가 다양할 것이다. 예를 들어 서울의 집값은 몇 억 단위로 값이 저장되어 있겠지만, 각 집의 연식은 10년, 20년처럼 저장되어있을 것이다. 이러한 데이터 범위의 차이가 크게 발생하는 경우 알고리즘은 제대로 작동하지 않는다. 따라서 데이터 전처리 과정에서 스케일링 작업을 해주게 된다. ➢ R 시각화 예시 시각화를 하게 될 경우에 스케일을 변환하게 되면 변수 간의 관계를 부각시킬 수..

[R] 연습 2022.09.25

[R] 상관관계 시각화 - 산점도 매트릭스(산점도 행렬)

- 상관관계란: 두 변수 간의 선형관계를 표현하는 통계적 측도 - 산점도 매트릭스(산점도 행렬)이란: 하나의 디스플레이에 여러 조합의 산점도가 존재 - 가능한 모든 변수 조합의 산점도를 만들어냄 산점도 매트릭스는 데이터의 분포 및 관계를 한눈에 파악할 수 있다. 따라서 변수 변환과 주요 변수 선택에 유용하며, 수치형 변수들 간의 연관성 분석, 아웃라이어 탐지, 군집 식별 등과 같은 비지도 학습에도 활용할 수 있다. ➢ R 시각화 예시 R로는 plot() 함수로 쉽게 표현할 수 있다. 기본 데이터 셋인 mtcars 데이터를 활용하여 시각화 해보았다. # simple plot plot(mtcars[, c(1, 3, 6, 7)]) 좀 더 이쁘게 표현하기 위해서는 GGally 라이브러리의 ggpairs() 함수..

[R] 연습 2022.09.24

정형 데이터를 다루는 머신러닝 문제해결 패턴

인공지능 팩토리 세미나 발표 by 신백균 Source: https://aifactory.space/learning/detail/2064https://youtu.be/b98H87BIrbo Agenda탐색적 데이터 분석(EDA)의 중요성과 개요베이스라인 모델 설계모델 성능 개선 방안 시작하기 전에…머신러닝 문제해결 프로세스문제 이해어떤 데이터를 활용해서 예측?회귀 | 분류?주어진 데이터는 무엇인가?어떻게 접근할 것인가?배경 지식을 활용할 만한 점은 있는가? EDA ★★★주어진 데이터의 구조를 보고 통계값을 구해봄제공된 파일별 용도 파악데이터의 양(레코드 수, 피처 수, 전체 용량 등) - info(), shape 활용어떤 feature가 중요한지, 어떻게 조합해야 할지에 대해서 인사이트를 얻음이름과 의미, ..

워크시트 2022.09.21

nginx restart 안되는 경우

nginx 오류가 발생하여 아래와 같은 결과가 출력되는 경우에 대한 trouble shootingJob for nginx.service failed because the control process exited with error code. See "systemctl status nginx.service" and "journalctl -xe" for details.이럴 경우 위에서 이야기하듯 error code를 확인하도록 journalctl -xe 과 sudo systemctl status nginx.service 명령을 실행하여 확인해보면 Active: Failed 인 상태일 것이다. 그리고 error log 를 확인하여 보면 bind() to 0.0.0.0:443과 0.0.0.0:80 failed ..

Server 2022.09.17

[책 서평] SQL로 시작하는 데이터 분석

데이터 분석 과정에서 SQL을 능숙하게 다룰 줄 아는 것은 중요한 역량이 되었습니다. 다만 출판되어 있는 SQL 관련 서적들은 대부분 기초적인 문법에 대해서만 다루고 있고, 분석을 위한 내용은 사실 많지 않은 것 같습니다. 그러나 최근에 데이터 분석에 관심도 있으면서 SQL 문법도 어느정도 기초적인 문법을 알고 있는 분들이 관심을 가질 만한 책이 출판되었는데, 한빛미디어에서 출판한 이라는 책입니다. 먼저 이 책에 대한 총평으로 시작하자면, SQL을 활용하는 능력을 한 단계 업그레이드 시키고, 실무에서 더 효율적인 분석 작업을 수행하는데 도움이 될 것이라고 생각합니다. 만약 SQL에 대한 기초적인 문법을 알고 있는 분들 중에서 SQL을 더 잘 활용해 보고 싶지만 어떻게 할 수 있을지 모르겠다면, 이 책이 ..

리뷰 2022.09.14

Python을 활용한 AI 모델링 - 전처리 파트

필요 라이브러리 임포트 및 파일 읽어오기라이브러리를 alias로 임포트# numpy import numpy as np # pandas import pandas as pdCSV 파일 읽어오기# 파일명: data.csv # pandas read_csv 함수 활용 # df 변수로 저장 df = pd.read_csv('data.csv')데이터 확인하기데이터 일부 출력df.head() df.tail()자료구조 파악# row, columns, not-null, type df.info()데이터 인덱스, 컬럼명, Values 확인df.index df.columns df.valuesNull 데이터 확인df.isnull().sum()통계 정보df.describe()데이터 전처리 수행컬럼 삭제df.drop('X_1', ax..

[Python] 연습 2022.09.11

장고 https 배포 참고용

https://wikidocs.net/164372 4-16 SSL 이제 브라우저에서 고정 IP 대신 도메인을 입력하여 서버에 접속할수 있게 되었다. 하지만 브라우저의 주소창을 보면 다음과 같이 주의 요함 이라는 경고 메시지가 표시된다. ... wikidocs.net https://windybay.net/post/10/ DigitalOcean에 Django 프로젝트 배포하기 (1) 새로 블로그를 시작하면서 호스팅을 디지털오션으로 옮겼다. 이전 버전 블로그는 pythonanywhere.com 에서 배포를 했었다. pythonanywhere는 서버쪽 … windybay.net https://whatisthenext.tistory.com/123 Nginx 이해하기 및 기본 환경설정 세팅하기 NGINX Nginx..

Server 2022.09.10

R 함수 참고용

ggplot x축 라벨 각도를 90도 돌리기 (링크)theme(axis.text.x=element_text(angle=90, hjust=1)) ggplot(Cars93, aes(x=Type, y=MPG.highway)) + geom_boxplot() + theme_bw() + theme(axis.text.x=element_text(angle=90, hjust=1))맥에서 ggplot 한글 깨질때 해결법 (링크)## 폰트 설정 패키지 설치 install.packages("extrafont") library(extrafont) ## 존재하는 모든 폰트 불러오기 font_import() ## 폰트 설정 theme_set(theme_gray(base_family='NanumGothic')) ## 혹은 theme..

[R] 연습 2022.09.09

파일질라(FileZilla)에서 서버 접속하기

파일질라(FileZilla)를 이용해서 원격 서버에 접속하고 파일을 관리하는 방법에 대한 정리 목차시작하기에 앞서…파일질라(FileZilla) 설치파일질라(FileZilla) 설정Troubleshooting시작하기에 앞서…아래는 파일질라 공식 웹사이트이다. 파일질라 클라이언트를 다운 받을 수 있다.FileZillaAdvertisement: Welcome to the homepage of FileZilla®, the free FTP solution. The FileZilla Client not only supports FTP, but also FTP over TLS (FTPS) and SFTP. It is open source software distributed free of charge under th..

Server 2022.09.03

서버에서 MySQL(MariaDB) 원격 연결 설정 - 추가

추가1. DB default charset 변경DB를 생성하면서 charset을 따로 설정하지 않았을 경우 기본적으로 latin1 으로 설정이 된다. 아래는 기본 언어를 utf8mb4 로 변경하기 위한 과정을 기록한 내용이다.일단 my.cnf 파일을 연다.$ sudo vi /etc/mysql/my.cnf ------------ # vi 편집화면 [client] default-character-sest = utf8mb4 [mysqld] character-set-client-handshake = FALSE chracter-set-server = utf8mb4 collation-server = utf8mb4_general_ci [mysqldump] default-character-set = utf8mb4 [m..

Server 2022.09.02