워크시트

웹 스크래핑

Simon Yoon 2022. 5. 6. 23:43
  • 공공데이터포털의 목록 추출
    • R 추출 코드
library(rvest)

# 웹문서 읽기
url <- "https://www.data.go.kr/tcs/dss/selectDataSetList.do"
html <- read_html(url)
html

# 목록 아이템 제목 추출
title <- html_nodes(html, "#apiDataList .title") |> 
  html_text()
title

# 목록 아이템 개요 추출
data_desc <- html_nodes(html, "#apiDataList .ellipsis") |> 
  html_text()
data_desc

# 데이터 정제
title_gsub <- gsub("\r|\n|\t", "", title)
title_gsub
desc_gsub <- gsub("\r|\n|\t", "", data_desc)
desc_gsub

# 데이터 출력
api_df <- data.frame(title=title_gsub, description=desc_gsub)
api_df

결과화면