리뷰

[책 서평] AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋

Simon Yoon 2022. 3. 6. 16:58

데이터 분석을 하다 보면 적절한 데이터셋을 찾는 것도 일이다. 목적에 맞는 데이터를 어디서 얻을 수 있는지도 모를뿐더러 사용할 만한 데이터셋이 존재하는지 조차도 모를 수 있다. 특히나 품질 좋고 깔끔한 데이터셋을 구하는 일은 시간 소모도 꽤 크다.

책 표지

이번에 <AI, 빅데이터 활용이 쉬워지는 142가지 데이터셋> 도서를 생능북스에서 제공받아 읽어보고 책 서평을 작성하게 되었다. 프로젝트를 진행할 때면 항상 구글에서 탐색하느라 힘들었는데, 마치 가뭄의 단비 같은 책처럼 느껴졌다.

 

이 책이 소개하고 있는 데이터셋 종류가 다양해서 많은 분석가에게 도움이 될 수 있을 것 같다. 특히 영상, 자연어처리, 소리에 대한 분야라면 더 관심을 가져볼만하다. 자연어처리에 대한 데이터셋을 몇 개 찾아봤는데, 관련 흥미로운 논문들도 있어서 어떤 방식으로 활용할 수 있을지 등에 대해서도 알아볼 수 있어서 좋았다. 영상 데이터셋에 대한 비중이 많아서 AI 관련 준비하는 분도 관심을 가져볼만 한 것 같다.

데이터셋 예시

다소 데이터가 전문적으로 느껴질 수 있어서 마케팅이나 일반적인 가벼운 데이터 분석을 준비하는 분과는 어울리지 않을 수도 있겠다. 어쩌면 비즈니스 도메인 영역에서 도움이 될수도 있으나 이 책에서도 막상 활용할만한 데이터셋을 찾지 못하는 분도 분명 계실 것 같다. 하지만 관련 영역에 있는 대학(원)생이나 AI 프로젝트 실무자 분들은 도움이 될 듯 싶다.

 

만약 차후에 관련 도서가 또 나온다면 금융 데이터나 좀 더 비즈니스 영역에서 사용할 만한 주제의 데이터에 대한 정리가 있으면 큰 도움이 될 것 같다. 개인적으로는 이번 도서에서 다룬 내용들도 추후에 활용할 일이 생길지도 모르겠다. 그리고 책 앞부분에 저작권과 관련된 내용을 정리해 둔 것을 읽으면서 좀 더 활용에 유의할 점도 알게되어서 좋았다.

 

결론적으로 AI 관련 데이터를 계속 봐야할 일이 있다면 이 책을 사전처럼 옆에 두고 필요할 때마다 사용해볼만 하다고 생각한다. 충분히 좋은 데이터들을 소개하고 있으며, 관련 연구들 또한 흥미로워서 찾아볼만 하다.