이론

MapReduce

Simon Yoon 2022. 4. 30. 22:08
  • MapReduce 개념과 특징
    • HDFS에 저장된 파일을 분산 배치분석 할 수 있게 도와주는 프레임워크
    • 분할 정복 방식으로 대용량 데이터를 병렬 처리
    • 비공유 아키텍쳐
Map 입력 데이터를 가공
Reduce 맵의 결과를 집계(shuffle) 단계를 거쳐 리듀스의 입력으로 전송
  • 하둡 맵리듀스 아키텍처
네임노드(NameNode) 하둡을 이루는 가장 기본적이고 필수적인 데몬으로, 네임 스페이스를 관리하는 마스터 역할을 수행
데이터노드(DataNode) 분산 파일 시스템의 데몬으로 파일의 실질적인 데이터 입출력에 대한 처리를 수행
잡트래커(JobTracker) MapReduce 시스템에서 job이라는 작업을 관리하는 마스터에 해당
(클러스터에 1개의 잡트래커가 존재)
태스크트래커(TaskTracker) 작업을 수행하는 워커 데몬이며 슬레이브에 해당
(각 노드에 1개의 테스트 트래커가 존재)
  • 맵리듀스 실행과정
    • 분할입력(각 Split이 map 프로세스의 할당단위) → Fork Process → Map → Map Worker: partition → Reduce sort(Shuffle) → Reduce function → Done

'이론' 카테고리의 다른 글

나이브 베이즈 분류모형(Naive Bayes Classifier)  (0) 2022.07.10
[DB] Relation의 키(key)  (0) 2022.05.07
[DB] 데이터베이스 개념  (0) 2022.04.23
[ADP] 시각화 디자인  (0) 2022.02.13
MECE와 strategic thinking  (0) 2021.12.30