- MapReduce 개념과 특징
- HDFS에 저장된 파일을 분산 배치분석 할 수 있게 도와주는 프레임워크
- 분할 정복 방식으로 대용량 데이터를 병렬 처리
- 비공유 아키텍쳐
Map | 입력 데이터를 가공 |
Reduce | 맵의 결과를 집계(shuffle) 단계를 거쳐 리듀스의 입력으로 전송 |
- 하둡 맵리듀스 아키텍처
네임노드(NameNode) | 하둡을 이루는 가장 기본적이고 필수적인 데몬으로, 네임 스페이스를 관리하는 마스터 역할을 수행 |
데이터노드(DataNode) | 분산 파일 시스템의 데몬으로 파일의 실질적인 데이터 입출력에 대한 처리를 수행 |
잡트래커(JobTracker) | MapReduce 시스템에서 job이라는 작업을 관리하는 마스터에 해당 (클러스터에 1개의 잡트래커가 존재) |
태스크트래커(TaskTracker) | 작업을 수행하는 워커 데몬이며 슬레이브에 해당 (각 노드에 1개의 테스트 트래커가 존재) |
- 맵리듀스 실행과정
- 분할입력(각 Split이 map 프로세스의 할당단위) → Fork Process → Map → Map Worker: partition → Reduce sort(Shuffle) → Reduce function → Done
'이론' 카테고리의 다른 글
나이브 베이즈 분류모형(Naive Bayes Classifier) (0) | 2022.07.10 |
---|---|
[DB] Relation의 키(key) (0) | 2022.05.07 |
[DB] 데이터베이스 개념 (0) | 2022.04.23 |
[ADP] 시각화 디자인 (0) | 2022.02.13 |
MECE와 strategic thinking (0) | 2021.12.30 |