NakedFlower 님의 블로그

하둡 파일 시스템 본문

Data Engineering

하둡 파일 시스템

nakedflower 2025. 10. 31. 17:21

하둡 생태계

 

기능 프로젝트 이름 개요
분산 코디네이터 주키퍼 (Zookeeper) 서비스 분산과 서버 간 상황을 관리하며 분산 서버의 통합환경 관리
데이터 수집 Flume 분산된 서버에서 생성된 로그 타입의 비정형 데이터를 수집
  Kafka 실시간 분산환경에서 메시지를 송수신하는 메시지 전달 솔루션
  Scoop HDFS, RDBMS, NoSQL 에서 정형화된 데이터를 수집
분산 데이터 저장 Hadoop Distribute
File System (HDFS)
하둡 클러스터 환경에 분산 저장하는 솔루션으로 Namenode 와 Datanode 로 관리
분산 클러스터 관리 YARN 분산 클러스터의 리소스 관리 솔루션으로 Resource Manager 가 Node Manager 를 관리하는 구조
분산 데이터 배치처리 Hadoop MapReduce Map 과 Reduce 의 2상(phase)로 데이터를 처리하는 하둡 기반의 배치(batch) 작업 플랫폼
인메모리 데이터 처리 Apache Spark 인메모리 상에서의 데이터 처리 플랫폼으로 배치처리, 실시간 스트리밍, SQL 질의와 Graph 처리, 머신러닝 같은 하위 프로젝트를 사용
데이터 처리 Pig 맵리듀스를 처리할 수 있는 스크립트 언어 생성 및 처리 솔루션
Mahout 하둡 기반의 데이터 마이닝 알고리즘을 지원하는 솔루션
데이터웨어하우스 연동 Hive 하둡 기반의 데이터 웨어하우스 시스템
실시간 데이터처리 Storm 하둡 클러스터 기반의 실시간 데이터 처리 솔루션
검색엔진 플랫폼 Solr 하둡 기반의 검색엔진
데이터 저장 HBase 실시간 조회와 업데이트가 가능한 칼럼 기반의 NoSQL 저장소
Cassandra 자체로 구현된 링(Ring) 구조와 키/값 칼럼 기반의 NoSQL 저장소.
SQL과 유사한 CQL 쿼리 사용

 

 

하둡이 유용하게 사용되는 이유

  • 스케일 아웃이 가능한 저비용의 저장소(HDFS)를 사용할 수 있어서
  • 다양한 데이터 타입(정형/반정형/비정형 데이터)을 모두 다룰 수 있어서
  • 분산 클러스터 환경에서도 장애에 효율적으로 대체할 수 있어서
  • 대규모 빅데이터를 적용하여 데이터를 모델링하고 분석할 수 있어서
    • 빅데이터 해석을 위한 딥러닝에서 인공지능 시스템이 더 정확하고 올바른 가중치와 편향을 얻을 수 있도록 양질의 학습 데이터를 공급할 수 있다.

'Data Engineering' 카테고리의 다른 글

빅데이터 개론  (0) 2025.10.31
Apache Kafka  (0) 2025.10.30