'Data Engineering' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

Github

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Data Engineering (3)

NakedFlower 님의 블로그

하둡 파일 시스템

기능프로젝트 이름개요분산 코디네이터주키퍼 (Zookeeper)서비스 분산과 서버 간 상황을 관리하며 분산 서버의 통합환경 관리데이터 수집Flume분산된 서버에서 생성된 로그 타입의 비정형 데이터를 수집 Kafka실시간 분산환경에서 메시지를 송수신하는 메시지 전달 솔루션 ScoopHDFS, RDBMS, NoSQL 에서 정형화된 데이터를 수집분산 데이터 저장Hadoop DistributeFile System (HDFS)하둡 클러스터 환경에 분산 저장하는 솔루션으로 Namenode 와 Datanode 로 관리분산 클러스터 관리YARN분산 클러스터의 리소스 관리 솔루션으로 Resource Manager 가 Node Manager 를 관리하는 구조분산 데이터 배치처리Hadoop MapReduceMap 과 Redu..

Data Engineering 2025. 10. 31. 17:21

빅데이터 개론

빅데이터란?정의빅데이터란 기존의 데이터 처리 및 분석 도구로는 수집·저장·관리·처리하기 어려울 정도로 규모가 크거나 복잡한, 다양한 형태의 데이터 집합을 의미한다.정형 데이터뿐만 아니라 반정형(XML, JSON 등) 또는 비정형(텍스트, 이미지, 영상) 데이터를 모두 포함하며, 이들이 대량으로 지속해서 생성되는 환경을 의미한다.특징 (5V)Volume (양): 생성·저장되는 데이터의 양이 방대함 (테라바이트, 페타바이트 이상).Velocity (속도): 데이터 생성 및 처리 요구 속도가 매우 빠르며 실시간 또는 근실시간 분석이 필요함.Variety (다양성): 여러 원천·형식(정형·반정형·비정형)의 데이터가 혼재됨.Veracity (진실성/신뢰성): 데이터의 정확성, 신뢰성, 품질이 중요해짐.Value ..

Data Engineering 2025. 10. 31. 16:38

Apache Kafka

카프카는 아파치 소프트웨어 재단에서 개발한 오픈소스 데이터 스트리밍 플랫폼 대량의 데이터 스트림을 실시간으로 처리하고 저장하기 위해 설계되었으며, 높은 처리량과 낮은 지연 시간을 제공하는 것이 핵심 대규모 데이터 파이프라인, 실시간 분석, 로그 수집, 모니터링 시스템 등 다양한 분야에서 활용 카프카의 핵심 구조프로듀서 : 이벤트를 생성하여 카프카로 전송하는 주체카프카 클러스터 : 데이터를 받아 저장하고 관리하는 분산 데이터 저장소컨슈머 : 카프카 클러스터에서 데이터를 가져와 처리하는 주체데이터 흐름은 Producer → Kafka Cluster → Consumer 형태로 이루어진다. 핵심 개념: 토픽과 파티션Topic이벤트를 주제별로 분류하는 단위프로듀서와 컨슈머는 토픽 단위로 데이터를 송수신Partit..

Data Engineering 2025. 10. 30. 22:16

이전 Prev 1 Next 다음

목록Data Engineering (3)

NakedFlower 님의 블로그

티스토리툴바