다양한 기록

Big Data, 하둡 본문

인공지능융합플랫폼

Big Data, 하둡

라구넹 2024. 11. 24. 02:09

기존의 데이터베이스로는 수집, 저장, 분석 따위를 수행하기가 어려울만큼 방대한 양의 데이터

대량의 정형 및 비정형의 데이터를 분석해 가치를 창출하고 결과를 분석하는 기술

 

"데이터는 미래 경쟁력을 좌우하는 21세기 원유"

21세기 기업에서 가장 중요한 자산은 데이터이며, 이를 관리하고 여기서 가치를 이글어내지 못하면 경쟁에서 살아남을 수 없음

 

  과거 현재
데이터 형태 특정 양식에 맞춰 분류 형식이 없고 다양
데이터 속도 Batch Near Real time
데이터 처리 목적 과거 분석 최적화 혹은 예측
데이터 처리 비용 국가 정부 수준 개별 기업 수준

 

빅데이터 특징: 3V + 2V + 1V

1. Volume (크기, 데이터 양)

2. Variety (다양한 종류의 데이터, 정형/비정형)

3. Velocity (속도, 빠르게 처리하고 분석)

4. Veracity (정확성, 수집 데이터가 정확하고 쓸만한지)

5. Variability (가변성, 맥락에 따라 변함)

6. Visualization (시각화, 정보사용자의 이해 정도)

 

 

빅데이터 플랫폼

- 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경

- 빅데이터를 분석하거나 활용하는데 필요한 필수 인프라, 빅데이터 플랫폼은 빅데이터를 발굴하고 보관, 가공하는 일련의 과정을 이음새 없이(Seamless) 통합적으로 제공

 

분석 기법

1. 분석 기술 (Analysis Technique)

- Divade and Conquer

- 아파치 하둡 : Map-Reduce

- NoSQL

 

2. 표현 기술 (Visualization Technique)

- 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적 표현

- R

 

빅데이터 분석 종류

1. 현황(진단) 분석 (Descriptive or Diagnostic Analysis)

- 과거 데이터를 바탕으로 한 일반적인 기초 통계를 통해서 전반적인 상황 파악, 이해

- 빈도나 합산 등을 이용해 알아보기 쉽게 정리하여 비교 검증하고 사건에 대한 원인 파악하여 진단

- 과거에 무슨일이(현황), 왜(진단) 일어났나?

- ex. 백화점의 매출이 왜 적게/많게 나왔는지

 

2. 예측(추정) 분석 (Predictive or Likelihood Analysis)

- 과거나 현재 데이터에 기초해서 실제 존재하고 있지만 모르는 사실을 추정, 또는 가까운 미래에 발생할 가능성이 있는 사안들을 추측

- 무슨 일이 일어날 것인가?

- ex. 과거 매출 데이터와 다양한 경제 변수, 내부 비즈니스 환경 등을 고려하여 내년 매출을 추측

 

3. 예측 최적화 분석 (Predictive Optimization Analysis)

- 추정 분석 혹은 예측 분석 모델을 실제 시행하였을 때 가장 바람직한 결과가 예상되는 모델이 어떤 것인지를 분석

- 어떻게 원하는 결과가 일어나게 할 것인가?

- ex. 내년 매출과 함께 내년 반품률 등을 예측해 내년 구매 예산에 반영하는 시나리오, 즉 제한된 자원 안에서 최적의 구매 예산을 도출해내기 위한 것

 

다양한 분석 도구들

1. 분석 소프트웨어

오픈소스 상업용
RapidMiner/Rapid Analytics Excel
R RapidMiner/Rapid Analytics (상용판)
Weka/Pentaho SAS
Python StatSoftStstistica
MATLAB IBM SPSS
Orange SQL Server
기타 무료 분석/데이터마이닝 SW Tableau
GNU Octave IBM SPSS Modeler
H2O  

 

2. 분석 알고리즘

알고리즘 주 사용 분야
Uplift Modeling 마케팅 켐페인, 단계적 추정 및 예측 분석
Survival Analysis 의료 통계, 설비 분야 사건 예측 (이탈, 사망, 고장 등)
회귀 분석 (Reression, Logistic) 예측 분석, 추정 모델/분석(매출, 신용, 평점 등)
시각화 (Visualization) 원인과 관계 분석, GIS로 위치 분석
군집 분석 (Clustering, K-mean) 그룹화, 프로파일링, 야후/아마존/구글에서 개인화 서비스
앙상블 기법 (Ensemble method) 넷플릭스, 분류, 예측 최적화 등의 결합 분석
Social Network Analysis 관계망 분석(사람, 통화, SNS 등), 테러리스트 연결 분석,
통신사 고객 이탈 분석 등
이상치 감지 (Anomaly/Deviation Detection) 사기 감지나 품질 관리 등 이상치 분석
Association Rules 장바구니 분석, 관계 분석 등
Text Mining 시대 경향 및 감성 분석

 

빅데이터 플랫폼 기본 구성

데이터 영역

- Inmemory Appliance

- Database Appliance

- Enterprise Data Warehouse

- Local Data Warehouse

- Data Mart

 

빅데이터 에코시스템(하둡)

- 검색 및 시각화 (Lucence)

- Data 지휘 (Flume, Zookeeper)

- 데이터 접근 (Pig, Have, Sqoop)

- NoSQL DB (Hbase, MongoDB, Couch)

 

전사 기업 정보 관리

- Data Governance

- Data Integration

- Data Quality

- Data Visualization

- Master Data Management

 

분석 툴, 인사이트, BI

- Machine Learning (패턴 발견)

- 추정, 추천

- 예측

- 기초 통계

- 보고서, 스코어카드, 대시보드

 

...

데이터 시각화


빅데이터 플랫폼 구축 과정

데이터 소스 => ETL => 신호 생성 => 분석 => 접근 => 조치

* ETL = Extract, Transform, Load


데이터 사이언티스트

데이터를 의미있는 정보로 바꾸는 사람

통계햑, 수학, 모델링 지식 + 컴퓨터 공학 + 비즈니스 지식 + 시각화

 

하둡(Hadoop)

- 빅데이터 처리용 오픈소스 분산 컴퓨팅 플랫폼

- 분산파일 시스템(HDFS), 맵리듀스로 구성

 

특징

- 핵심 구성: 저장 + 처리(계산)

- HDFS를 통해 분산시키고 저장하고 관리 + 맵리듀스를 통해 분산 처리

 

확장성

- 분산 데이터베이스인 HBase, 관계형 대수 쿼리 언어 인터페이스인 피그(Pig), 데이터 웨어 하우징 솔루션인 하이브(Hive), 테이블 및 스토리지 관리 서비스 Hcatalog ..

 

 

MapReduce

- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 소프트웨어 프레임워크

- 프로그래밍 모델인 동시에 모델을 구동하는 프레임워크 모두를 의미

- Map : 하나의 데이터를 여러 조각으로 나누어 처리

- Reduce : 결합

 

HDFS

- 분산형 파일 시스템, 하둡 네트워크에 연결된 아무 기기에나 데이터 분산 저장 가능

- 파일을 적당한 블록 크기로 나누어 노드 클러스터, 개별 컴퓨터에 저장

 

Term Modules
Data Storage HDFS, HBase
Data Processing Cluster Management YARN, MapReduce
Data Access Tools Hive, Pig, Mahout, Avro, Sqoop
Data Management Flumme, ZooKeeper