일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Race condition
- MLFQ
- 게임 개발
- 유니티
- stride
- linear difference equation
- dtft
- ability task
- DP
- ret2libc
- pdlc
- gameplay ability
- MAC
- 언리얼 엔진
- gas
- reverse gravity
- 게임개발
- gameplay effect
- dirty cow
- CTF
- Rr
- Unreal Engine
- 메카님
- 유스케이스
- 언리얼엔진
- frequency-domain spectrum analysis
- 운영체제
- sampling theory
- Security
- DSP
- Today
- Total
다양한 기록
Big Data, 하둡 본문
기존의 데이터베이스로는 수집, 저장, 분석 따위를 수행하기가 어려울만큼 방대한 양의 데이터
대량의 정형 및 비정형의 데이터를 분석해 가치를 창출하고 결과를 분석하는 기술
"데이터는 미래 경쟁력을 좌우하는 21세기 원유"
21세기 기업에서 가장 중요한 자산은 데이터이며, 이를 관리하고 여기서 가치를 이글어내지 못하면 경쟁에서 살아남을 수 없음
과거 | 현재 | |
데이터 형태 | 특정 양식에 맞춰 분류 | 형식이 없고 다양 |
데이터 속도 | Batch | Near Real time |
데이터 처리 목적 | 과거 분석 | 최적화 혹은 예측 |
데이터 처리 비용 | 국가 정부 수준 | 개별 기업 수준 |
빅데이터 특징: 3V + 2V + 1V
1. Volume (크기, 데이터 양)
2. Variety (다양한 종류의 데이터, 정형/비정형)
3. Velocity (속도, 빠르게 처리하고 분석)
4. Veracity (정확성, 수집 데이터가 정확하고 쓸만한지)
5. Variability (가변성, 맥락에 따라 변함)
6. Visualization (시각화, 정보사용자의 이해 정도)
빅데이터 플랫폼
- 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경
- 빅데이터를 분석하거나 활용하는데 필요한 필수 인프라, 빅데이터 플랫폼은 빅데이터를 발굴하고 보관, 가공하는 일련의 과정을 이음새 없이(Seamless) 통합적으로 제공
분석 기법
1. 분석 기술 (Analysis Technique)
- Divade and Conquer
- 아파치 하둡 : Map-Reduce
- NoSQL
2. 표현 기술 (Visualization Technique)
- 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적 표현
- R
빅데이터 분석 종류
1. 현황(진단) 분석 (Descriptive or Diagnostic Analysis)
- 과거 데이터를 바탕으로 한 일반적인 기초 통계를 통해서 전반적인 상황 파악, 이해
- 빈도나 합산 등을 이용해 알아보기 쉽게 정리하여 비교 검증하고 사건에 대한 원인 파악하여 진단
- 과거에 무슨일이(현황), 왜(진단) 일어났나?
- ex. 백화점의 매출이 왜 적게/많게 나왔는지
2. 예측(추정) 분석 (Predictive or Likelihood Analysis)
- 과거나 현재 데이터에 기초해서 실제 존재하고 있지만 모르는 사실을 추정, 또는 가까운 미래에 발생할 가능성이 있는 사안들을 추측
- 무슨 일이 일어날 것인가?
- ex. 과거 매출 데이터와 다양한 경제 변수, 내부 비즈니스 환경 등을 고려하여 내년 매출을 추측
3. 예측 최적화 분석 (Predictive Optimization Analysis)
- 추정 분석 혹은 예측 분석 모델을 실제 시행하였을 때 가장 바람직한 결과가 예상되는 모델이 어떤 것인지를 분석
- 어떻게 원하는 결과가 일어나게 할 것인가?
- ex. 내년 매출과 함께 내년 반품률 등을 예측해 내년 구매 예산에 반영하는 시나리오, 즉 제한된 자원 안에서 최적의 구매 예산을 도출해내기 위한 것
다양한 분석 도구들
1. 분석 소프트웨어
오픈소스 | 상업용 |
RapidMiner/Rapid Analytics | Excel |
R | RapidMiner/Rapid Analytics (상용판) |
Weka/Pentaho | SAS |
Python | StatSoftStstistica |
MATLAB | IBM SPSS |
Orange | SQL Server |
기타 무료 분석/데이터마이닝 SW | Tableau |
GNU Octave | IBM SPSS Modeler |
H2O |
2. 분석 알고리즘
알고리즘 | 주 사용 분야 |
Uplift Modeling | 마케팅 켐페인, 단계적 추정 및 예측 분석 |
Survival Analysis | 의료 통계, 설비 분야 사건 예측 (이탈, 사망, 고장 등) |
회귀 분석 (Reression, Logistic) | 예측 분석, 추정 모델/분석(매출, 신용, 평점 등) |
시각화 (Visualization) | 원인과 관계 분석, GIS로 위치 분석 |
군집 분석 (Clustering, K-mean) | 그룹화, 프로파일링, 야후/아마존/구글에서 개인화 서비스 |
앙상블 기법 (Ensemble method) | 넷플릭스, 분류, 예측 최적화 등의 결합 분석 |
Social Network Analysis | 관계망 분석(사람, 통화, SNS 등), 테러리스트 연결 분석, 통신사 고객 이탈 분석 등 |
이상치 감지 (Anomaly/Deviation Detection) | 사기 감지나 품질 관리 등 이상치 분석 |
Association Rules | 장바구니 분석, 관계 분석 등 |
Text Mining | 시대 경향 및 감성 분석 |
빅데이터 플랫폼 기본 구성
데이터 영역
- Inmemory Appliance
- Database Appliance
- Enterprise Data Warehouse
- Local Data Warehouse
- Data Mart
빅데이터 에코시스템(하둡)
- 검색 및 시각화 (Lucence)
- Data 지휘 (Flume, Zookeeper)
- 데이터 접근 (Pig, Have, Sqoop)
- NoSQL DB (Hbase, MongoDB, Couch)
전사 기업 정보 관리
- Data Governance
- Data Integration
- Data Quality
- Data Visualization
- Master Data Management
분석 툴, 인사이트, BI
- Machine Learning (패턴 발견)
- 추정, 추천
- 예측
- 기초 통계
- 보고서, 스코어카드, 대시보드
...
데이터 시각화
빅데이터 플랫폼 구축 과정
데이터 소스 => ETL => 신호 생성 => 분석 => 접근 => 조치
* ETL = Extract, Transform, Load
데이터 사이언티스트
데이터를 의미있는 정보로 바꾸는 사람
통계햑, 수학, 모델링 지식 + 컴퓨터 공학 + 비즈니스 지식 + 시각화
하둡(Hadoop)
- 빅데이터 처리용 오픈소스 분산 컴퓨팅 플랫폼
- 분산파일 시스템(HDFS), 맵리듀스로 구성
특징
- 핵심 구성: 저장 + 처리(계산)
- HDFS를 통해 분산시키고 저장하고 관리 + 맵리듀스를 통해 분산 처리
확장성
- 분산 데이터베이스인 HBase, 관계형 대수 쿼리 언어 인터페이스인 피그(Pig), 데이터 웨어 하우징 솔루션인 하이브(Hive), 테이블 및 스토리지 관리 서비스 Hcatalog ..
MapReduce
- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 소프트웨어 프레임워크
- 프로그래밍 모델인 동시에 모델을 구동하는 프레임워크 모두를 의미
- Map : 하나의 데이터를 여러 조각으로 나누어 처리
- Reduce : 결합
HDFS
- 분산형 파일 시스템, 하둡 네트워크에 연결된 아무 기기에나 데이터 분산 저장 가능
- 파일을 적당한 블록 크기로 나누어 노드 클러스터, 개별 컴퓨터에 저장
Term | Modules |
Data Storage | HDFS, HBase |
Data Processing Cluster Management | YARN, MapReduce |
Data Access Tools | Hive, Pig, Mahout, Avro, Sqoop |
Data Management | Flumme, ZooKeeper |
'인공지능융합플랫폼' 카테고리의 다른 글
Start-Up (신생 창업 기업) (0) | 2024.11.23 |
---|---|
케이스 스터디 - Airbnb (0) | 2024.11.23 |
케이스 스터디 - 우버 (0) | 2024.11.23 |
PDLC .. 구현 및 운영 (0) | 2024.11.23 |
PDLC .. 물리적 설계 (UI, DB, 플랫폼 구조도) (0) | 2024.11.23 |