Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
© 2017 MapR TechnologiesMapR Confidential 1© 2017 MapR TechnologiesMapR Confidential 1© 2017 MapR Technologies 1
MapR Converged Data Platform
특장점
정덕원 부장, Ph.D.
Solutions Engineer, MapR
2017.06.15
© 2017 MapR TechnologiesMapR Confidential 2© 2017 MapR TechnologiesMapR Confidential 2© 2017 MapR Technologies 2
AGENDA
▪ 새로운 산업 패러다임
▪ MapR 단일 데이터 플랫폼MapR-XD | MapR-DB | MapR-ES | MapR-Edge
▪ 레퍼런스 아키텍처
© 2017 MapR TechnologiesMapR Confidential 3© 2017 MapR TechnologiesMapR Confidential 3© 2017 MapR Technologies 3
새로운 산업 패러다임
© 2017 MapR TechnologiesMapR Confidential 4© 2017 MapR TechnologiesMapR Confidential 4© 2017 MapR Technologies 4
•Artificial intelligence (AI)•Autonomous vehicles•Drones•Virtual assistants•Translators•Advanced Robotics
•Internet of Things (IoT)•Big Data Analytics•3-D printing•Nanotechnology•Biotechnology•Energy storage (ex. smart grid)
"인류의 발전은 생물학적 진화속도에 의해 제한을 받기 때문에인공지능 발전속도와 경쟁할 수 없을 것이다. 인공지능은 인류의종말을 불러올 수도 있다.” (스티븐 호킹)
© 2017 MapR TechnologiesMapR Confidential 5© 2017 MapR TechnologiesMapR Confidential 5© 2017 MapR Technologies 5
© 2017 MapR TechnologiesMapR Confidential 6© 2017 MapR TechnologiesMapR Confidential 66
분산 시스템 (Distributed Systems)
Data Center
© 2017 MapR TechnologiesMapR Confidential 7© 2017 MapR TechnologiesMapR Confidential 7© 2017 MapR Technologies 7
다양한 산업분야에서 Industry 4.0 실현을 위한 빅데이터 활용
© 2017 MapR TechnologiesMapR Confidential 8© 2017 MapR TechnologiesMapR Confidential 8© 2017 MapR Technologies 8
Big Data
Analytics
빅데이터
Artificial
Intelligence
인공지능
Complete access to real-time and historical data in one platform
Converged Applications
© 2017 MapR TechnologiesMapR Confidential 9© 2017 MapR TechnologiesMapR Confidential 9© 2017 MapR Technologies 9
AI 활용을 위한 빅데이터 분석 모델 도출 프로세스 (예)
적출기준모형개발을위한 기본 정의
• 거래 형태
후보항목 검토
기존 사용 데이터
• 외부 사용 데이터
• 타 평가 기간 항목벤치마크
•항목 속성에 따른 분류
• 데이터 입수 요건 정의
• 데이터 입수 및 Cleansing
T-test / K-S / AR
• Logistic 단변량 분석
• Lead time별 분석을 통한 유의항목Pooling
1종,2종 오류 분석
• Min-Error 분석
• 기준값에 따른 발생률 및발생부도율 분석
• Lead Time별 분석
적출기준 모형 생성
• 피어슨 상관분석
• 변수그룹화
• 그룹 주변수 및 보조변수 선정
• Decision Tree
• Random Forest Tree
• Logistic Regression
• Neural Network
• 결과 모형 시뮬레이션 분석
• AUROC, 기준값에 따른 이상 탐지커버리지 비율 분석
적출 기준모형검증
• Out-of-sample test 등급별고객 추출 비율 및 이상 거래탐지율 분석
적출기준 변수유의 변수(항목) 선정
Big Data / Machine Learning 적용 가능 영역
© 2017 MapR TechnologiesMapR Confidential 10© 2017 MapR TechnologiesMapR Confidential 10© 2017 MapR Technologies 10
오픈소스 Deep-Learning 도구와 레퍼런스 아키텍처
오픈소스 기반 Deep-Learning 도구 Tensroflow 기반 레퍼런스 아키텍처
New Image
to Classify
Category
Probabilities
Training Images…
Category 1
Category N
…
MapR-FS
MapR Data Platform
Kubernetes
Enterprise Storage Database Event StreamingMapR-FS MapR-DB MapR Streams
Global Namespace High Availability Data Protection Multi-tenancy Unified Security
D
MapR Converged Data Platform
POD 1
DD MASTERNODE
POD 2 POD 3
Parameter Server 1
TF Trainer 1
TF Trainer 2
© 2017 MapR TechnologiesMapR Confidential 11© 2017 MapR TechnologiesMapR Confidential 11© 2017 MapR Technologies 11
MapR 단일 데이터 플랫폼MapR-XD | MapR-DB | MapR-ES | MapR-Edge
© 2017 MapR TechnologiesMapR Confidential 12© 2017 MapR TechnologiesMapR Confidential 12© 2017 MapR Technologies 12
사용자들의 컨버전스의 일반적인 예
APIs
© 2017 MapR TechnologiesMapR Confidential 13© 2017 MapR TechnologiesMapR Confidential 13© 2017 MapR Technologies 13
단일 데이터 플랫폼의 필요성
“새로운 차세대 IT 아키텍처는 전통적인 시스템과 새로운 시스템 모두와 호환이 가능 하면서 전사 통합이 가능한 아키텍처”
새로운 어플리케이션 전통적 어플리케이션
오픈소스 시스템 분석 시스템 기존 도입 시스템
MapR 단일 데이터 플랫폼
온프레미스 프라이빗 클라우드 퍼블릭 클라우드
다양한 하드웨어
© 2017 MapR TechnologiesMapR Confidential 14© 2017 MapR TechnologiesMapR Confidential 14© 2017 MapR Technologies 14
Multi Cloud Scale out to 1000s of Nodes Enterprise Grade Data Protection Simple & Efficient to Operate
MAPR-XD – CLOUD SCALE DATA STORE
Heterogeneous
Nodes
Web Management
EDg
Edge Clusters Multi-cloud
MapR
COREEdgeEdge
Edge
NFS POSIX REST HDFS
MAPR-XDCLOUD-SCALE DATA STORE
MapR 단일 플랫폼
ON-PREMISES, MULTI-CLOUD, EDGE
FILE
FOLDERS
CONTAINER
DATA
CUSTOM
FILE APPS
HADOOP &
SPARK APPS
WEB
APPS
300
PB
10+
EB
© 2017 MapR TechnologiesMapR Confidential 15© 2017 MapR TechnologiesMapR Confidential 15© 2017 MapR Technologies 15
MAPR-XD의 활용 및 적용 분야
MAPR-XD
DEPLOY, EXECUTE
ANYWHERE
PUBLIC
CLOUD
COMMODITY
SERVERS
CLOUD SCALE SIMPLICITY
COREEDGE CLOUD
GLOBAL NAMESPACE
MULTI
TEMPERATURE
HOT
WARM
COLD
WEB
APPS
FILE
APPS
ANY DATA,
ANY WORKLOAD,
ONE PLATFORM
CONTAINER
APPS
NFS HDFS S3 POSIX
REDUCE TCO
MAPR-XD
TCO
© 2017 MapR TechnologiesMapR Confidential 16© 2017 MapR TechnologiesMapR Confidential 16© 2017 MapR Technologies 16
DatabaseMapR-DB
Event StreamingMapR-ES
High Availability
Cloud-Scale Data StorageMapR-XD
Real Time Unified Security Multi-tenancy Disaster Recovery Global Namespace
컨버지드 데이터 플랫폼의 차별성
Files, Tables, Streams
MapR 단일 데이터 플랫폼
Shared Services
Open-Source APIs
On-Premise, In the Cloud, Hybrid
Patented Architecture
© 2017 MapR TechnologiesMapR Confidential 17© 2017 MapR TechnologiesMapR Confidential 17© 2017 MapR Technologies 17
MapR-XD (FS) :Built for Speed, Scale, Reliability
기존 Hadoop File System MapR File System
Disk
Linux File System
Java Virtual Machine
Hadoop File System (Java Code)
Disk
MapR File System (C Code)
다중 계층
으로 인한
성능 저하
계층
간소화로
성능 향상
POSIX
지원
HDFS
API
Direct
NFS
8 KB
I/O
Volume
관리
HDFS
API
128 MB
I/O
“빅데이터 플랫폼을 통한 선제적 의사결정 환경을 구현하기 위해서는 적시성을 확보하는 것이 핵심. MapR 플랫폼은 기존 Hadoop의
아키텍처를 완전히 혁신하여 기업수준의 적시성 확보와 기존 개발 환경과 유사한 환경을 제공”
© 2017 MapR TechnologiesMapR Confidential 18© 2017 MapR TechnologiesMapR Confidential 18© 2017 MapR Technologies 18
MapR-DB : World’s Most Powerful Globally Distributed NoSQL Database
“고객 대응 후 생성되는 데이터를 기존 정형 DBMS로 처리하는 것은 스키마 구성 및 관리에 대한 부담이 가중. 웹이나 모바일앱, ARS,
VoC등으로 생성되는 데이터들에 대해 고객중심의 데이터를 구성하기 위해서는 성능과 안전성이 확보된 NoSQL DB가 필요.”
기존 Hbase 구동 방식 MapR-DB 구동 방식
▪ 마스터 노드가 단일장애점(SPOF)
▪ 연산영역이 독립된 영역에서만 사용
▪ 바이너리 테이블만 제공, 다큐먼트 NoSQL은 별도로 구성
▪ HA/DR 위한 기능 미제공
▪ 마스터 노드를 제거하여 단일 장애점(SPOF)을 제거
▪ MapR 클러스터 전체를 연산 영역으로 통합하여 사용
▪ 바이너리 테이블 뿐만 아닌 JSON 다큐먼트 테이블 제공
▪ HA/DR을 위한 Table 레벨 동기화 기능 제공
마스터
노드
Hbase 클러스터
마스터
노드(HA)
MapR 클러스터MongoDB 클러스터
© 2017 MapR TechnologiesMapR Confidential 19© 2017 MapR TechnologiesMapR Confidential 19© 2017 MapR Technologies 19
MapR-ES (Event Streaming) :Global Pub-sub Event Streaming System for Big Data
MapR-XD의 모든 기능을 상속 (보안, 확장성, 압축등)
T
op
ic
Stream
Producers
Remote sites and consumers
Batch
analytics
Topic
Replication
Consumers
Consumers
MapR-ES Apache Kafka
단일플랫폼에서 서비스 Kafka 클러스터 별도 구성
글로벌 빌트인 글로벌 스케일 데이터 수집 불가
보안 보안 미지원
JSON Data StorageApache Drill기반 메세지에 직접 조회
Binary
© 2017 MapR TechnologiesMapR Confidential 20© 2017 MapR TechnologiesMapR Confidential 20© 2017 MapR Technologies 20
MapR Core & MapR Ecosystem Pack
엔터프라이즈 데이터보호 플랫폼 관리성능 동시사용성상호호환성
MapR 단일 데이터 플랫폼 (Read/Write)
NFS HDFS API
MapR-XD (POSIX)
HBase API JSON API
MapR-DB (High-Performance NoSQL)
Kafka API OJAI API
MapR-ES (Global Event Streaming)
기존의 DB나 로그서버로부터 데이터를 수집
Storm
Spark Steaming
Pig
Sqoop
MapR-NFS
Flume
MapR Ecosystem Pack (MEP)
Hive
Spark SQL
Drill
Zookeeper
Sentry
Oozie
R / Python
Mahout
Spark MLlib
데이터수집 데이터저장및처리 개발및관리데이터분석
HUE
데이터 플랫폼에저장되어 있는 비정형데이터를 처리
대량의 정형 데이터를SQL 기반으로 처리
스트리밍으로 생성되는데이터를 실시간으로처리
데이터 마이닝, 기계학습을 통한 데이터분석
어플리케이션 개발,클러스터 관리
YARN Framework
© 2017 MapR TechnologiesMapR Confidential 21© 2017 MapR TechnologiesMapR Confidential 21© 2017 MapR Technologies 21
“Apache Hadoop의 필수적인 요소인 네임노드는 분산환경에서 데이터 블럭의 위치과 변경사항을 관장하는 핵심 요소이나 단일
구성으로 장애와 병목의 주요 요소. MapR은 네임노드를 제거한 아키텍처로 서비스 레벨의 품질 확보가 가능한 유일한 플랫폼”
기존 Hadoop File System MapR File System
네임 노드
데이터 노드
네임 노드(HA)
데이터 노드
▪ 네임노드 장애시 전체 클러스가 중지되는 단일 장애점 발생
▪ 대기(Stand-by) 네임노드는 분산처리가 아닌 장애 대비
▪ 대량의 노드가 구성된 클러스터 환경에서 네임노드가 부하시
전체 클러스터의 성능이 저하되는 치명적인 구조
▪ 네임노드를 제거하여 단일 장애점(SPOF) 제거
▪ CLDB(Container Location Database) 기술기반 운영
▪ 대량의 노드가 구성된 클러스터 환경에서도 컨테이너 위치와
변경사항을 분산처리 하여 성능에 영향을 미치지 않는 구조
단일 장애점 제거로 서비스 레벨 품질 확보
© 2017 MapR TechnologiesMapR Confidential 22© 2017 MapR TechnologiesMapR Confidential 22© 2017 MapR Technologies 22
엔터프라이즈 수준의 가용성 확보
“데이터가 미션크리티컬 데이터로 분류되는 산업으로 빅데이터 역시 데이터의
안전성 확보가 매우 중요. MapR은 이러한 기업요건을 제품에 반영하여 제품 엔진레벨에서 백업 및 HA/DR 환경을 구성”
기존 Hadoop File System MapR File System
?Active
Active
▪ 태생적으로 HA/DR 구성이 고려되지 않은 아키텍처
▪ 단순 파일 복제 수준의 DR 센터 구성으로 데이터 유실 가능
▪ Active – Standby 수준의 DR 센터 구성
▪ 스냅샷 / 미러링 기능을 통한 내/외부로의 데이터 보호
▪ 압축 기능을 통한 저비용 고성능 DR 센터 구축 가능
▪ Active – Active HA/DR 센터 구성으로 클러스터 효율 극대화
Sanpshot
Sanpshot
© 2017 MapR TechnologiesMapR Confidential 23© 2017 MapR TechnologiesMapR Confidential 23© 2017 MapR Technologies 23
동일한 사용자 경험을 위한 MapR NFS
드래그&드롭을 통한파일의 활용 가능
일반적인 파일 브라우저를사용하여 MapR-FS의 데이터를
손쉽게 활용
로그와 같은 파일을 MapR-FS 에 직접 Write
개별 서버 내부에 로그를저장하고 Hadoop 으로이관하는 방법이 아닌
MapR-FS에 바로 Write
$ find . | grep log$ cp /mapr/cluster$ scp /mapr/cluster$ vi results.csv$ tail -f part-00000
커스터 마이징 없이어플리케이션에서 활용
MapR-FS 는 POSIX 기반 파일시스템으로 일반적인 리눅스유틸리티를 그대로 활용 가능
표준 OS 유틸리티 사용
Read/Write 파일 시스템을 통해Hadoop 전용 커넥터가 없는어플리케이션도 활용
“MapR의 NFS 기능은 IT 관리자, 개발자, 데이터 사이언티스트이 특별한 Hadoop 커맨드를 익히지 않고도 기존의 파일시스템과
동일한 방법으로 MapR-FS를 사용할 수 있도록 지원하는 기능 입니다. 이 기능을 통하여 레거시 솔루션과도 연동이 가능 합니다”
© 2017 MapR TechnologiesMapR Confidential 24© 2017 MapR TechnologiesMapR Confidential 24© 2017 MapR Technologies 24
빅데이터를 관리할때 다양한변화에 따라서 필요한 유연성과민첩성을 제공
클러스터, 데이터 센터 및 공공 및 사설클라우드 환경에서의 분산 처리
전세계에 분산된 리소스 네트워크를할용할때 임의로 확장되는 글로벌어플리케이션을 신속하게 배포
실시간 및 스케일 : 글로벌 클라우드 프로세싱
규모에 상관없이 실시간으로 활용하려면 여러 지역의 모든 자원을 활용
© 2017 MapR TechnologiesMapR Confidential 25© 2017 MapR TechnologiesMapR Confidential 25© 2017 MapR Technologies 25
MAPR EDGE FOR INTERNET-OF-THINGS
GLOBAL DATA PLANE
MAPR EDGE
Small footprint
at the edgeMAPR CONVERGED
ENTERPRISE EDITION[on-prem, hybrid, cloud]
Send insights
back to edge
Aggregate, analyze
data at core
Reliable
replication
MAPR EDGE
Computing
power
close to
the data
Convergence
at the edge
MAPR EDGE
© 2017 MapR TechnologiesMapR Confidential 26© 2017 MapR TechnologiesMapR Confidential 26© 2017 MapR Technologies 26
MAPR의 빅데이터 환경에서의 THE EDGE 구성DESIGNED FOR EDGE LOCATIONS
사이트간의 속도가느리거나 연결된네트워크의액세스가있는 사이트
방대한 양의데이터를 생성하는데이터 소스예 : 석유 굴착 장치, 병원,
차량, 원격 사무실 등
INTEL NUC MINI PCS
(8.3” X 4.6” X 1.1”)
작은 설치 공간이 필요한 공간이 제한된 위치• 3-5노드 클러스터, 스토리지 용량 제한, 최소 16GB RAM
• 최적화 mini PCs (e.g., Intel NUCs)
• 컴퓨팅 엔진 (Spark, Drill, Hive, etc)
© 2017 MapR TechnologiesMapR Confidential 27© 2017 MapR TechnologiesMapR Confidential 27© 2017 MapR Technologies 27
레퍼런스 아키텍처
© 2017 MapR TechnologiesMapR Confidential 28© 2017 MapR TechnologiesMapR Confidential 28© 2017 MapR Technologies 28
AUDI & DAIMLER “CAR MODERNIZATION”
ADAS(Advanced Driving Assistance Systems) 운전자 주행 보조 장치
10,000 시간 테스트 데이터 생성자동차당 1시간에 2TB
1년 : 20PB
3년: 100PB
Audi로부터 테스트데이터 생성 및 관리
플랫폼 필요성Volume * Velocity * Massive scale
2014: 2-5 GB / hr
2016: 1-3 TB / hr
MapR Multi Temp Storage SoftwareOn commodity Servers & Object Storage
Test Analysis
App
Machine Learning
App
Autonomous
Car App
Car Measurement
Data
© 2017 MapR TechnologiesMapR Confidential 29© 2017 MapR TechnologiesMapR Confidential 29© 2017 MapR Technologies 29
PHILIPS: 단일 플랫폼에서의 컨테이너 기반의 의료 영상 이미지 처리
Files &
Folders
Containers Medical Apps File Repository
MapR-Edge
Files
Medical
Apps
MapR-Edge
Future
MapR-EdgeFuture
MapR-Edge
MapR-Edge
© 2017 MapR TechnologiesMapR Confidential 30© 2017 MapR TechnologiesMapR Confidential 30© 2017 MapR Technologies 30
MapR 단일 데이터 플랫폼을 선택하는 이유
“MapR 플랫폼은 단순한 빅데이터 플랫폼으로서의 기능이 아닌 엔터프라이즈 수준의 가용성과 안전성을 제공하는 기업용 플랫폼”
핵심 기술 요소
• 클라우드 스케일 분산 시스템 –MapR-XD
• NoSQL DB 시스템 – MapR-DB
• 글로벌 메세징 시스템 – MapR-ES
• IoT 데이터 수집및 분석 –MapR-EDGE
고속처리를 위한 최적화
• 대용량 분산 병렬 처리 지원
• 정형 및 비정형등의 다양한 데이터를 통한대규모 분석 및 기계 학습 구현
규모에 따른 확장
• 수 조 단위까지 확장되는 제한없는파일 시스템
• 대규모 분산 처리 환경에서 대용량데이터 고속 처리
엔터프라이즈 수준의 안정성
• 무중단 데이터 액세스를 지원하는다양한 자동 복구 기능
• 재해 복구와 스냅샷을 포함한고가용성 제공
• 안정적인 고객 지원 체계
비즈니스혁신 가속화
© 2017 MapR TechnologiesMapR Confidential 31© 2017 MapR TechnologiesMapR Confidential 31© 2017 MapR Technologies 31
Q&A
@mapr
ENGAGE WITH US