View
0
Download
0
Category
Preview:
Citation preview
분석 3.0 시대를 선도하는빅데이터 실시간분석 및 적용사례
2015. 10
www.parstream.com
- 분석2.0을 넘어 분석3.0으로 -
2
“The value of IoT is in the data. The quicker enterprises
can start analyzing their data the more business value
they can derive.”
June 2014
Analytics have been transformative in wide areas of cu
stomer and product service. Sensor enabled industrial
analytic applications are the next frontier
July 2014
“Analytics accelerates IoT adoption.
…data analytics is the most important factor to increase
the benefits of IoT”
John Chambers, October 2014
New Strategy Report - Press Release : Enterprises can't
afford a 'do nothing' approach when it comes to IoT
September 2015
Thought Leaders: Analytics drives business value
in IoT
3
분석의 가치- Big Data/Analytics market continues growth
Big Data/Analytics Market Size (by 2017/2018)
Analytics in IoT Market Size (by 2017/2018)
$32.4B
(27% CAGR)
$114B
(30% CAGR)
$24.2B
(12% CAGR)
$48.3B
(41% CAGR)
$1.9B
$14.3B
53% CAGR
4
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
- 분석2.0을 넘어 분석3.0으로 -
5
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
6
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
7
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
8
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
9
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
10
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
11
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
12
Analytics 3.0: Measurable Business Impact From Analytics & Big Data
13
빅데이터와 금융: Machine Learning
How Machine Learning will change the game for insurance companies:
Applying artificial intelligence to insurance data
Insurance companies are seeing how artificial intelligence can build competitive
advantage.
Machine Learning/Artificial Intelligence – Fraud Detection, Compliance,
Recommendation
July 2015
14
마케팅과 사물인터넷: IoT + CRM
3 Ways How the Internet of Things Will Revolutionize Marketing
Communicating With Your Products Creating New Innovative Partnerships Obtaining Better and Smarter Market Information
https://datafloq.com/read/3-ways-internet-of-things-revolutionize-marketing/1078?utm_source=Datafloq%20newsletter&utm_campaign=bd64a1222b-Datafloq_newsletter_May_11_2015&utm_medium=email&utm_term=0_655692fdfd-bd64a1222b-84851049
15
사물인터넷의 잠재적 가치
2025년, 사물인터넷 간 연계로 전체 수익 40% 창출
만성질병관리 비용 50% 절감, 예방 정비로 운행정지 50% 감소
June 2015
16
현재 사물인터넷 데이터의 99%는 이용되지 못하고 있다
하루에 생성되는 데이터의 1% 미만이의사결정을 위해 사용됨
전체 데이터의 40%는 결코 저장되지 않으며
나머지 60%는 지역별로 별도 저장됨
최종 1% 데이터는 일별 사용을 위해
내부시스템으로 수집됨
데이터는 실시간 쿼리가 안되며 간단한 ad hoc
분석만 지원
보고서는 몇 가지 유형만 지원
원격 데이터를 수집하여 실시간 분석할 수 있는
인터페이스 부족
예방을 위한 정비 주기는 여전히 제조사에 의존
사물인터넷의 잠재적 가치
June 2015
17
2025년, 스마트 팩토리(Smart Factory) 분야가 가장 큰 가치 창출
9개 설정 분야: 가정, 사무실, 공장, 소매점, 작업현장,
인간, 물류와 네비게이션, 도시, 차량 시스템
설정 분야잠재적
경제효과근거/가정
잠재적가치
운영 최적화6330억~1조7660억 달러
제조비용 최대 15조 달러병원간호사 수 500만 명
5~12.5% 비용절감
예측 정비보수
2400억~6270억 달러
제조공장/병원장비 및 유지 최대 5770억 달러
10~40% 비용절감
재고 최적화980억~3420억 달러
제조공장/병원 재고보유비용 최대 8570억 달러, 의약품의 2% 부패
20~50% 비용절감
건강과 안전650억~2260억 달러
상해 및 보험 비용 연간 1조 달러
10~25% 절약
농업 수확증대
650억~3380억 달러
재배 부가가치 연간 최대3조 달러
10~25% 수확증가
모니터링 및질병관리
1710억~1조680억 달러
연간 15조 달러 건강관리비용, DALYs 손실 7억7000만 달러, 급성환자10~40%
질병부담 최대20% 감소
건강 증진최대 5190억달러
2025년 13억명 피트니스트래커 사용, 사용자비율지역별 10~56%
사용자당 연간80~600달러상당의 건강혜택
사물인터넷의 잠재적 가치
June 2015
18
Imagine a world…
Where IoT analytics enable an energy company to…
30TBAnalyze Data in Real-time
15%Increase Efficiency
$18K/hr; $158M/yr Generate Operational/
Economic Benefits
(10 GW Capacity; .3 Capacity Factor; $40/MW-hour)
19
비즈니스 문제점
윈드팜은 값비싼 풍력터빈들로 구성되어있으며 터빈의 날개 길이가15층 높이에 해당하는 거대한 기계장치들임
풍력터빈은 클수록 더 많은 에너지를 생산하는데 원격지에 위치하고높은 신뢰성을 요구
에너지 생산량을 최대화 하기 위해서는 바람의 방향과 풍속에 따라조정이 되어야만 함
터빈 상의 한 개 날개의 각도가 몇 도를 벗어나면 그 터빈의 생산량에심각한 영향을 미칠 수 있음
바람의 속도와 기상조건이 변화되면 날개들은 보정을 위해 실시간으로조정되어야 함
화석연료에 비하여 풍력과 태양열과 같은 신재생에너지의 경우에는생산량 예측은 기상의 변화로 인하여 대단히 변동성이 큼
20,000 개의 풍력터빈에 대한 실시간 모니터링과 정비에 대한 어려움
에너지 생산량 예측에 대한 변동성과 정확성에 대한 위험 상존
2015. 2. 13 게재
신재생에너지 생산 최적화: ENVISION Energy
중국 최대 풍력발전 기업
20
문제 해결을 위해 IoT와 Big Data 기술 도입
각 풍력터빈에 150개의 고급센서를 장착하여 진동, 온도, 풍속 등다양한 속성들을 추적
발생되는 데이터는 실시간으로 취합되어 기상데이터 및 지형지도데이터와 통합
데이터 분석 후 터빈의 날개들은 아웃풋을 최대화 하도록 조정됨
부품에 대한 마모와 파손을 감지하여 다운타임과 수리비용의 최소화를위해 예방적 정비를 시작하도록 통지
20TB 이상의 Historical data에 대한 분석을 포함하여 20,000 대의풍력터빈에서 발생하는 센서데이터에 대한 연속적인 실시간 모니터링
전통적인 데이터베이스 기술로는 엄청난 대량 데이터를 대상으로 1초이내의 의사결정을 처리하기 어려워 파스트림을 선택함
인비전은 고급센서 기술과 최신 데이터베이스 기술을 이용하여신재생에너지 비즈니스를 근본적으로 전환시키는 소프트웨어 솔루션을개발함 - Smart Wind Farm Application
2015. 2. 13 게재
“Not Your Father’s Database Technology”
중국 최대 풍력발전 기업
신재생에너지 생산 최적화: 전통적 DB 기술로는 한계
21
도입 효과
신재생에너지 공급자들은 전력을 오픈마켓에서 거래하는재판매업자에게 예측생산량을 제공하여야 함
실시간 센서데이터 분석을 통하여 에너지 생산량에 대한 정확성과예측성을 높임
더 많은 생산량을 만들어 내고 운영비용을 절감하고 생산예상치의정확성을 높여 시장에 더 경쟁력 있는 가격을 책정
15%의 효율 증가로 년간 1억5800만불(약 1800억) 상당의 경제적 효과
2015. 2. 13 게재
많은 사람들이 빅데이터를 생각할 때
그들은 하둡(Hadoop)을 고려한다.
ENVISION은 ParStream을 선택했는데,
ParStream은 개발시점부터 IoT의
도전과제를 해결할 수 있도록 설계되어진
컬럼 데이터베이스이다.
중국 최대 풍력발전 기업
신재생에너지 생산 최적화: ParStream 적용효과
22
업무 도전과제
• Real-time으로 시스템의 효율성이나 작업결정을 하기 위한 복잡한 장비의최적화
• 터빈당 현재 5,000개 속성 생성에서 향후 10,000개로 센서(속성값)로 확대
• 터빈 간의 비교 분석 및 새로운 서비스 기반의 비즈니스 기회 창출
적용 분야 및 데이터
• Real-Time 분석이 필요한 터빈당 초당 5천개 이상의 데이터 발생 포인트에서시간당 18억 건 데이터 생성 – 압력, 온도, 진동, RPM, 등
• 모델 기반의 learning/root 원인 분석을 위한 과거(히스토리) 빅 데이터 필요
IoT DBMS 적용 기술
• 즉각적인 발견과 조치가 가능한 연속적인 data-flow의 real-time 모니터링 기술
• 자체적 머신러닝(ML) 구축
• 모든 센서 데이터를 저장하고 즉시 읽을 수 있는 통합된 platform의 저장소 및분석기능 제공 – “Analytical Historian”
효과 및 결과
• 노드 별 초당 75만 건 임포팅
• 1초 미만의 응답속도
• 저진동 시동에 의한 뒤틀림 감소
• 산화질소 배출 감소
• 재질의 피로도 예측 및 정비 효율 향상
독일 지멘스
가스터빈 모니터링: 실시간 센서데이터 수집 분석
23
Real-time Analytics: 실시간 임포트와 동시에 즉각적 이상 징후 감지 및 Drill-down 조회
Historical Analytics: 과거 누적 빅데이터와 실시간 상관 분석으로 문제점 조기 파악과 대응
가스터빈 모니터링: 실시간 및 이력 데이터 분석
24
자동차보험료 산정과 빅데이터 분석기술 접목
연령과 운전경력 기반의 표준보험료 산정방식
운전관련데이터분석과 모니터링기반의 보험료 산정
Car Insurance using Driver Data to Set Prices• 연 40% 성장
• 2020년 $3.6B 시장규모
Car Insurance using Driver Data will be a Market Standard• 2014년시장규모 < 5%
• 2020년 26%(in US), 38%(in UK) 시장점유율
• Volkswagen• BMW• Zurich Insurance Group• Axa Savings• Allianz SE
시장 전망(Insurance Telematics)
시장 선도 기업들 구현 개념
• 제휴: Insurer + Car Makers• 자체: Insurer + Smartphone Apps & Devices• 보험료 30%할인: 개인정보제공의가치보다커야• 가입자: 사고시 빠른대응, 응급구조및 수리지원• 보험사: 사고발생유무확인및 사고순간의원인규명자료, 개인별보험료산정정보획득
자동차보험료산정 기준 변화
Car Insurers Promise Discounts If Big Brother Watches You Drive
25
업무도전 과제
다양한 시스템에서 생성되는 수십억의 데이터 분석의 효율 향상
새로운 비즈니스 모델 창출
적용현황
지속적으로 발생하는 GPS 데이터 및 이벤트 데이터 실시간 모니터링
Value Proposition
매월 신규 2억 6천만 건 실시간 분석
310억 건의 이력 데이터 분석
Near-real-time으로 서로 다른 시스템에서 데이터 발생
Benefits/Results
데이터 처리 시간을 90%이상 향상
년간 하드웨어 투자 60% 절감
계획과 실행 능력 향상
운전자 프로파일 분석 및 예측능력 향상
Sensor Data & Vehicle Monitoring & Analysis
자동차보험 실시간 빅데이터 적용 : Telematics
26
분석의 가치: 업무별 분석단계별
• 2020년 까지 업무별 분석가치가 6배 이상 성장
• 예측 및 처방적 분석이 묘사적 진단적 분석기법을 앞지름
27
실시간 데이터에 대한 즉각적 분석의 가치
Time = Money
28
• 기존 MySQL 기반 환경은 선 집계 필요하며 문제 원인을 찾는데 한계.
• 집계 처리 시간이 너무 길어 보다 많은 스크랩 제품 발생
업무도전
과제
• 하나의 자동화 테스트 장비가 24개의 웨이퍼 관리(24 wafer/lot)
• 한 웨이퍼에서 10억 건의 테스트 결과 생산 (기존 환경은 선 집계가 필요한 상황)
데이터
현황
• 데이터 흐름의 실시간 모니터링 즉각적인 인사이트 및 조치 오류 감소
• 제한 없는 데이터 확장으로 반도체 테스트 시장 및 제조사로 시장 확대
가치
포지션
• 장비 활용도 향상 : 이전의 배치 중심 분석은 고가의 테스트 장비를 제대로 활용하지 못함
• 매출 증가 : 관리 데이터의 증가는 새로운 고객 및 보다 큰 고객으로의 시장 확대 및 수익 증가로 연결
• 신제품 출시 : 드릴다운 분석을 통한 상세 테스트 결과로 새로운 insight
• 비용 절감 : 상세 level의 데이터 분석으로 인한 새로운 insight로 테스트 실패율을 줄여 비용 절감
도입 효과 및
결과
반도체 테스트 적용 사례: GALAXY Semiconductor
기존 DB의 데이터 처리 한계를 극복
29
etracker is a leading web-analytics and campaign steering company in Europe
Web-Analytics
Real-time web-analytics for 50,000 do
mains delivering 10 billion web-clicks
Continuous data import with maximum
latency of 30 seconds
Complex interactive analytics for life-s
egmentation of customer groups
< 2 sec query response time for
> 100 concurrent interactive user
Campaign steering – moving ahead fr
om trail and error to continuous multidi
mensional optimization
30
Coface Services : 파스트림이 검색과 온라인 쇼핑 만족도를새로운 레벨로 올렸다. (from Oracle to ParStream)
Interactive guided selection process
delivers better conversion rate
Multi-lingual text search and numeric-
multiple-choice filters
15 billion data points
1,000 Coface columns
+10,000 Customer columns
>100 concurrent users
< 100 ms response time
Facetted Search
31
v
• Keyword-Analysis of competitor do
mains
• Complex SQL Queries in Realtime
• 7 Tbyte import
• 10 billion records
• < 1 sec Response time
• Reduction from 150 to 4 Servers
Google Search
Application Server
Complex correlativeSQL queries of many concurrent users
10,000,000,000 domain keyword relations
<1 sec response timeFirst 100domainsfor 10 millionkeywords in10 countries
Interactive domain traffic competitor report & analysis
SEO Analytics at Searchmetrics
도메인 키워드 분석을 획기적으로 개선
32
Highly replicable Case and Strategic Partnership with Qlik view
"Break-Even analysis per line
item on each sales slip, that is
what our management is looking
for. We can only achieve this
with the ParStream solution"
Head of Controlling MPREIS
• Interactive Analysis of PoS Data
• Existing QlikView solution
limits data volume to 400M records
• ParStream extends usage of QlikView
from 2 weeks to
6 months of data – 6 billion rows
• Further extension to
30 billion records planned to cover
2.5 years of data
유통 업무 적용 사례 : POS Data Interactive Analysis
기존 BI 솔루션의 데이터 분석 한계를 극복
34
Detection of Hurricane Risk Areas
• Interactive Analytics of weather simulation data
• Response time 0.1 secon 3 billion data records
• Multi-dimensional queryingon geo-location data
• Run complex queries In-Databaseat very high speed
• No need for Cubes –up-to-date & full granularity
• Continuously import new data with low-latency
Science: Climate Research
35
하둡(Hadoop)의 현주소: Hadoop’s Reality Check
순수 하둡 솔루션의 빅데이터 시장점유율은 1% 미만(2014년 0.7%)
2017년에는 1% 수준, 프로페셔널 서비스를 합쳐도 3% 정도로 예상
Cloudera : $91M, 535 customers
Hortonworks : $43M, 332 customers
MapR : $42M, 700 customers
Others : $11M
* 2014 Revenues: $187M < 1% of $27.4B in overall big data spending
모두 적자 상태
출처 * : Wikibon’s Big Data Vendor Revenue and Market Forecast 2011-2020출처 ** : http://www.gartner.com/newsroom/id/3051717출처 *** : http://www.infoworld.com/article/2922720/big-data/hadoop-demand-falls-as-other-big-data-tech-rises.html출처 ****: https://datafloq.com/read/hadoop-honeymoon-is-over/1110?utm_source=Datafloq%20newsletter&utm_campaign=8188f349a0-Datafloq_newsletter_May_26_2015&utm_medium=email&utm_term=0_655692fdfd-8188f349a0-84851049
** 하둡의 핵심 사상과는 달리 하드웨어 비용과 소프트웨어 지원비용의 증가즉, 공짜가 아니다
*** 다른 빅데이터 기술이 부상하면서 하둡 수요가 떨어지고 있다
**** 하둡의 허니문은 끝났다 -The Hadoop Honeymoon is Over
36
Source: Wikibon 2014
Total : $421M (1.5%)
하둡(Hadoop) & NoSQL Software and Services 현주소
37
빅데이터 Real-Time 요건
리얼 타임빅데이터
엔진
연속적인데이터 적재
Any Bus
Any File
Any Stream
실시간모니터링
인터랙티브분석
실시간대시보드
초고속쿼리 수행
즉각적가용성
1 빠른응답
3 인터랙티브분석
4
지역적 분산처리
5
수십억+레코드
2
낮은TCO
6
38
Big Data수많은 센서로 인해 점점 빠르고크게 성장하는 데이터
10B+ rows5TB+
Wind turbine: 100 turbines x 100M rows per year
Race car: 400M records / day x 365 days test drive
Telco: 1.000 cells x 1.000 rows / sec x 1 days - wow
Traffic analysis: 60M cars x 1 read / min x 365 days
Oil rig: 1 rig = 8 billion records / day (not verified)
Fast Data센서로부터 보다 빠르고 신속하게데이터 통합
1M+ rows per sec
Network monitoring: 1M rows per sec per cellAsset monitoring: 60M cars x 1 reading per minuteAirplane monitoring: 4 turbines x 3k sensors x 100HzOil exploration: 10.000 wells x 100 sensors x 1HzOil rig: 1 drilling rig x 10.000 sensors x avg 100Hz
Edge AnalyticsIoT 데이터는 대부분 네트워크의‘Edges’ 에서 발생
100+ Locations
Manufacturing: 300.000 plants in US (2012)Cars / ships / airplanes: >1 billion world wideTelco: 190.000 cell towers in US (2013)Oil: 950.000 wells worldwide; 500.000 in USMobile advertising: de-central adserving / monitoring
Real-Time Insights실시간에 가까운 분석 요구사항
<1 sec queryresponse time
Dashboarding: real-time visualization, many queriesNetwork monitoring: root cause analysis, optimizationAsset monitoring: conditional monitoring, safetySecurity: anomalie detection, building safetyTraffic: location aware recommendations
실시간 분석 – 빅데이터, IoT 관련 적용 분야
39
실시간 분석 – 빅데이터, IoT 관련 적용 분야
40
빅데이터, 사물인터넷 환경에서의 분석 플랫폼
New Concept of Database for IoT
- 대량 데이터의 실시간 처리- 지역 분산의 다양한 데이터 원천
Analytic 3.0
42
ParStream : Import / Query 동시 처리
43
ParStream : True Real-time Analytics 3.0 Platform
Customer Applications and Visualization Tools
IoT Data Collection Platforms Enterprise Data Sources
ParStream DB
Geo-Distributed Analytics
Alarm +Action
TimeSeries
AdvancedAnalytics
44
1. Lockless architecture가장 빠른 쿼리 성능과 동시에적용 가능한 데이터Importing 지원
2. MPPMassively Parallel Processing
데이터의 위치 분산 및 Shared Nothing 방식의 클러스터지원
3. 특허기술 HPCIHigh performance compressed index (patent)
SQL API / JDBC / ODBCC++
UDF - API
Real-Time Analytics Engine
In-Memory andDisk Technology
Multi-DimensionalPartitioning
Massively ParallelProcessing (MPP)
Shared NothingArchitecture
3rd generation Columnar Storage
High Speed Loader with Low Latency
HPCI
High Performance Compressed
Index
ParStream‘s True Real-time Analytics 3.0 Technology Overview
4. 3세대 Columnar수천.수만 칼럼의 데이터 수용성능보장
45
ParStream : 현존 최고의 성능을 지원하는 분석3.0 DB 이다
고성능 압축인덱스: HPCI (High Performance Compressed Index)
압축된 칼럼 그대로 프로세싱 처리됨
타 DB와 성능 차별화에 가장 큰 역할을 하는 기능임(기본 20배 이상)
유일한 상용화 기술임
Superior ParStream index
architecture
- 많은 메모리를 요구함
- CPU 부하를 증가시킴
- 압축 해제 처리로 성능 저하
- 빅데이터 분석에는 부적합 기술
- Immediate Query Processing
- No Need for Decompression
- Massively reduced memory + IO load
- Ultra-high Throughput
일반적 인덱스 구조
The Key to ParStream’s Unmatched Performance
46
실시간 분석 엔진
초고속 적재 기술
C++
UDF - APISQL API / JDBC / ODBC
인메모리와 디스크하이브리드 기술
대량병렬처리(MPP)
다차원파티셔닝
비자원공유글러스터링
3세대 컬럼너 스토리지
고성능압축인덱스
(HPCI)
Hadoop ETL Raw-Data
표준 SQL Query Interface
SQL-92 compliant
Core SQL-2003
표준 JDBC, ODBC 연계
BI/DW 솔루션과 통합/연계
BI, ETL, Visualization
Parallel In-Database Analytics with R
초고속 Import Interface
범용 Import Interface 지원
File based & Streaming API
Hadoop Interface API
ParStream : 기존 투자된 인프라와의 쉬운 통합
47
Real-Time
Lag Time
Operational Data
Massively parallel (MPP) Real-Time
Map Reduce Batches(NoSQL)
OLTP Reporting
In-Memory DB
Complex Event Processing
Gigabyte Terabyte Petabyte
< 1..10 milli sec
10 sec
10 min
10..100 milli sec
1 sec
1 minOLAP
Big DataResponse time
Batch-Analytics
Real-Time AnalyticsStream-Analytics
OperationsAnalytics
1h
●ParStream
● Vertica (HP)
● Oracle 11G● Microsoft SQL
● IBM DB2
● Hadoop
● Greenplum (EMC) ● Netezza (IBM)
● Splunk
● SybaseIQ (SAP)
● CouchDB
● VoltDB
● HBase
● AsterData
● HANA (SAP)
● Casandra
Big Data Analytics 3.0 requires new technological solutions
47
True Real-time Analytics 3.0 Platform
48
INRA MGP(MetaGenoPolis) 연구팀은 현재 170 억개 기초데이터를 다루고있는데, 앞으로도 매년 100배씩 증가한다고 보고 있다.
• 프랑스 INRA 연구소는 메타지노믹스 연구를 세계적으로선도하고 있는 기관이다
• 표본에 따라 한개당 최대 5천만 종류의 세균이 검출되고 있다
• 연구가 진행됨에 따라 향후 12 개월 동안, 표본 개수는 100배이상 증가될 것이다
• 이 경우 기초 데이터 개수는 170억에서 20조 수준으로 증가되게된다
• 과학자들은 이렇게 분석된 세균과 인체질병의 상관관계를연구하고 있다
• ParStream 플랫폼은 이러한 상관관계를 빠르고 정확하게찾아내고 분석할 수 있는 대화형 솔루션이다.
INRA 연구소의 메타지놈 연구성과: ParStream의 초고속 대화형 분석플랫폼 이용
우리는 일정하게 정립된 방법이 없고 무정형적이고 의미 없어 보이는 데이터 및 정보로부터 패턴관관계를 찾아내고 있다. 우리의 연구는 국제적으로 이루어지고 있고 연구경쟁의 선두를 유지하기 위해서는예측 불가한 부분이 항상 있기 때문에 시간, 일 및 행운이 필요하다. 간단히 말하면 우리는 항상 거의틀리고 있고 가끔 맞기 위해서는 많은 작업을 해야 한다. 이를 위해서는 선도적인 기술파트너의 유연성과지원 및 전문성을 필요로 한다. - Ehrlich 박사
49
운행 차량에 대한 다양한 정보 수집과 실시간 모니터링
- 실시간 수집정보를 이용한 실시간 대시보드(Dashboard)
- On-time Delivery 를 위한 실시간 상황 정보
물류 / 택배: 실시간 분석 IoT 빅데이터 적용
50
분석의 가치와 엣지 인텔리전스: Edge Intelligenceby Fog(Edge) Computing
51
분석의 가치와 엣지 인텔리전스: Edge Intelligenceby Fog(Edge) Computing
52
분석의 가치와 엣지 인텔리전스: Edge Intelligenceby Fog(Edge) Computing
엣지 지능(Edge Intelligence)에 대한 핵심 동인
ABI리서치는 이러한 분산 IoT 지능으로의 경향을 단순 연결된 디바이스로부터 지능형 디바이스로의 패러다임 이동이라고 지칭한다. 이러한 패러다임 이동이 실질적으로 의미하는 것은 이것이 수반하는 다섯 가지 주요 장점을살펴봄으로써 가장 잘 요약될 수 있다.
1. “빅” 데이터를 작게 만든다: 정보를 네트워크 상으로 분산하는 것은 한 레벨에서 다음 레벨로 전달되는 데이터 볼륨을 줄이고 정제하는 것을 가능하게 한다. 그리고 이러한 작업은 상위 레벨의 분석 과정에서 무결성과 정합성을 크게 해치지 않도록 데이터를 전달할 수 있다.
2. 응답속도를 실시간에 가깝게 한다: 연결된 자산 또는 이들 운영시스템과 실시간 또는 실시간에 가까운 물리적 상호작용을 하는 IoT 애플리케이션의 경우에는, 빠른 응답속도와 같은 요구사항들로 인하여 네트워크 엣지에서 어느 정도의공정이 필요하게 만들고 있다.
3. 가용성을 강화시킨다: 로컬 저장 및 분석은 데이터 수집을 위한 연결성 유지와 중앙집중적인 클라우드 인프라에 대한의존성을 줄여준다. 결과적으로 로컬 디바이스들은 그들 자원이 허용하는 한, 클라우드 레벨과의 연결이 끊어지더라도 운영을 유지하고 분석업무를 계속 수행할 수 있다.
4. 안전과 컴플라이언스를 최대화 한다: 대체적으로, 엣지 정보는 IoT 배포를 더욱 안전하게 만들어 준다. 왜냐하면 민감하고 업무상 중요한 데이터 적재는 소스에서 암호화될 수 있으며, 또한 전송되지 않고 거기에서 완전히 처리될 수도 있다. 더군다나, 로컬 공정은 기업이 컴플라이언스 문제 때문에 클라우드 시스템으로 이동할 수 없거나 클라우드에 저장할수도 없는 데이터를 활용할 수 있게 한다.
5. 총소유비용(TCO)를 최적화 한다: 지능형 디바이스는 덜 정교한 장비에 비하여 선행투자 비용이 크다. 그러나, 줄어든 연결유지 비용과 배터리로 작동하는 디바이스의 생명주기 연장 때문에, 해당 디바이스의 긴 서비스생명주기에 걸친 총소유비용은 훨씬 낮아질 수 있다. 자본적지출(CAPEX)과 운영적지출(OPEX) 간의 관계는 디바이스 배포의 특성에 따라 변화한다. 그러나 일반적으로, 엣지 정보(지능)는 다이내믹하고 복잡한 기업환경에서 가장 큰 절감효과를 가져올 수 있다.
53
Edge Intelligence 지원 : 파스트림 GDA(Geo-Distributed Analytics)
http://www.information-management.com/news/big-data-analytics/Edge-Computing-Internet-of-Things-10027231-1.html
• 7 Reasons Edge Computing Is Critical to IoT:
• Fog Analytics: Bringing Cloud Vapors to IoT Fields:
http://www.allanalytics.com/author.asp?doc_id=278018§ion_id=3762
54
ParStream : ParStream Geo-Distributed Analytics
Geo-Distributed setup substantially reduces network traffic enabling continuous monitoring (sampling proofed insufficient)
Application
Database
More than 20 billion records returned
Query Search Results40 records found
4 billion records
4 billion records
4 billion records
4 billion records
4 billion records
현재 방식
Application
Query Search Results40 records found
ParStream
ParStream Geo-Distributed Server
7records
18records
5records
12records
8records
4 billionrecords
ParStream ParStream ParStream ParStream
ParStream Geo-Distributed Analytics
55
http://www.platone.co/solutions/#Products
실시간 디바이스 모니터링 및 분석: Fog(Edge) Computing
56
일일 배치쿼리 속도 개선 : 기존 1시간 소요 2~3분내 수행
2.68억건 데이터에서 72만건 추출/일
임시 테이블 (데이터마트) 생성 없이 BI툴과 리얼타임 쿼리 연동 가능
교통정보 생성 시스템
실시간 모니터링
실시간 적재
교통 데이터 일 배치(batch) 사례 : Traffic Analytics
57
기존 RDB / NoSQL 대비 획기적 성능 개선
성능테스트 결과 : NoSQL 기존 소요 시간 72초~215초내 수행
20배이상 속도 개선 (그룹 4 테스트 결과 : 72초 -> 3초, 215초 9초)
온라인쇼핑몰 DW 성능 개선(1/2): 실시간 상품추천 서비스
58
테스트 환경 및 결과 비교
항목 ParSreamOpen Source
Real-time NoSQL비고
서버 사양
• 4 node, VMware Cluster
• 16 core, 64GB Memory
• SATA disk, 7200rpm
• 6 node, Azure Cluster
• 8 core, 64GB Memory
• SSD
Druid
작업 기간• 3일 for 300GB and 1TB import & test
• 1개월 for 300GB import & test
수행 결과
• 300GB 의 경우 ParStream이 20배 이상 빠름
• 동일 쿼리 반복실행 시 1.5~19배더 빨라짐
• 1TB(60억건) 경우 테스트 작업 기간 내 안정적으로 종료
• 동시성 테스트에서 안정적 결과와빠른 응답속도(10~30 user)
• 300GB 경우에도 성능의 일관성부족
• 동일 쿼리 반복실행 시 성능 차이없음
• 1TB(60억건) 작업시간 부족 등으로 테스트 작업 못함
• 동시성 테스트에서 안정성 부족, 성능 측정 불가(10~30 user)
온라인쇼핑몰 DW 성능 개선(2/2): 실시간 상품추천 서비스
59
기존 방식 문제점 : 하둡 + RDBMS 혼재, 느린 성능
• 하둡을 통한 Summary Data 추출 10분 이상 소요 및 R-DB 전달 등 복잡
• RDBMS : 추출된 데이터 이관 후 패턴 분석 실시 위해 SQL 쿼리 처리
Machine Sensor
SensorData
SummaryData
DetailData
SummaryData
BatchMachine Sensor
SensorData
SummaryData
Online batch
기존 프로세스 개선 프로세스
※ 문제 요건 : 설비 측정값의 빠른 SPC 룰 기반 데이터 처리
S전기 MES 데이터 분석 성능 및 프로세스 개선(1/2)
60
조건 검색 및 Stress Test 결과 : 300배이상 속도 개선 2초~5초내
단일 DB에서 모든 프로세스 처리 복잡성 제거
테스트 항목 성공여부 수행시간 관련데이터 건수 Tool 비고
측정데이터 적재 성공 초당 35만건 적재 10,155,600,000 SQL, python 600 GB 101억건 8시간 적재
1 lot summary 성공 2초 이내 112,700 SQL, Shell
SPC Rule 1 성공 1초 이내 SQL, python
SPC Rule 1 성공 1초 이내 SQL, python
1 lot 조건 검색 성공 0.1초 이내 101억건 중 1800건 SQL
조건검색1 성공 2초 이내 101억건 중 1,727,000건 대상 SQL lot id별 측정항목, 채널 조건의 하루
데이터 검색
조건검색2 성공 15초 이내 101억건 중 1,727,000건 List up SQL 측정항목, 채널 조건의 하루 데이터
검색
조건검색3 성공 3초 이내 101억건 중 57,474,000건 대상 SQL lot id별 측정항목, 채널 조건의 5일
데이터 검색
조건검색4 성공 3초 이내 101억건 중 5,211,000건 대상 SQL lot id별 측정항목 조건의 하루
데이터 검색
조건검색5 성공 5초 이내 101억건 중 121,590,000건 대상 SQL lot id별 채널 조건의 하루 데이터
검색
* 측정데이터 환경
- 1 lot 당 10개 채널, 700개 측정항목, 1800개 Mac ID
- 1 lot 1,260,000 건 (700 * 1800)
- 하루 1000 lot 생성
- 측정 데이터 약 8일 분량 101억 건 적재
S전기 MES 데이터 분석 성능 및 프로세스 개선(2/2)
61
ParStream 적용 영역: Embedded Analytics
62
ParStream 적용 영역: Real-Time ODS
ParStream Real-Time Import/Query/BI Dashboard
운영시스템(MES, ERP, CRM, etc)
Real-Time
Import
Real-Time ODS
EDW / 목적별 Mart
Monitoring
Inspection
ETLPredictive Modeling
Advanced AnalyticsDynamic Ad-hoc Query
Actionable Insights
전사 운영데이터
상세 데이터
실시간 데이터
과거부터 현재까지 데이터
속보, 경영정보, 모니터링, 분석
전사 운영데이터
상세 데이터, 요약.집계 데이터
실시간에 가까움
최근 수개월 데이터
Delayed 속보, 경영정보
Real-Time ODSTraditional ODS
63
Real-time data processing for performance management
Stream API, Flume APIETL, SQL API, JDBC, ODBC
Real-Time Data forPerformance Measurement
Historical Data for Performance Prediction
ParStream(Big Data Analytics Database) Data Processing
Alarms, State, Events, Time, Energy, Sensors
MTConnect, OPC UA (Mixture of structured and unstructured data), IoT
SCADA MES ERP
B2MML, Custom IntegrationFormat (Structured) Data Acquisition
Predictive ModelingStatic performance data(Material, Maintenance,Machine, Operation, Planning)
Dynamic Time Series Data(Alarms, State, Time, Events andEnergy)
Data Analytics
Advanced AnalyticsDynamic Ad-hoc Query
Actionable Insights
* MTConnect: Manufacturing industry standard* OPC UA: OPC(OLE for process control) Unified Architecture, M2M communication protocol* B2MML: Business to Manufacturing Markup Language
ParStream 적용 영역: Real-Time Performance Management in Smart Manufacturing Systems
64
60B rows
capacity
100x faster than closest competitor
500 concurrent
users
40x faster than closest
competitor
Replace 30TB Oracle data-warehouse
Response time < 1 second
300 concurrent users; 400 days
continuous uptime
10b+ rows; 150ms avg. response time
Reduced 150 servers to 4
Import time 2 weeks 4
hours
ParStream의 증명된 성공사례
65
ParStream - The Company
2008년 설립, 독일 퀄른 (Cologne, Germany)
Cologne, Paris, Silicon Valley, Boston, Israel, etc
Korea
• 2014년 지사 설립, 총판 굿모닝아이텍㈜, 국내 10개 이상의 전문 파트너
3년 이상의 실제 다수의 고객 운영사례 (24 x 7)
$20M funding: Khosla Ventures (lead), Andy Bechtolsheim, Crunchfund, Data Collective, Baker Capital, Tola Capital, and others
66
Award-Winning Technology
66
Gartner Cool Vendor, CIO “#1 Big Data Startup”
Computerworld Big Data Award
Database Icons in Advisory Board Don Haderle (Formerly IBM - Head of DB2)
Andy Palmer (Former Co-Founder Vertica - acquired by HP)
Mary Anne Neimat (Former Co-Founder Times10 - acquired by Oracle)
Prof. Volker Markl (TU Berlin, Institute for DB Technology)
2014
67
Industry-leading Product Recognition
ParStream is the most
reliable System in our
Data Center
CTO, etracker
ParStream was 40 times faster than its nearest competitor.
CTO, Cake Marketing
ParStream enabled us to scale internationally - TCO is much lower than with Hadoop
VP Eng, Searchmetrics
#1
Big
Data
Startup
Cisco Entrepreneurs in Residence
Consortium
68
ParStream : Big Data Leader
Europe계 IT 전문 평가기관인 ExpertON Group에서는 ParStream을 빅데이터에 대한 성능
및 실행 능력이 우수한 경쟁력 있는 리더그룹으로 평가하고 있습니다
100%
50%
0%
competitive strength(경쟁력)
0% 50% 100%
Port
folio
attra
ctiv
eness
Big Data Vendor Benchmark 2015 – Deutschland
69
ParStream : Analytical DBMS for Analytics 3.0
Bloor Group White Paper
Q & A
ParStreamReal-time Big Data Analytics Platform
sales.korea@parstream.com
www.parstream.com
www.facebook.com/iotrealtimes
http://parstream.tistory.com/
Recommended