27
2016(9) 한국 소프트웨어 아키텍트 대회 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 스위트(UDAS) 아키텍처 2016. 7. 21. 회사명 ()인브레인 발표자 홍세환 부장

빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

2016(제9회) 한국 소프트웨어 아키텍트 대회

빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 스위트(UDAS) 아키텍처

2016. 7. 21.

회사명 (주)인브레인

발표자 홍세환 부장

Page 2: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

Agenda

• 빅데이터 활용 개선점 • 통합 데이터 분석 스위트(UDAS) 아키텍처 Overview • 통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

– 수집 프로세스 – 정제 프로세스 – 분석 프로세스 – 시각화 – 통합 메타데이터 관리

• 통합 데이터 분석 스위트(UDAS)의 특징

2

※ 미래창조과학부에서 시행한 정보통신․방송연구개발사업의 결과임

Page 3: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

빅데이터 활용 개선점

• 일반사용자의 사용성

3

데이터 수집

데이터 가공

데이터 전달

• 분석 Know-How의 휘발성

• 반복 분석의 고비용

• 데이터 처리 단계의 복잡성

데이터 수집

10%

데이터 정제

70%++

통계분석

15%

5%

데이터 정제의 프로세스화

시각화

분석 메타데이터 유실

데이터 수집 데이터 정제 통계분석 시각화

메타 데이터

메타 데이터

메타 데이터

• 데이터 통합 수집기 • 데이터 분해, 정제, 적재 • 수집관리 정책 및 규칙 저장소 • 통합 데이터 저장소

데이터 수집

• 정제 프로세스 디자이너 • 쿼리 / ERD / 매핑 디자이너

• ETL 에이전트 • 데이터 정합성 검증 모듈

데이터 정제

• 분석 모델 디자이너 • 분석 프로세스 자동화 마법사 • 분석 템플릿 관리도구 • 통계 분석 알고리즘 추천 시스템 • 분석 결과 조회 및 배포

통계 분석

• 시각화 제어 모듈 • 통합 메타데이터 관리 도구 • 시각화 그래프 추천 시스템 • 시각화 결과 조회 및 배포

시각화

수집/정제/분석/시각화

Page 4: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

빅데이터 활용 개선점

• 빅데이터 관련 기술 현황

4

데이터 수집

데이터 적재

데이터 조회SQL

데이터 정제 통계분석 시각화 NoSQL 실시간

데이터분석 Hardware Appliance Crawling

Cloud for Big Data

Informatica Apache Hadoop

2.0 R D3/

Visual.ly Cassandra

SAP Hana

Oracle Exadata

Salesforce.com

Radian6

Amazon (IaaS+

Hadoop)

Talend (Open Studio)

Cloudera (CDH 4.0

Impala 2.0) SAS Qliktech Mongo

CEP Esper

EMC Greenplum

SAS SMA

SoftLayer (IaaS+

Hadoop

IBM InfoSphere DataStage

HortonWorks (Data Plaform 2.0

Stinger) SPSS Micro

Strategy Oracle Teradata Aster

Rackspace (IaaS+

Hadoop)

MapR (M5 hadoop, M7 hbase) Tableau Riak Tibco IBM

Netizza Cloudant (DBaaS)

Splunk (proprietary DB) Spotfire HP APS

Amazon Dynamo (DBaaS)

Sumologic

빅데이터 인프라 빅데이터 서비스

Open Source

유료 SW

데이터 정제

통합 데이터 분석 스위트 (UDAS)

Page 5: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 Overview

• 분석을 위한 UDAS 아키텍처

5

Page 6: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 Overview

6

1

2

3

4

5

6 7

8

통계분석 알고리즘 지속적 추가 반영 시각화 그래프 지속적 추가 반영

• 주요 요소기술 - 수집/정제/분석/시각화

Page 7: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 Overview

• 주요 Layer View

7

Presentation Layer •통합 IDE •ER 디자이너 •쿼리 디자이너 •매핑 디자이너 •분석모델 디자이너 •결과분석 뷰어

Business Layer

•분석관리자 •데이터 연결관리 •데이터 패턴분석 •분석결과 관리 •분석 엔진관리

Data Access Layer

•분석 메타데이터 •쿼리매핑 데이터 •리버스엔지니어링 데이터 •분석 실행 •분석결과 데이터

Page 8: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

8

• 수집 프로세스

데이터 통합 수집 도구

통합 데이터 수집 모듈

통합 데이터 저장소

데이터 가공

통합 데이터 수집 프로세스 관리 도구

빅데이터

수집 정책 및 규칙 저장소

데이터 수집 정책 복합 데이터 분해 규칙 정보 보호 규칙 데이터 스키마 데이터 전송 정책

메일 데이터 수집 모듈

인터넷 데이터 수집 모듈

SNS 데이터 수집 모듈

RDB 데이터 수집 모듈

로그 데이터 수집 모듈

메일 데이터 수집 가공 적재

인터넷 데이터 수집 가공 적재

SNS 데이터 수집 가공 적재

RDB 데이터 수집 가공 적재

로그 데이터 수집 가공 적재

인터넷 데이터 수집 전문가

메일 데이터 수집 전문가

SNS 데이터 수집 전문가

RDB 데이터 수집 전문가

로그 데이터 수집 전문가

메일 데이터 수집 모듈

인터넷 데이터 수집 모듈

SNS 데이터 수집 모듈

RDB 데이터 수집 모듈

로그 데이터 수집 모듈

통합 데이터 수집 전문가

가공 적재

데이터 통합 수집 도구

중복 작업 (수집 전체 공정의 약 70%)

중복 작업 간소화

최초 수집 행위는 데이터의 저장 장소, 형태에 따라 다양한 방식이 존재하지만 단순 수집 이후 적재 단계까지 약 70%의 작업은 거의 공통적인 경향을 보임. 이런 공통 작업을 통합하여 구조를 단순화/일반화 다양한 수집에 집중

Page 9: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

9

• 수집 프로세스

멀 티 데이터 수집 모듈

수집모듈 제어기

복합 데이터 분해 모듈

데이터 브로커

데이터 클린징 모듈

정보 보호 모듈

수집 정책 및 규칙 저장소

통합 데이터 저장소

실시간 모니터링 모듈

정책 및 규칙 저장 모듈

데이터 뷰 모듈

수집 데이터 흐름

정책 및 규칙 메타데이터 흐름

처리 및 상태 로그 데이터 흐름

통합 데이터 수집 프로세스 관리 도구

정책 및 규칙 메타데이터 기반의 통합 제어 및 관리 수집 데이터 뷰, 프로세스 실시간 상태 모니터링

정책 및 규칙 메타데이터 관리 (GUI 에디터)

데이터 수집의 효율성 증가 데이터 품질 관리 데이터 수집의 유연성 및 정확성 제공

Page 10: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

10

• 정제 프로세스 시나리오

전산실

병원 전산 시스템 OCS (Order Communication System) 처방전달시스템

EMR (Electronic Medical Record) 전자의무기록

의사

분석 전문가 부재

환자에 대한 데이터 요청

요청한 데이터

조건 또는 범위 변경 요청

요청한 데이터

데이터 가공 요청

가공된 데이터

1 주

2 주

3 주

4 주

Page 11: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

11

• 정제 프로세스 원본 데이터를 분석할 수 있는 데이터로 변환하는 과정을 프로세스로 관리하고 재사용

데이터 정제 비용 50% 이상 절감 가능, 데이터 정제 작업 시간 50% 이상 단축 가능

데이터 모델링 도구로 Reverse / Forward 엔지니어링을 통한 정제

• 비정형 및 반정형 데이터 불확실성 내재

• 정형 데이터 데이터의 본질과 의미를 훼손하지 않음.

• 비정형 데이터의 정규화 어떤 속성도 파악되지 않은 비정형 데이터가 최소한의 구조로 저장 될 수 있도록 설계 • 통합성(Integrated) 데이터가 항상 일관된 형태로 유지되고 동일한 명칭으로 다수의 개념을 포함할 수 있도록 데이터를 통합

빅데이터 분석 ODS 데이터 웨어하우스 데이터 마트 분석 모델

• 주제 지향성(Subject Oriented) 데이터 분석 개념과 원리에 따라 주제별로 구성되도록 설계 • 데이터의 의미적 다양성 도출 여러 가지 조합으로 재생산 된 의미를 가지는 분석 대상으로서의 데이터 집합체 설계

• 구체적 반복적 분석을 위한 데이터 구축 분석 작업, 데이터의 의미, 표현 및 사용의 용이성 등의 측면에서 분석가의 명확한 요구에 부합하는 데이터를 제공할 수 있도록 설계

• 체계적인 분석 모델 설계 데이터 설계 측면에서 관리와 가독성이 떨어지는 스크립트 코딩 방식이 아닌, 관리적 GUI 도구를 제공하여 분석 모델 설계

정형, 비정형 및 반정형 데이터

Union Data Model

HDFS (Hadoop)

분석 ODS 데이터 웨어하우스

데이터 마트

분석 모델 분석 결과

Page 12: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

12

• 정제 프로세스

1 대상 데이터베이스 설계 데이터 원본 쿼리 설계 데이터 매핑 설계

데이터 원본 및 기존 대상 데이터베이스의 메타데이터를 활용한 ERD 설계

ERD 디자이너 쿼리 디자이너

데이터 원본 쿼리 결과 구조

결과 구조 타입 지정

매핑 디자이너

쿼리 결과 구조 항목 선택

항목별 집계 방식 설정

항목배치

데이터 프레임에 데이터 구조 연결

ERD 디자이너

메타데이터

통합 메타데이터 관리

2 3

Source 빅데이터

Target DB 및 분석모델

Page 13: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

13

• 정제 프로세스 – ER 디자인 ERD 디자이너는 정확한 데이터 모델제작, 데이터의 중복 감소, 생산성을 개선, 표준을 준수

기능 설명

1. ERD 관련 개체 제공 Entity, Relationship, Sub-Type 등 ERD 관련 개체 제공

2. 논리/물리 설계 논리구조와 물리구조 변경 UI 제공

3. 대상 데이터베이스 개체 탐색기 대상 데이터베이스의 데이터 모델 구조 탐색 및 확인

4. 데이터 원본 구조 메타데이터 선택된 데이터 원본의 메타 구조 탐색 및 확인

5 모델정합성 체크 모델의 정합성을 체크

1

데이터베이스 개체 탐색기

데이터 원본 스키마 정보

논리/물리 설계

ERD 작성을 위한 다양한 개체 지원

ERD 디자이너

모델 정합성 체크 2

3 4

5

Page 14: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

14

• 정제 프로세스 – 쿼리 디자인

데이터 원본 스키마 정보 역공학

데이터 원본 스키마 정보 탐색 창

쿼리 디자이너

ERD 디자이너

1

2

3

4

데이터 원본(하둡 ,데이터베이스 및 파일)을 역공학하여 스키마 정보를 구축하여 사용자에게 제공

정보를 계층 구조 형태로 확인

GUI 도구를 활용한 쿼리 디자이너

데이터 원본의 역공학된 스키마 정보를 ERD로 보여 줌

역공학으로 데이터 원본 스키마 정보를 제공하며, 이 정보는 ERD 뿐만 아니라 엔티티, 관계정보 및 인덱스까지 제공하여 쿼리 설계를 가능하게 함. 쿼리 디자이너는 직관적인 GUI 환경을 제공하며 쿼리를 스크립트로 작성하거나 ERD를 설계하는 방식으로 간편하게 작성할 수 있게 함

Page 15: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

15

• 정제 프로세스 – 매핑 디자인

쿼리 결과 구조 항목 선택

항목별 집계 방식 설정

항목배치

데이터 프레임에 데이터 구조 연결

기능 설명

1. 대상 데이터베이스 구조 역공학

대상 데이터베이스를 역공학 하여 전체 데이터베이스의 스키마 정보를 획득

2. 데이터 원본 쿼리 결과 스키마 정보 조회

쿼리 메타데이터를 이용하여 데이터 원본 쿼리 결과 스키마 정보를 획득

3. 매핑 메타데이터 생성 및 관리

쿼리 메타데이터와 대상 데이터베이스 스키마 정보를 서로 연결하여 작업 저장함

연결의 기본 원칙은 테이블단위의 매핑이지만, 추출 결과셋의 여러 테이블 간에 동일한 식별자를 지정하고 서로 다른 컬럼들을 조합하여 대상 데이터베이스의 특정 테이블에 매핑할 수 있음. 데이터 원본 쿼리 결과 구조에 대하여 산술 및 집계 연산 지정이 가능함

4. 매핑 메타데이터 구성 정보

매핑 메타데이터는 ETL 에이전트의 동작 단위임

• 데이터 원본 연결 및 인증 정보(암호화) • 데이터 원본 쿼리 • 쿼리 결과 구조 메타데이터 • 대상 데이터베이스 구조 일부 (매핑과 관련한 구조) • 쿼리 결과 구조 및 대상 데이터베이스 구조의 연결 정보(1:1, 비정규화 매핑, 조인 매핑 정보 포함)

데이터 매핑 설계 개념도

데이터 정제 작업은 대부분 스크립트로 이루어져 관리 및 재사용이 어려움 매핑 디자이너를 통해 데이터 원본 쿼리 작성을 간소화하고 쿼리 결과를 대상 데이터베이스 구조와 다양한 방식으로

매핑하여 적재 정보를 생성

Page 16: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

16

• 정제 프로세스 – ETL

ETL 상세 개념도

하둡 및

데이터베이스

Source

통합 메타

데이터 저장소

매핑 메타데이터

ETL

에이전트

서비스

매핑 디자이너

즉시 적재

쿼리 저장

매핑 정보 저장 데

이터적재

데이터로딩

쿼리 디자이너

Target

데이터베이스 및

분석 모델

ETL 에이전트 동작 개념도

쿼리 메타데이터

데이터 원본

대상 데이터베이스

쿼리 결과 데이터 추출 결과 변환 및 적재

매핑 메타데이터

ETL 에이전트 동작 설정

ETL은 매핑 메타데이터 정보를 기반으로 동작, 쿼리 결과는 메타데이터를 기반으로 대상 데이터베이스에 적재 사용자는 쿼리 디자이너에서 즉시 적재를 실행, ETL 에이전트를 통해 배치 작업으로도 실행 매핑 메타데이터 정보 및 관리자가 설정한 동작 스케줄에 따라 ETL 에이전트가 동작 ETL 에이전트 로그 정보가 기록, 오류 관리, 전체 분석 프로세스의 한 부분으로 동작

Page 17: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

17

• 분석 프로세스 시나리오

전산실

기간계 시스템

분석 위한 데이터 요청 (요구사항 전달)

요청한 데이터

생산 기획

업무 전문가

분석 전문가

분석 결과

업무 적용

Page 18: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

18

• 분석 프로세스 – 템플릿 관리 분석 템플릿은 빅데이터 분석 과정에서 발생한 데이터베이스, 쿼리, 매핑 및 분석 모델 메타데이터의 재활용 및 빅데

이터 분석 서비스를 가능하게 함

분석 템플릿 관리 빅데이터 분석 서비스

쿼리

매핑

ERD 결과 뷰

분석 모델

분석 템플릿

분석 템플릿 관리 도구

쿼리 쿼리

쿼리 쿼리

ERD ERD

ERD ERD 분석 모델

분석 모델

분석 모델

분석 모델 매핑 매핑

매핑 매핑

통계 분석 알고리즘 및 시각화 그래프 실행

환경 설정

- 데이터 정제 프로세스 설정 - 통계 분석 설정

분석 템플릿

실시간 분석 결과뷰

데이터 정제 프로세스 별 ETL 실시간 동작

분석 모델 데이터 적재 ETL 실시간 동작

사용자

- 의사 결정 - 모니터링 - 전략 수립

통합 메타데이터

정제 프로세스 메타데이터 분석 모델 메타데이터

Page 19: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

19

• 분석 프로세스 - 분석자동화

분석 프로세스 자동화 마법사

업무 전문가는 미리 준비된 분석 템플릿을 선택하여 분석 프로세스 자동화 마법사에서 제공하는 단계별 설정 기능을 통해 분석 프로세스의 전 과정을 간소화하여 진행

분석 템플릿 선택

데이터 정제 프로세스 환경설정

분석 모델 환경설정 분석실행 결과조회

• 분석 영역 별로 제공하는 분석 템플릿 선택

• 프로젝트에 필요한 사항 식별

• 데이터 정제 프로세스 변경 가능

• 데이터 정제 단계별 데이터 원본 및 대상 데이터베이스 설정

• 정제 프로세스 무결성 자동 검증

• 통계 분석 결과 및 시각화 그래프 개별 확인

• 분석 및 시각화 결과뷰 조회

• 분석 모델 데이터 적재 및 분석 실행 주기 설정

• 분석 및 시각화 결과 뷰 배포 설정

• 통계 분석 알고리즘 및 시각화 그래프 변경 기능

• 분석 및 시각화 결과뷰 커스트마이징

•분석 템플릿을 적용한 분석 프로세스 자동화 마법사를 통해 업무 전문가가 분석 작업에 바로 착수

•분석 결과 측면에서 검증된 분석 템플릿을 사용하면 업무 전문가는 분석 결과 보고서, 대시보드 및 모니터링 화면을

스스로 제작할 수 있음

Page 20: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

20

• 분석 프로세스 – 통계 알고리즘 자동추천

입력 데이터 (input Data)

데이터 타입 검사 (Check Data Type)

응답 변수 결정 (Determine Response

Variable)

사용 가능한 통계 분석 알고리즘 검색

(Find Available Package)

Elements type

Stack type

Class S3 S4

Vector

Numeric

Data.frame Array List

Factor character

Generalized linear regression

T-test Continuous

Discrete

Multivariate

Linear regression ANOVA

Kernel smoothing

Machine learning Cochran Mental Henzel test

Generalized estimating equation

Linear mixed effect model

Generalized linear mixed effect model

Multivariate linear regression Principal component analysis

Fourier analysis Weibull

Generalized estimating equation

Survival

Clustering Factor analysis Multi dimensional scaling CART

stats

stats Continuous

Discrete

Multivariate

MASS fftw

lme4

MASS RandomForest

e1071

glmnet

lme4

skmeans pscore

reliaR survival

car

KernSmooth

FactoMineR mclust smacof

blme glmnet

glmmlasso lm.br robustlmm CLME

cplm

arm

nplr

kknn

stats rmgarch

gee nnet

ordinal

cclust

MVN bootSVD

통계알고리즘의 추천은 입력데이터의 데이터 타입을 검사하여 데이터의 유형에 맞는 알고리즘을 추천, 데이터전문가인 경우 직접 알고리즘 선택도 가능

Analysis Server

With R Engine

Page 21: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

21

• 분석 프로세스 – 알고리즘, 그래프 자동 추천 분석 모델의 데이터 스키마와 통계 분석 알고리즘 및 시각화 그래프의 메타데이터를 이용하여 추천 기능을 제공. 분석가가

구성한 분석 모델의 데이터 스키마 및 실제 데이터의 유형을 자동으로 파악하여 실행 가능한 통계 분석 알고리즘 및 시각화 그래프를 추천

통계 분석 알고리즘 및 시각화 그래프 추천 시스템 개념도

데이터 유형 별 통계 분석 알고리즘 및 시각화 그래프 룰 기반 매핑 DB

데이터 유형 분석

통계 분석 알고리즘 및 시각화 그래프 메타데이터

추천된 통계 분석 알고리즘 및 시각화 그래프

•데이터 유형 별 통계 분석 알고리즘

및 시각화 그래프의 룰 기반 매핑

DB 구축 (지속적인 추가 반영)

•데이터의 유형에 따른 가설 검정과

통계 기법 및 시각화 그래프를 1차

정리

• 2차로 통계 분석 알고리즘을 통계

기법 기준으로 분류

• 최종적으로 데이터 유형에 따른 통계

분석 알고리즘 및 시각화 그래프의

관계를 지식화하여 룰 기반 매핑

DB로 구축

분석 모델

통계 분석 알고리즘 및 시각화 그래프 추천 시스템

데이터 유형 정보

분석가

Page 22: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

22

• 분석 프로세스 – 엔진 서버 서비스 분석 실행 시 분석 모델의 구성 데이터 크기 및 분석 종류에 따라 개인 PC에서는 처리 하지 못하는 경우 분석 엔진 서버 서비스

를 통해 처리

분석 엔진 서버 서비스

Client

Smart client

• 개별 분석 실행 • 분석 프로세스 자동화 마법사 • 결과 조회

UDAS

• 분석 프로세스 자동화 마법사 • 결과 조회

분석 포털 Site

Web Application

Application Server

Web Hosting

• 서버 모니터링 • 분석 상태 모니터링 • Data Access

분석 서버 제어

• 분석 관리 서비스

분석 작업 관리

• 분석 서버 상태 정보 • 분석 요청 서버 배정 • 우선 순위 관리 • 작업 취소

분석 요청 큐 관리

분석 모델 관리

• 분석 이력 • 분석 결과 관리

분석 상태 관리

• 분석 진행 상황 정보 • 분석 상태에 따른 Notice

오류 및 진단

• 오류 처리 및 Notice • 무한 처리 및 대기 감지

분석 관리 서비스

Analysis Server

With R Engine

Analysis Server

With R Engine

Analysis Server

With R Engine

Page 23: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

23

데이터를 시각화하는 방법은 굉장히

많음. flowingdata.com에서 어떤 툴

로 시각화를 하는지 설문 결과

마이크로소프트의 엑셀과 R이 과반을

넘고 있는 상황

엑셀은 훌륭한 도구이지만 빅데이터를

분석하기엔 적합하지 않음

R은 엑셀만큼 손쉽게 빅데이터를 분석

하기 어려움

업무 전문가들을 위한 최적의 솔루션

필요

사용하고 싶은 분석 및 시각화 툴

[자료 : flowingdata.com]

• 시각화 - 분석 시각화 도구

Page 24: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

24

• 시각화

분석 결과뷰 배포

통계 분석 및 시각화 결과뷰를 분석 포털에 배포하여 사용자에게 공유

- 분석 결과 편집 - 분석 결과 배포

- 의사 결정자 - 조직 구성원 - 분석 결과 리서치 - 재분석

•분석가는 여러 결과 중 특정 분석 및

시각화 결과뷰를 분석 포털에 공유할

수 있음

•결과뷰를 분석 포털에 배포 시 특정

그룹 및 사용자에게만 공개할 수

있도록 권한 제어

• 배포된 분석 및 시각화 결과뷰에

대해서 사용자는 분석 모델을

재구성하여 새로운 분석을 진행 할

수 있음. 이 기능은 분석 프로세스

자동화 마법사를 통해 진행 됨

사용자

분석 결과 DB 분석 결과 조회 및 관리

클라우드 배포 및 공유

CLOUD

분석 포털

Page 25: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS) 아키텍처 가이드

25

• 통합 메타데이터 관리 분석 프로세스에서 발생한 개별적인 메타데이터는 통합 메타데이터 저장소에서 관리되며, 각 메타데이터를 재구성하고 통합

하여 정형화된 구조의 분석 템플릿 생성 및 관리

정보 정의 메타데이터 관리 메타데이터 활용

분석가

관리자

설계자

업무 전문가

분석 프로세스 실행 및 분석 서비스 구축

분석 프로세스 관리 정보

분석 프로세스 구축 및 재활용

분석 프로세스 자동화 마법사를 통한 분석

분석 템플릿

쿼리

매핑

ERD 분석모델

통합 메타데이터 저장소

분석 템플릿 ERD 정보

ERD ERD

ERD ERD

쿼리 정보

쿼리 쿼리

쿼리 쿼리

매핑 정보

매핑 매핑

매핑 매핑

분석모델 정보 분석 모델

분석 모델

분석 모델

분석 모델

Page 26: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

통합 데이터 분석 스위트(UDAS)의 효과

26

일반 사용자 분석(End User Analytics) 환경 제공 업무 전문가가 쉽고 빠르게 빅데이터를 분석할 수 있는 환경 제공

일반 사용자도 손쉽게 빅데이터를 분석할 수 있는 일반 사용자 분석 환경 제공

데이터 정제 프로세스 관리 및 정제 도구 데이터 분석을 위한 데이터 정제 프로세스 관리 및 재사용 가능 환경 제공

데이터 정제 작업 관리 도구 (데이터 정제 프로세스 디자이너)

데이터 정제 작업 시간/비용 50% 이상 단축/감소 및 직관적인 데이터 정제 기능 제공

수집부터 분석까지 모든 작업을 지원하는 통합 데이터 분석 스위트 빅데이터 분석을 위해 데이터 수집, 정제, 통계 분석 및 시각화를 위한 기능을 통합 제공

개별 작업의 연관성 및 검증은 메타데이터를 기반으로 연결 및 검증

분석 전문가뿐만 아니라 업무 전문가도 통계 분석 및 시각화가 가능

빅데이터 수집부터 분석 결과 배포까지 통합된 스위트 제공 (IDE)

마법사를 통한 손쉬운 데이터 통계 분석 및 시각화 통계 분석 알고리즘 추천 시스템과 시각화 그래프 추천 시스템을 통해 손쉬운 데이터 통계 분석 및 시각화 가능

메타데이터를 기반으로 통계 분석 및 시각화 프로세스를 단순화 시킴

외산 빅데이터 분석 솔루션 대체 효과 증가하는 외산 빅데이터 분석 솔루션을 국산으로 대체

빅데이터 시장에서의 Win-Win 전략 (사업자 수익성 제고 + 고객사 비용 절감 + 고객사 신뢰도 확보 )

Page 27: 빅데이터 통계분석 및 시각화를 위한 통합 데이터 분석 … 3-6...제9회 2016 한국 소프트웨어 아키텍트 대회 2016 (제 9 회) 한국 소프트웨어

제9회 2016 한국 소프트웨어 아키텍트 대회

Q & A

27