44
2011 4 사내 기술 세미나 - 부제 : 데이터 개요 동향 2011.12.21

제4회 사내기술세미나-big data-빅데이터개요및동향-dh kim-2011-12-21

Embed Size (px)

Citation preview

2011년 제4회 사내 기술 세미나

- 부제: 빅 데이터 개요 및 동향

2011.12.21

Contents

Big Data! 넌 뭐니?

Big Data 관련 핵심 기술들

Big Data 관련 동향

펜타가 주목해야 할 것들...

마무리

당신의 머리 속을 스치는 생각...

당신의 머리 속을 스치는 생각...

Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)

당신의 머리 속을 스치는 생각...

당신의 머리 속을 스치는 생각...

Q. Big Data가 과연 이슈인가요?여러분의 생각은 어떠신지요?

Big Data? 거대 데이터? 엄청 큰 데이터?

Big Data! 넌 뭐니?

Big Data! 넌 뭐니?

Big Data의 특징

Big Data! 넌 뭐니?

Big Data의 출현 배경

Big Data는 왜 중요한가? → Big Data는 이미 진행 중

Big Data! 넌 뭐니?

Big Data! 넌 뭐니?

Big Data는 왜 중요한가? → 정보 밀집도가 Critical Mass에 도달

Big Data! 넌 뭐니?

Big Data는 왜 중요한가? → Big Data의 Magic

Big Data! 넌 뭐니?

Big Data는 왜 중요한가? → 스마트 혁명의 핵심자원(제4의 경영자원)

Big Data! 넌 뭐니?

데이터 특성에 따른 빅 데이터의 포지셔닝(PwC, 2010.)

Big Data! 넌 뭐니?

Big Data = Complex Data

Big Data! 넌 뭐니?

Gartner(2011.1, ‘Big Data Analytics’)– 빠른 의사결정이 상대적으로 덜 요구된다.

• 대용량 데이터에 기반한 분석 위주로, 장기적/전략적 접근 필요

– 처리 Processing 복잡도가 높다.• 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처

리 복잡도가 매우 높으며, 이를 해결하기 위해 분산 처리 기술이 필요

– 처리할 데이터양이 방대하다.• 클릭스트림 데이터를 예로 들면, 고객 정보수집 및 분석을 장기간에 걸쳐 수

행해야 하므로 기존 방법과 비교해 처리해야 할 데이터양 방대

– 비정형 데이터의 비중이 높다.• 소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신CDR 로그 등 비정형 데이터 파일의 비중이 매우 높음(처리의 복잡성 증대)

– 처리/분석 유연성이 높다• 잘 정의된 데이터 모델/상관관계/절차 등이 없어, 기존 데이터 처리방법에

비해 처리/분석의 유연성이 높은 편, 새롭고 다양한 처리방법의 수용을 위해,

유연성이 기본적으로 보장돼야 함

– 동시 처리량(Throughput)이 낮다.• 대용량 및 복잡한 처리 특징, 동시에 처리가 필요한 데이터양은 적음

• (준)실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않음

Big Data! 넌 뭐니?

참고) 빅 데이터의 성격

Big Data 관련 핵심 기술들

Big Data 처리 흐름

Big Data 관련 핵심 기술들

Big Data 처리의 어려움

Big Data 관련 핵심 기술들

Big Data 요구사항

Big Data 관련 핵심 기술들

Big Data 필요 기술

Big Data 관련 핵심 기술들

Big Data Architecture(예시 1)

Big Data 관련 핵심 기술들

Big Data Architecture 컴포넌트(예시 1)(1/2)

Big Data 관련 핵심 기술들

Big Data Architecture 컴포넌트(예시 1)(1/2)

Big Data 관련 핵심 기술들

Big Data Architecture(예시 2)

Big Data 관련 핵심 기술들

Big Data 필요 기술(예시 2)

Big Data 관련 핵심 기술들

핵심 기술 1: 클라우드 컴퓨팅(1/3)

Big Data 관련 핵심 기술들

핵심 기술 1: 클라우드 컴퓨팅 (2/3)

Big Data 관련 핵심 기술들

핵심 기술 1: 클라우드 컴퓨팅(3/3)– 데이터의 상당 부분이 클라우드에서 생산되고 유통

• 2020년 생산되는 데이터 중 클라우드 내에 있는 비율: 5/35 Zettabyte(14.3%)

• 2020년 생산되는 데이터 중 클라우드로 유통되는 비율: 12/35 Zettabyte(34.3%)

– 클라우드 컴퓨팅 기술 – Big dataEnabler

• Hadoop과 MapReduce는 거대데이타를 개별 클러스터에 분산, 저장하고 보관

• 노드에서 병렬 처리함으로써 고속처리, 저비용화 달성

Big Data 관련 핵심 기술들

핵심 기술 2: 실시간 분석

Big Data 관련 핵심 기술들

핵심 기술 3: 네트워크 역량 강화

Big Data 관련 동향

Gartner 선정 Top 10 전략적 기술 영역

Big Data 관련 동향

대용량(Large Scale) 데이터 처리 동향 (Cloud)

Big Data 관련 동향

대용량(Large Scale) 데이터 처리 동향 (DW)

Big Data 관련 동향

참고) NOSQL 기반 DBMS와 RDBMS의 차이점

Big Data 관련 동향

참고) Big-data Analytics Complements DW

Big Data 관련 동향

활용분야

Big Data 관련 동향

Big Data 활용사례

Big Data 관련 동향

Big Data 활용사례: 가치 평가

펜타가 주목해야 할 것들...

Big Data – Segments of Opportunity

Spreadsheets/

Visualization

Connectors/

Integration

Hadoop

Distributions

File Storage

Tools &

Analytics

*Now Hitachi

Analytical

Applications

Analytical

Platform*Now Teradata *Now HP *Now EMC

펜타가 주목해야 할 것들...

마무리

빅 데이터 확산에 따른 도전과 기회– 새로운 가치와 수익 창출원으로 기대를 모으고 있으나, ‘빅 브라더’

에 대한 우려와 전문인력 부족 등 해결해야 할 많은 도전과제도 상존

– 데이터 축적량이 양적 거대함을 질적 유용함으로 전환할 시기 임박

– New BM으로서 Big data 서비스 발굴: Big Data와 플랫폼 통합

– BigData는 하나의 솔루션으로 해결할 수 없으며 요구사항, Data의 성격 등에 따라 다양한 솔루션으로 조합되어야 함

– 오픈소스 중심의 소프트웨어 스택을 구축, 운영이 절실(기술력을 갖추어야 함)

→ 빅 데이터의 핵심은 데이터의 비즈니스화(막대한 양의 1차 데이터가 아닌 가공된 2차 데이터가 진정한 의미의 빅 데이터)

To be continued…