14
1 September, 2005 공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안 Leading EA & IT Asset Management Software Company 발표자 : 아이티플러스 오경조 [email protected] Copyright All Rights Reserved Page. 2 Leading EA & IT Asset Management Software Company 공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안 Agenda 1. 데이터 품질 개요 2. 공공기관 데이터 품질 진단 방법 및 현황 3. 오류 유형별 원인분석 및 해결방안 4. 해외 데이터 품질 관리 사례 5. 데이터 품질 관리 솔루션

공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

1

September, 2005

공공기관의 데이터 품질진단 사례 및

고품질 데이터확보 방안

Leading EA & IT Asset Management Software Company

발표자 : 아이티플러스 오 경 조[email protected]

Copyright All Rights Reserved Page.2Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

Agenda

1. 데이터 품질 개요

2. 공공기관 데이터 품질 진단 방법 및 현황

3. 오류 유형별 원인분석 및 해결방안

4. 해외 데이터 품질 관리 사례

5. 데이터 품질 관리 솔루션

Page 2: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

2

Copyright All Rights Reserved Page.3Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.1 데이터 품질 관리 영역� 데이터 품질이란, 지식 작업자가 데이터를 활용하여 업무 목적을 달성할 수 있도록 지속적으로 기대 수준을만족시키는 것 - Larry English

1. 데이터 품질 개요

� 데이터 사양 및 메타데이터에 대한 품질� 표준화 & 모델링 관점� 데이터 값이 업무를 수행할 수 있도록 정의되어 있는가?

� 데이터 값의 정확성에 대한 품질은?� 완전성, 정확성 관점� 데이터 값이 정확하게 정의된 업무 규칙을 준수하는가?

� 지식 작업자에게 전달되는 정보 제품으로서의 품질은?� 적시성, 편리성, 활용성 관점� 필요할 때 즉시 제대로 된 정보를 얻을 수 있는가?

초기 데이터의 품질을 획득하고 이를 지속적으로 유지/개선시키는 프로세스 및 시스템

Definition(정의)

Presentation(활용)

데이터 품질관리란?

Contents(값)

Copyright All Rights Reserved Page.4Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.2 데이터 품질 활동의 의의� 데이터 품질 관리는 기업의 전사적인 데이터 흐름에 있어 발생할 수 있는 데이터 리스크를 줄이는 활동

� 따라서 대규모 프로젝트의 성공을 위해서는 반드시 Data Risk Hedging (DQM)이 선행되어야 함.

1. 데이터 품질 개요

End-User-DevelopedApplication

adds budget data

LegacyApplication

Purchased Package

adds payment details

Order Data Order-to-cashData

Customer Data

Budget andexpenseDataExpense Data

Orders byProduct/region

Dailyorders

* 출처 : Gartner

OperationalData Store

Order-to-cash data

DataWarehouse

Order history

Data MartOrder history By product/region

• 사용자 입력 오류• 데이터 이관 시 과거 오류 데이터• 업무적 예외 처리 허용

• 애플리케이션 사전 점검 미비• 운영상 DB 구조 변경 허용• 애플리케이션 수정 후 데이터 반영 미처리

• 관리자 및 사용자의 미발견• 정제 작업의 어려움• 데이터 품질 점검 활동 부재

내제 위험Inherent Risk

탐지 위험Detection Risk

통제 위험Control Risk

EnterpriseDataFlows

DataRisk

Page 3: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

3

Copyright All Rights Reserved Page.5Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.3 IT 환경변화와 데이터 6시그마1. 데이터 품질 개요

체계적인 데이터 품질 관리 필요

IT 환경의 변화

�데이터 입력 채널의 다양화

�내외부 시스템간 데이터 이동 증가

�기업의 모든 기능 부서 및 영역에 6시그마 철학 도입 확대

내부 대응 시스템

�데이터 중심 관리체계 미흡

�데이터 품질관리 솔루션의 미성숙

�직관 및 과정 중심의 추상적인 개선활동

Inspection and Rework, to find and correct defects

•Approaches to Data Quality

Prevention of defects, at their source

Design, Defects “impossible”Six-Sigma Level1 세대

2 세대

3 세대

Source : Data Quality – The Field Guide

We are here

Copyright All Rights Reserved Page.6Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.4 시장 및 기술동향� 가트너 그룹은 데이터 품질 기술 시장을 고객 정보 향상, 레코드 관계 파악, 데이터 품질 분석등에 사용되는 패키지로 분류하였으며 2007년까지 DW 프로젝트에서 데이터 품질 이슈를 사전에 대처하지 않는다면 50% 이상이실패를 경험할 것이라 전망

1. 데이터 품질 개요

Contact

efficiency

RelationshipIdentification

Non-customerData

Data QualityAnalysis

Market Segment Description

Source : Gartner Research

Data Quality Firewall and Auditing Process

Source : Gartner Research April 2004.

Auditing andReconciliation

Process

DataIntegrationProcess

Source

Data Quality“Firewall”

Source

Source

Source

DataWarehouse

Page 4: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

4

Copyright All Rights Reserved Page.7Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.5 低品質 데이터로 인한 피해1. 데이터 품질 개요

A Supply Chain Debacle – 2001• A war between Nike Inc. and i2 Technologies,

• Nike blames these system problems for a $80 million to $100 million cut in ¾ quarter sales� Nike announced this, its stock price dropped 25 percent in value from $49.17 to $38.80.

The Presidential Election – 2000• The lack of a clear winner, directly resulting from poor data quality, immediately led to a drop in stock prices during the days after the election. At least four data quality issues are evident from the Florida election

� Voter confusion because of poor data presentation

� Validating data before it is verified

� Confusion based on conflicting data sources

� Built-in margin of error

Bombing of the Chinese Embassy during the Kosovo War - 1999• USAF bombing of the Chinese Embassy killed 3 Chinese and wounded 20

• Secretary Cohen visited China to apologize

• US paid $28M compensation to the Chinese government� An out-of-date address that CIA picked one target, thought to be an armory of Yugoslav weapons.

� This was not the only time the United States mistargeted a weapon.

� The true “total cost of date poor quality” is incalculable.

Copyright All Rights Reserved Page.8Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.6 품질평가 영역1. 데이터 품질 개요

하드웨어

시스템 (System)

데이터 모델 관리

데이터 표준 관리

요구사항 관리

데이터베이스 관리

데이터 관리 정책

데이터관리프로세스(Process)

데이터 흐름 (Data Flow)

소프트웨어

네트워크

데이터 생성/가공 관리

데이터 구조 (Data Structure)

데이터 (Data Value)

데이터 [Data]

데이터 품질 관리 프레임워크

비정형패턴

Stage 2

DQ Profiler 활용한컬럼 간 데이터 분석

Null Data

단일, 다중값

Stage 4 데이터 관리 프로세스 점검

컬럼표준화

날짜유형

코드

참조무결성

Stage 3 DR, BR을 활용한 테이블간 데이터분석

기준패턴

유효범위

유일성

Stage 1

Threshold를 활용한단일 컬럼 별 분석

공공기관 품질 진단에 활용된 진단 방법

Page 5: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

5

Copyright All Rights Reserved Page.9Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

1.7 품질평가 모델1. 데이터 품질 개요

�외부 원천 데이터의 신뢰성

�데이터 생성 가공시 오류 및 중복

�데이터 갱신 주기

�데이터 생성 가공시 데이터 표준적용 여부

�데이터 생성 가공시 누락

데이터 흐름

�참조무결성

�속성 중복 및 유일성 보장 여부

-

�데이터 표준정의의 적절성

�도메인 정의의 적절성

�코드 정의의 적절성

�중요속성 누락 여부

�필수속성 설계 반영 여부

데이터 구조

�데이터의 오탈자 여부

�실제사실과의 일치 여부

�레코드 중복

�최신데이터 제공여부

�데이터 속성정의와 값의 일치 여부

�데이터 제약조건과 값의 일치 여부

�테이블 정의와 레코드 일치 여부

�동일데이터의 상호 일관성

�데이터 크기

�데이터 범위

�데이터 값 누락 여부

데이터 값

정확성

최신성

일관성

완전성

평가기준

Copyright All Rights Reserved Page.10Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

2.1 품질 진단 방법론2. 공공기관 데이터 품질 진단 방법 및 현황

데이터품질평가

• BR정의서 (Business Rule 정의서) 업무 규칙, 데이터 점검 규칙으로 활용

• CRIF : Check Rule Input Format

90.00%

91.00%

92.00%

93.00%

94.00%

95.00%

96.00%

97.00%

98.00%

99.00%

100.00%

1차 2차 3차 4차

평가결과통계

품질측정대상 Data 선정

데이터 프로파일링0

• 통계적 기법을 활용한 데이터 전수검사• BR 도출 항목 선정• BR 도출 가이드

BR 도출 및 변경(BR 설계서)

1

• 업무규칙에 따라BR 도출 및 변경

BR정의서

평가 결과 Review/개선안 권고

5

• 통합된 결과를 업무별로 계량화• 분석된 개선 안 및 오류리포트 피드백

품질점검 결과 통합4

• 품질 점검 결과를 데이터 품질 관리시스템의 저장소에 통합

CRIF 작성 및변경(BR Source)

2

• 품질점검 시스템을 통해 도출된 DR를정형화된 폼 작성 및 변경

CRIF

Integration

Page 6: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

6

Copyright All Rights Reserved Page.11Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

2.2 품질 진단 프로세스2. 공공기관 데이터 품질 진단 방법 및 현황

데이터 품질 지표의 설정

� 완전성 / 일관성 / 최신성 / 정확성� 업무 중요도에 따라 평가 지표의 추가 설정

데이터 프로파일링

� 통계적 기법을 활용한 데이터 단면도 이해� 필수 데이터 Rule 검증 (Format,RI,표준화 등)

데이터 오디팅

� 업무 규칙에 의한 점검 기준의 도출� 업무 규칙의 품질 지표화

데이터 품질 평가

� 결과에 대한 기술적 / 비즈니스적 해석� 서비스 품질에 대한 영향도 분석

데이터 품질 개선 활동

� 데이터 품질 개선 가이드 제공� 정비 작업으로 인한 영향 분석 정보를 활용하여개선 활동의 수행 및 수행 결과의 검증

� 데이터 품질 관리 체계의 수립

RemarkSystem PerspectiveBusiness Perspective

Repository Setup

Meta Data Impact

Threshold Setup

Column Weight Setup

Profiling

Auditing

Scoring

Reporting

Cleansing(Data/App/Model)

대상선정

품질지표별 대상 분류

도큐먼트 수집

Business Rule 도출

Filtering

• Column Weight

- Internal Process Prospecting- Legal Prospective- Customer Prospective- Financial Prospective

Second Assessment

First Assessment

항목별 중요도 설정

• Filtering- 실제 오류여부 판단- 표준화 위해 추출- 모델링 검토

• Reporting- 오류 유형별 보고서- Score Board Summary- 통합보고서

Copyright All Rights Reserved Page.12Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

2.3 공공기관 진단 결과 요약2. 공공기관 데이터 품질 진단 방법 및 현황

[ 개선 급 / 개선 요 / ★ ★ ★ / 우수 / 매우 우수 ]

★ ☆★ ★ ★Data Rule, Business Rule을 적용한 테이블간 데이터 품질점검Stage 3

(DR,BR을 활용한 테이블간 데이터분석)

☆ ☆★ ★ ★Case Tool을 이용한 모델(LDB,PDB) 관리 여부(데이터구조가 변경됨에 따라 DB의 구조와 동일하게 되도록 데이터 모델관리)

☆ ☆★ ★ ★데이터 표준(용어사전, 명명규칙 등), 도메인 표준, 코드표준을 변경,관리하는 데이터 표준관리 수행 여부

Stage 4

(데이터 관리 프로세스 점검)☆ ☆★ ★ ☆사용자의 요구사항(데이터 값 변경, 데이터 구조 변경)에 대한 프로세스 수립 여부

☆ ☆★ ★ ★개별코드, 통합코드에 대한 데이터 값 분석코드

☆ ☆★ ★ ★테이블의 RI(Reference Integration) 분석참조 무결성

Stage 2

(DQ Profiler를 활용한컬럼 간 데이터 분석)

★ ☆★ ★ ★컬럼 길이, 데이터 유형, 한글 명 등이 표준화 분석컬럼 표준화

☆ ☆★ ★ ★년월일, 년월, 시간 데이터에 대한 값 분석날짜유형

★ ☆★ ★ ★영문자, 한글 등이 혼재한 비정형 데이터 패턴 분석비정형패턴

☆ ☆★ ★ ★유효하지 않은 Null,Space 데이터 포함 여부 분석Null Data

★ ☆★ ★ ★데이터 유효범위 분석(Min, Max)유효범위

★ ☆★ ★ ★데이터 값의 유일성 분석유일성

Stage 1

(Threshold를 활용한단일 칼럼별 분석)

★ ☆★ ★ ★데이터 값의 유효 값 목록의 분석단일, 다중 값

★ ☆★ ★ ★숫자,영문자,한글 데이터 등에 대한 기준 패턴 분석기준패턴

세부 품질지표

데이터관리 프로세스별로 정기적인 문제점 파악 및 개선작업 수행 여부

품질진단 내역

★ ★ ☆ ☆ ☆

품질평가품질지표

Page 7: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

7

Copyright All Rights Reserved Page.13Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.1 오류 유형별 원인분석_Indicator 항목의 오류3. 오류 유형별 원인분석 및 해결방안

[ 조치 사항 ] 누적된 데이터 변경 및 관련 Application 수정

여부 정보를 가지는 데이터의 값은 ‘1’, ‘0’(또는 ‘Y’, ‘N’) 둘 중의 하나의 값만을 가져야 하나 품질점검을 실시한 전체 테이블에걸쳐 ‘1’, ‘0’, ‘Y’, ‘N’값이 혼재하고 있으며, Null, ‘2’ 등 Garbage 또는 오류 데이터가 일부 존재하고 있음

전체 테이블

[ 원인 분석 ] 동일 테이블의 항목에 대하여 입력하는 프로그램이 다수 존재하며, 각 프로그램마다 처리 방식이 상이(Case1 : 입력하지 않으면 Null 처리, Case2 : 입력하지 않으면 ‘0’으로 저장 등)

[ 권고 개선 방향 ]

1. 전체 데이터베이스에서 Indicator 항목에 대한 정책을 결정하고, 정합성이 유지될 수 있도록 Application, 데이터베이스 모델에반영하여 원천적으로 오류데이터가 입력되지 않도록 반영

2. 기존 누적된 데이터는 변경하고 관련 프로그램을 동시에 조사하여 수정

3. 중요 속성에 대해서는 데이터베이스 제약사항을 주어 데이터베이스에서 원천적으로 오류데이터가 입력되지 않도록 반영

[ 예방 방법 ] 2개의 값만을 가지는 Indicator 항목에 대하여 입력 처리 프로그램에서 정해진 값 이외에는 등록이

불가능하도록 프로그램 변경

오류추정 내역테이블

Copyright All Rights Reserved Page.14Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.2 오류 유형별 원인분석_데이터 Format 오류3. 오류 유형별 원인분석 및 해결방안

[ 조치 사항 ] 테스트 데이터에 대한 Cleansing을 실시하고, 시간관련 항목에 대한 기본 값 정의 및 Format을 준수할 수 있도록각 프로그램에 반영

일자, 시각 등 시간과 관련된 항목의 경우 일정한 데이터 Format이 유지되어야 하나, 자릿수가 맞지 않은 값, 의미 없는값 등이 혼재하고 있음, 특히 Null, Space 값 등이 혼재, Default Value 표준화가 전체 시스템에 미 존재전체 테이블

[ 원인 분석 ] 초기의 테스트 데이터가 지워지지 않았으며, 임의의 데이터에 대하여 기본값이 불명확함

[ 권고 개선 방향 ]

1. 시간관련 항목은 향후 통계 및 DW 구축 시 중요한 Factor가 되므로 반드시 정합성이 유지되어야 하며,데이터베이스 설계 시점에 Data Type, Null 허용여부, 자릿수 등에 대하여 정의하고 Application에서 유효한 값만입력되도록 보완하여야 함

[ 예방 방법 ] 중요속성 컬럼에 대해 입력 시 유효한 Format 여부 확인 Logic 반영

오류추정 내역테이블

Page 8: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

8

Copyright All Rights Reserved Page.15Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.3 오류 유형별 원인분석_코드 데이터 참조 오류#13. 오류 유형별 원인분석 및 해결방안

오류 추정 내역테이블

[ 원인 분석 ] 1. 도메인 정의서 자체의 정합성이 확보되지 못하여 잘못된 도메인 값 사용

2. 입력 실수 또는 임의의 기본값, 테스트 데이터가 지워지지 않고 남아있음

3. 개별 데이터는 최신 코드 값을 참조하나 코드 값 자체가 최신 데이터로 Update 되어 있지 않음( DW, CRM 등등 2차 가공 데이터 )

[ 조치 사항 ] 오류데이터 삭제 및 수정

[ 예방 방법 ] 1. 코드 데이터의 경우 수작업 입력 방식이 아닌 참조입력 방식으로 전환

2. 향후 프로그램 개선 시 코드데이터를 참조하여 오류코드자료가 원천적으로 입력되지 않도록 조치

3. 시스템적인 코드 데이터 갱신 작업

[ 권고 개선 방향 ]

1. 온라인,배치 프로그램등 모든 프로그램에서는 코드 데이터를 참조하도록 프로그램 수정

2. 정기적 데이터 점검을 통해 중요 코드 데이터에 대한 데이터 정합성 체크

3. 테스트자료 관리(실 장비에서 테스트 시에는 임시 코드를 부여하여 테스트 권장, 테스트 종료 시 임시코드 관련 데이터를 일괄 삭제)

개별코드, 통합코드 테이블을 사용하고 있는 개별 컬럼의 데이터 중 유효하지 않은 데이터 값을 포함하고 있음전체테이블

Copyright All Rights Reserved Page.16Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.4 오류 유형별 원인분석_코드 데이터 참조 오류#23. 오류 유형별 원인분석 및 해결방안

오류 추정 내역테이블

[ 원인 분석 ] 1. 시스템 및 데이터베이스 통합 시 도메인 통합이 완벽하게 되지 못하여 구 코드와 신코드를 혼용

2. 설계서(도메인정의서)에 대한 현행화 관리 미흡

3. 코드의 통폐합은 이루어졌으나 사용 데이터에 대한 변경은 미 조치

[ 조치 사항 ] 1. 오류데이터 삭제 및 수정

2. 시스템간의 도메인 통일화 추진

[ 예방 방법 ] 1. 코드 데이터의 경우 수작업 입력 방식이 아닌 참조입력 방식으로 전환

2. 향후 프로그램 개선 시 코드데이터를 참조하여 오류코드자료가 원천적으로 입력되지 않도록 조치

[ 권고 개선 방향 ]

1. 온라인,배치 프로그램등 모든 프로그램에서는 코드 데이터를 참조하도록 프로그램 수정

2. 정기적 데이터 점검을 통해 중요 코드 데이터에 대한 데이터 정합성 체크

개별 시스템으로 개발된 후 시스템 통합이 이루어 진 경우 코드의 표준화 및 구 코드와 신 코드를 혼용하여 유효하지 못한 코드 값을 가짐

전체테이블

Page 9: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

9

Copyright All Rights Reserved Page.17Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.5 오류 유형별 원인분석_데이터 유일성 오류3. 오류 유형별 원인분석 및 해결방안

오류 추정 내역테이블

[ 원인 분석 ] 1. 테이블의 물리적인 PK 설정, 논리적 유일성 보장 데이터 유일성을 미 설정

2. 테이블의 물리적인 PK 미 설정

[ 조치 사항 ] 1. 오류데이터 삭제 및 수정

2. 논리 유일성을 분석하여 재 설정

[ 예방 방법 ] 1. 데이터 중복을 방지하기 위해 PK 설정

2. 논리적 유일 데이터에 유일성 설정

[ 권고 개선 방향 ]

1. 물리 데이터 생성시 논리적 유일성 데이터에 대한 유일성 설정 혹은 Application 입력 시 사전에 유일성 확인 후 데이터 입력

중요 데이터에 PK 미 설정으로 인해 데이터 중복 건 발생

물리적인 유일성은 보장되나 논리적인 유일성이 보장되지 못함

예) “년도 + 단체 + 일련번호”는 유일해야 한다

전체테이블

Copyright All Rights Reserved Page.18Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.6 오류 유형별 원인분석_컬럼 표준화 오류3. 오류 유형별 원인분석 및 해결방안

오류 추정 내역테이블

[ 원인 분석 ] 1. 물리데이터 설계 시 Domain 처리를 하지 않음

2. 개별적으로 필요에 의해 물리적 데이터 변경

[ 조치 사항 ] 1. 물리데이터 변경 시 변경 프로세스 확립

2. 물리 데이터 설계 시 Domain 처리

3. Modeling 관리 Case Tool 사용( 여전히 Paper 수준의 Model 관리 )

[ 예방 방법 ] 1. 고객의 물리 데이터 생성 표준을 세움

2. 모델 Case Tool 사용 및 생성, 변경, 삭제 에 관련된 프로세스 확립

[ 권고 개선 방향 ]

1. 향후 특정 컬럼이 변경 시 Case Tool울 미 사용시 수작업으로 대량의 물리 DB를 변경해야 되고, 프로세스 미 수립시 원칙과 기준에 의해서 변경이 되는 것이 아니라 외적 요인에 의해 변경이 이루어 짐

동일 영문 컬럼명에 대하여 데이터 타입 및 길이를 상이하게 사용

예) 성명 : 고객 Varchar2(50), 기타 테이블 Varchar2(30) 등등전체테이블

Page 10: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

10

Copyright All Rights Reserved Page.19Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.7 오류 유형별 원인분석_기타(1)3. 오류 유형별 원인분석 및 해결방안

2) 참조 무결성 오류

- 부모 자식간의 RI 미 설정으로 인해 부모 잃은 자식, 자식 잃은 부모 데이터가 존재

- 중요 데이터 간에는 RI를 설정한다

- 오류 추정원인 : 테이블간의 데이터 변경 시 Application 모든 영향도를 미치는 데이터에 대한 일괄 수정 및 삭제 기능이지원 되지 않음

3) 비정규화로 인한 데이터 값의 일치성 오류

- 코드명, 성명 등과 값이 비정규화된 컬럼에 대한 데이터 불일치성이 발생

- 오류추정원인 : 비정규화 컬럼에 대한 정확한 영향도 분석이 되어 있지 않고 데이터의 Ownership 부여가

되어 있지 않음

4) 기준 패턴 오류

- 영문명에 한글 데이터 존재, 한자명에 한글 데이터 존재, 번호의 부여 패턴을 준수하지 않음

XX번호 : 한글2자리 + 숫자 4자리 + 특수기호(-) + 숫자 3자리

오류 추정 내역

1) Range 오류

- 데이터의 속성상 유효한 데이터 범위를 벗어난 경우

예) 100점 만점에 100점 이상 점수 데이터가 존재, (-)값이 존재할 수 없는 데이터에 (-)값이 존재

Copyright All Rights Reserved Page.20Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

3.8 오류 유형별 원인분석_기타(2)3. 오류 유형별 원인분석 및 해결방안

6) 데이터 이행시 총 합계 건수는 일치하나 세부데이터가 불일치

- 구 시스템 100만 건 이행하여 신 시스템에 100만 건 데이터 생성

세부 데이터 확인 : 년도 별 데이터가 잘못 이행 특정 년도 데이터가 타 년도로 이행됨

데이터 이행 검증 시 : 1:1 검증,

통계적 검증 � 반드시 주요 속성별 데이터 확인 (년도 별, 계약 상태 코드 별 등)

7) Null Data에 대한 미정의

- 개별 시스템 구축시 한쪽 시스템 개발 에는 데이터가 없음을 0으로 설계, 타 시스템에는 없음을 Null로 정의

향후 시스템 통합시 많은 어려움이 예상됨

Null Data에 대한 정확한 정의를 수립하고 모든 시스템에 적용

8) 마스터와 트랜젝션 데이터 값 불일치

- 합계, 평균 등과 같이 마스터에 존재하는 값과 트랜젝션 데이터의 값이 서로 불일치함

오류 추정 내역

5) 동일 의미의 데이터가 다수 존재

- 성명 중간에 Space 데이터가 존재하여 동일인이 다수의 데이터로 조회

Page 11: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

11

Copyright All Rights Reserved Page.21Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

4.1 해외 데이터 품질 관리 사례 분석_14. 해외 데이터 품질 관리 사례

데이터 품질부정

� 임기응변적 대처“저품질 데이터는 부정확성(잘못된 이름, 필드 누락, 주소 불완전 등)의 문제로 정제활동만 하면 된다.”

� 단위 어플리케이션 내의 데이터 처리“특정 어플리케이션에 최적화된 데이터가 다른 어플리케이션에서 사용될 때는 다른 의미를 갖게 된다.”

데이터 품질수용

� 새로운 사고로 인식 전환 (데이터 품질 개선은 지속적인 과정)“의료분야의 경우, 환자의 정확한 신원확인을 못 했을 경우 허위 의료비 청구에서부터 오진에 이르기까지의많은 데이터 리스크를 가지고 있다.”

“보험분야의 경우, 전사 데이터 통합 과정에서 각 사업부 사이에 많은 상충되는 데이터가 발생한다.”� 데이터 표준화 작업 시작 (3,000 여개의 데이터에 대한 모든 사업부의 합의 도출)

� TB급의 DW로부터 수십 개의 DM까지 단일 데이터 Viewer 체계 확립

데이터 품질활용

� 비즈니스 활동 창출 및 저품질 데이터의 사전 예방“ CRM활동의 근간은 고품질 데이터의 확보에서부터 시작한다.”

“ 각 데이터 입수 채널의 정보를 통합하여 단일 마케팅 정보 View를 확보해야 한다.”

Copyright All Rights Reserved Page.22Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

4.2 해외 데이터 품질 관리 사례 분석_24. 해외 데이터 품질 관리 사례

4년간 1,100만 달러 투입

� 국방부 평가 3,600만 달러 비용 절감 / 작전 성공을 위한 후선 업무의 승리품질 활동 결과

1단계 : 데이터 분류 및 대상 선정

가장 큰 영향을 미칠 것으로 예상되는 6개의 핵심적인 데이터 필드 선택

2단계 : 데이터 프로파일링

데이터 프로파일링 Tool을 이용해 데이터 검증 / 그것이 유효한 나토 식별 번호인지 체크

=> 결과 : 11만9천 개의 번호(10개 가운데 1개)가 유효하지 않은 것 나타남

3단계 : 정제 & 예방 작업

소프트웨어를 이용해 키보드 입력시의 중복 또는 오류 검색 (예, 구두점, 3&8 입력 오류 등)

데이터 품질 활동

영국 국방부 / 통합 SCM (공급망 관리) 데이터 품질 향상 프로젝트 사례대상기관

어떤 시스템에서 군수품 번호 99 000 1111은 24시간 냉동 보관해야 하는 비상식량이지만,

이것이 다른 시스템에서는 전자 무선 밸브를 의미한다.프로젝트 배경

연방정부 및 감사원에 정확한 보고서 제출 가능으로 문제 해결품질 활동 결과

데이터 품질 전문 컨설팅업체와 TFT 구성

업무 처리과정 재검토, 데이터 책임자의 개념 설정

소수의 어플리케이션 개발자의 책임에서 다수의 데이터 책임 관리 체계로 변경

데이터 품질 활동

미국 교도국 / 데이터 품질 프로세스 개선 컨설팅 사례대상기관

시스템 노후화로 인한 미연방정부 보고서에 많은 데이터 오류 제공

IS 조직 수작업으로 임시방편 조치 � 1백만 달러의 연방정부 지원금 삭감 위기 직면데이터 품질 활동 배경

Page 12: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

12

Copyright All Rights Reserved Page.23Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

4.3 美 예산국(OMB)의 Information Quality Act

4. 해외 데이터 품질 관리 사례

• 데이터 품질 관리 적용 프로세스

� 미 예산국(OMB)의 가이드라인을 바탕으로, 각 기관의 특성에 맞는 데이터 품질관리 지침을 개발예산국의 최종 승인을 받아야 하며, 지속적인 품질관리 활동을 수행 및 관리함.

� 감독자에 대한 정기적 보고 의무관리지침에 의한 각 기관의 정보 민원 요소에 대한 정의 및 수량정보 민원 요소에 대한 처리방안

Copyright All Rights Reserved Page.24Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

5.1 Data Profiling을 통한 기초데이터 분석� 데이터의 값 및 구조 분석을 위하여 메타데이터 정보를 등록한 후 데이터의 기본적인 정보를 진단한다.

5. 데이터 품질 관리 솔루션

분석 대상의 선정

� 업무별� 테이블별� 컬럼별

데이터 프로파일링 실시

� 데이터의 분포도 제공� 메타 정보와 위배되는 오류 추정 데이터 제시

데이터 분석 유형

� 단일 칼럼� 테이블간의 상관성� 코드성 데이터� 날짜 데이터� 표준화 정보� 비정형 데이터

프로파일링 결과 해석

� 오류 데이터 분포 파악� 중점 점검 데이터 유형의 파악

Page 13: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

13

Copyright All Rights Reserved Page.25Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

5.2 Data Auditing을 통한 Biz Rule 분석� 개별 데이터에 대한 업무규칙을 반영한 점검 기준을 도출하고, 이를 통한 데이터 정합성 분석을 수행한다.

5. 데이터 품질 관리 솔루션

업무 규칙의 품질 지표화

�애플리케이션 로직 속의 업무 규칙을 지표화�업무 지식의 공유

업무 규칙(BR)의 작성 관리

� CRIF를 통한 업무 규칙의 손쉬운 도출� SQL Generation

� BR의 변경 이력관리

점검 대상 데이터의 통합 View

�점검 기준별 해당 BR 및 프로파일링�정보의 연동 제공

단순 오류의 일괄 정제 제공

� 단순 오류 데이터의 정제 처리

Copyright All Rights Reserved Page.26Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

5.3 결과 보고서를 통한 품질 개선 활동� 데이터 품질 점검 결과에 대한 오류 데이터 보고서를 통하여 데이터 품질 관리 활동을 수행 한다.

5. 데이터 품질 관리 솔루션

점검 기준별 보고서 생성

�총 건수 대비 에러 추정 데이터 리스트 제공�에러 데이터와 관련된 테이블 정보� (P.K)도 제공으로 정비 대상 데이터의 명확화

점검 결과에 대한 재검 및 관리

�점검 기준 / CRIF의 이상 유무�코드성 데이터의 경우통합 코드마스터와의이상 유무

�오류 데이터가 명확한 경우조치 방안에 대한기술 및 관리

품질 개선 활동의 할당 및 검증

�오류 데이터 정비 계획 수립�계획 대비 수행 결과의 검증

Page 14: 공공기관의데이터품질진단사례및 고품질데이터 확보방안 · •사용자입력오류 •데이터이관시과거오류데이터 ... 컬럼표준화 컬럼길이

14

Copyright All Rights Reserved Page.27Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

5.4 품질 정제 활동을 위한 영향 분석 정보 제공� 오류 데이터와 서비스 어플리케이션간의 영향분석 정보를 자체적으로 제공함으로써, 정확한 정비 활동을 수행할수 있도록 지원한다. 또한 업무 서비스 어플리케이션과의 영향 정보를 CRUD Matrix 형태로 제공한다.

5. 데이터 품질 관리 솔루션

데이터 정비를 위한 영향분석

�점검기준 (업무규칙) 간의 영향도�해당 점검 기준의 파일 소스와의 영향도�점검 기준 위배 데이터 (오류 추정)의 해당애플리케이션 수정시 영향도 제공

서비스 품질과의 영향분석

�저품질 데이터로 인한 서비스 품질 저해영향도에 대한 기초 데이터 제공

�향후 서비스 품질 측면의 데이터 품질 개선효과 검증 모델의 개발 제공

�정제 활동의 우선 순위 도출 적용

Copyright All Rights Reserved Page.28Leading EA & IT Asset Management Software Company

공공기관의 데이터 품질진단 사례 및 고품질 데이터 확보 방안

Q&A

“질의 응답 시간입니다”

www.itplus.co.kr

서울시 구로구 구로동 197-12 신세계아이앤씨빌딩 7층 TEL. 02-2126-3700

Leading EA & IT Asset Management Company