91
최종보고서 보건의료빅데이터 활용 고도화 방안 연구 2016 12 건강보험심사평가원 안동대학교 산학협력단

보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

최종보고서

보건의료빅데이터

활용 고도화 방안 연구

2016년 12월

건강보험심사평가원

안동대학교 산학협력단

Page 2: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

제 출 문

건강보험심사평가원장 귀하

이 보고서를 “보건의료빅데이터 활용 고도화 방안 연구”과제의 최종

보고서로 제출합니다.

2016년 12월

■ 주관 연구 기관명 안동대학교 산학협력단

■ 연 구 책 임 자 장 은 진 (안동대학교 정보통계학과)연 구 원 김 달 호 (경북대학교 통계학과)

이 중 엽 (서울대병원)양 보 람 (서울대병원)황 진 섭 (대구대학교 전산통계학과)곽 상 규 (대구가톨릭대학교 의과대학)

연 구 보 조 원 배 세 진 (경북대학교 통계학과)임 민 성 (경북대학교 통계학과)김 대 현 (경북대학교 통계학과)최 우 석 (경북대학교 통계학과)신 지 혜 (안동대학교 정보통계학과)

Page 3: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

목 차

요약 ···································································································ⅰ

제1장. 서론 ························································································· 1

1. 연구의 필요성 및 목적 ················································································ 1

가. 연구의 필요성 ························································································ 1

나. 연구 목적 ······························································································· 1

2. 연구내용 및 방법 ························································································· 2

제2장. 보건의료빅데이터 자료제공시스템 현황 ···························· 4

1. 보건의료빅데이터 개방 시스템 ··································································· 4

가. 자료제공 체계 ························································································ 4

나. 제공자료 내역 ························································································ 5

다. 자료제공 방법 ························································································ 5

라. 자료신청단계 ························································································· 7

마. 개인정보/민감정보 관련 정책 및 법적 근거 ········································ 8

바. 자료제공 관련 정책 및 법적 근거 ······················································· 8

사. 빅데이터 개방 DB 정보보호 처리 ······················································ 11

2. 자료제공 시스템 운영 현황 분석 ······························································ 12

가. 원격접속시스템 ···················································································· 12

나. 보건의료빅데이터센터 ········································································· 29

3. 국내 자료제공 기관 조사 ·········································································· 31

가. 국민건강보험공단 ················································································ 31

나. 중앙암등록본부 ···················································································· 34

다. 국민건강영양조사 ················································································ 38

라. 사회보장정보원 ···················································································· 43

Page 4: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

4. 해외 자료연계 기관 조사 ·········································································· 46

가. Surveillance, Epidemiology and End Results (SEER)-Medicare ········· 46

나. Clinical Practice Research Datalink (CPRD) ········································ 50

5. 정보제공 관련 법 검토 ·············································································· 55

가. 공공데이터의 제공 및 이용 활성화에 관한 법률 ······························ 56

나. 공공기관의 정보공개에 관한 법률 ····················································· 58

다. 개인정보보호법 ···················································································· 59

라. 생명윤리 및 안전에 관한 법률 ··························································· 62

마. 암 관리법 ····························································································· 64

바. 약사법 ·································································································· 65

사. 개인정보 비식별 조치 가이드라인 ····················································· 66

6. 소결 ············································································································ 71

제3장. 보건의료빅데이터 자료제공시스템 개선안 ······················· 72

1. 빅데이터 제공 범위 확대 방안 ································································· 72

2. 빅데이터 제공 업무 개선 방안 ································································· 77

3. 자료연계 방안 ···························································································· 79

4. 빅데이터 개방 정책 안내ž홍보 방안 ························································· 70

참고문헌 ···························································································· 81

부록. 의료정보안내서

Page 5: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

표 목차

<표 2-1> 제공자료 내역 ··········································································································· 5<표 2-2> 환자데이터셋의 종류 ································································································ 6<표 2-3> 자료연계 관련 법적 근거 ······················································································· 10<표 2-4> 자료신청 기관 특성 ································································································ 12<표 2-5> 활용목적 ·················································································································· 13<표 2-6> 활용내용 ·················································································································· 13<표 2-7> 자료 요청 범위 ······································································································· 13<표 2-8> 연구형태별 자료 요청 범위 ···················································································· 14<표 2-9> 청구자료의 진료기간(년) ························································································· 15<표 2-10> 청구자료의 진료기간 ····························································································· 15<표 2-11> 연구형태별 청구자료의 진료기간 ········································································· 16<표 2-12> 보험자 종별 구분 ·································································································· 16<표 2-13> 요양 기관 종별 ······································································································ 17<표 2-14> 서식구분 ················································································································ 17<표 2-15> 요양기관 소재지 ···································································································· 18<표 2-16> 대상자의 연령 ······································································································· 18<표 2-17> 명세서 추출 조건 ·································································································· 18<표 2-18> 명세서 추출 조건 세부내용 ·················································································· 19<표 2-19> 상병 개수 ··············································································································· 20<표 2-20> 기타조건 ················································································································ 20<표 2-21> 요청자료 내역 ······································································································· 21<표 2-22> 명세서 일반 내역 테이블 변수 신청 ··································································· 21<표 2-23> 진료내역 테이블 변수 신청 ·················································································· 22<표 2-24> 수진자 상병내역 테이블 변수 신청 ····································································· 23<표 2-25> 원외처방전 상세내역 테이블 신청변수 ································································ 23<표 2-26> 자료 용량 ··············································································································· 24<표 2-27> 이용 기간 ··············································································································· 24<표 2-28> 자료 용량 및 이용 기간 ······················································································· 25<표 2-29> 연구형태별 자료 용량 ··························································································· 26<표 2-30> 연구형태별 자료 용량(GB) ···················································································· 27<표 2-31> 연구형태별 자료 이용 기간 ·················································································· 28

Page 6: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

<표 2-32> 연구형태별 자료 이용 기간(개월) ········································································ 28<표 2-33> 연도별 연구 논문 결과물 ····················································································· 29<표 2-34> 산업체 요청자료 진료기간(개월) ·········································································· 30<표 2-35> 산업체 자료 이용 기간(일) ··················································································· 30<표 2-36> 산업체 자료 신청 타입 ························································································· 30<표 2-37> 국민건강정보자료 세부내역 ·················································································· 32<표 2-38> 중앙암등록자료 자료수집 항목 ············································································ 36<표 2-39> 국민건강영양조사 기수별 세부 조사내용 ···························································· 38<표 2-40> 국민건강영양조사 조사내용 ·················································································· 40<표 2-41> 연계자료 목록 ······································································································· 51<표 2-42> CPRD 관찰자료를 이용한 주요 연구 분야 ·························································· 52<표 2-43> 2014년 연구 형태 별 CPRD 자료 이용 빈도 ······················································· 52<표 2-44> 2014년 기관형태별 CPRD 자료 이용 빈도 ·························································· 53<표 2-45> 정보제공 관련 법률 및 내용 ·············································································· 55<표 2-46> 부처별 개인정보 비식별 조치 전문기관 지정 현황 ············································ 70<표 3-1> 2015년 청구자료 수진자 연령 분포 ······································································· 72<표 3-2> 사용자 맞춤 표본자료 생성 방법 ··········································································· 73<표 3-3> 대조군 표본자료 생성 방법 ···················································································· 75<표 3-4> 부가정보 테이블 및 변수 ······················································································· 76<표 3-5> 마스터 테이블 및 변수 ··························································································· 77<표 3-6> 연구결과물 등록 항목 ····························································································· 80

Page 7: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

그림 목차

[그림 1-1] 연구목적 ·················································································································· 2[그림 1-2] 연구내용 및 방법 ··································································································· 2[그림 2-1] 보건의료빅데이터개방시스템 구성 ········································································ 7[그림 2-2] 자료신청 단계 ········································································································· 7[그림 2-3] 자료 용량 분포 ····································································································· 25[그림 2-4] 자료 이용 기간 분포 ···························································································· 25[그림 2-5] 연구형태별 자료 용량 ·························································································· 27[그림 2-6] 연구형태별 자료 이용 기간 ················································································· 29[그림 2-7] 국가암등록통계사업 추진 체계 ············································································ 35[그림 2-8] 국립 암센터 자료요청 절차 ················································································· 36[그림 2-9] 대상자 선정 과정 ·································································································· 40[그림 2-10] 국민건강영양조사 자료제공 절차 ······································································· 41[그림 2-11] 학술연구자료처리실 이용 절차 ·········································································· 41[그림 2-12] 논문등록 절차 ····································································································· 42[그림 2-13] SEER-Medicare의 논문 주제분야별 현황 (상위15개) ········································ 49[그림 2-14] SEER-Medicare 자료를 활용한 연구 검색 결과 ················································ 49[그림 2-15] 연구 형태별 자료 이용 빈도 ·············································································· 53[그림 2-16] 기관 형태별 자료 이용 빈도 ·············································································· 54[그림 2-17] 비식별 조치 절차 및 사후관리 ·········································································· 67[그림 2-18] 임시대체키를 통한 정보집합물 결합 절차 ························································ 69

Page 8: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- i -

요 약

□ 연구의 필요성

- 학계 및 산업계 등에서 보건의료빅데이터의 활용 가치 및 개방 확대 요구 증가

- 정보 제공 다양화 및 활용방안 검토 필요

- 보건의료빅데이터의 데이터 구조가 복잡하고 전문가 중심으로 설계되어 있어

이용자들이 이해도가 낮음

- 보건의료빅데이터의 활용을 활성화하고 근거의 수준이 높은 결과를 산출하기

위해 사용자 편의를 위한 업무프로세스를 제안하고 빅데이터 이용 안내서를

개발할 필요가 있음

□ 연구목적

- 보건의료빅데이터 수요자 조사 및 국내외 사례 조사를 통해 이용자 입장에서의

업무 프로세스 개선안을 통해 이용자의 이용 편의성 제고를 위한 방안 마련

- 보건의료빅데이터를 활용하는 사용자 편의를 위한 ‘의료정보안내서’ 마련

□ 연구내용 및 방법

- 보건의료빅데이터 수요조사 실시

- 국내 자료제공 기관 현황 조사

- 해외 자료연계 사례 조사

- 정보제공 관련 법/가이드라인 검토

□ 연구결과

○ 빅데이터 자료제공시스템 개선안

1) 빅데이터 제공범위 확대방안

- 통계분석 DB 정확도 향상을 위한 재정리 방안

⦁중복청구 명세서 삭제 및 오류자료 수정

- 사용자 맞춤 표본자료 제공

⦁자료용량 제한 등으로 전수자료 이용이 불가능할 경우 사용자가 정의한 맞

춤 표본자료를 자동으로 생성하여 제공

⦁일반인구집단 또는 대조군 표본자료 제공

Page 9: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- ii -

- 사용자 맞춤 가공 테이블 제공

⦁사용자가 지정한 상병, 약물, 검사, 시술, 치료재료 등에 대한 변수를 T300, T400, T530에서 생성한 후 명세서조인키를 기준으로 T200 테이블에 조인

하여 하나의 가공테이블을 생성하여 제공

- 부가정보테이블 생성

⦁연간 개인별 질병, 약물사용, 주요 수술에 대한 부가 정보테이블 생성

- 마스터 테이블 제공

⦁개방시스템 홈페이지에 약물, 상병, 수가, 치료재료 기본 마스터 테이블제공

2) 빅데이터 제공 업무 개선방안

- 연구형태에 따른 이용기간 및 사용 용량 제한 차별화

⦁현재 일괄적으로 적용되고 있는 이용기간과 자료용량에 대한 기준을 연구

형태에 따라 구분

- 제공자료 재식별 위험에 대한 조치

⦁희귀난치성 질환과 같이 환자수가 작은 질환 대상의 연구인 경우 자료 제공

시 요양기관종별 변수를 상급종합병원과 종합병원을 동일한 범주로 묶어서

상급종합병원이 구분되지 않도록 함

⦁동일 주성분코드에 대한 의약품코드가 일정 개수 미만인 경우, 주성분코드

에 따라 의약품코드가 재식별이 가능하므로, 담당부서에서 마스킹을 실시할

주성분코드를 사전에 정의해서 이를 공지하고, 해당 주성분코드를 마스킹해

서 제공. 마스킹대상 주성분코드가 필요할 경우 별도상담을 통해 의약품 재

식별을 방지할 수 있는 방법을 이용하여 자료를 제공

- 자료반출 기준

⦁자료 반출 방식을 다양화하기 위하여 비식별화를 통한 자동화 시스템 구축

및 프로세스 정립 필요

- 방법론 지원 및 이용자 그룹 활성화

⦁방법론 자문 및 이용자 커뮤니티를 홈페이지에 제공

3) 자료연계 방안

- 반입자료에 대해 비식별화조치 및 적정성 확인

- 주민등록번호와 임시 대체키만을 포함한 파일과 임시 대체키와 환자자료를

포함한 파일을 별도로 암호화하여 별도의 저장장치를 이용하여 반입

4) 빅데이터 개방 정책 안내⦁홍보 방안

- 연구결과물 등록 시스템 구축

Page 10: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- iii -

1. 건강보험 청구자료의 이해1.1 건강보험제도1.2 진료비 청구 및 심사1.3 보건의료빅데이터 개방시스템1.4 건강보험 청구자료의 구성1.5 자료이용 시 주의사항1.6 자료신청 시 주의사항1.7 청구자료를 이용한 연구

2. 명세서 기반의 분석적 접근2.1 명세서 기반의 질병, 의약품 사용 변수 생성2.2 질병통계 작성2.3 의약품 사용 분석2.4 의료경영지원 관련 지표 생성

3. 환자 기반의 분석적 접근3.1 대푯값, 분율, 비율3.2 발생률, 유병률, 사망률3.3 표준화법3.4 상대위험도(relative risk), 오즈비(odds ratio)

4. 연구설계4.1 코호트 연구4.2 환자-대조군 연구

5. 청구자료를 이용한 성과연구5.1 연구설계5.2 연구대상자 선정5.3 변수 정의5.4 통계분석5.5 결과 해석 시 고려할 점5.6 이차자료원을 이용한 연구 체크리스트

6. 사례6.1 개요6.2 자료원6.3 연구설계6.4 연구결과6.5 프로그램 예시

참고문헌부록1. RECORD 체크리스트부록2. 명세서 현황 분석

○ 의료정보안내서 목차

Page 11: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 1 -

제1장. 서론1. 연구의 필요성 및 목적가. 연구의 필요성건강보험심사평가원(이하 심사평가원)은 「국민건강보험법」에 의해 요양급여비용

을 심사하고 요양급여의 적정성을 평가하는 업무 수행을 위해 요양급여비용의 청구

와 관련된 자료를 보유하고 있으며, 심사평가원은 「공공데이터의 제공 및 이용 활

성화에 관한 법률」에 근거하여 보건의료빅데이터개방시스템을 통하여 보건의료빅데

이터인 의료정보를 편리하고 손쉽게 활용할 수 있도록 국민에게 개방하고 있다. 여기서 의료정보란 의료기관 청구자료 기반의 자료로 전국민의 진료정보, 의약품 정보, 치료재료정보, 의료자원정보 등을 분석․정제한 데이터를 말한다.최근 학계에서는 보건의료빅데이터를 활용한 연구가 증가하고 있으며, 이를 통해

보건의료분야 정책결정 및 근거생성에 기여하고 있다. 따라서 학계 및 산업계 등에

서 보건의료빅데이터의 활용 가치 및 개방 확대 요구가 증가하고 있으므로, 정보 제

공 다양화 및 활용방안 검토가 필요하다. 하지만, 보건의료빅데이터의 데이터 구조가 복잡하고 전문가 중심으로 설계되어

있어 이용자들이 이해도가 낮으므로, 이에 보건의료빅데이터의 활용을 활성화하고

근거의 수준이 높은 결과를 산출하기 위해 사용자 편의를 위한 업무프로세스를 제안

하고 빅데이터 이용 안내서를 개발할 필요가 있다.

나. 연구 목적본 과제의 연구목적은 보건의료빅데이터 수요자 조사 및 국내외 사례 조사를 통해

이용자 입장에서의 업무 프로세스 개선안을 통해 이용자의 이용 편의성 제고를 위한

방안을 마련하고, 보건의료빅데이터를 활용하는 사용자 편의를 위한 ‘의료정보안내

서’를 마련하는 것이다.

Page 12: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 2 -

[그림 1-2] 연구내용 및 방법

[그림 1-1] 연구목적

2. 연구내용 및 방법자료제공 시스템 개선안 제안과 의료정보안내서 개발을 위하여 1) 보건의료빅데이

터 수요조사를 실시하고, 2) 국내 자료제공 기관 현황을 조사하고, 3) 해외 자료연계

사례를 조사하고, 4) 정보제공 관련 법/가이드라인 검토를 수행하고자 한다.

먼저 보건의료빅데이터 수요조사에서는 심사평가원의 보건의료빅데이터 기 제공

현황 분석을 실시하였다. 원격시스템 및 보건의료빅데이터센터를 이용한 과제들이

자료 요청 시 제출한 연구수행개요서를 분석하여 자료신청기관의 특성, 활용 내용,

자료요청범위를 파악하고, 실제 심사평가원에서 자료를 이용한 기간 및 제공한 용량

현황을 분석하였다. 기존에 수행되었던 보건의료빅데이터 수요자 대상 설문조사 결

과를 검토하여 연계가 필요한 자료원, 추가제공이 필요한 변수, 제안 또는 요청사항

Page 13: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 3 -

을 파악하였다.

국내 자료제공기관으로 국민건강보험공단, 중앙암등록본부 및 국민건강영양조사

자료의 자료제공 체계로 자료제공 범위, 자료제공 기준, 제공자료 내용, 자료제공방

법, 자료제공 관련 법적 근거 등에 대해 검토하고, 비식별조치 기관으로 지정받은 타

분야 기관들에 대한 조사도 실시하여 자료연계에 대한 정책을 파악하였다.

해외 자료연계 기관으로 미국의 Surveillance, Epidemiology and End Reaults (SEER)-Medicare와 영국의 Clinical Practice Research Datalink(CPRD)의 자료 연계 방

법 및 자료연계 시 비식별화 방법을 검토하였다.추가적으로 정보제공 관련 법 및 가이드라인을 검토하여 정보 제공에 대한 근거를

정리하였다. 이를 통해 보건의료빅데이터 자료제공 시스템의 개선안으로 빅데이터

제공 범위 확대 방안과 제공 업무 개선 방안을 도출하였다.

의료정보안내서 개발을 위해 심사평가원이 보유하고 있는 자료 및 변수를 검토하

고, 급여체계 특징 및 급여심사 프로세스 검토를 통해 자료분석 시 주의사항을 도출

하였다. 방법론 관련 국내외 보고서 및 문헌을 검토하고, 의료정보 분석을 위한 주요

방법론을 정리하고, 분석방법별로 사례를 작성하였다.

Page 14: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 4 -

제2장. 보건의료빅데이터 자료제공시스템 현황1. 보건의료빅데이터개방시스템1)

가. 자료제공체계심사평가원은 「공공데이터의 제공 및 이용 활성화에 관한 법률」에 근거하여 보

건의료빅데이터개방시스템을 통하여 보건의료빅데이터인 의료정보를 편리하고 손쉽

게 활용할 수 있도록 국민에게 개방하고 있다. 보건의료빅데이터개방시스템 홈페이

지에서 제공하는 공공데이터는 누구나 이용 가능하고, 영리 목적의 이용을 포함한

자유로운 활용이 보장된다. 여기서 의료정보란 의료기관 청구자료 기반의 자료로 전

국민의 진료정보, 의약품 정보, 치료재료정보, 의료자원정보 등을 분석․정제한 데이터

를 말한다.

□ 자료제공대상

- 연구자료

·국가, 지방자치단체 및 정부 산하기관

·연구 중심 병원 및 학술 연구 수행기관 등 연구목적으로 신청하는 자

- 산업체자료

·의약품 품목 허가를 받은 자

·제약, 의료기기 산업

·컨설팅 회사 및 예비 창업자 등

□ 자료제공범위

- 보건의료 자료 제공 시 건강보험자료 범위 내에서 제공

- 맞춤형 자료 제공 시 건강보험심사평가원에서 제공 가능한 형태의 자료 제공

□ 자료제공기준

- 공공데이터에 개인정보 등 비공개대상정보가 포함된 경우 (공공기관의 정보공개

에 관한 법률) 제공 제한

- 주민등록번호, 성명, 주소, 전화번호, 요양기관기호(명칭)등 개인정보와 개별 법

인·단체 등의 정보가 식별 불가능한 형태로 제공

- 개인정보 등 비공개대상정보를 기술적으로 분리할 수 있는 경우 개인정보 등 비

공개대상정보를 제외한 공공데이터는 부분제공

1) 보건의료빅데이터개방시스템(http://opendata.hira.or.kr)

Page 15: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 5 -

- 공공데이터의 정보가 다른 정보와 결합하여 개인 식별이 가능한 경우 제공 제한

나. 제공자료 내역심사평가원에서 제공하는 자료는 진료정보, 의약품정보, 치료재료정보, 의료자원정

보로 크게 구분할 수 있으며, 진료정보에는 전국민의 의료이용이 모두 포함되어 있

는 건강보험 청구자료(이하 ‘청구자료’)가 포함되어 있다.

구분 주요 정보 DB명칭

진료정보

청구명세서 정보의료행위 정의 및 환자 분류 정보수가마스터 정보질병군(DRG)․요양병원 수가 마스터정보의료행위별 심사기준 정보(보장 범위) 의료행위 18개 분류별 진료규모 정보(진료량, 금액)질병군(DRG) 및 요양병원 진료규모 정보질병정보(주상병) 및 질병단위 진료규모 정보

청구명세서 DB정보분석 DB통계자료 DB질병통계 DB

행위통계 DB

의약품 정보급여의약품 마스터 정보급여의약품 사용 정보

의약품DB치료재료정보

치료재료 마스터 정보치료재료별 사용정보특수 재료관련 정보(복강경시술, 조영제 등)

치료재료 DB

의료자원정보

요양기관 개폐업 정보의료기관 시설 정보(병상, 집중치료실, 수술실 등) 인력(의사, 간호사, 의료기사 등) 현황장비 보유현황(장비별 이력관리)

요양기관현황 DB요양기관

종합정보 DB

<표 2-1> 제공자료 내역

다. 자료제공방법심사평가원에서는 환자데이터셋 또는 보건의료빅데이터개방시스템을 통해 자료를

제공하고 있다. □ 환자데이터셋

환자데이터셋은 청구자료를 기초로 하여 진료개시일 기준 1년간 진료 받은 환자를

대상으로 표본을 추출한 자료이다. 환자데이터셋은 원자료에서 개인 및 법인에 대한

정보를 제거한 후, 1년간 의료서비스를 이용한 모든 환자를 대상으로 진료내역과 처

방내역을 포함하여 성별, 연령구간(5세 단위)에 따른 환자단위 층화계통 추출한 자료

로 연도별, 표본자료 종류별, 환자, 요양기관 매칭이 불가능하다. 제공되고 있는 환자

데이터셋의 종류는 다음 표와 같으며, 개방시스템 홈페이지에서 신청가능하다.

Page 16: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 6 -

구분 설명

입원환자데이터셋(HIRA-NIS)- 2009년, 2010년, 2011년, 2012년, 2013년, 2014년, 2015년 데이터 제공- 입원환자 추출비율 13% (약 70만 명) - 외래환자 추출비율 1% (약 40만 명)

전체환자데이터셋(HIRA-NPS) - 2010년, 2011년, 2012년, 2013년, 2014년, 2015년 데이터 제공- 전체환자 추출비율 3% (약 140만 명)

고령환자데이터셋(HIRA-APS) - 2010년, 2011년, 2012년, 2013년, 2014년, 2015년 데이터 제공- 고령환자(65세 이상) 추출비율 20% (약 100만 명)

소아청소년환자데이터셋(HIRA-PPS)

- 2010년, 2011년, 2012년, 2013년, 2014년, 2015년 데이터 제공- 소아청소년환자(20세 미만) 추출비율 10% (약 110만 명)

<표 2-2> 환자데이터셋의 종류

□ 보건의료빅데이터개방시스템

심사평가원의 보건의료빅데이터개방시스템은 1) 개방데이터 DB를 이용한 인터넷

및 모바일을 통한 데이터 및 통계자료 조회 서비스와 2) 통계분석 DB를 이용한 원격

접속시스템 및 보건의료빅데이터센터(이하 ‘빅데이터센터’) 운영으로 구성되어 있

다.원격접속시스템은 이용자가 원하는 장소에서 원격접속(가상화PC)을 통한 분석지원

서비스로 주로 유관기관 및 학계의 연구목적의 자료분석 등을 위해 이용되고 있으

며, 총 150계정이 운용되고 있다(2016년12월 기준). 빅데이터센터는 유관기관 및 학계

의 연구목적의 자료분석 및 의료계 및 산업계의 R&D 개발을 위한 공간으로, 본원

및 전국에 총 40석을 운영하고 있다.산업계자료는 심평원에서 운영하고 있는 빅데이터센터에 방문하여 분석을 수행하

고 있으며, 연구과제는 IRB 심의 통보서, 기관 간 자료요청 공문, 보안각서, 보안준수

확약서 등의 정보보안을 준수하는 조건으로 원격분석 지원을 이용하고 있다. 원격통

계분석시스템 접속 시에는 이용자 ID, 공인IP, 사설IP, MAC 주소, 공인인증서 등을

통해 승인된 이용자만 접속 가능하다.제공데이터는 온라인, 전자매체 등의 방법으로 제공되며, 개인정보 보호를 위한 대

체키 변환 등을 통해 제공된다.

Page 17: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 7 -

[그림 2-2] 자료신청 단계

[그림 2-1] 보건의료빅데이터개방시스템 구성

라. 자료신청단계심사평가원에 자료신청을 하는 단계는 다음 그림과 같다. 먼저 이메일을 통해 상

담신청을 하면, 심사평가원에서 상담신청내용을 검토하며, 검토가 끝나면 신청자가

홈페이지에서 이용신청을 한다. 상담신청부터 홈페이지에 이용신청을 하기까지 대략

10일 소요되며, 홈페이지에 신청을 완료하면 심사평가원에서는 자료요청을 접수하고

신청한 자료를 추출하여 원격시스템을 통해 제공한다. 자료 신청부터 데이터분석 자

료를 원격시스템을 통해 제공하기까지 보통 2-4주 정도 소요된다. 자세한 자료신청

절차는 개방시스템 홈페이지에 별도로 안내되어 있는 가이드를 참고한다.

공공데이터 제공 수수료 산정 기준은 공공데이터의 제공에 소요되는 인건비 등 실

비와 공공데이터의 제공을 위하여 필요한 정보시스템 및 네트워크 증설·유지보수

비용, 제공기간을 고려하여 정해진다.

Page 18: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 8 -

마. 개인정보/민감정보 관련 정책 및 법적 근거「국민건강보험법」 시행령 제81조에는 심사평가원이 민감정보 및 고유식별정보를

다룰 수 있는 경우에 대해 다음과 같이 명시하고 있다. 여기서 제63조제1항에 따른

업무는 요양급여비용의 심사, 요양급여의 적정성 평가, 심사기준 및 평가기준의 개

발, 이에 따른 업무와 관련된 조사연구 및 국제협력, 다른 법률에 따라 지급되는 급

여비용의 심사 또는 의료의 적정성 평가에 관하여 위탁받은 업무, 건강보험과 관련

하여 보건복지부장관이 필요하다고 인정한 업무, 그 밖에 보험급여 비용의 심사와

보험급여의 적정성 평가와 관련하여 대통령령으로 정하는 업무를 말한다. 또한 심사

평가원은 「국민건강보험법」 제96조에 따라 요양급여비용을 심사하고 요양급여의

적정성을 평가하기 위하여 주민등록 등의 자료를 제공하도록 요청할 수 있다.

국민건강보험법 시행령 제81조(민감정보 및 고유식별정보의 처리) ② 심사평가원은 다음 각 호의 사무를 수행하기 위하여 불가피한 경우 「개인정보 보호법」 제23조에따른 건강에 관한 정보, 같은 법 시행령 제19조 각 호에 따른 주민등록번호, 여권번호, 운전면허의 면허번호 또는 외국인등록번호가 포함된 자료를 처리할 수 있다. 1. 법 제48조에 따른 요양급여 대상 여부의 확인 등에 관한 사무2. 법 제63조제1항에 따른 업무에 관한 사무3. 법 제87조 및 제90조에 따른 이의신청 및 행정소송에 관한 사무4. 법 제96조에 따른 자료의 제공 요청에 관한 사무

국민건강보험법 제96조(자료의 제공) ② 심사평가원은 국가, 지방자치단체, 요양기관, 「보험업법」에 따른 보험회사 및 보험료율 산출 기관, 「공공기관의 운영에 관한 법률」에 따른 공공기관, 그 밖의 공공단체 등에 대하여 요양급여비용을 심사하고 요양급여의 적정성을 평가하기 위하여 주민등록·출입국관리·진료기록·의약품공급 등의 자료로서 대통령령으로 정하는 자료를 제공하도록 요청할 수 있다.

따라서 심사평가원은 국민건강보험법에 명시된 고유 업무 수행을 위해 개인정보

및 민감정보를 처리할 수 있는 법적 근거가 있다고 할 수 있다.

바. 자료제공 관련 정책 및 법적 근거심사평가원은 「공공데이터의 제공 및 이용 활성화에 관한 법률」에 따라 보유·

관리하고 있는 공공데이터를 국민에게 제공하고 있다. 심사평가원에서는 기본적으로

비식별화된 자료를 제공하고 있으나, 외부자료원을 청구자료와 연계하여 제공할 필

요가 있는 경우도 있다. 따라서 비식별화된 자료를 제공하는 경우와 자료연계가 필

요한 경우 자료제공과 관련된 법적 근거는 다음과 같다.

□ 비식별화된 자료제공

Page 19: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 9 -

심사평가원은 개인을 알아볼 수 없는 형태로 비식별화된 자료를 별도의 DB로 구

축하고 빅데이터센터를 통해 접속하여 통계작성 및 학술연구 등에 활용하도록 하고

있다. 따라서 「개인정보 보호법」 제18조제2항제4호의 ‘통계작성 및 학술연구 등

의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태로 개인정보를

제공하는 경우’에 해당된다고 할 수 있다. 이용자는 비식별화된 데이터의 열람 및

분석만 가능하고 자료를 내려 받는 것은 원천 차단되며, 분석 결과인 통계값에 한하

여 사전 승인 후 반출 가능하다.환자의 의료정보의 권리는 환자와 의료인에게 있는데, 제3자의 경제적 이익을 도

모하기 위해 제공하는 것이 권리 침해 행위가 아닌지에 대한 우려도 있지만, 심사평

가원의 데이터 개방은 「공공데이터의 제공 및 이용 활성화에 관한 법률」에 따른

것으로 동법 제3조제4항에는 ‘공공데이터의 영리적 이용인 경우에도 이를 금지하거

나 제한하여서는 아니 된다’고 규정하고 있다.

□ 자료연계

외부기관의 자료원을 개인의 고유식별정보를 이용하여 심사평가원의 청구자료와

연계하여 분석을 수행하고자 할 경우, 외부기관이 민감정보, 고유식별정보, 주민등록

번호를 심사평가원에 제공하기 위해서는 제3자에 제공에 대한 법적 근거가 있어야

한다. 「개인정보보호법」과 「생명윤리 및 안전에 관한 법률」을 바탕으로 살펴보

면, 서면동의를 받고, 기관위원회의 심의를 받은 경우 민감정보, 고유식별정보, 주민

등록번호 처리가 가능하고, 제3자에게 제공이 가능하다. 따라서 환자를 대상으로 수

집한 자료를 청구자료와 연계하여 분석을 하고자 할 경우, 외부기관에서는 ① 환자

들을 대상으로 민감정보, 고유식별정보, 주민등록번호 활용, 제3자에 제공에 대한 별

도 서면 동의를 취득해야 한다. 그리고 ② 기관위원회의 심의를 거쳐 승인을 받아야

한다. 이 경우 외부기관은 환자 자료와 주민등록번호를 심사평가원에 반입하여 주민

등록번호를 기준으로 자료연계를 시도할 수 있다.

Page 20: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 10 -

법률 비고

개인정보보호법

- 개인정보의 제3자 제공 : 동의를 받은 경우- 민감정보, 고유식별정보, 주민등록번호 처리가 가능한 경우 ·별도로 동의를 받은 경우 ·법령에서 구체적으로 고유식별 정보의 처리를 요구하거나 허용하는 경우

생명윤리 및 안전에관한 법률

- 제3자에게 제공 ·서면동의를 받고 기관위원회의 심의를 거친 경우 ·익명화가 원칙이나 개인식별 정보 포함에 대한 동의를 한 경우 익명화 하지 않아도 됨- 기관위원회의 승인을 받아 서면동의를 면제할 수 있는 요건(둘다 만족) ·연구대상자의 동의를 받는 것이 연구 진행과정에서 현실적으로 불가능하거나 연구의 타당성에 심각한 영향을 미친다고 판단되는 경우 ·연구대상자의 동의 거부를 추정할 만한 사유가 없고, 동의를 면제하여도 연구대상자에게 미치는 위험이 극히 낮은 경우

<표 2-3> 자료연계 관련 법적 근거

만일 민감정보, 고유식별정보, 주민등록번호 활용, 제3자에 제공에 대한 별도 서면

동의서를 받지 않은 경우에는 「생명윤리 및 안전에 관한 법률」 제16조에 따라 다

음 두 가지 요소를 모두 갖춘 경우 기관위원회의 승인을 받아 연구대상자의 서면동

의를 면제할 수 있다. 1. 연구대상자의 동의를 받는 것이 연구 진행과정에서 현실적으로 불가능하거나

연구의 타당성에 심각한 영향을 미친다고 판단되는 경우

2. 연구대상자의 동의 거부를 추정할 만한 사유가 없고, 동의를 면제하여도 연구대

상자에게 미치는 위험이 극히 낮은 경우

□ 환자표본자료

심사평가원의 환자데이터셋은 1년간 의료이용을 한 모든 환자를 대상으로 통계학

적으로 120만명을 추출하여 표본추출 환자의 1년간 진료⦁처방 내역에 대한 자료로

서, 「통계법」 제3조제4호에 따른 통계자료에 해당된다. 여기서 ‘통계자료’란 통

계작성기관이 통계의 작성을 위하여 수집⦁취득 또는 사용한 자료(데이터베이스 등

전산자료 포함)을 의미한다. 환자표본자료 제공에 대한 법적 근거는 「통계법」제31조 및 같은 법 시행령 제47

조부터 제49조까지의 규정으로 통계자료에 관한 「공공기관의 정보공개에 관한 법

률」의 특례 규정에 해당한다. 따라서 개인정보가 삭제되었고 표본집단이므로 어떠

한 조합으로 생성된 개인이라 할지라도 실제 모집단의 동일조합의 환자 수는 알 수

없으므로, 표본자료는 특정 개인이나 법인 또는 단체 등을 식별할 수 없는 형태라고

할 수 있으므로, 「통계법」제31조에 따라 제공가능하다고 할 수 있다.

Page 21: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 11 -

통계법 제31조(통계자료의 이용) ① 통계자료를 이용하고자 하는 자는 대통령령으로 정하는 바에 따라 통계작성기관의 장에게 통계자료의 제공을 신청할 수 있다. ② 통계작성기관의 장은 제1항에 따른 신청을 받은 때에는 통계자료의 사용목적·내용 및 범위의 타당성을 심사하여 타당하다고 판단되고, 영업상 비밀을 침해할 가능성이 없는 경우에는 이를 제공하여야한다. 이 경우 통계작성기관의 장은 다음 각 호의 경우를 제외하고는 특정의 개인이나 법인 또는 단체등을 식별할 수 없는 형태로 통계자료를 처리한 후 제공하여야 한다. 1. 통계응답자가 자신이 응답한 자료를 요구하는 경우2. 총조사 및 제18조에 따라 통계청장의 승인을 받아 작성하는 통계 중 사업체를 대상으로 하는 전수조사를 통하여 취득한 정보로서 사업체 명, 업종, 주소 등 대통령령으로 정하는 정보를 제공하는 경우

사. 빅데이터 개방 DB 정보보호 처리□ 개인정보 비식별 조치 방법

심사평가원에서는 빅데이터 개방 DB의 정보보호 처리를 위하여 두 단계에 걸쳐

정보보호를 실시하고 있다. 먼저 1차 정보보호 단계에서 원천 데이터를 개인식별 정

보를 제외한 후 개방 DB에 구축하여 활용하며, 임의의 대체키(H-Pin) 변환을 통해

개인정보의 추정 자체가 원천적으로 불가능하도록 한다. 이때 국가정보원

CC(Common Criteria 국제공통평가기준)인증을 획득한 암호화모듈을 사용하고 있으

며, 여기서 개인식별 정보는 수진자의 성명, 주민등록번호 등 개인식별 가능 정보를

말한다.

암호화모듈 사용

⇒H-Pin 마스터 테이블 구축

⇒대체키 생성

주민등록번호의 개인식별 방지를 위해 암호화모듈 사용(정보통신실)

주민등록번호 암호화 마스터테이블 생성

주민등록번호는 마스터 테이블을 통해 추정이 불가한 개별(1:1) 대체키로 생성됨

H-PIN 변환과정을 구체적으로 살펴보면, 먼저 주민등록번호를 DB암호화솔루션을

이용하여 32bit 암호화변화를 수행하고, 13자리의 H-Pin으로 다음과 같이 변환한다.

주민등록번호è

암호화솔루션32BIT변경è

H-pin변환(811005-1******) (5B5A3583D7126AAE4864D0122E1B4CE1) (824699-6524394)

Page 22: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 12 -

2차 정보보호 단계에서는 임의의 일련번호(H-PIN), 요양기관기호, 명세서번호 등

고유식별키를 이중 비식별처리한다. 즉 자료 활용 및 자료제공 시 변환된 H-PIN을임의의 난수로 다시 한 번 대체 처리를 한다.

추가로 요양기관기호와 명세서번호는 제공·활용 과정에서 이중 비식별화 처리하

는데, 자료 제공 시점마다 일련번호, 요양기관기호, 명세서번호는 임의의 난수로 변

환 처리한다. 그리고 이용자는 구축한 DB에 접속하여 열람 및 분석만 가능하며, 자료를 내려 받는 것은 원천 차단되고 분석 결과 값에 대해서는 승인 후 반출 가능하

도록 하고 있다.

□ 영업정보 마스킹

제약업체의 영업정보 보호를 위하여 의약품코드는 마스킹 처리하고 일반명코드를

제공하고 있으며, 치료재료업체의 영업정보 보호를 위하여 업체코드인 세분류 부분

을 마스킹하여 제공하고 있다.

2. 자료제공 시스템 운영 현황 분석가. 원격접속시스템

2014년 제2사분기부터 2016년 제3사분기까지 원격접속시스템을 이용하는 자료이용

을 신청한 142건을 대상으로 자료제공 시스템 운영 현황을 분석하였다. 원격접속시

스템을 이용한 기관은 중복집계 되었으며 아래 표와 같다. 대학/학회가 106건(74.6%)으로 가장 많았으며, 정부기관/연구기관이 20건(14.1%), 요양기관이 14건(9.9%) 그리고

기타가 2건(1.4%)으로 파악되었다.

구분 빈도 백분율(%)대학/학회 106 74.6

정부기관/연구기관 20 14.1요양기관 14 9.9기타 2 1.4

<표 2-4> 자료신청 기관 특성

중복집계

자료신청 기관의 자료 활용 목적으로는 학술연구가 전체 142건 중 128건(90.1%)으로 가장 많았으며, 정책결정이 8건(5.6%), 마케팅정보 1건(0.7%) 그리고 병원경영 5건

Page 23: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 13 -

(3.5%)으로 파악되었다.

구분 빈도 백분율(%)학술연구 128 90.1정책결정 8 5.6마케팅정보 1 0.7병원경영 5 3.5전체 142 100.0

<표 2-5> 활용목적

자료신청 기관의 자료 활용 내용은 중복집계 되었으며, 현황분석이 72건(50.7%)으로 가장 많았다. 또한 유병률/발생률 분석이 59건(41.5%), 비용분석 32건(22.5%) 그리

고 성과연구 50건(35.2%)으로 파악되었다.

구분 빈도 백분율(%)현황분석 72 50.7

유병률/발생률 분석 59 41.5비용분석 32 22.5성과연구 50 35.2

<표 2-6> 활용내용

중복집계

청구자료 요청 시 요청기준에 해당하는 코드만 가진 명세서만 요청한 경우는 전체

142건 중 54건(38.0%)이며, 해당하는 코드를 가진 대상자의 전체 명세서를 요청한 경

우는 88건(62.0%)으로 나타났다. 또한 전체 142건 중 외부자료와 연계를 신청한 건은

총 6건(42.%)이며, 기상/환경자료의 일자와 연계를 신청한 건이 3건(2.1%), 청구자료

대상자에 대한 사망일자를 신청한 건이 2건(1.4%)이었다. 외부자료를 주민등록번호와

함께 심사평가원으로 반입하여 해당하는 대상자들의 청구자료를 추출한 건은 1건(0.7%)로 파악되었다.

구분 빈도 백분율(%)명세서/전체

해당 코드를 가진 명세서만 요청 54 38.0해당 코드를 가지는 대상자의 전체자료 88 62.0

외부자료 연계 6 4.2기상/환경자료 3 2.1사망일자 2 1.4외부기관자료 1 0.7

<표 2-7> 자료 요청 범위

Page 24: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 14 -

연구형태별 자료 요청 범위는 현황분석의 경우 전체 72건 중 해당 코드를 가진 명

세서만 요청한 건이 33건(45.8%), 해당코드를 가지는 대상자의 전체자료를 요청한 건

이 39건(54.2%)으로 파악되었으며, 유병률/발생률의 경우 전체 59건 중 해당 코드를

가진 명세서만 요청한 건이 20건(33.9%), 해당코드를 가지는 대상자의 전체자료를 요

청한 건이 39건(66.1%)으로 파악되었다. 그리고 비용분석의 경우 전체 32건 중 해당

코드를 가진 명세서만 요청한 건이 10건(31.2%), 해당코드를 가지는 대상자의 전체자

료를 요청한 건이 22건(68.8%)으로 파악되었다. 성과연구의 경우 전체 50건 중 해당

코드를 가진 명세서만 요청한 건이 9건(18.0%), 해당코드를 가지는 대상자의 전체자

료를 요청한 건이 41건(82.0%)으로 다른 연구형태에 비해 대상자의 전체 자료를 요청

한 경우가 가장 많았다.

구분현황분석 유병률/발생률 비용분석 성과연구

빈도백분율(%) 빈도

백분율(%) 빈도

백분율(%) 빈도

백분율(%)

해당 코드를 가진명세서만 요청

33 45.8 20 33.9 10 31.2 9 18.0해당 코드를 가지는대상자의 전체자료

39 54.2 39 66.1 22 68.8 41 82.0전체 72 100.0 59 100.0 32 100.0 50 100.0

<표 2-8> 연구형태별 자료 요청 범위

청구자료의 진료기간의 기술통계량을 살펴보면, 전체 142건의 진료기간은 평균

5.02, 표준편차 1.76, 중앙값 5, 제1사분위수 5, 제3사분위수 5, 최솟값 0.25, 최댓값

10으로 나타났다. 현황분석의 경우 평균 4.70, 표준편차 1.85, 중앙값 5, 제1사분위수

4.12, 제3사분위수 5, 최솟값 1, 최댓값 10으로 나타났다. 유병률/발생률의 경우 평균

5.49, 표준편차 1.68, 중앙값 5, 제1사분위수 5, 제3사분위수 5, 최솟값 1, 최댓값 10으로 나타났다. 비용분석의 경우 평균 4.43, 표준편차 1.64, 중앙값 5, 제1사분위수 4.63, 제3사분위수 5, 최솟값 0.25, 최댓값 9로 나타났다. 성과연구의 경우 평균 5.35, 표준

편차 1.30, 중앙값 5, 제1사분위수 5, 제3사분위수 5, 최솟값 1, 최댓값 9로 나타났다.

Page 25: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 15 -

구분 건수 평균표준편차

중앙값 (Q1, Q3) (최소, 최대)전체 142 5.02 1.76 5 (5, 5) (0.25, 10)

현황분석 72 4.70 1.85 5 (4.12, 5) (1, 10)유병률/발생률 59 5.49 1.68 5 (5, 5) (1, 10)비용분석 32 4.43 1.64 5 (4.63, 5) (0.25, 9)성과연구 50 5.35 1.30 5 (5, 5) (1, 9)

<표 2-9> 청구자료의 진료기간(년)

Q1:제1사분위수, Q3:제3사분위수

청구자료의 진료기간은 전체 142건 중 1년 미만 1건(0.7%), 1년 이상 2년 미만 9건(6.3%), 그리고 2년 이상 3년 미만 3건(2.1%), 3년 이상 4년 미만 5건(3.5%), 4년 이상

5년 미만 6건(4.2%), 5년 이상 6년 미만 94건(66.2%), 6년 이상 7년 미만 7건(4.9%), 7년 이상 8년 미만 4건(2.8%), 8년 이상 9년 미만 3건(2.1%), 9년 이상 10년 미만 9건(6.3%), 10년 이상 1건(0.7%)으로 파악되었다.

구분 빈도 백분율(%)1년미만 1 0.71년이상 2년미만 9 6.32년이상 3년미만 3 2.13년이상 4년미만 5 3.54년이상 5년미만 6 4.25년이상 6년미만 94 66.26년이상 7년미만 7 4.97년이상 8년미만 4 2.88년이상 9년미만 3 2.19년이상 10년미만 9 6.310년이상 1 0.7

전체 142 100.0

<표 2-10> 청구자료의 진료기간

연구 형태별 청구자료의 진료기간은 현황분석의 경우 5년 미만의 진료기간의 자료

를 요청하는 경우가 다른 연구 형태에 비해 많은 경향이 있는 것으로 나타났으며 유

병률 및 발생률을 파악, 성과연구의 경우는 5년 이상의 진료기간을 요청한 경우가

많은 것으로 나타났다.

Page 26: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 16 -

구분현황분석 유병률/발생률 비용분석 성과연구

빈도백분율(%) 빈도

백분율(%) 빈도

백분율(%) 빈도

백분율(%)

1년미만 0 0.0 0 0.0 1 3.1 0 0.01년이상 2년미만 7 9.7 2 3.4 2 6.3 1 2.02년이상 3년미만 3 4.2 0 0.0 2 6.3 0 0.03년이상 4년미만 4 5.6 1 1.7 1 3.1 1 2.04년이상 5년미만 5 6.9 0 0.0 2 6.3 1 2.05년이상 6년미만 44 61.1 43 72.9 23 71.9 37 74.06년이상 7년미만 3 4.2 4 6.8 0 0.0 3 6.07년이상 8년미만 0 0.0 0 0.0 0 0.0 2 4.08년이상 9년미만 2 2.8 2 3.4 0 0.0 3 6.09년이상 10년미만 3 4.2 6 10.2 1 3.1 2 4.010년이상 1 1.4 1 1.7 0 0.0 0 0.0

전체 72 100.0 59 100.0 32 100.0 50 100.0

<표 2-11> 연구형태별 청구자료의 진료기간

보험자 종별 구분은 중복집계 되었으며 건강보험이 142건(100%), 의료급여가 136건(95.8%) 그리고 국비보훈이 91건(64.1%)으로 파악되었다.

구분 빈도 백분율(%)건강보험 142 100.0의료급여 136 95.8국비보훈 91 64.1

<표 2-12> 보험자 종별 구분

중복집계

요양 기관 종별은 중복집계 되었으며 상급종합병원 140건(98.6%), 종합병원 140건(98.6%), 병원 136건(95.8%), 요양병원 97건(68.3%), 의원 122건(85.9%), 치과병원 32건(22.5%), 치과의원 30건(21.1%), 조산원 24건(16.9%), 정신요양병원 11건(7.7%), 보건소

90건(63.4%), 보건지소 85건(59.9%), 보건소 90건(63.4%), 보건지소 85건(59.9%), 보건진

료소 76건(53.5%), 모자보건센터 42건(29.6%), 보건의료원 98건(69.0%), 약국 33건(23.2%), 한방병원 31건(21.8%), 한의원 30건(21.1%), 한방종합병원 9건(6.3%)으로 파악

되었다.

Page 27: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 17 -

구분 빈도 백분율(%)의과입원 137 96.5의과외래 129 90.8치과입원 29 20.4치과외래 28 19.7

보건기관 입원의과 103 72.5보건기관 입원치과 36 25.4보건기관 입원한방 29 20.4보건기관 외래의과 97 68.3보건기관 외래치과 30 21.1보건기관 외래한방 25 17.6

정신과낮병동 30 21.1정신과입원 34 23.9

<표 2-14> 서식구분

구분 빈도 백분율(%)상급종합병원 140 98.6종합병원 140 98.6병원 136 95.8

요양병원 97 68.3의원 122 85.9

치과병원 32 22.5치과의원 30 21.1조산원 24 16.9

정신요양병원 11 7.7보건소 90 63.4보건지소 85 59.9보건진료소 76 53.5모자보건센타 42 29.6보건의료원 98 69.0

약국 33 23.2한방병원 31 21.8한의원 30 21.1

한방종합병원 9 6.3

<표 2-13> 요양 기관 종별

중복집계

서식구분은 중복집계 되었으며 의과입원 137건(96.5%), 의과외래 129건(90.8%), 치과입원 29건(20.4%), 치과외래 28건(19.7%), 보건기관 입원의과 103건(72.5%), 보건기

관 입원치과 36건(25.4%), 보건기관 입원한방 29건(20.4%), 보건기관 외래의과 97건(68.3%), 보건기관 외래치과 30건(21.1%), 보건기관 외래한방 25건(17.6%), 정신과낮병

동 30건(21.1%), 정신과입원 34건(23.9%), 정신과외래 33건(23.2%), 한방입원 26건(18.3%), 한방외래 23건(16.2%), 직접조제(약국) 32건(22.5%), 처방조제(약국) 36건(25.4%), 조산원 입원 26건(18.3%), 조산원 외래 25건(17.6%)으로 파악되었다.

Page 28: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 18 -

구분 빈도 백분율(%)정신과외래 33 23.2한방입원 26 18.3한방외래 23 16.2

직접조제(약국) 32 22.5처방조제(약국) 36 25.4조산원 입원 26 18.3조산원 외래 25 17.6

구분 빈도 백분율(%)상병 조건 106 74.6약품 조건 38 26.8행위/치료재료 조건 38 26.8

<표 2-17> 명세서 추출 조건

중복집계

요양기관 소재지는 전체 142건 중 전국 134건(94.4%), 지역 8건(5.6%)으로 파악되었

다.

구분 빈도 백분율(%)전국 134 94.4지역 8 5.6전체 142 100.0

<표 2-15> 요양기관 소재지

대상자의 연령은 전체 140건 중 전체연령 91건(64.1%), 성인 34건(23.9%), 노인 3건(2.1%), 소아청소년 12건(8.5%)으로 파악되었다.

구분 빈도 백분율(%)전체연령 91 64.1성인 34 23.9노인 3 2.1

소아청소년 12 8.5전체 140 98.6

<표 2-16> 대상자의 연령

명세서 추출 조건은 중복집계 되었으며 상병 조건 106건(74.6%), 약품조건 38건(26.8%), 행위/치료재료 조건 38건(26.8%)으로 파악되었다.

중복집계

Page 29: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 19 -

구분 빈도 백분율(%)

단독 조건

상병 조건 63 44.4약품 조건 12 8.5행위/치료재료 조건 13 9.2기타 7 4.9

복합 조건

상병 and 약품 9 6.3상병 and 행위 6 4.2상병 and [약물 or 행위] 1 0.7상병 or 약품(주성분) 10 7.0상병 or 행위 11 7.7상병 or 특정기호 2 1.4상병 or 약품 or 행위 3 2.1[상병 or 행위] and 요양기관 1 0.7약품 or 행위 3 2.1코호트 1 0.7

전체 142 100.0

<표 2-18> 명세서 추출 조건 세부내용

명세서 추출 조건 세부내용은 전체 142건 중 단독조건의 경우 상병 조건 63건(44.4%), 약품 조건 12건(8.5%), 행위/치료재료 조건 13건(9.2%), 기타 7건(4.9%) 으로

파악되었다. 여기서 기타에는 지역, 기관, 연령, 코호트 대상자 등의 조건에 따라 명

세서를 추출한 경우에 해당한다. 복합조건의 경우 상병 and 약품 9건(6.3%), 상병

and 행위 6건(4.2%), 상병 and [약물 or 행위] 1건(0.7%), 상병 or 약품 10건(7.0%), 상병 or 행위 11건(7.7%), 상병 or 특정기호 2건(1.4%), 상병 or 약품 or 행위 3건(2.1%), [상병 or 행위] and 요양기관 1건(0.7%), 약품 or 행위 3건(2.1%), 코호트 1건(0.7%)으로 파악되었다.

추출 조건에 따른 상병 개수를 확인해본 결과는 전체 106건 중 1개 4건(3.8%), 2개10건(9.4%), 3개 7건(6.6%), 5개 8건(7.5%), 6개 2건(1.9%), 10개 24건(22.6%), All 51개(48.1%)로 파악되었으며, 출력 조건에 따른 상병 개수를 확인해본 결과, 전체 106건중 1개 4건(3.8%), 2개 9건(8.5%), 3개 5건(4.7%), 5개 4건(3.8%), 6개 2건(1.9%), 10개23건(21.7%), All 59건(55.7%)으로 파악되었다.

Page 30: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 20 -

구분 상병 개수 빈도 백분율(%)

추출 조건

1 4 3.82 10 9.43 7 6.65 8 7.56 2 1.910 24 22.6전체 51 48.1

출력 조건

1 4 3.82 9 8.53 5 4.75 4 3.86 2 1.910 23 21.7전체 59 55.7

전체 106 100.00

<표 2-19> 상병 개수

일반 청구 명세서 외 서면청구, DRG 청구, 추가청구 명세서 제외여부를 검토한 결

과는 중복집계 되었으며, 서면청구를 제외한 경우는 54건(38.0%), DRG 청구를 제외

한 경우는 49건(34.5%), 추가청구를 제외한 건은 45건(31.7%)으로 파악되었다.

구분 빈도 백분율(%)서면청구 제외 54 38.0DRG 청구 제외 49 34.5추가청구 제외 45 31.7

<표 2-20> 기타조건

중복집계

과제별로 요청한 테이블을 살펴 보면, 명세서 일반내역(T200) 테이블을 신청한 건

은 142건(100%), 진료내역(T300) 테이블을 신청한 건은 129건(90.8%), 수신자 상병내

역(T400) 테이블을 신청한 건은 135건(95.1%), 원외처방전 상세내역(T530) 테이블을

신청한 건은 101건(71.1%)으로 파악되었다. 추가로 진료특정내역(T380) 테이블, 청구

및 심결 DRG, 초진횟수, 수진자 거주지, 생월, 재활전문의 수, 총병상수 등의 변수를

신청한 건도 있었다.

Page 31: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 21 -

변수 빈도 백분율(%)명세서조인키 140 98.6보험자종별구분코드 113 79.6수진자개인식별대체키 139 97.9성별구분 140 98.6수진자연령 139 97.9수진자통계연령 96 67.6요양기관식별대체키 106 74.6요양기관종별구분코드 132 93.0지역(시도)코드 130 91.5서식구분코드 117 82.4주상병코드 138 97.2부상병코드 135 95.1진료과목코드 122 85.9요양개시일자 132 93.0

<표 2-22> 명세서 일반 내역 테이블 변수 신청

구분 빈도 백분율(%)명세서 일반내역(T200) 142 100.0

진료내역(T300) 129 90.8수진자 상병내역(T400) 135 95.1

원외처방전 상세내역(T530) 101 71.1

<표 2-21> 요청자료 내역

중복집계

명세서 일반 내역 테이블에서 신청한 변수는 명세서서 조인키 140건(98.6%), 보험

자종별구분코드 113건(79.6%), 수진자개인식별대체키 139건(97.9%), 성별구분 140건(98.6%), 수진자연령 139건(97.9%), 수진자통계연령 96건(67.6%), 요양기관식별대체키

106건(74.6%), 요양기관종별구분코드 132건(93.0%), 지역(시도)코드 130건(91.5%), 서식

구분코드 117건(82.4%), 주상병코드 138건(97.2%), 부상병코드 138건(95.1%), 진료과

목코드 122건(85.9%), 요양개시일자 132건(93.0%), 요양종료일자 124건(87.3%), 최초입원일자 114건(80.3%), 입내원일수 119건(83.8%), 요양일수 105건(73.9%), 원외처방일

수 83건(58.5%), 원외처방약제비 70건(49.3%), 원외처방전건수 67건(47.2%), 청구요양

급여비용총액 69건(48.6%), 청구본인부담금 63건(44.4%), 청구보험자부담금 59건(41.5%), 심사결정요양급여비용총액 24건(16.9%), 심사결정본인부담금 21건(14.8%), 심사결정 보험자부담금 20건(14.1%), 심사결정 100분의100미만총액 10건(7.0%), 수술여

부 95건(66.9%), 공상구분코드 48건(33.8%), 특정기호구분코드 72건(50.7%), 상해외인

구분코드 46건(32.4%), 진료결과구분코드 108건(76.1%), 입원도착경로구분코드 88건(62.0%), 의료급여종별코드 71건(50.0%), 청구형태코드 51건(35.9%), 청구구분코드 56건(39.4%), 심사년월 53건(37.3%), 표시과목코드 14건(9.3%)으로 파악되었다.

Page 32: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 22 -

변수 빈도 백분율(%)요양종료일자 124 87.3최초입원일자 114 80.3입내원일수 119 83.8요양일수 105 73.9원외처방일수 83 58.5원외처방약제비 70 49.3원외처방전건수 67 47.2청구요양급여비용총액 69 48.6청구본인부담금 63 44.4청구보험자부담금 59 41.5심사결정요양급여비용총액 24 16.9심사결정본인부담금 21 14.8심사결정보험자부담금 20 14.1심사결정100분의100미만 총액 10 7.0수술여부 95 66.9공상구분코드 48 33.8특정기호구분코드 72 50.7상해외인구분코드 46 32.4진료결과구분코드 108 76.1입원도착경로구분코드 88 62.0의료급여종별코드 71 50.0청구형태코드 51 35.9청구구분코드 56 39.4심사년월 53 37.3표시과목코드 14 9.9

변수 빈도 백분율(%)명세서조인키 129 90.8항목코드 108 76.1분류코드구분 111 78.2분류코드 120 84.51회투약량 94 66.21일투약량 95 66.91일투여량 또는 실시횟수 96 67.6총투여일수 또는 실시횟수 102 71.8

<표 2-23> 진료내역 테이블 변수 신청

중복집계

진료내역 테이블에서 신청한 변수는 명세서조인키 129건(90.8%), 항목코드 108건(76.1%), 분류코드구분 111건(78.2%), 분류코드 120건(84.5%), 1회투약량 94건(66.2%), 1일투약량 95건(66.9%), 1일투여량 또는 실시횟수 96건(67.6%), 총투여일수 또는 실시

횟수 102건(71.8%), 총사용량 104건(73.2%), 단가 64건(45.1%), 금액 70건(49.3%), 가산

적용금액 70건(49.3%), 일반명코드 105건(73.9%), 진료예외구분코드 59건(41.5%), 1_2구분코드 44건(31.0%)으로 파악되었다.

Page 33: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 23 -

총사용량 104 73.2단가 64 45.1금액 70 49.3가산적용금액 70 49.3일반명코드 105 73.9진료예외구분코드 59 41.51_2구분코드 44 31.0

변수 빈도 백분율(%)명세서조인키 101 71.1 처방전교부번호 69 48.6 분류코드구분 79 55.6 분류코드 89 62.7 1회투약량 85 59.9 1일투여횟수 85 59.9 총투여일수 88 63.0총사용량 90 63.4단가 54 38.0금액 65 45.8일반명코드 94 66.2

<표 2-25> 원외처방전 상세내역 테이블 신청변수

중복집계

수진자 상병내역 테이블에서 신청한 변수는 명세서조인키 134건(94.4%), 일련번호

111건(78.2%), 상병코드 135건(95.1%), 상병분류구분 128건(90.1%), 진료과목코드 107건(75.4%), 요양개시일자 72건(50.7%), 내과세부전문과목 75건(52.8%)으로 파악되었다.

변수 빈도 백분율(%)명세서 조인키 134 94.4일련번호 111 78.2상병코드 135 95.1상병분류구분 128 90.1진료과목코드 107 75.4요양개시일자 72 50.7내과세부전문과목 75 52.8

<표 2-24> 수진자 상병내역 테이블 변수 신청

중복집계

원외처방전 상세내역 테이블에서 신청한 변수는 명세서조인키 101건(71.1%), 처방

전교부번호 69건(48.6%), 분류코드구분 79건(55.6%), 분류코드 89건(62.7%), 1회투약량

85건(59.9%), 1일투여횟수 85건(59.9%), 총투여일수 88건(63.0%), 총사용량 90건(63.4%), 단가 54건(38.0%), 금액 65건(45.8%), 일반명코드 94건(66.2%)으로 파악되었다.

중복집계

Page 34: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 24 -

과제별 자료 용량을 살펴 보면, 분석 대상 과제 전체 135건 중 1GB 미만 16건(11.9%), 1GB이상 10GB미만 21건(15.6%), 10GB이상 50GB미만 31건(23.0%), 50GB이상

100GB미만 20건(14.8%), 100GB이상 500GB미만 29건(21.5%), 500GB이상 1000GB미만

16건(11.9%), 1000GB이상 2건(1.5%)으로 나타났다.

구분 빈도 백분율(%)1GB 미만 16 11.91GB이상 10GB미만 21 15.610GB이상 50GB미만 31 23.0 50GB이상 100GB미만 20 14.8 100GB이상 500GB미만 29 21.5 500GB이상 1000GB미만 16 11.9 1000GB이상 2 1.5

전체 135 100.0

<표 2-26> 자료 용량

자료 이용 기간은 분석 대상 과제 전체 125건 중 1개월 미만 24건(19.2%), 1개월

이상 2개월 미만 26건(20.8%), 2개월 이상 3개월 미만 18건(14.4%), 3개월 이상 4개월

미만 31건(24.8%), 4개월 이상 5개월 미만 12건(9.6%), 5개월 이상 6개월 미만 2건(1.6%), 6개월 이상 7개월 미만 6건(4.8%), 7개월 이상 8개월 미만 4건(3.2%), 8개월

이상 2건(1.6%)으로 파악되었다.

구분 빈도 백분율(%)1개월 미만 24 19.21개월 이상 2개월 미만 26 20.82개월 이상 3개월 미만 18 14.43개월 이상 4개월 미만 31 24.84개월 이상 5개월 미만 12 9.65개월 이상 6개월 미만 2 1.66개월 이상 7개월 미만 6 4.87개월 이상 8개월 미만 4 3.28개월 이상 2 1.6전체 125 100.00

<표 2-27> 이용 기간

자료 용량 및 이용기간에 대한 기술통계량은 아래 표와 같다. 전체 135건의 자료

Page 35: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 25 -

용량은 평균 188.50, 표준편차 401.74, 중앙값 49.90, 제1사분위수 6.20, 제3사분위수

153.00, 최솟값 0.00, 최댓값 3740.00으로 나타났으며, 전체 125건의 이용기간은 평균

2.58, 표준편차 1.97, 중앙값 2.25, 제1사분위수 1.00, 제3사분위수 3.00, 최솟값 0.25, 최댓값 10.50으로 나타났다. 자료 용량 및 이용기간에 대한 분포는 아래 그림과 같

다.

구분 건수 평균표준편차

중앙값 (Q1, Q3) (Min, Max)자료 용량(GB) 135 188.50 401.74 49.90 (6.20, 153.00) (0.00, 3740.00)이용 기간(개월) 125 2.58 1.97 2.25 (1.00, 3.00) (0.25, 10.50)

<표 2-28> 자료 용량 및 이용 기간

[그림 2-3] 자료 용량 분포

[그림 2-4] 자료 이용 기간 분포

연구 형태별 자료 용량은 현황분석의 경우 자료용량은 전체 69건 중 1GB 미만 6

Page 36: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 26 -

구분현황분석 유병률/발생률 비용분석 성과연구

빈도백분율(%) 빈도

백분율(%) 빈도

백분율(%) 빈도

백분율(%)

1GB 미만 6 8.7 11 19.6 3 9.7 0.0 0.01GB이상 10GB미만 14 20.3 6 10.7 2 6.5 9 19.610GB이상 50GB미만 16 23.2 13 23.2 10 32.3 11 23.950GB이상 100GB미만 11 15.9 6 10.7 3 9.7 8 17.4100GB이상 500GB미만 16 23.2 10 17.9 8 25.8 8 17.4500GB이상 1000GB미만 5 7.3 9 16.1 4 12.9 8 17.41000GB이상 1 1.4 1 1.8 1 3.2 2 4.3

전체 69 100.0 56 100.0 31 100.0 46 100.0

<표 2-29> 연구형태별 자료 용량

건(8.7%), 1GB이상 10GB미만 14건(20.3%), 10GB이상 50GB미만 16건(23.2%), 50GB이상 100GB미만 11건(15.9%), 100GB이상 500GB미만 16건(23.2%), 500GB이상 1000GB미만 5건(7.3%), 1000GB이상 1건(1.4%)으로 파악되었으며, 유병률/발생률의 경우 전체

56건 중 1GB 미만 11건(19.6%), 1GB이상 10GB미만 6건(10.7%), 10GB이상 50GB미만

13건(23.2%), 50GB이상 100GB미만 6건(10.7%), 100GB이상 500GB미만 10건(17.9%), 500GB이상 1000GB미만 9건(16.1%), 1000GB이상 1건(1.8%)으로 파악되었다. 그리고

비용분석의 경우 전체 31건 중 1GB 미만 3건(9.7%), 1GB이상 10GB미만 2건(6.5%), 10GB이상 50GB미만 10건(32.3%), 50GB이상 100GB미만 3건(9.7%), 100GB이상 500GB미만 8건(25.8%), 500GB이상 1000GB미만 4건(12.9%), 1000GB이상 1건(3.2%)으로 파악

되었고, 성과연구의 경우 전체 46건 중 1GB 미만 0건(0.00%), 1GB이상 10GB미만 9건(19.6%), 10GB이상 50GB미만 11건(23.9%), 50GB이상 100GB미만 8건(17.4%), 100GB이상 500GB미만 8건(17.4%), 500GB이상 1000GB미만 8건(17.4%), 1000GB이상 2건(4.3%)으로 파악되었다.

연구 형태별 자료 용량의 기술통계량은 아래 표와 같다. 현황분석의 경우, 전체 69건의 자료 용량은 평균 136.90, 표준편차 232.66, 중앙값 32.20, 제1사분위수 3.60, 제3사분위수 153.00, 최솟값 0.00, 최댓값 1346.09로 나타났으며, 유병률/발생률의 경우

전체 56건의 자료 용량은 평균 227.52, 표준편차 545.65, 중앙값 34.48, 제1사분위수

4.03, 제3사분위수 179.65, 최솟값 0.00, 최댓값 3740.00으로 나타났다. 그리고 비용분

석의 경우 전체 31건의 자료 용량은 평균 199.29, 표준편차 303.53, 중앙값 55.30, 제1사분위수 16.80, 제3사분위수 234.02, 최솟값 0.00, 최댓값 1346.09로 나타났고, 성과연

구의 경우 전체 46건의 자료 용량은 평균 304.36, 표준편차 612.57, 중앙값 70.16, 제1사분위수 19.95, 제3사분위수 364.50, 최솟값 1.90, 최댓값 3740.00으로 나타났다. 연구

형태별 자료 용량에 대한 히스토그램은 아래 그림과 같다.

Page 37: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 27 -

구분 건수 평균표준편차

중앙값 (Q1, Q3) (Min, Max)현황분석 69 136.90 232.66 32.20 (3.60, 153.00) (0.00, 1346.09)

유병률/발생률 56 227.52 545.65 34.48 (4.03, 179.65) (0.00, 3740.00)비용분석 31 199.29 303.53 55.30 (16.80, 234.02) (0.00, 1346.09)성과연구 46 304.36 612.57 70.16 (19.95, 364.50) (1.90, 3740.00)

<표 2-30> 연구형태별 자료 용량(GB)

[그림 2-5] 연구형태별 자료 용량

연구 형태별 자료 이용 기간은 현황분석의 경우 자료 이용 기간은 전체 66건 중 3개월 미만 34건(51.5%), 3개월 이상 6개월 미만 26건(39.4%), 6개월 이상 6건(9.1%)으로 파악되었으며, 유병률/발생률의 경우 전체 49건 중 3개월 미만 23건(46.9%), 3개월

이상 6개월 미만 19건(38.8%), 6개월 이상 7건(14.3%)으로 파악되었다. 그리고 비용분

석의 경우 전체 30건 중 3개월 미만 16건(53.3%), 3개월 이상 6개월 미만 10건(33.3%), 6개월 이상 4건(13.3%)으로 파악되었고, 성과연구의 경우 전체 43건 중 3개월 미만 18건(41.9%), 3개월 이상 6개월 미만 19건(44.2%), 6개월 이상 6건(14.0%)으로

파악되었다.

Page 38: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 28 -

구분현황분석 유병률/발생률 비용분석 성과연구

빈도백분율(%) 빈도

백분율(%) 빈도

백분율(%) 빈도

백분율(%)

3개월 미만 34 51.5 23 46.9 16 53.3 18 41.93개월 이상 6개월 미만 26 39.4 19 38.8 10 33.3 19 44.26개월 이상 6 9.1 7 14.3 4 13.3 6 14.0

전체 66 100.0 49 100.0 30 100.0 43 100.0

<표 2-31> 연구형태별 자료 이용 기간

연구형태별 자료이용 기간의 기술통계량은 아래 표와 같다. 현황분석의 경우 전체

66건의 이용 기간은 평균 2.49, 표준편차 1.79, 중앙값 2.50, 제1사분위수 0.94, 제3사분위수 3.00, 최솟값 0.25, 최댓값 7.75로 나타났으며, 유병률/발생률의 경우 전체 49건의 이용 기간은 평균 2.94, 표준편차 1.99, 중앙값 3.00, 제1사분위수 1.13, 제3사분

위수 4.25, 최솟값 0.25, 최댓값 7.50으로 나타났다. 그리고 비용분석의 경우 전체 30건의 이용 기간은 평균 2.86, 표준편차 1.85, 중앙값 2.50, 제1사분위수 1.19, 제3사분

위수 4.38, 최솟값 0.75, 최댓값 6.25로 나타났고, 성과연구의 경우 전체 43건의 이용

기간은 평균 3.21, 표준편차 2.25, 중앙값 3.00, 제1사분위수 1.75, 제3사분위수 4.00, 최솟값 0.25, 최댓값 10.50으로 나타났다. 자료 이용 기간에 대한 히스토그램은 아래

그림과 같다.

구분 건수 평균표준편차

중앙값 (Q1, Q3) (Min, Max)현황분석 66 2.49 1.79 2.50 (0.94, 3.00) (0.25, 7.75)

유병률/발생률 49 2.94 1.99 3.00 (1.13, 4.25) (0.25, 7.50)비용분석 30 2.86 1.85 2.50 (1.19, 4.38) (0.75, 6.25)성과연구 43 3.21 2.25 3.00 (1.75, 4.00) (0.25, 10.50)

<표 2-32> 연구형태별 자료 이용 기간(개월)

Page 39: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 29 -

[그림 2-6] 연구형태별 자료 이용 기간

연도별 연구 논문 결과물은 전체 20건 중 2011년도에는 SCI 학술지 3건(15.0%), 국내 학술지 1건(5.0%)이 등재되었다. 또한 2015년도에는 SCI 학술지 4건(20.0%), 국내

학술지 5건(25.0%)이 등재되었으며 2016년도에는 SIC 학술지 7건(35.0%)이 등재되었

다.

연도 논문 빈도 백분율(%)2011 SCI 학술지 3 15.0

국내 학술지 1 5.0 2015 SCI 학술지 4 20.0

국내 학술지 5 25.0 2016 SCI 학술지 7 35.0

국내 학술지 0 0.0 전체 20 100.0

<표 2-33> 연도별 연구 논문 결과물

나. 보건의료빅데이터센터2016년 1월부터 10월까지 보건의료빅데이터센터를 이용한 산업체 과제는 1,095건

이었으며, 산업체 과제에서 요청한 자료의 진료기간은 결측치 1건을 제외하여 1,094건을 분석하였다. 산업체 과제에서 요청한 자료의 진료기간은 1,094건 중 6개월 미만

64건(5.9%), 6개월 이상 12개월 미만 143건(13.1%), 12개월 이상 24개월 미만 877건(80.2%), 24개월 이상 36개월 미만 4건(0.4%), 36개월 이상 6건(0.5%)으로 파악되었다.

Page 40: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 30 -

구분 빈도 백분율(%)6개월 미만 64 5.96개월 이상 12개월 미만 143 13.112개월 이상 24개월 미만 877 80.224개월 이상 36개월 미만 4 0.436개월 이상 6 0.5

전체 1094 100.0

<표 2-34> 산업체 요청자료 진료기간(개월)

산업체 과제의 자료 이용 기간은 전체 산업체 과제의 자료 이용 기간 720건 중 결

측치 155건을 제외하여 565건을 분석하였다. 산업체 자료 이용 기간 565건 중 1일323건(57.2%), 2일 142건(25.1%), 3일 60건(10.6%), 4일 19건(3.4%), 5일 21건(3.7%)으로

파악되었다.

구분 빈도 백분율(%)1일 323 57.22일 142 25.13일 60 10.64일 19 3.45일 21 3.7전체 565 100.0

<표 2-35> 산업체 자료 이용 기간(일)

산업체 과제의 자료 신청 타입은 전체 1,095건 중 전품목(자사전체) 488건(44.6%), 개별품목 250건(22.8%), 약효분류코드 80건(7.3%), 주성분코드 104건(9.5%), ATC 173건(15.8%)으로 파악되었다.

구분 빈도 백분율(%)전품목(자사전체) 488 44.6

개별품목 250 22.8약효분류코드 80 7.3주성분코드 104 9.5

ATC 173 15.8전체 1095 100.0

<표 2-36> 산업체 자료 신청 타입

Page 41: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 31 -

3. 국내 자료제공 기관 조사가. 국민건강보험공단2)

국민건강보험공단(이하 ‘공단’)은 「국민건강보험법」 제13조에 따라 건강보험의

보험자로 제14조에서 정한 가입자 및 피부양자의 자격 관리, 보험료의 부과·징수, 보험급여의 관리, 가입자와 피부양자의 건강 유지와 증진을 위하여 필요한 예방사업, 보험급여 비용의 지급 등의 업무를 관장하고 있다. 특히 제14조 제4항에서 공단은

「공공기관의 정보공개에 관한 법률」에 따라 건강보험과 관련하여 보유·관리하고

있는 정보를 공개한다고 업무를 명시하고 있다.

1) 자료제공체계공단은 「국민건강정보자료 제공 운영규정」에 근거하여 국민건강정보자료(자격,

보험료, 건강검진, 급여내역 등)를 보건의료 공공연구의 목적으로 국가, 행정기관, 대학연구소 등 공공기관에서 요청하는 경우 자료를 산출하여 제공하고 있다.

□ 자료제공범위

­국가·행정기관에서 업무수행과 관련하여 요청하는 경우

­대학연구소 등 공공기관에서 국가 및 행정기관의 연구에 따른 용역수행과 관련

하여 요청하는 경우

­비영리 학술·연구 또는 공익기관에서 학술·연구 등 목적으로 소속기관장의

확인을 받아 자료를 요청하는 경우

- 기타 공공기관의 장이 보건의료분야의 공공복리 증진을 위하여 순수한 연구

목적으로 요청하는 경우

□ 자료제공기준

- 건강보험자료(업무를 위해 타 기관으로부터 제공받은 자료제외) 범위 내에서

제공

- 주민등록번호, 성명, 주소, 전화번호, 요양기관명칭 등 개인정보 및 개별 법인·단체 등의 정보가 식별 불가능한 형태로 산출

- 대상기간, 자료세부내역 등 현업업무 수행에 지장을 초래할 정도의 방대하고

복잡한 자료구성으로는 제공하지 않음

- 공공기관의 개인정보보호에 관한 법률로 인해, 정보주체 또는 제3자의 권리와

2) 국민건강보험공단(http://www.nhis.or.kr)

Page 42: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 32 -

구분 설명 세부자료내역

자격DB건강보험가입자 및 의료급여수급권자(외국인 제외)들의 자격관리를 위한 자료

성, 연령대, 지역, 가입자 구분, 소득분위 등 대상자의 사회경제적 변수 및 장애, 사망여부 등

진료DB대상자가 요양기관에 방문하여 진료 등을 받은 내역에 대해 요양기관으로부터요양급여가 청구된 자료

명세서 일반 내역, 진료내역, 상병내역, 처방전 교부상세내역

건강검진DB건강검진 주요 결과 및 문진에 의한 생활습관 및 행태관련 자료

일반건강검진, 암검진, 영유아검진 자료

요양기관DB 요양기관 자료요양기관의 종별, 설립구분별, 지역(시도)별 현황 및 시설, 장비, 인력관련 자료

<표 2-37> 국민건강정보자료 세부내역

이익을 부당하게 침해할 우려가 있다고 인정될 경우는 제공을 제한함

2) 제공자료 내역공단이 국민건강보험법에 따른 업무를 수행하는 과정에서 수집·보유·관리하고

있는 국민건강정보자료는 전 국민의 자격 및 보험료, 건강검진결과, 진료내역, 노인

장기요양보험 자료, 요양기관 현황, 암 및 희귀난치성질환자 등록정보 등을 포함하

며, 세부내역은 아래 표와 같다.

3) 자료제공 방법공단은 국민건강정보자료를 표본연구DB와 맞춤형DB 두 가지 방법으로 제공하고

있다.

□ 표본연구DB표본연구DB는 국민건강정보자료의 방대한 규모와 개인정보보호 문제 등으로 연구

자의 접근과 활용이 제한적이었던 점을 개선하고자 표본을 추출하여 외부 반출이 가

능한 형태로 규격화한 데이터를 말한다. 동일 대상자에 대해 사회·경제적 변수(거주

지, 사망년월, 사망사유, 소득수준 등)가 포함된 자격자료, 진료내역 및 건강검진자료

등을 연결한 코호트 자료로, 장기간의 관찰이 가능하여 시간적 선후관계나 인과적

관계 분석이 가능한 자료이다. 현재 표본코호트DB, 건강검진코호트DB, 노인코호트DB 가 제공 중이며, 추후 직장여성코호트DB, 영유아검진코호트DB를 추가로 제공할 예정

Page 43: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 33 -

이다.

□ 맞춤형DB맞춤형DB는 공단이 수집, 보유, 관리하는 건강정보자료를 정책 및 학술 연구 목적

으로 이용할 수 있도록 수요맞춤형 자료로 가공하여 제공하는 데이터를 말하며, 맞춤형 건강정보자료를 열람 및 연구 분석할 수 있는 PC가 설치된 공단 내의 장소인

데이터분석실에서 통계분석 툴을 이용·제공하고 있다.

4) 개인정보/민감정보 관련 정책 및 법적 근거국민건강보험법 시행령 제81조에는 공단이 민감정보 및 고유식별정보를 다룰 수

있는 경우에 대해 다음과 같이 명시하고 있다. 여기서 제2호의 법 제14조제1항에 따

른 업무는 ‘가입자 및 피부양자의 자격 관리에 대한 업무’를 말하며, 제4의2호에

따라 자격 관리에 대한 업무에 따른 자료의 제공에 관한 사무를 포함한다. 8의2호의

제96조에 따른 자료의 제공 요청에 관한 사무는 ‘가입자 및 피부양자의 자격 관리, 보험료의 부과·징수, 보험급여의 관리 등 건강보험사업의 수행’ 및 「국민연금

법」, 「고용보험 및 산업재해보상보험의 보험료징수 등에 관한 법률」, 「임금채권

보장법」 및 「석면피해구제법」에 따라 위탁받은 업무를 포함한다. 또한 공단은

「국민건강보험법」 제96조에 따라 건강보험사업의 수행을 위해서 주민등록 등의 자

료를 제공하도록 요청할 수 있다.

국민건강보험법 시행령 제81조(민감정보 및 고유식별정보의 처리) ① 공단(법 제112조에 따라 공단의 업무를 위탁받은 자를 포함한다)은 다음 각 호의 사무를 수행하기위하여 불가피한 경우 「개인정보 보호법」 제23조에 따른 건강에 관한 정보, 같은 법 시행령 제18조제2호에 따른 범죄경력자료에 해당하는 정보, 같은 영 제19조 각 호에 따른 주민등록번호, 여권번호, 운전면허의 면허번호 또는 외국인등록번호가 포함된 자료를 처리할 수 있다.

1. 법 제7조에 따른 사업장의 신고에 관한 사무2. 법 제14조제1항에 따른 업무에 관한 사무3. 법 제60조에 따른 현역병 등에 대한 요양급여비용 지급에 관한 사무4. 법 제61조에 따른 요양급여비용의 정산에 관한 사무4의2. 법 제81조의2에 따른 자료의 제공에 관한 사무5. 법 제83조에 따른 체납자 인적사항등의 공개에 관한 사무6. 법 제87조 및 제90조에 따른 이의신청 및 행정소송에 관한 사무7. 법 제94조에 따른 신고 등에 관한 사무8. 법 제95조에 따른 소득 축소·탈루 자료의 송부에 관한 사무8의2. 법 제96조에 따른 자료의 제공 요청에 관한 사무9. 법 제104조에 따른 포상금 지급에 관한 사무10. 법 제112조에 따른 업무의 위탁에 관한 사무

Page 44: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 34 -

국민건강보험법 제96조(자료의 제공) ① 공단은 국가, 지방자치단체, 요양기관, 「보험업법」에 따른 보험회사 및 보험료율 산출 기관, 「공공기관의 운영에 관한 법률」에 따른 공공기관, 그 밖의 공공단체 등에 대하여 다음 각 호의 업무를 수행하기 위하여 주민등록·가족관계등록·국세·지방세·토지·건물·출입국관리 등의 자료로서 대통령령으로 정하는 자료를 제공하도록 요청할 수 있다. 1. 가입자 및 피부양자의 자격 관리, 보험료의 부과·징수, 보험급여의 관리 등 건강보험사업의 수행 2. 제14조제1항제11호에 따른 업무의 수행

공단에서는 「개인정보보호법」 제18조제4항 및 같은 법 시행규칙 제2조에 의거, 공단 보유 개인정보를 목적 외 이용 또는 제3자에게 제공한 내역에 대하여 홈페이지

에 날짜, 법적근거, 목적, 개인정보항목을 공고하고 있다. 2016년 9월 30일부터 10월15일까지 개인정보 제공횟수는 522회이며, 자료 이용 및 제공받는 목적이 재판업무, 조세 및 징수 목적, 사회보험 심사목적, 사회복지서비스 대상자 선정, 감사목적, 기관

의 고유업무 수행이고 이용 및 제공에 대한 법적 근거가 있는 경우 개인정보 항목을

제공한 것으로 나타났다.결과적으로 공단은 국민건강보험법에 명시된 고유 업무 수행을 위해 개인정보 및

민감정보를 처리할 수 있는 법적 근거가 있으나, 국민건강정보자료 제공 시 개인정

보를 이용하여 자료연계를 실시할 수 있는 법적 근거는 확인할 수 없었다. 그리고

개인정보를 목적 외 이용 또는 제3자에게 제공한 내역을 살펴 본 결과, 국민건강정

보자료 제공 시 자료연계를 위해 개인정보 항목을 제공한 내역은 확인할 수 없었다.

나. 중앙암등록본부3)

중앙암등록본부는 보건복지부 사업인 중앙암등록사업을 수행하기 위해 1980년 국

립의료원에 설치되었다. 중앙암등록사업은 병원의 자율적인 참여로 암등록사업을 시

작하였으며, 이후 암진단 및 치료가 가능한 전국의 의료기관으로 암등록 병원을 확

대하였다. 중앙암등록본부는 2000년 9월 국립암센터로 이관되었으며, 2004년 12월 암

관리법에 근거 중앙암등록본부로 지정되었다. 2003년 「암관리법」 제정 이후 중앙

암등록사업과 지역암등록사업은 국가사업(‘국가암등록통계사업’)으로 편입되었으

며, 중앙암등록본부는 사업의 중추기관으로서 역할을 하고 있다. 중앙암등록본부의

역할은 다음과 같다.

- 암발생 현황 등 암관련 전국단위 통계자료 수집·관리·분석

- 국가 단위 암등록통계(암발생률, 암생존율, 암유병률 등) 산출

- 지역암등록본부 지원

3) 중앙암등록본부(http://www.ncc.re.kr/main.ncc?uri=manage02_1)

Page 45: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 35 -

- 국가암등록통계사업 교육과정 개발 및 운영

- 암등록지침서 , 국가암등록사업 연례 보고서 발간

- 국가암등록통계사업 관련 연구사업 수행

- 국제공인 암관련 통계 생산 등 국제협력에 관한 사항

- 국제 암등록교육자료 개발 및 운영

국가암등록통계사업은 우리나라 암 발생률을 산출하고 모니터링하는 것을 목적으

로 환자의 정보를 지속적이고 체계적으로 수집 관리하는 사업으로, 암등록통계사업

의 목표는 우리나라의 암등록통계를 산출하고, 이를 통하여 암관리 정책의 우선순위

를 확인하는 것이다. 암등록통계 자료를 이용하여 향후 암을 치료하는데 필요한 의

료진, 병원, 비용 등을 예측하며, 암의 발생추세와 집단발병을 확인하여 암의 발생

원인을 규명하는 계기를 제공하고, 지역별 암통계 자료를 이용하여 특정 지역의 암

에 대한 부담을 알아내고, 새로운 암예방, 암진단, 암치료 프로그램의 효과 등을 확

인할 수 있으며, 암 교육·홍보자료로 활용이 가능하다.

1) 자료수집체계우리나라 암발생 위험요인, 암의 발생 및 치료에 대한 자료를 체계적으로 수집·

분석하여 암의 발생률, 생존율, 유병률 등에 대한 통계를 산출하기 위한 자료로써 국

가암등록통계사업 추진 체계는 아래 그림과 같다.

[그림 2-7] 국가암등록통계사업 추진 체계

Page 46: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 36 -

중앙암등록자료에서 수집하고 있는 자료는 인적정보, 질병정보 등이며, 주요 조사

항목은 아래 표4)와 같다. 자세한 수집 변수 등에 대한 사항은 암등록교육센터 홈페

이지에서 제공하는 2012년 암등록지침서를 참고한다.

항목 주요 조사내용

인적정보환자등록번호, 출생년도, 나이, 주민등록번호, 이름, 행려환자, 직업, 주소

질병정보

진료초진연월일, 입원일, 퇴원일, 치료시행여부, 진단경로, 원발부위, 전이부위

조직학적 진단조직학적 진단명, 진단방법, 병기분류(SEER summary stage code), 분화도(2012년 발생자부터 수집)

사망 사망년월일, 사망원인

<표 2-38> 중앙암등록자료 자료수집 항목

2) 자료제공체계□ 자료제공기준

수집된 암 등록자료 범위 내에서 제공하는데, 초진연월일, 국제질병분류, 종양학

국제질병분류, 암의 최종 진단방법 등을 사전 협의를 통해 제공한다. 그리고 암등록

환자의 개인정보와 개별 법인/단체 등의 정보가 식별 불가능한 형태로 제공한다. 만일 「개인정보보호법」에 의거 정보주체 또는 제3자의 권리와 이익을 부당하게 침해

할 우려가 있다고 인정된 경우 또는 업무수행에 지장을 초래할 정도의 방대한 자료

의 경우 제공을 제한한다.

□ 자료요청절차

암등록자료의 원시자료를 요청하기 위해서는 국립암센터의 중앙암등록본부 홈페이

지에서 자료요청서를 작성하여 접수하면 된다. 신청자료 정보를 확인한 후 제공여부

를 심의하는데, 제공여부를 중앙암등록본부에서 정하기 어려운 경우 자료제공

심의 위원회(연간 6회)를 통해 제공여부를 심의한다. 자료제공이 승인이 되면, 자료처리 기간은 5일 이내(휴일 제외)로 정하고 있으며, 다만, 부득이한 경우

연장 가능하다.

[그림 2-8] 국립 암센터 자료요청 절차

4) 한국보건의료연구원. 국내 보건의료 이차자료원 활용. 2013.

Page 47: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 37 -

암관리법 [시행 2016.8.4.] [법률 제14000호, 2016.2.3., 일부개정] 제14조(암등록통계사업) ① 보건복지부장관은 암 발생 위험 요인과 암의 발생 및 치료에 관한 자료를지속적이고 체계적으로 수집·분석하여 암 발생률, 생존율 등의 통계를 산출하기 위한 등록·관리·조사사업(이하 "암등록통계사업"이라 한다)을 시행하여야 한다. 이 경우 통계자료의 수집 및 통계의 작성등에 관하여는 「통계법」을 준용하며, 통계의 산출을 위하여 처리되는 개인정보는 「개인정보 보호법」 제58조제1항에 따라 같은 법이 적용되지 아니하는 개인정보로 본다. <개정 2011.3.29.>

② 보건복지부장관은 암환자를 진단·치료하는 의료인 또는 의료기관, 「국민건강보험법」에 따른 국민건강보험공단 및 건강보험심사평가원, 그 밖에 암에 관한 사업을 하는 법인·기관·단체에 대하여보건복지부령으로 정하는 바에 따라 암등록통계사업에 필요한 자료의 제출이나 의견의 진술 등을 요구할 수 있다. 이 경우 자료의 제출을 요구받은 자는 특별한 사유가 없으면 요구에 따라야 한다.③ 보건복지부장관은 암등록통계사업과 관련하여 고유식별정보를 처리하는 경우에는 개인정보 보호를 위하여 보건복지부령으로 정하는 바에 따라 암호화 등 안전성 확보에 필요한 조치를 하여야 한다. <신설 2015.12.29.>

암관리법 시행규칙 [시행 2016.6.30.] [보건복지부령 제411호, 2016.6.30., 일부개정] 제6조의2(암등록통계사업 관련 개인정보 안전성 확보 조치) ① 보건복지부장관은 법 제14조제3항에따라 개인정보의 안전성 확보를 위한 다음 각 호의 조치를 하여야 한다.1. 개인정보의 안전한 처리를 위한 관리계획 수립ㆍ시행2. 개인정보에 대한 접근 통제 및 접근 권한 제한 조치3. 개인정보에 대한 보안프로그램의 설치 및 갱신4. 개인정보를 안전하게 저장ㆍ전송할 수 있는 암호화 기술 적용 또는 이에 상응하는 조치5. 개인정보 침해사고 대응을 위한 접속기록의 보관 및 위조ㆍ변조 방지를 위한 조치6. 개인정보의 안전한 보관을 위한 잠금장치 설치 등 물리적 조치② 제1항에 따른 안전성 확보 조치에 관한 세부 기준은 보건복지부장관이 정하여 고시한다.[본조신설 2016.6.30.]

3) 개인정보/민감정보 관련 정책 및 법적근거

「암관리법」에서는 암 발생률, 생존율 등의 통계를 산출하기 위한 암등록통계사

업을 시행하는 과정에서 통계의 산출을 위하여 처리되는 개인정보는 개인정보보호법

이 적용되지 아니하는 개인정보로 본다. 또한 암등록통계사업과 관련하여 고유식별

정보를 처리하는 경우에는 개인정보 보호를 위하여 보건복지부령으로 정하는 바에

따라 암호화 등 안전성 확보에 필요한 조치를 하여야 한다.

Page 48: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 38 -

기수 조사기간 조사대상 조사내용 수행기관

제1기(1998)

11월~12월∙건강면접조사:200 조사구, 약 1만2천 가구∙건강행태・검진・영양 조사:200 조사구, 약 4천 가구

[건강설문조사] 건강행태(흡연, 음주 등), 의료 이용, 활동제한, 삶의 질 등[영양조사] 식생활, 식품섭취빈도, 식품섭취조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사

한국보건사회연구원

한국보건산업진흥원

제2기(2001) 11월~12월

∙건강면접조사:600 조사구, 약 1만2천 가구∙건강행태・검진・영양 조사:200 조사구, 약 4천 가구

[건강설문조사] 건강행태(흡연, 음주 등), 의료 이용, 활동제한, 삶의 질 등[영양조사] 식생활, 식품섭취빈도, 식품섭취조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사, 흉부X-선검사, 폐기능검사

제3기(2005) 4월~6월

∙건강면접조사:600 조사구, 약 1만2천 가구∙건강행태・검진・영양 조사:200 조사구, 약 4천 가구

[건강설문조사] 건강행태(흡연, 음주 등), 의료 이용, 활동제한, 삶의 질 등[영양조사] 식생활, 식품섭취빈도, 식품섭취, 식품안정성조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사

질병관리본부한국보건사회

연구원한국보건산업

진흥원

제4기(2007-2009)

1차년도: 7월~12월2~3차년도:1월~12

∙600 조사구, 약 1만2천 가구(연간 200 조사구 조사, 단2007년은 100 조사구 조사)

[건강설문조사] 건강행태(흡연, 음주 등), 의료 이용, 활동제한, 삶의 질 등[영양조사] 식생활, 식품섭취빈도, 식품섭취, 식품안정성조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사, 폐기능검사, 구강검사, 안검사, 이비인후검사, 흉부X-선검사, 골밀도 및 체지방검사, 골관절염검사

질병관리본부

제5기(2010- 1월~12월 ∙576 조사구, 약 1만 가구

(연간 192 조사구 조사)[건강설문조사] 건강행태(흡연, 음주 등), 의료이용, 활동제한, 삶의

<표 2-39> 국민건강영양조사 기수별 세부 조사내용

다. 국민건강영양조사5)

국민건강영양조사는 「국민건강증진법」 제16조에 근거하여 시행하는 전국 규모의

건강 및 영양조사이다. 제1기(1998), 제2기(2001), 제3기(2005)까지 3년 주기로 시행하

였으며, 2007년 이후 국가통계의 시의성 향상을 위해 질병관리본부에서 매년 직접

수행하고 있다. 작성된 통계는 「통계법」 제17조에 근거한 정부 지정통계(승인번호

117002호)이다. 기수별 세부 조사내용은 아래 표와 같다.

5) 국민건강영양조사(https://knhanes.cdc.go.kr)

Page 49: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 39 -

2012)

질 등[영양조사] 식생활, 식품섭취빈도, 식품섭취, 식품안정성조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사, 폐기능검사, 구강검사, 안검사, 이비인후검사, 흉부X-선검사, 골밀도 및 체지방검사, 골관절염검사

제6기(2013-2015)

1월~12월 ∙576 조사구, 약 1만 가구 (연간 192 조사구 조사)

[건강설문조사] 건강행태(흡연, 음주 등), 만성 질환, 의료이용, 활동제한, 삶의 질, 신체 활동량 측정 등[영양조사] 식생활, 식품섭취빈도, 식품섭취, 식품안정성조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검 사, 소변검사, 폐기능검사, 구강검사, 안검 사, 청력검사, 악력검사

제7기(2016-2018)

1월~12월 ∙576 조사구, 약 1만 3천 가구(연간 192 조사구 조사)

[건강설문조사] 건강행태(흡연, 음주 등), 만 성질환, 의료이용, 활동제한, 삶의 질, 신체 활동량 측정 등[영양조사] 식생활, 식품섭취빈도, 식품섭취, 식품안정성조사[검진조사] 혈압 및 맥박, 신체계측, 혈액검사, 소변검사, 폐기능검사, 구강검사, 안검사, 악력검사

1) 조사목적국민건강영양조사는 국민의 건강수준, 건강관련 의식 및 행태, 식품 및 영양섭취

실태에 대한 국가단위의 대표성과 신뢰성을 갖춘 통계산출을 목적으로 하는 법정 조

사이다. 특히 통계 자료는 국민건강증진종합계획의 목표 설정 및 평가 지표로 활용

되고 있으며, 건강증진 프로그램 개발 등 보건정책 수립 및 평가에 필요한 기초자료

로 활용되고 있다.

2) 자료수집 대상자국민건강영양조사의 목표모집단은 한국에 거주하는 국민이다. 각 연도별 표본추출

틀의 조사구 및 가구를 각각 1, 2차 추출단위로 하는 2단계 층화집락표본추출방법을

사용하여 조사대상을 선정한다. 1차 추출단위인 조사구는 1차 층화기준(시도, 동읍면, 주택유형), 2차 층화기준(주거면적 비율), 내재적 층화기준(가구주학력 비율)에 근거하

여 층화하며 총 576개 조사구를 추출한다. 2차 추출단위인 가구는 계통추출방법을

사용하여 표본조사구내 적절가구를 추출한다. 제7기(2016-2018) 표본추출틀은 통계청

Page 50: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 40 -

의 2010 인구주택총조사와 신축아파트 자료를 이용하여, 192개 조사구, 4,416가구의

만 1세 이상 가구원 약 10,000명을 표본으로 추출하였다. 표본설계를 통해 조사지역

이 선정되면 가구원확인조사를 통해 조사대상가구를 선정한다. 대상자 선정 과정은

아래 그림과 같다.

[그림 2-9] 대상자 선정 과정

3) 자료수집항목국민건강영양조사는 검진조사, 건강설문조사, 영양조사로 구성되어 있으며, 조사내

용은 다음 표와 같으며, 자세한 사항은 홈페이지에서 제공하는 원시자료 이용지침서

를 참고한다.

구분 주요 조사내용

검진조사신체계측, 혈압측정, 약력검사, 혈액검사, 소변검사, 구강검사, 폐기능검사, 안검사, 이비인후검사

건강설문조사 교육 및 경제활동, 이환, 의료이용, 삶의 질, 건강행태영양조사 식생활조사, 식품섭취조사, 식품섭취빈도조사, 식품안정성조사

<표 2-40> 국민건강영양조사 조사내용

4) 자료제공방법국민건강영양조사 원시자료는 공익적 연구에 한하여 개인식별정보를 제외한 조사

원시자료(국민건강영양조사 사업으로 최초 수집된 자료에서 입력오류, 조사오류 및

Page 51: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 41 -

[그림 2-10] 국민건강영양조사 자료제공 절차

논리적 오류 등을 수정, 제거한 자료)를 기수별로 제공하고 있으며, 다음 그림과 같

은 절차에 따라 제공된다.

□ 학술연구자료처리실

국민건강영양조사는 「개인정보보호법」에 근거하여 원시자료 중 개인을 식별할

수 있는 자료 또는 다른 정보와 결합하여 개인 식별이 가능한 자료가 제외된 원시자

료를 공개하고 있다. 현행 「개인정보보호법」을 준수하는 범위 내에서 보건의료분

야 연구에 반드시 필요한 자료들을 활용할 수 있도록, 질병관리본부 건강영양조사과

내부에 학술연구자료처리실을 마련하여 운영 중에 있다. 자료처리실에서는 공개용 원시자료와 함께 조사일 및 조사구 주소 자료를 이용할

수 있으며, 자료분석 후에는 개인정보 포함 여부에 대한 검토가 완료된 분석결과물

에 대해서만 외부 반출을 승인하고 있다. 학술연구자료처리실 이용 절차는 다음 그

림과 같다.

[그림 2-11] 학술연구자료처리실 이용 절차

5) 연구성과 등록국민건강영양조사 자료를 이용한 연구결과물은 다음 그림과 같이 홈페이지의 자료

활용 논문등록 메뉴를 통해 연구성과 등록을 수행할 수 있다.

Page 52: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 42 -

개인정보보호법 제30조(개인정보 처리방침의 수립 및 공개)① 개인정보처리자는 다음 각 호의 사항이 포함된 개인정보의 처리 방침(이하 "개인정보 처리방침"이라 한다)을 정하여야 한다. 이 경우 공공기관은 제32조에 따라 등록대상이 되는 개인정보파일에 대하여 개인정보 처리방침을 정한다.  <개정 2016.3.29.>1. 개인정보의 처리 목적2. 개인정보의 처리 및 보유 기간3. 개인정보의 제3자 제공에 관한 사항(해당되는 경우에만 정한다)4. 개인정보처리의 위탁에 관한 사항(해당되는 경우에만 정한다)5. 정보주체와 법정대리인의 권리·의무 및 그 행사방법에 관한 사항6. 제31조에 따른 개인정보 보호책임자의 성명 또는 개인정보 보호업무 및 관련 고충사항을 처리하는부서의 명칭과 전화번호 등 연락처7. 인터넷 접속정보파일 등 개인정보를 자동으로 수집하는 장치의 설치·운영 및 그 거부에 관한 사항(해당하는 경우에만 정한다)8. 그 밖에 개인정보의 처리에 관하여 대통령령으로 정한 사항

개인정보보호법 시행령 제31조(개인정보 처리방침의 내용 및 공개방법 등)① 법 제30조제1항제8호에서 "대통령령으로 정한 사항"이란 다음 각 호의 사항을 말한다. <개정2016.9.29.>1. 처리하는 개인정보의 항목2. 개인정보의 파기에 관한 사항3. 제30조에 따른 개인정보의 안전성 확보 조치에 관한 사항

[그림 2-12] 논문등록 절차

위 논문등록 절차를 통해 등록된 논문목록은 홈페이지를 통해 제공되고 있는데, 각 논문에 대해 연구구분(학술지, 학위논문, 기타), 연구주제, 논문제목, 학술지명/학교/학위명, 발표월, 키워드, 저자, 원문 등이 제공되고 있으며, 검색어를 통한 검색기

능도 제공하고 있다.

6) 개인정보 관련 정책 및 법적 근거질병관리본부는 「개인정보보호법」 등 관련법령상의 개인정보보호 규정을 준수하

며, 개인정보를 처리하는 모든 시스템에 대해 「개인정보보호법」 제30조 제1항 및

동법 시행령 제31조 제1항의 규정에 의하여 개인정보처리방침을 정하여 운영하고 있

다.

Page 53: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 43 -

사회보장기본법 제37조(사회보장정보시스템의 구축ㆍ운영 등)① 국가와 지방자치단체는 국민편익의 증진과 사회보장업무의 효율성 향상을 위하여 사회보장업무를전자적으로 관리하도록 노력하여야 한다.② 국가는 관계 중앙행정기관과 지방자치단체에서 시행하는 사회보장수급권자 선정 및 급여 관리 등에관한 정보를 통합·연계하여 처리·기록 및 관리하는 시스템(이하 "사회보장정보시스템"이라 한다)을구축·운영할 수 있다.③ 보건복지부장관은 사회보장정보시스템의 구축·운영을 총괄한다.④ 보건복지부장관은 사회보장정보시스템 구축·운영의 전 과정에서 개인정보 보호를 위하여 필요한시책을 마련하여야 한다.⑤ 보건복지부장관은 관계 중앙행정기관, 지방자치단체 및 관련 기관·단체에 사회보장정보시스템의 운영에 필요한 정보의 제공을 요청하고 제공받은 목적의 범위에서 보유·이용할 수 있다. 이 경우 자료의제공을 요청받은 자는 정당한 사유가 없으면 이에 따라야 한다.⑥ 관계 중앙행정기관 및 지방자치단체의 장은 제2항의 사회보장정보와 관련하여 사회보장정보시스템의 활용이 필요한 경우 사전에 보건복지부장관과 협의하여야 한다. 이 경우 보건복지부장관은 관련 업무에 필요한 범위에서 정보를 제공할 수 있고 정보를 제공받은 관계 중앙행정기관 및 지방자치단체의

라. 사회보장정보원6)

사회보장정보원(이하 ‘정보원’)은 「사회보장급여의 이용·제공 및 수급권자 발

굴에 관한 법률」 제29조에 따라 사회보장정보시스템의 구축ㆍ운영ㆍ지원 및 같은

법 또는 그 밖의 다른 법령에 의해 위탁받은 사업을 합리적이고 효율적으로 수행하

여 공정하고 효과적인 사회보장을 통해 국민의 삶의 질 향상에 기여하는 것을 목적

으로 하는 기관이다. 주요기능으로 보건복지분야 정보시스템의 통합운영ㆍ관리, 사회ㆍ보육서비스사업의 통합관리, 보건복지분야 정보화지원, 보건복지정책 개발지원, 고객지원 및 품질관리 등을 수행하고 있다.

1) 사회보장정보시스템사회보장정보시스템은 「사회보장기본법」 제 37조에 근거하여 관계 중앙행정기관

과 지방자치단체에서 시행하는 사회보장수급권자 선정 및 급여 관리 등에 관한 정보

를 통합·연계하여 처리·기록 및 관리하는 시스템으로, 각 부처 및 정보보유기관에

서 제공하고 있는 복지사업정보와 지원대상자의 자격정보, 수급이력정보를 통합관리

하는 시스템이다. 정보원에서는 정부 각 부처에서 분산되어 운영되고 있는 복지사업

과 지원대상자의 정보를 통합관리하는 사회보장정보시스템을 운영ㆍ관리하고 있으

며, 이를 통해 지자체의 복지업무 처리를 지원함으로써 복지대상자 자격 및 이력 관

리, 복지급여 지급 관리, 부정수급 차단 및 수급 대상자 발굴 등의 서비스를 제공하

고 있다.

6) 사회보장정보원(http://www.ssis.or.kr)

Page 54: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 44 -

장은 제공받은 목적의 범위에서 보유·이용할 수 있다.⑦ 보건복지부장관은 사회보장정보시스템의 운영·지원을 위하여 전담기구를 설치할 수 있다.

사회보장기본법 시행령 제19조(사회보장정보시스템의 구축 및 운영)① 보건복지부장관은 법 제37조제2항에 따른 사회보장정보시스템을 통해 다음 각 호의 업무를 수행할수 있다.1. 사회보장수급자 및 사회보장급여 현황관리2. 사회보장 관련통계의 생성 및 관리3. 사회보장급여의 신청, 수급자격의 조사업무 및 급여의 적정성 확인, 환수(還收) 등 사후관리 업무의전자화 및 처리지원4. 사회보장수급자격의 취득·상실·정지·변경 등 변동관리5. 사회보장급여 및 보조금의 부정·중복수급 모니터링6. 다른 법령에 따라 국가 및 지방자치단체로부터 위탁받은 사회보장에 관한 업무

② 보건복지부장관이 법 제37조제5항 및 제6항에 따라 사회보장정보시스템의 운영을 위하여 수집·보유·이용·제공할 수 있는 정보의 범위는 다음 각 호와 같다.1. 사회보장수급자 수, 선정기준, 보장내용, 예산, 전달체계 등 사회보장제도 및 사회보장수급자 현황에관한 자료2. 사회보장급여의 신청, 수급자격의 조사 및 사후관리에 필요한 자료로서 신청인 및 그 부양의무자에대한 다음 각 목의 어느 하나에 해당하는 자료. 다만, 부양의무자의 부양을 필요로 하지 않거나 근로능력, 소득·재산 상태 등에 관한 조사가 필요하지 않은 경우는 제외한다.가. 주민등록전산정보 등 인적사항 및 기본증명서·가족관계증명서 등 가족관계등록사항나. 토지·건물·선박·차량·주택분양권, 국민건강보험·국민연금·고용보험·산업재해보상보험·퇴직금·보훈급여·공무원연금·군인연금·사립학교교직원연금·별정우체국연금, 근로장려금, 농업소득보전직접지불금 등 소득·재산에 관한 자료다. 출입국·병무·교정·사업자등록증·고용정보·보건의료정보 등 근로능력 및 취업상태에 관한 자료3. 사회보장급여 수급이력 및 사회보장급여와 관련된 신청, 제공 및 환수 등의 업무처리 내역에 관한자료4. 사회복지법인 및 사회복지시설, 관련 기관 및 단체의 보조금 수급이력에 관한 자료5. 그 밖에 사회보장급여의 제공 및 관리 또는 위탁받은 업무의 처리에 필요한 정보로서 보건복지부장관이 정하는 자료

③ 보건복지부장관은 제1항 각 호의 업무를 수행하기 위하여 제2항 각 호에 해당하는 자료를 보건복지부장관이 정하는 바에 따라 정기적으로 갱신하여야 한다.④ 보건복지부장관(법 제37조제7항에 따른 전담기구를 포함한다)은 법 제37조 및 제1항부터 제3항까지의 규정에 따른 사회보장정보시스템의 구축 및 운영 등에 관한 사무를 수행하기 위하여 불가피한 경우「개인정보 보호법」 제23조에 따른 건강에 관한 정보(건강관리, 건강검진 및 의료비 지원에 관한 정보만 해당한다), 같은 법 시행령 제18조제2호에 따른 범죄경력자료에 해당하는 정보, 같은 영 제19조제1호부터 제4호까지의 규정에 따른 주민등록번호, 여권번호, 운전면허번호 또는 외국인등록번호가 포함된자료를 처리할 수 있다.

사회보장정보시스템의 운영을 위하여 수집·보유·이용·제공할 수 있는 정보의

범위는 「사회보장기본법」 시행령 제19조제2항에 제시되어 있으며, 국세청, 국방부, 국토부, 국민건강보험공단, 연금공단, 고용정보원, 대법원, 행정자치부, 금융기관 등으

로부터 정보를 수집한다. 추가적으로 건강에 관한 정보, 주민등록번호 등의 처리에

대한 내용은 제4항에 제시되어 있다.

Page 55: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 45 -

제24조(사회보장정보시스템의 이용 등)① 보장기관의 장은 제5조부터 제22조까지에 따른 업무를 효율적으로 수행하기 위하여 사회보장정보시스템을 이용하거나 관할 업무시스템과 사회보장정보시스템을 연계하여 이용할 수 있다. 이 경우 보장기관의 장은 사회보장정보시스템을 이용하여 처리하고자 하는 자료 또는 정보와 그 범위, 처리 목적·방식, 해당 자료 또는 정보의 보유기관(이하 "정보보유기관"이라 한다) 등을 특정하여 보건복지부장관과협의하여야 한다.② 보건복지부장관은 사회보장의 사각지대를 해소하기 위하여 사회보장정보시스템을 통하여 처리된 정보를 보장기관의 장에게 제공할 수 있으며, 보장기관의 장은 필요한 경우 지원대상자의 동의를 받아 대통령령으로 정하는 법인·단체·시설의 장이 활용할 수 있도록 지원할 수 있다.③ 보장기관이 아닌 다른 기관이 사회보장정보시스템의 이용 및 제공 목적 외의 용도로 사회보장정보를 이용하려는 경우에는 정보보유기관의 장의 심사를 거쳐 보건복지부장관의 승인을 받아야 한다.④ 제2항에 따라 보건복지부장관이 사회보장정보를 제공하는 경우에는 이용 목적을 고려하여 필요 최소한의 사회보장정보를 제공하여야 한다.⑤ 제1항부터 제4항까지에 규정된 사항 외에 사회보장정보시스템의 이용 범위·방법 및 절차 등은 대통령령으로 정한다.

⑤ 제1항 각 호의 업무처리 범위, 방법 및 절차와 그 밖에 필요한 사항은 보건복지부장관이 정한다.⑥ 법 제37조제7항에 따른 전담기구는「사회복지사업법」 제6조의3에 따른 기구로 한다.

2) 자료제공기준정보원에서는 「사회보장급여의 이용·제공 및 수급권자 발굴에 관한 법률」 제24

조에 근거하여 보장기관이 아닌 기관이 사회보장정보를 이용하려는 경우 제3항에 따

라 정보보유기관의 장의 심사를 거쳐 보건복지부장관의 승인을 받아야 한다.

□ 개인정보의 제3자 제공에 관한 사항

사회보장정보시스템의 개인정보 이용 또는 제공은 소관업무를 수행하기 위한 최소

한의 범위로 제한하며, 다른 법률에 따라 보건복지부 내부에서 이용하거나 제3자에

게 제공하는 경우를 제외하고는 개인정보파일의 보유목적 외의 목적으로 타 기관 및

타인에게 제공하지 않는다. 그리고 사회보장정보시스템은 정보주체의 동의, 법률의

특별한 규정 등 개인정보보호법 제17조에 의거하여 개인정보를 제3자에게 제공하고

있으며, 아래의 경우 개인정보파일 보유목적 외의 목적으로 처리정보를 이용하거나

다른 기관에 제공할 수 있다. 다만, 정보주체 또는 제3자의 권리와 이익을 부당하게

침해할 우려가 있다고 인정되는 때에는 제외한다.- 조약, 기타 국제협정의 이행을 위하여 외국정부 또는 국제기구에 제공하는 경우

- 통계작성 및 학술연구 등의 목적을 위한 경우로서 특정개인을 식별할 수 없는

형태로 제공하는 경우

- 정보주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명

Page 56: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 46 -

등으로 동의를 할 수 없는 경우로서, 정보주체 외의 자에게 제공하는 것이 명백

히 정보주체에게 이익이 된다고 인정 되는 경우

- 범죄의 수사와 공소의 제기 및 유지에 필요한 경우

- 법원의 재판업무수행을 위하여 필요한 경우

- 개인정보보호위원회에서 심의를 거쳐 승인된 경우

3) 비식별 조치 지원 전문기관 지정정보원은 개인정보 비식별 조치 가이드라인을 통한 보건복지 분야 개인정보 비식

별 조치 지원 전문기관으로 보건복지부로부터 지정(2016.08.01) 받았다.

4. 해외 자료연계 기관 조사가. Surveillance, Epidemiology and End Results (SEER)-Medicare7),8)

SEER-Medicare Data는 암환자의 보건의료연구를 위하여 National Cancer Institute(NCI) 산하 SEER 암 레지스트리 자료와 Centers of Medicare and Medicaid Services(CMS)의 메디케어 청구자료를 연계한 자료원이다.

1) SEER-Medicare 자료SEER 프로그램에서는 SEER 프로그램을 적용하는 지역에서 새롭게 암을 진단받은

환자들에 대한 인구학적 특성, 진단일자, 암에 대한 조직학적 소견, 병기, 진단 4개월

이내 수술 및 방사선 치료 종류, 사망여부, 사망원인 등에 대한 정보를 수집한다. SEER 프로그램에서 사망자료는 National Center for Health Statistics에 등록되는 사

망자료를 이용하여 파악하며, SEER 자료에는 암을 진단하기 이전에 검진이나 암을

어떻게 진단했는지에 대한 정보가 없다. 그리고 진단 후 4개월 이후의 치료나 동반

질환, 재발에 대한 정보가 없다. SEER 프로그램을 적용하는 지역은 계속 증가하여, 현재 미국 인구의 28% 정보를 포함하고 있다.

Medicare는 미국의 65세 이상 혹은 소정의 자격 요건을 갖춘 사람에게 제공되는

건강보험으로, 모든 Medicare 대상자들은 병원이나 병원 입원 후 이어지는 전문 간

호시설에서의 입원 치료, 가정간호 및 호스피스 간호 등에 대한 비용을 지원받으며, 이 중 96%는 의사 진료 및 외래 환자 진료 서비스 비용도 지원받는다. Medicare 청7) https://healthcaredelivery.cancer.gov/seermedicare/

8) Warren JL, Klabunde CN, Schrag D, Bach PB, Riley GF. Overview of the SEER-Medicare Data:

Content, Research Applications, and Generalizability to the United States Elderly Population. Med

Care 2002 Aug;40(8 Suppl):3-18.

Page 57: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 47 -

구자료는 Medicare 대상자들에게 제공한 서비스와 비용 및 의사에 대한 정보를 포함

하고 있다.

2) SEER-Medicare 자료 연계□ 자료연계방법

SEER-Medicare 자료 연계를 위해서 SEER 프로그램에 포함된 암 등록자들의 개인

식별자를 Medicare 마스터 등록테이블에 포함된 개인식별자와 매칭한다. 자료연계는

사회보장번호(social security number), 이름, 성별, 생년월일을 이용하여 알고리즘에

따라 수행된다.

□ 개인정보보호를 위한 조치

SEER-Medicare 연계자료는 연구목적으로 외부연구자들에게 제공될 수 있다. 이때자료연계 후 환자와 의사의 개인정보보호를 위하여 환자의 개인식별자 뿐만 아니라

의사 및 병원 식별자도 비식별화를 실시한 후 연구자에게 제공한다. 이때 추가적으

로 재식별의 위험이 있는 생년월일과 같은 변수도 제거하거나 변환한다. 이런 비식

별화에도 불구하고 재식별의 잠재적인 위험이 존재하므로 연계된 자료는 공개된 자

료로 이용할 수 없으며, 연계자료를 이용하고자 하는 연구자는 CMS와 SEER에 자료

이용에 대한 승인을 받아야 한다. 승인과정을 거치는 이유는 제안된 연구과제의 방

법론 등에 대한 검토가 아니라 SEER 지역에서 환자 및 의사의 개인정보보호를 위한

보장을 하기 위해서이다. 연구자가 인구학적 정보나 의사의 개인정보(전문과, 전문의 자격 등)를 필요에 의

해 요청하는 경우 NCI 내 전문가가 암호화된 의사식별번호의 암호를 풀어 의사협회

로 보내고, 의사협회에서 필요 변수를 붙여주면 NCI는 다시 이를 암호화하여 필요

변수와 함께 연구자에게 제공한다9).NCI는 환자와 의사 재식별을 방지하기 위하여 환자의 우편번호나 센서스 정보, 의

사와 병원에 대한 우편번호 등을 암호화한다. 만일 암호화하지 않은 지역 관련 변수

를 사용하고자 할 경우 연구자는 각각의 SEER 레지스트리들로부터 허가를 받아야

한다.

□ 법적 근거

SEER-Medicare 연계자료를 이용하고자 하는 연구자는 IRB(Institutional Review Board)의 승인을 사전에 받아야 하는데, 많은 IRB들이 SEER-Medicare 자료에 대해서

9) 고민정, 강민주, 강신희, 김윤정, 김희선. 자료연계를 통해 근거생성이 필요한 의료기술평가연구 과제 도출. 한

국보건의료연구원. 2014.

Page 58: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 48 -

는 승인면제(exempt)로 결정하고 있다. 연계자료는 지역뿐만 아니라 의료서비스를 받은 날짜까지 포함하고 있기 때문에

연계자료를 이용하고자 하는 연구자는 HIPAA(Health Insurance Portability and Accountability Act)를 따라야 한다. 연계자료는 HIPAA에 따라 제한된 데이터셋

(limited data set)에 해당하므로 자료를 받기 전에 연구자는 자료사용 동의서에 서명

해야 하며, 개별 환자들로부터의 동의 없이 연계자료를 이용할 수 있다.

3) 대조군에 대한 자료제공SEER-Medicare 연계자료는 SEER 자료에 포함되어 있는 암환자 중 Medicare 대상

자에 포함되어 있는 환자들에 대한 자료이다. 연구목적에 따라서 대조군으로 암환자

가 아닌 Medicare 대상자들에 대한 자료가 필요한 경우도 있다. 따라서 SEER 지역

내 Medicare 대상자들 중 5%를 랜덤으로 추출하여 암환자들과 동일한 Medicare 자료를 제공한다.

4) SEER-Medicare 자료의 활용SEER-Medicare의 연계자료를 통해 암에 대한 다양한 연구들이 가능해 졌다. SEER

자료에서는 암이 새롭게 발생한 환자를 정의할 수 있으며, 세부적인 발생 위치, 병기, 사망원인 등을 파악할 수 있다. Medicare 자료에서는 치료법의 선택이나 암 검진

에 영향을 줄 수도 있는 암진단 이전의 동반질환 및 암 진단 이후의 치료를 경시적

으로 파악할 수 있다. SEER-Medicare를 활용한 연구는 매년 증가하여 1993~2016년까지 발표된 연구는

총 1,561편이며, 이를 상위 15개 주제에 대해 나타내면 다음 그래프와 같다. 많은 연

구가 암치료법에 관련된 연구이며, 장기간 성과를 파악하는 연구, 암치료법에 대한

비용 등에 대한 연구가 수행되었음을 알 수 있다. 추가적으로 SEER-Medicare 홈페이

지에는 연계자료를 이용한 연구에 대한 검색기능을 제공하고 있다.

Page 59: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 49 -

[그림 2-14] SEER-Medicare 자료를 활용한 연구 검색 결과

(출처 : http://maps.cancer.gov/overview/DCCPSGrants)

[그림 2-13] SEER-Medicare의 논문 주제분야별 현황 (상위15개)

(출처 :https://healthcaredelivery.cancer.gov/seermedicare/overview/publications.html)

Page 60: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 50 -

나. Clinical Practice Research Datalink (CPRD)10)

Clinical Practice Research Datalink(CPRD)는 National Institute for Health Research(NIHR), Medicines and Healthcare products Regulatory Agency(MHRA)로부터

지원받는 비영리 정부 연구기관이다. CPRD 자료를 사용해서 1,500건 이상의 논문이

출판되었고 약물의 안전성 및 진료지침 발전에 기여하고 있다. CPRD의 목적은 건강

연구 성과를 개선하고 공중보건 서비스 연구를 활성화하는 것이고 이 목적에 따라

다양한 의료 영역의 개인 수준 자료를 최대한 연결하여 연구 결과물을 최적화하는

것에 중점을 두고 있다.

1) 자료제공체계CPRD에서는 의약품 안전 및 임상 지침 등의 향상과 같은 건강과 관련된 공적 연

구를 위해 비식별화 및 코드화 된 1차 진료기록, 약품정보, 2차 진료기록을 제공한

다. 자료는 CPRD에 온라인 신청 뒤 ISAC의 승인을 받고 General Practice Research Database(GPRD)와 Department of Health’s NIHR Research Capability Programme (RCP)에서 제공받아 결합한다. ISAC은 CPRD에서 제공하는 자료를 이용한 연구 관련

요청에 대한 조언 및 승인을 하기 위해 국무 장관에 의해 2006년에 설립된 전문가의

자문 기관으로, 정보 공개 조항에 해당하지 않는 자료 신청 및 CPRD에서 얻은 자료

사용을 제안하는 모든 연구 프로젝트에 대해 과학적, 의학적, 통계적, 역학적, 방법론

적 조언을 제공한다. 정보 중 익명화된 텍스트 정보, 환자 기록, 환자의 설문조사 기

록을 이용하기 위해서 ISAC 승인이 필요하다.

2) 제공자료내역관찰자료는 질병등록자료를 포함한 1, 2차 진료자료부터 주요 인구학적 사회경제

적인 자료까지 연계하여 이용할 수 있다. 1차 진료기록에는 의학 진단 기록, 처방전

및 예방접종기록, 생활습관정보와 사망 짜 및 원인 등 환자 등록 정보 및 모든 진료

기록이 포함되어 있다. 자료는 연구자의 요구사항에 따라 온라인 CPRD-GOLD에서

제공한다. 2차 진료기록은 입원 간호, 외래 방문, 중환자 치료 등 병원 에피소드 통

계(HES) 자료에 대한 전반적인 접근이 가능하다. 현재 사용할 수 있는 연계 자료는

아래 표와 같다.

10) https://www.cprd.com

Page 61: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 51 -

연계자료 항목 세부 내용

통합 HES APC 데이터각 환자에 대한 병원 에피소드 정보 (입원 및 관련 퇴원 날짜별로 기록 된모든 진단의 세부 사항을 포함)

HES 외래 환자 데이터외래 진료 약속 날짜, 환자가 치료받은 주요 전문 분야 및 치료 전문 분야, 대기 시간, 임상 진단 및 수행 된 절차에 대한 정보가 포함

HES 사고 및 긴급데이터

영국의 사고 및 응급 상황에서 환자 치료에 대한 개별 기록으로 구성

HES 환자보고결과데이터

사타구니 탈장 수술, 고관절 및 무릎 보충 및 정맥류 정복술과 같이 영국NHS의 선별 수술 절차 전후에 수집 된 데이터로 구성

HES 진단 영상 데이터방사선 정보 시스템에서 가져온 엑스레이 및 MRI 스캔과 같은 진단imaging 테스트에 대한 자세한 정보

사망 등록 데이터국가 통계국 (ONS)의 데이터가 포함되어 있으며 공식 날짜 및 사망 원인정보 (ICD 코드 사용)가 포함

암 등록 데이터영국에서 진단되거나 치료 된 모든 등록 가능한 종양에 대한 기록이 포함

부족 데이터 상대적 박탈(deprivation index)에 대한 지역 기반 측정

<표 2-41> 연계자료 목록

3) CPRD 자료연계□ 자료연계방법

CPRD는 자료연계를 통하여 중요한 공중 보건 연구를 지원하고 환자의 안전을 지

키기 위해 환자 진료기록을 제공한다. 자료연계는 NHS Digital에 의해 수행되며 NHS Digital은 영국에서 식별 가능한 자료를 연결할 수 있는 공공 기관이다.

□ 개인정보보호를 위한 조치

CPRD에서는 자료수집단계에서 환자등록 시 모든 환자에게 고유한 식별자를 할당

하고, 진료시스템 사용자 번호를 사용하여 진료를 식별한다. 개인정보보호를 위하여

자료수집 시 소프트웨어는 의사와 시스템에 데이터를 입력하는 다른 직원의 식별번

호를 암호화한다. 추가적으로 개인정보 보호차원에서 환자 식별자와 번호는 CPRD 데이터 웨어하우스를 통해 연구원이 사용하기 전에 두 번 암호화 된다.

□ 법적 근거

CPRD는 NHS 및 다른 가이드라인뿐만 아니라 영국과 유럽의 법률하에서 운영되고

있다. CPRD는 비식별화된 자료를 다루며, 개인정보보호 기술, 물리적인 보안 및 표

준화된 운영 프로시저를 고려하여 운영되고 있다. 모든 연구자는 윤리위원회, 과학위

원회 등에 의해 CPRD 자료를 이용하는 것에 대해 승인을 받아야 한다.

4) CPRD 자료의 활용

Page 62: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 52 -

CPRD 자료를 이용한 대표적인 연구로는 MMR 백신의 안전성에 대한 연구, NICE 암 가이던스에 정보를 제공한 연구, 임신시 백일해 백신 사용의 안전성 연구, 당뇨환

자에서 고혈압 관리에 영향을 주는 연구 등이 있다. CPRD 관찰자료를 이용한 주요

연구 분야는 다음 표와 같다.

연구 분야 세부 내용의약품 및 의료기기 약물 사용, 순응도 및 지속성, 약물 감시, 약물 경제학

중재연구 비교 효과 연구

공중 보건 연구 역학, 보건 서비스 연구, 위험 관리 연구, 위험 점수 개발

최첨단 연구 임상 시험, 유전학 연구

CPRD 관찰 자료 질병 및 의약품 등록성과연구 임상성과, 환자보고성과

<표 2-42> CPRD 관찰자료를 이용한 주요 연구 분야

□ 연구 형태별 자료 이용 빈도(2014년도)2014년도 CPRD 자료 이용 빈도를 연구 형태별로 살펴보면 Disease Epidemiology

96건(38.9%), Adverse Drug Reactions / Drug Safety 42건(17.0%), Drug Use 24건(9.7%), Drug Effect 5건(2.0%), Disease-Epidemiology & Drug Use 10건(4.0%), Pharmacoeconomics 2건(0.8%), Other 68건(27.5%)으로 파악되었다.

연구 타입 빈도 백분위(%)Disease Epidemiology 96 38.9

Adverse Drug Reactions / Drug Safety 42 17.0Drug Use 24 9.7

Drug Effect 5 2.0Disease-Epidemiology & Drug Use 10 4.0

Pharmacoeconomics 2 0.8Other 68 27.5합계 247 100.0

<표 2-43> 2014년 연구 형태 별 CPRD 자료 이용 빈도

추가적으로 2006년부터 2014년까지 제출된 연구계획서를 연구 형태별로 살펴보면

다음 그림과 같다.

Page 63: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 53 -

[그림 2-15] 연구 형태별 자료 이용 빈도 (출처 : https://www.cprd.com/ISAC/Minutes.asp)

□ 기관 형태별 자료 이용 빈도(2014년도)자료를 이용하는 기관형태에 따라 2014년도 자료 이용을 살펴보면, Academia 159

건(64.4%), Academia & Other 1건(0.4%), Academia & RSP 1건(0.4%), Government 11건(4.5%), Pharmaceutical company 46건(18.6%), Pharmaceutical co. & RSP 5건(2.0%), RSP 24건(9.7%)으로 파악되었다.

기관 타입 빈도 백분위(%)Academia 159 64.4

Academia & Other 1 0.4Academia & RSP 1 0.4

Government 11 4.5Pharmaceutical company 46 18.6

Pharmaceutical co. & RSP 5 2.0RSP 24 9.7합계 247 100.0

<표 2-44> 2014년 기관형태별 CPRD 자료 이용 빈도

* RSP : Research Service Provider

추가적으로 2006년부터 2014년까지 제출된 연구계획서를 기관 형태별로 살펴보면

다음 그림과 같다.

Page 64: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 54 -

[그림 2-16] 기관 형태별 자료 이용 빈도 (출처 : https://www.cprd.com/ISAC/Minutes.asp)

Page 65: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 55 -

법률 정보제공 관련 내용 비고

공공데이터의 제공 및 이용활성화에 관한 법률

제공대상 공공데이터의 범위공공데이터의 제공공표 제공대상 외의 공공데이터 제공신청 등공공데이터의 제공중단

- 제공대상이 아닌 공공데이터의 범위 : 비공개 대상 정보

공공기관의 정보공개에 관한법률

비공개 대상 정보

개인정보보호법

개인정보의 정의개인정보의 수집·이용개인정보의 제공개인정보의 목적 외 이용·제공 제한개인정보를 제공받은 자의 이용·제공 제한민감정보의 처리 제한고유식별정보의 처리 제한주민등록번호 처리의 제한적용의 일부 제외

- 개인정보 : 살아 있는 개인에 관한 정보- 개인정보의 제3자 제공 ·동의를 받은 경우- 목적 외의 용도로 이용하거나 제3자에게 제공 ·통계작성 및 학술연구 등의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태로 개인정보를 제공하는 경우- 민감정보, 고유식별정보, 주민 등록번호 처리가 가능한 경우 ·별도로 동의를 받은 경우 ·법령에서 구체적으로 고유식별 정보의 처리를 요구하거나 허용하는 경우

생명윤리 및 안전에 관한법률

개인식별정보의 정의개인정보의 정의인간대상연구의 동의개인정보의 제공인간대상연구의 범위

- 개인식별정보 : 성명·주민등록 번호 등 개인을 식별할 수 있는 정보- 개인정보 : 개인식별정보, 유전 정보 또는 건강에 관한 정보- 기관위원회의 승인을 받아 서면 동의를 면제할 수 있는 요건 ·연구대상자의 동의를 받는 것이 연구 진행과정에서 현실적으로 불가능하거나 연구의 타당성에 심각한 영향을 미친다고 판단 되는 경우

<표 2-45> 정보제공 관련 법률 및 내용

5. 정보제공 관련 법 검토11)

심사평가원을 비롯한 공공기관들은 ‘공공데이터의 제공 및 이용 활성화에 관한

법률’과 ‘공공기관의 정보공개에 관한 법률’을 바탕으로 하여 공공기관이 보유·관리하는 데이터를 개방하고 있다. 정보제공 관련 법률들을 요약하면 다음 표와 같

으며, 세부 법조문은 각 법률구문을 참고하기 바란다.

11) 법제처(http://www.moleg.go.kr)

Page 66: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 56 -

·연구대상자의 동의 거부를 추정 할 만한 사유가 없고, 동의를 면제하여도 연구대상자에게 미치 는 위험이 극히 낮은 경우- 제3자에게 제공 ·서면동의를 받고 기관위원회의 심의를 거친 경우 ·익명화가 원칙이나 개인식별 정보 포함에 대한 동의를 한 경우 익명화 하지 않아도 됨- 인간대상연구의 범위 ·연구대상자를 직접·간접적으로 식별할 수 있는 정보를 이용 하는 연구

암관리법암등록통계사업민감정보 및 고유식별정보의 처리

- 암등록통계의 산출을 위하여 ·처리되는 개인정보는 개인정보 보호법이 적용되지 아니하는 개인정보로 봄 ·주민등록번호 또는 외국인등록 번호가 포함된 자료를 처리할 수 있음

약사법의약품안전관리원자료제공의 요청

- 업무수행을 위하여 민감정보, 고유식별정보 사용 가능

가. 공공데이터의 제공 및 이용 활성화에 관한 법률제1조(목적) 이 법은 공공기관이 보유·관리하는 데이터의 제공 및 그 이용 활성화에 관한 사항을 규정함으로써 국민의 공공데이터에 대한 이용권을 보장하고, 공공데이터의 민간 활용을 통한 삶의 질 향상과 국민경제 발전에 이바지함을 목적으로 한다.제2조(정의) 1. "공공기관"이란 국가기관, 지방자치단체 및 「국가정보화 기본법」 제3조제10호에 따른 공공기관 을 말한다. 2. "공공데이터"란 데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보로서 다음 각 목의 어느 하나에 해당하는 것을 말한다. 가. 「전자정부법」 제2조제6호에 따른 행정정보 나. 「국가정보화 기본법」 제3조제1호에 따른 정보 중 공공기관이 생산한 정보 다. 「공공기록물 관리에 관한 법률」 제20조제1항에 따른 전자기록물 중 대통령령으로 정하는 전 자기록물 라. 그 밖에 대통령령으로 정하는 자료 또는 정보 3. "기계 판독이 가능한 형태"란 소프트웨어로 데이터의 개별내용 또는 내부구조를 확인하거나 수정, 변환, 추출 등 가공할 수 있는 상태를 말한다. 4. "제공"이란 공공기관이 이용자로 하여금 기계 판독이 가능한 형태의 공공데이터에 접근할 수 있게 하거나 이를 다양한 방식으로 전달하는 것을 말한다.

Page 67: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 57 -

제17조(제공대상 공공데이터의 범위) ① 공공기관의 장은 해당 공공기관이 보유·관리하는 공공데이터를 국민에게 제공하여야 한다. 다만, 다음 각 호의 어느 하나에 해당하는 정보를 포함하고 있는 경우에는 그러하지 아니한다. 1. 「공공기관의 정보공개에 관한 법률」 제9조에 따른 비공개대상정보 2. 「저작권법」 및 그 밖의 다른 법령에서 보호하고 있는 제3자의 권리가 포함된 것으로 해당 법령 에 따른 정당한 이용허락을 받지 아니한 정보② 공공기관의 장은 제1항에도 불구하고 제1항 각 호에 해당하는 내용을 기술적으로 분리할 수 있는때에는 제1항 각 호에 해당하는 부분을 제외한 공공데이터를 제공하여야 한다.③ 행정자치부장관은 제1항제2호의 제3자의 권리를 포함하는 것으로 분류되어 제공대상에서 제외된공공데이터에 대한 정당한 이용허락 확보를 위한 방안을 제시할 수 있으며, 공공기관의 장은 그방안에 따라 필요한 조치를 취하여야 한다. 제26조(공공데이터의 제공) ① 공공데이터를 이용하고자 하는 자는 제19조에 따라 공표된 제공대상 공공데이터의 경우 소관 공공기관이나 공공데이터 포털 등에서 제공받을 수 있다. 다만, 공표된 제공대상 공공데이터 목록에 포함되지 아니하는 공공데이터의 경우 제27조에 따라 별도의 제공신청을 하여야 한다.② 공공기관의 장은 해당 기관이 개발·제공하고 있거나 개발 예정인 서비스에 관련 공공데이터가 포함되어 있다는 사유로 공공데이터의 제공을 거부하여서는 아니 된다.③ 공공기관의 장은 이용자의 요청에 따라 추가적으로 공공데이터를 생성하거나 변형 또는 가공, 요약, 발췌하여 제공할 의무를 지지 아니한다.④ 그 밖에 공공데이터 제공에 필요한 사항은 대통령령으로 정한다.제27조(공표 제공대상 외의 공공데이터 제공신청 등) ① 제공대상 공공데이터 목록에 포함되지 아니하는 공공데이터를 제공받고자 하는 이용자는 대통령령으로 정하는 바에 따라 소관 공공기관의 장 또는 활용지원센터에 공공데이터 제공을 신청하여야 한다.② 활용지원센터는 제1항에 따라 공공데이터 제공신청이 있는 경우 이를 즉시 소관 공공기관에 이첩하여야 한다.③ 제1항 및 제2항에 따라 제공요청을 받은 공공기관의 장은 해당 공공데이터가 제17조제1항 각 호의정보를 포함하고 있는지를 검토하여 요청을 받은 날부터 10일 이내에 제공 여부를 결정하여야 한다.④ 공공기관의 장은 부득이한 사유로 제3항에 규정된 기간 이내에 제공 여부를 결정할 수 없는 때에는그 기간의 만료일 다음 날부터 기산하여 10일 이내의 범위에서 제공 여부 결정기간을 연장할 수 있다. 이 경우 공공기관의 장은 연장된 사실과 연장사유를 신청인에게 지체 없이 통보하여야 한다.⑤ 공공기관의 장은 제3항에 따라 공공데이터의 제공을 결정한 때에는 지체 없이 제공 방법·절차 등을 신청인에게 통지하고, 제18조에 따른 공공데이터 목록을 등록하여야 한다.⑥ 공공기관의 장은 제3항에 따라 공공데이터의 제공거부결정을 한 때에는 지체 없이 거부결정의 내용과 사유를 신청인과 행정자치부장관에게 통보하여야 한다. 제28조(공공데이터의 제공중단) ① 공공기관의 장은 다음 각 호의 어느 하나에 해당하는 경우 공공데이터의 제공을 중단할 수 있다. 1. 이용자가 제19조에 따라 공표된 공공데이터의 이용요건을 위반하여 공공기관 본래의 업무수행에 상당한 지장을 초래할 우려가 있는 경우 2. 공공데이터의 이용이 제3자의 권리를 현저하게 침해하는 경우 3. 공공데이터를 범죄 등의 불법행위에 악용하는 경우 4. 그 밖에 공공데이터의 관리 및 이용에 적합하지 아니한 경우로서 제29조에 따른 공공데이터제공분 쟁조정위원회가 정하는 경우② 공공기관의 장은 제20조제1항 각 호에 따른 사유로 행정자치부장관에게 목록 제외 요청을 한 경우전략위원회의 심의·의결 전에 제공중단 조치를 취할 수 있다.③ 제1항에 따라 공공데이터의 제공이 중단된 경우 이용자는 중단사유가 해소된 후 다시 제26조에 따라 제공받을 수 있다.④ 그 밖에 공공데이터 제공중단의 절차·방법 등 필요한 사항은 대통령령으로 정한다.

Page 68: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 58 -

나. 공공기관의 정보공개에 관한 법률제9조(비공개 대상 정보) ① 공공기관이 보유ㆍ관리하는 정보는 공개 대상이 된다. 다만, 다음 각 호의 어느 하나에 해당하는 정보는 공개하지 아니할 수 있다. 1. 다른 법률 또는 법률에서 위임한 명령(국회규칙ㆍ대법원규칙ㆍ헌법재판소규칙ㆍ중앙선거관리위원 회규칙ㆍ대통령령 및 조례로 한정한다)에 따라 비밀이나 비공개 사항으로 규정된 정보 2. 국가안전보장ㆍ국방ㆍ통일ㆍ외교관계 등에 관한 사항으로서 공개될 경우 국가의 중대한 이익을 현 저히 해칠 우려가 있다고 인정되는 정보 3. 공개될 경우 국민의 생명ㆍ신체 및 재산의 보호에 현저한 지장을 초래할 우려가 있다고 인정되는 정보 4. 진행 중인 재판에 관련된 정보와 범죄의 예방, 수사, 공소의 제기 및 유지, 형의 집행, 교정(矯正), 보안처분에 관한 사항으로서 공개될 경우 그 직무수행을 현저히 곤란하게 하거나 형사피고인의 공 정한 재판을 받을 권리를 침해한다고 인정할 만한 상당한 이유가 있는 정보 5. 감사ㆍ감독ㆍ검사ㆍ시험ㆍ규제ㆍ입찰계약ㆍ기술개발ㆍ인사관리에 관한 사항이나 의사결정 과정 또 는 내부검토 과정에 있는 사항 등으로서 공개될 경우 업무의 공정한 수행이나 연구ㆍ개발에 현저 한 지장을 초래한다고 인정할 만한 상당한 이유가 있는 정보. 다만, 의사결정 과정 또는 내부검토 과정을 이유로 비공개할 경우에는 의사결정 과정 및 내부검토 과정이 종료되면 제10조에 따른 청 구인에게 이를 통지하여야 한다. 6. 해당 정보에 포함되어 있는 성명ㆍ주민등록번호 등 개인에 관한 사항으로서 공개될 경우 사생활의 비밀 또는 자유를 침해할 우려가 있다고 인정되는 정보. 다만, 다음 각 목에 열거한 개인에 관한 정보는 제외한다. 가. 법령에서 정하는 바에 따라 열람할 수 있는 정보 나. 공공기관이 공표를 목적으로 작성하거나 취득한 정보로서 사생활의 비밀 또는 자유를 부당하게 침해하지 아니하는 정보 다. 공공기관이 작성하거나 취득한 정보로서 공개하는 것이 공익이나 개인의 권리 구제를 위하여 필요하다고 인정되는 정보 라. 직무를 수행한 공무원의 성명ㆍ직위 마. 공개하는 것이 공익을 위하여 필요한 경우로서 법령에 따라 국가 또는 지방자치단체가 업무의 일부를 위탁 또는 위촉한 개인의 성명ㆍ직업 7. 법인ㆍ단체 또는 개인(이하 "법인등"이라 한다)의 경영상ㆍ영업상 비밀에 관한 사항으로서 공개될 경우 법인등의 정당한 이익을 현저히 해칠 우려가 있다고 인정되는 정보. 다만, 다음 각 목에 열거 한 정보는 제외한다. 가. 사업활동에 의하여 발생하는 위해(危害)로부터 사람의 생명ㆍ신체 또는 건강을 보호하기 위하 여 공개할 필요가 있는 정보 나. 위법ㆍ부당한 사업활동으로부터 국민의 재산 또는 생활을 보호하기 위하여 공개할 필요가 있는 정보 8. 공개될 경우 부동산 투기, 매점매석 등으로 특정인에게 이익 또는 불이익을 줄 우려가 있다고 인 정되는 정보② 공공기관은 제1항 각 호의 어느 하나에 해당하는 정보가 기간의 경과 등으로 인하여 비공개의 필요성이 없어진 경우에는 그 정보를 공개 대상으로 하여야 한다.③ 공공기관은 제1항 각 호의 범위에서 해당 공공기관의 업무 성격을 고려하여 비공개 대상 정보의 범위에 관한 세부 기준을 수립하고 이를 공개하여야 한다.

Page 69: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 59 -

다. 개인정보보호법제2조(정의) 1. "개인정보"란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)를 말한다.제15조(개인정보의 수집·이용)① 개인정보처리자는 다음 각 호의 어느 하나에 해당하는 경우에는 개인정보를 수집할 수 있으며 그수집 목적의 범위에서 이용할 수 있다. 1. 정보주체의 동의를 받은 경우 2. 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우 3. 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위하여 불가피한 경우 4. 정보주체와의 계약의 체결 및 이행을 위하여 불가피하게 필요한 경우 5. 정보주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명 등으로 사전 동의 를 받을 수 없는 경우로서 명백히 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하 여 필요하다고 인정되는 경우 6. 개인정보처리자의 정당한 이익을 달성하기 위하여 필요한 경우로서 명백하게 정보주체의 권리보다 우선하는 경우. 이 경우 개인정보처리자의 정당한 이익과 상당한 관련이 있고 합리적인 범위를 초 과하지 아니하는 경우에 한한다.② 개인정보처리자는 제1항제1호에 따른 동의를 받을 때에는 다음 각 호의 사항을 정보주체에게 알려야 한다. 다음 각 호의 어느 하나의 사항을 변경하는 경우에도 이를 알리고 동의를 받아야 한다. 1. 개인정보의 수집·이용 목적 2. 수집하려는 개인정보의 항목 3. 개인정보의 보유 및 이용 기간 4. 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내 용제17조(개인정보의 제공)① 개인정보처리자는 다음 각 호의 어느 하나에 해당되는 경우에는 정보주체의 개인정보를 제3자에게제공(공유를 포함한다. 이하 같다)할 수 있다. 1. 정보주체의 동의를 받은 경우 2. 제15조제1항제2호·제3호 및 제5호에 따라 개인정보를 수집한 목적 범위에서 개인정보를 제공하는 경우② 개인정보처리자는 제1항제1호에 따른 동의를 받을 때에는 다음 각 호의 사항을 정보주체에게 알려야 한다. 다음 각 호의 어느 하나의 사항을 변경하는 경우에도 이를 알리고 동의를 받아야 한다. 1. 개인정보를 제공받는 자 2. 개인정보를 제공받는 자의 개인정보 이용 목적 3. 제공하는 개인정보의 항목 4. 개인정보를 제공받는 자의 개인정보 보유 및 이용 기간 5. 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내 용③ 개인정보처리자가 개인정보를 국외의 제3자에게 제공할 때에는 제2항 각 호에 따른 사항을 정보주체에게 알리고 동의를 받아야 하며, 이 법을 위반하는 내용으로 개인정보의 국외 이전에 관한 계약을체결하여서는 아니 된다.

Page 70: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 60 -

제18조(개인정보의 목적 외 이용·제공 제한)① 개인정보처리자는 개인정보를 제15조제1항에 따른 범위를 초과하여 이용하거나 제17조제1항 및 제3항에 따른 범위를 초과하여 제3자에게 제공하여서는 아니 된다.② 제1항에도 불구하고 개인정보처리자는 다음 각 호의 어느 하나에 해당하는 경우에는 정보주체 또는제3자의 이익을 부당하게 침해할 우려가 있을 때를 제외하고는 개인정보를 목적 외의 용도로 이용하거나 이를 제3자에게 제공할 수 있다. 다만, 제5호부터 제9호까지의 경우는 공공기관의 경우로 한정한다. 1. 정보주체로부터 별도의 동의를 받은 경우 2. 다른 법률에 특별한 규정이 있는 경우 3. 정보주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명 등으로 사전 동의 를 받을 수 없는 경우로서 명백히 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하 여 필요하다고 인정되는 경우 4. 통계작성 및 학술연구 등의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태로 개인정보를 제공하는 경우 5. 개인정보를 목적 외의 용도로 이용하거나 이를 제3자에게 제공하지 아니하면 다른 법률에서 정하 는 소관 업무를 수행할 수 없는 경우로서 보호위원회의 심의·의결을 거친 경우 6. 조약, 그 밖의 국제협정의 이행을 위하여 외국정부 또는 국제기구에 제공하기 위하여 필요한 경우 7. 범죄의 수사와 공소의 제기 및 유지를 위하여 필요한 경우 8. 법원의 재판업무 수행을 위하여 필요한 경우 9. 형(刑) 및 감호, 보호처분의 집행을 위하여 필요한 경우③ 개인정보처리자는 제2항제1호에 따른 동의를 받을 때에는 다음 각 호의 사항을 정보주체에게 알려야 한다. 다음 각 호의 어느 하나의 사항을 변경하는 경우에도 이를 알리고 동의를 받아야 한다. 1. 개인정보를 제공받는 자 2. 개인정보의 이용 목적(제공 시에는 제공받는 자의 이용 목적을 말한다) 3. 이용 또는 제공하는 개인정보의 항목 4. 개인정보의 보유 및 이용 기간(제공 시에는 제공받는 자의 보유 및 이용 기간을 말한다) 5. 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내 용④ 공공기관은 제2항제2호부터 제6호까지, 제8호 및 제9호에 따라 개인정보를 목적 외의 용도로 이용하거나 이를 제3자에게 제공하는 경우에는 그 이용 또는 제공의 법적 근거, 목적 및 범위 등에 관하여 필요한 사항을 행정자치부령으로 정하는 바에 따라 관보 또는 인터넷 홈페이지 등에 게재하여야 한다. ⑤ 개인정보처리자는 제2항 각 호의 어느 하나의 경우에 해당하여 개인정보를 목적 외의 용도로 제3자에게 제공하는 경우에는 개인정보를 제공받는 자에게 이용 목적, 이용 방법, 그 밖에 필요한 사항에 대하여 제한을 하거나, 개인정보의 안전성 확보를 위하여 필요한 조치를 마련하도록 요청하여야 한다. 이경우 요청을 받은 자는 개인정보의 안전성 확보를 위하여 필요한 조치를 하여야 한다.제19조(개인정보를 제공받은 자의 이용·제공 제한) 개인정보처리자로부터 개인정보를 제공받은 자는다음 각 호의 어느 하나에 해당하는 경우를 제외하고는 개인정보를 제공받은 목적 외의 용도로 이용하거나 이를 제3자에게 제공하여서는 아니 된다. 1. 정보주체로부터 별도의 동의를 받은 경우 2. 다른 법률에 특별한 규정이 있는 경우

Page 71: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 61 -

제23조(민감정보의 처리 제한)①개인정보처리자는 사상·신념, 노동조합·정당의 가입·탈퇴, 정치적 견해, 건강, 성생활 등에 관한정보, 그 밖에 정보주체의 사생활을 현저히 침해할 우려가 있는 개인정보로서 대통령령으로 정하는 정보(이하 "민감정보"라 한다)를 처리하여서는 아니 된다. 다만, 다음 각 호의 어느 하나에 해당하는 경우에는 그러하지 아니하다. 1. 정보주체에게 제15조제2항 각 호 또는 제17조제2항 각 호의 사항을 알리고 다른 개인정보의 처리 에 대한 동의와 별도로 동의를 받은 경우 2. 법령에서 민감정보의 처리를 요구하거나 허용하는 경우② 개인정보처리자가 제1항 각 호에 따라 민감정보를 처리하는 경우에는 그 민감정보가 분실·도난·유출·위조·변조 또는 훼손되지 아니하도록 제29조에 따른 안전성 확보에 필요한 조치를 하여야 한다. 제24조(고유식별정보의 처리 제한) ① 개인정보처리자는 다음 각 호의 경우를 제외하고는 법령에 따라 개인을 고유하게 구별하기 위하여부여된 식별정보로서 대통령령으로 정하는 정보(이하 "고유식별정보"라 한다)를 처리할 수 없다. 1. 정보주체에게 제15조제2항 각 호 또는 제17조제2항 각 호의 사항을 알리고 다른 개인정보의 처리 에 대한 동의와 별도로 동의를 받은 경우 2. 법령에서 구체적으로 고유식별정보의 처리를 요구하거나 허용하는 경우② 삭제③ 개인정보처리자가 제1항 각 호에 따라 고유식별정보를 처리하는 경우에는 그 고유식별정보가 분실·도난·유출·위조·변조 또는 훼손되지 아니하도록 대통령령으로 정하는 바에 따라 암호화 등 안전성 확보에 필요한 조치를 하여야 한다. ④ 행정자치부장관은 처리하는 개인정보의 종류·규모, 종업원 수 및 매출액 규모 등을 고려하여 대통령령으로 정하는 기준에 해당하는 개인정보처리자가 제3항에 따라 안전성 확보에 필요한 조치를 하였는지에 관하여 대통령령으로 정하는 바에 따라 정기적으로 조사하여야 한다.⑤ 행정자치부장관은 대통령령으로 정하는 전문기관으로 하여금 제4항에 따른 조사를 수행하게 할 수있다.제24조의2(주민등록번호 처리의 제한) ① 제24조제1항에도 불구하고 개인정보처리자는 다음 각 호의 어느 하나에 해당하는 경우를 제외하고는 주민등록번호를 처리할 수 없다. 1. 법령에서 구체적으로 주민등록번호의 처리를 요구하거나 허용한 경우 2. 정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 명백히 필요하다고 인정되는 경 우 3. 제1호 및 제2호에 준하여 주민등록번호 처리가 불가피한 경우로서 안전행정부령으로 정하는 경우② 개인정보처리자는 제24조제3항에도 불구하고 주민등록번호가 분실·도난·유출·위조·변조 또는훼손되지 아니하도록 암호화 조치를 통하여 안전하게 보관하여야 한다. 이 경우 암호화 적용 대상 및대상별 적용 시기 등에 관하여 필요한 사항은 개인정보의 처리 규모와 유출 시 영향 등을 고려하여 대통령령으로 정한다. ③ 개인정보처리자는 제1항 각 호에 따라 주민등록번호를 처리하는 경우에도 정보주체가 인터넷 홈페이지를 통하여 회원으로 가입하는 단계에서는 주민등록번호를 사용하지 아니하고도 회원으로 가입할수 있는 방법을 제공하여야 한다. ④ 안전행정부장관은 개인정보처리자가 제3항에 따른 방법을 제공할 수 있도록 관계 법령의 정비, 계획의 수립, 필요한 시설 및 시스템의 구축 등 제반 조치를 마련·지원할 수 있다.

Page 72: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 62 -

제58조(적용의 일부 제외) ① 다음 각 호의 어느 하나에 해당하는 개인정보에 관하여는 제3장부터 제7장까지를 적용하지 아니한다. 1. 공공기관이 처리하는 개인정보 중 「통계법」에 따라 수집되는 개인정보 2. 국가안전보장과 관련된 정보 분석을 목적으로 수집 또는 제공 요청되는 개인정보 3. 공중위생 등 공공의 안전과 안녕을 위하여 긴급히 필요한 경우로서 일시적으로 처리되는 개인정보 4. 언론, 종교단체, 정당이 각각 취재·보도, 선교, 선거 입후보자 추천 등 고유 목적을 달성하기 위 하여 수집·이용하는 개인정보② 제25조제1항 각 호에 따라 공개된 장소에 영상정보처리기기를 설치·운영하여 처리되는 개인정보에대하여는 제15조, 제22조, 제27조제1항·제2항, 제34조 및 제37조를 적용하지 아니한다.③ 개인정보처리자가 동창회, 동호회 등 친목 도모를 위한 단체를 운영하기 위하여 개인정보를 처리하는 경우에는 제15조, 제30조 및 제31조를 적용하지 아니한다.④ 개인정보처리자는 제1항 각 호에 따라 개인정보를 처리하는 경우에도 그 목적을 위하여 필요한 범위에서 최소한의 기간에 최소한의 개인정보만을 처리하여야 하며, 개인정보의 안전한 관리를 위하여 필요한 기술적·관리적 및 물리적 보호조치, 개인정보의 처리에 관한 고충처리, 그 밖에 개인정보의 적절한 처리를 위하여 필요한 조치를 마련하여야 한다.시행령 제19조(고유식별정보의 범위) 법 제24조제1항 각 호 외의 부분에서 "대통령령으로 정하는 정보"란 다음 각 호의 어느 하나에 해당하는 정보를 말한다. 다만, 공공기관이 법 제18조제2항제5호부터 제9호까지의 규정에 따라 다음 각 호의 어느 하나에 해당하는 정보를 처리하는 경우의 해당 정보는 제외한다. 1. 「주민등록법」 제7조제3항에 따른 주민등록번호 2. 「여권법」 제7조제1항제1호에 따른 여권번호 3. 「도로교통법」 제80조에 따른 운전면허의 면허번호 4. 「출입국관리법」 제31조제4항에 따른 외국인등록번호

라. 생명윤리 및 안전에 관한 법률제2조(정의) 17. "개인식별정보"란 연구대상자와 배아·난자·정자 또는 인체유래물의 기증자(이하 "연구대상자등" 이라 한다)의 성명·주민등록번호 등 개인을 식별할 수 있는 정보를 말한다. 18. "개인정보"란 개인식별정보, 유전정보 또는 건강에 관한 정보 등 개인에 관한 정보를 말한다.

Page 73: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 63 -

제16조(인간대상연구의 동의)① 인간대상연구자는 인간대상연구를 하기 전에 연구대상자로부터 다음 각 호의 사항이 포함된 서면동의(전자문서를 포함한다. 이하 같다)를 받아야 한다.1. 인간대상연구의 목적2. 연구대상자의 참여 기간, 절차 및 방법3. 연구대상자에게 예상되는 위험 및 이득4. 개인정보 보호에 관한 사항5. 연구 참여에 따른 손실에 대한 보상6. 개인정보 제공에 관한 사항7. 동의의 철회에 관한 사항8. 그 밖에 기관위원회가 필요하다고 인정하는 사항② 제1항에도 불구하고 동의 능력이 없거나 불완전한 사람으로서 보건복지부령으로 정하는 연구대상자가 참여하는 연구의 경우에는 다음 각 호에서 정한 대리인의 서면동의를 받아야 한다. 이 경우 대리인의 동의는 연구대상자의 의사에 어긋나서는 아니 된다.1. 법정대리인2. 법정대리인이 없는 경우 배우자, 직계존속, 직계비속의 순으로 하되, 직계존속 또는 직계비속이 여러사람일 경우 협의하여 정하고, 협의가 되지 아니하면 연장자가 대리인이 된다.③ 제1항에도 불구하고 다음 각 호의 요건을 모두 갖춘 경우에는 기관위원회의 승인을 받아 연구대상자의 서면동의를 면제할 수 있다. 이 경우 제2항에 따른 대리인의 서면동의는 면제하지 아니한다.1. 연구대상자의 동의를 받는 것이 연구 진행과정에서 현실적으로 불가능하거나 연구의 타당성에 심각한 영향을 미친다고 판단되는 경우2. 연구대상자의 동의 거부를 추정할 만한 사유가 없고, 동의를 면제하여도 연구대상자에게 미치는 위험이 극히 낮은 경우④ 인간대상연구자는 제1항 및 제2항에 따른 서면동의를 받기 전에 동의권자에게 제1항 각 호의 사항에 대하여 충분히 설명하여야 한다.제18조(개인정보의 제공)① 인간대상연구자는 제16조제1항에 따라 연구대상자로부터 개인정보를 제공하는 것에 대하여 서면동의를 받은 경우에는 기관위원회의 심의를 거쳐 개인정보를 제3자에게 제공할 수 있다.② 인간대상연구자가 제1항에 따라 개인정보를 제3자에게 제공하는 경우에는 익명화하여야 한다. 다만, 연구대상자가 개인식별정보를 포함하는 것에 동의한 경우에는 그러하지 아니하다.시행규칙 제2조(인간대상연구의 범위) ① 「생명윤리 및 안전에 관한 법률」(이하 "법"이라 한다) 제2조제1호에서 "보건복지부령으로 정하는연구"란 다음 각 호의 연구를 말한다. 1. 사람을 대상으로 물리적으로 개입하는 연구: 연구대상자를 직접 조작하거나 연구대상자의 환경을 조작하여 자료를 얻는 연구 2. 의사소통, 대인 접촉 등의 상호작용을 통하여 수행하는 연구: 연구대상자의 행동관찰, 대면(對面) 설문조사 등으로 자료를 얻는 연구 3. 개인을 식별할 수 있는 정보를 이용하는 연구: 연구대상자를 직접·간접적으로 식별할 수 있는 정 보를 이용하는 연구

Page 74: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 64 -

마. 암 관리법제14조(암등록통계사업) ① 보건복지부장관은 암 발생 위험 요인과 암의 발생 및 치료에 관한 자료를 지속적이고 체계적으로수집ㆍ분석하여 암 발생률, 생존율 등의 통계를 산출하기 위한 등록ㆍ관리ㆍ조사사업(이하 "암등록통계사업"이라 한다)을 시행하여야 한다. 이 경우 통계자료의 수집 및 통계의 작성 등에 관하여는 「통계법」을 준용하며, 통계의 산출을 위하여 처리되는 개인정보는 「개인정보 보호법」 제58조제1항에 따라같은 법이 적용되지 아니하는 개인정보로 본다. ② 보건복지부장관은 암환자를 진단ㆍ치료하는 의료인 또는 의료기관, 「국민건강보험법」에 따른 국민건강보험공단 및 건강보험심사평가원, 그 밖에 암에 관한 사업을 하는 법인ㆍ기관ㆍ단체에 대하여 보건복지부령으로 정하는 바에 따라 암등록통계사업에 필요한 자료의 제출이나 의견의 진술 등을 요구할수 있다. 이 경우 자료의 제출을 요구받은 자는 특별한 사유가 없으면 요구에 따라야 한다.③ 보건복지부장관은 암등록통계사업과 관련하여 고유식별정보를 처리하는 경우에는 개인정보 보호를위하여 보건복지부령으로 정하는 바에 따라 암호화 등 안전성 확보에 필요한 조치를 하여야 한다.제30조(사업) 국립암센터는 다음 각 호의 사업을 한다. 1. 암의 발생ㆍ예방ㆍ진단ㆍ치료 및 관리 등에 관한 연구 2. 암환자의 진료 3. 제12조에 따른 재가암환자 관리사업에 관련된 교육ㆍ훈련 및 지원 업무 4. 암의 예방 및 관리에 관한 홍보 5. 암과 관련된 정보ㆍ통계의 수집ㆍ분석 및 제공 6. 암과 관련된 국내외 협력 7. 암의 예방ㆍ진단 및 치료 등에 관한 신기술의 개발 및 보급 8. 제50조제2항에 따라 암에 관한 각종 사업을 위탁받은 경우 그 사업 9. 제1호부터 제8호까지의 사업에 부대되는 사업

시행령 제24조의2(민감정보 및 고유식별정보의 처리) ① 보건복지부장관(제24조에 따라 보건복지부장관의 권한 또는 업무를 위임ㆍ위탁받은 자를 포함한다)은 다음 각 호의 사무를 수행하기 위하여 불가피한 경우 「개인정보 보호법」 제23조에 따른 건강에관한 정보(제1호 및 제4호의 사무를 수행하는 경우로 한정한다), 같은 법 시행령 제19조제1호 또는 제4호에 따른 주민등록번호 또는 외국인등록번호가 포함된 자료를 처리할 수 있다. ③ 국립암센터는 법 제30조에 따른 사업을 수행하기 위하여 불가피한 경우 「개인정보 보호법」 제23조에 따른 건강에 관한 정보, 같은 법 시행령 제19조제1호 또는 제4호에 따른 주민등록번호 또는 외국인등록번호가 포함된 자료를 처리할 수 있다.

Page 75: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 65 -

바. 약사법제6절 한국의약품안전관리원제68조의7(자료제공의 요청) ① 의약품안전관리원장은 의약품안전정보의 수집ㆍ평가 등 업무상 필요하다고 인정하는 경우에는 다음각 호의 기관 또는 사람에 대하여 의약품안전정보에 관한 자료의 제공을 요청할 수 있다. 이 경우 요청을 받은 기관 또는 사람은 정당한 사유가 없으면 그 요청에 따라야 한다. 1. 국가 또는 지방자치단체 2. 공공기관 또는 공공단체 3. 연구기관 4. 약국개설자 또는 의료기관 개설자 5. 의약품등의 제조업자, 품목허가를 받은 자, 수입자 또는 판매업자 등 이 법에 따라 의약품을 취급 할 수 있는 자② 의약품안전관리원장은 제1항에 따라 필요한 자료의 제공을 요청하는 경우 「개인정보 보호법」 제23조에 따른 민감정보와 같은 법 제24조에 따른 고유식별정보(주민등록번호를 포함한다) 등의 개인정보가 포함된 자료의 제공을 요청할 수 있다. 이 경우 요청을 받은 기관 또는 사람은 개인식별이 가능한부분을 삭제한 후 제공하여야 한다. ③ 제2항에도 불구하고 의약품안전관리원장은 식품의약품안전처장이 복수의 기관 또는 사람이 보유한자료를 통합하여 분석할 필요가 있다고 승인한 경우에는 개인식별이 가능한 부분을 포함한 자료를 제출받아 자료의 통합작업을 수행할 수 있다. 이 경우 자료를 통합한 후에는 지체 없이 개인식별이 가능한 부분을 삭제하고 복구 또는 재생되지 아니하도록 하여야 한다.④ 제1항부터 제3항까지의 규정에 따라 제공된 자료는 그 제공을 요청한 목적 외의 용도로 이용하여서는 아니 된다. ⑤ 식품의약품안전처장은 의약품안전관리원장이 제3항 및 제4항을 준수하는지를 정기적으로 점검하고이를 위반한 경우에는 해임 등 필요한 조치를 할 수 있다.

Page 76: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 66 -

사. 개인정보 비식별 조치 가이드라인12)

정부는 2016년 7월 국무조정실, 행정자치부, 방송통신위원회, 금융위원회, 미래창조

과학부, 보건복지부 합동으로 개인정보를 비식별 조치하여 이용 또는 제공하는 경우

준수해야 할 조치 기준을 제시한‘개인정보 비식별 조치 가이드라인’(이하 ‘가이

드라인’)을 마련하였다. □ 비식별 조치 절차

가이드라인에서는 개인정보를 비식별 조치하는 단계를 4단계로 나누어 제시하고

있는데, 다음 그림과 같다. 먼저 1단계 사전검토 단계에서 개인정보에 해당하는지 여

부를 검토한 후, 개인정보가 아닌 것이 명백한 경우 법적 규제 없이 자유롭게 활용

할 수 있도록 하고, 개인정보에 해당한다고 판단되는 경우 다음 단계의 조치가 필요

하다. 2단계 비식별조치 단계에서는 정보집합물에서 개인을 식별할 수 있는 요소를

전부 또는 일부 삭제하거나 대체하는 등의 방법을 활용, 개인을 알아볼 수 없도록

조치한다. 여기서 ‘정보집합물’이란 개인정보를 비식별 조치한 정보, 즉 데이터 셋

을 말한다. 3단계 적정성 평가 단계에서는 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는

지를 「비식별 조치 적정성 평가단」을 통해 평가하고, 비식별 조치가 적정하다고

평가받은 경우 해당 데이터를 이용하거나 제3자에게 제공이 가능하다. 이때 k-익명

성수치를 기준으로 평가하는데, ‘k-익명성’은 동일한 값을 가진 레코드를 k개 이

상으로 하여 특정 개인을 추론하기 어렵도록 하는 것이다. 예를 들어, k값을 5로 정

하여 비식별 조치하였다면 데이터 셋 내에 개인 식별 요소가 없음은 물론이고, 최소

5개 이상의 레코드가 동일하여 개인식별이 어렵다는 것을 의미한다. 4단계 사후관리 단계에서는 비식별 정보 안전조치, 재식별 가능성 모니터링 등 비

식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치를 수행하게 된다.

12) 국무조정실, 행정자치부, 방송통신위원회, 금융위원회, 미래창조과학부, 보건복지부. 개인정보 비식별 조치

가이드라인. 2016.

Page 77: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 67 -

[그림 2-17] 비식별 조치 절차 및 사후관리

1단계에서 개인정보 해당 여부에 대한 판단 기준은 개인정보 보호법 등 관련 법률

에서 규정하고 있는 다음 개인정보의 개념을 이용한다.

개인정보는 ⅰ)살아 있는 ⅱ)개인에 관한 ⅲ)정보로서 ⅳ)개인을 알아볼 수 있는 정보이며, 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 ⅴ)다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함

여기서 살아있는 자에 관한 정보이어야 하므로 사망한 자에 관한 정보는 개인정보

에 해당하지 않으며, 정보를 처리하는 자의 입장에서 개인을 알아볼 수 없다면 그

정보는 개인정보에 해당하지 않는다. 또한 합법적으로 정보를 수집할 수 없거나 결

합을 위해 불합리한 정도의 시간, 비용 등이 필요한 경우라면 “쉽게 결합”할 수

있는 상태라고 볼 수 없다. 2단계에서 식별자(개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름)

는 원칙적으로 삭제 조치해야 하는데, 주민등록번호와 같은 고유식별정보, 성명, 생일, 건강보험번호, 의료기록번호 등을 식별자로 볼 수 있다. 정보집합물에 포함된 속

성자(개인과 관련된 정보로서 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼

수도 있는 정보)도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제해야

한다. 이때 데이터 이용 목적과 관련이 있는 속성자 중 식별요소가 있는 경우에는

가명처리, 총계처리 등의 기법을 활용하여 비식별 조치를 해야 하며, 희귀병명, 희귀

경력 등의 속성자는 구체적인 상황에 따라 개인 식별 가능성이 매우 높으므로 엄격

한 비식별 조치가 필요하다. 예를 들어 성별, 연령, 흡연여부, 음주여부 등의 개인 특

성, 혈액형, 신장, 몸무게, 병명, 상병코드, 투약코드, 진료내역 등의 신체 특성, 건강

Page 78: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 68 -

보험료 납부액, 소득분위, 의요 급여자 등의 신용 특성 등이 속성자에 해당된다. 비식별 조치 방법으로 가명처리, 총계처리, 데이터삭제, 데이터 범주화, 데이터 마

스킹 등의 방법을 사용할 수 있다.

□ 정보집합물 결합 절차 및 유의사항

빅데이터 분석에 활용하기 위해 서로 다른 사업가가 보유하고 있는 정보집합물을

결합하는 경우 개인별로 부여된 식별자를 매칭키로 사용한다. 이 경우 정보주체를

알아볼 수 있는 식별자 그 자체를 매칭키로 사용하는 것은 현행법인 개인정보보호법

제18조 개인정보의 목적 외 이용·제공 제한에 대한 위반 소지가 있다. 따라서 정보

집합물 간 결합·분석을 위해서는 결합 과정에서만 임시로 매칭키 역할을 하는 ‘임시대체키’의 활용이 필요하다. 임시대체키를 활용한 결합을 허용하는 경우에도 무분별한 결합을 통한 개인정보

침해 소지를 방지하기 위해 전문기관(제3의 공공기관)에서만 결합을 하도록 하는 등

지원 및 관리체계가 필요하다. 기업 간 정보결합물 결합 지원은 분야별 전문기관에서 수행하는데, 전문기관의 선

택기준은 산업 내 기업 간 결합의 경우 해당 분야 전문기관에서 결합 지원을 하고, 이종산업 간 결합의 경우 대량의 정보집합물을 결합하고자 하는 기업이 속해 있는

분야별 전문기관에서 수행하고, 당해 산업을 지원해 주는 전문기관이 없는 경우에는

한국인터넷진흥원 또는 한국정보화진흥원에서 지원을 할 예정이다. 이런 전문기관은

임시 대체키를 활용하고, 기업 간 정보집합물을 결합 지원하며, 업무처리 전방에 있

어 개인을 식별하려는 일체의 시도를 금지하지 않으며, 정보집합물 결합 및 정보 제

공 완료 후 모든 정보를 지체없이 파기해야 한다.정보집합물 결합 절차는 ① 먼저 A기관과 B기관이 같은 알고리즘을 적용하여 식

별자를 임시대체키로 전환하고, 결합대상 정보집합물도 비식별 조치 및 적정성 평가

를 수행한다. 이때 임시대체키를 생성할 때 대체키에 잡음을 추가하거나, 2개 이상의

식별자를 활용할 경우 식별자 일부를 조합하여 불법적 복호화 또는 원본 정보와 결

합시에도 개인을 식별할 수 없도록 조치한다. 다음으로 ② 비식별 조치된 정보를 전

문기관에 제공하고 결합 요청을 한다. 이 경우 전문기관은 제공받은 비식별 정보를

통해 특정 개인 식별이 불가능해야 한다. ③ 임시대체키를 활용하여 전문기관에서

결합을 수행한다. ④ 임시대체키를 기준으로 결합된 자료에서 임시대체키를 삭제하

고, 결합된 자료를 생성한다. ⑤ 결합 DB를 필요한 기업에 제공하고 전문기관은 제

공 후 파기 조치한다. 이때 임시 대체키가 삭제된 결합 DB가 제공되어도 A와 B도결합 DB를 통해 특정 개인의 식별이 어렵게 된다. 임시대체키를 통한 기업 간 정보

집합물 결합 절차는 요약하면 다음 그림과 같다.

Page 79: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 69 -

[그림 2-18] 임시대체키를 통한 정보집합물 결합 절차

(개인정보 비식별 조치 가이드라인. 2016)

위와 같이 임시대체키를 이용하여 정보집합물을 결합할 때 몇가지 유의사항이 있

다. 먼저 A와 B는 분야별 전문기관과 임시대체키 생성 알고리즘에 대한 정보를 공유

하지 않는다. 그리고 임시대체키 생성을 위해 주민등록번호를 사용하는 것은 개인정

보 보호법 제24조의2 주민등록번호 처리의 제한을 위배하는 것이므로 사용하지 않는

다. 다른 정보와의 결합을 위해 임시 대체키를 사용하는 경우 k-익명성 값은 임시

대체키를 제외하고 산출한다. 왜냐하면 임시 대체키를 제외하지 않으면 k=1로 산출

되어 객관적인 평가가 불가능하기 때문이다. 추가적으로 전문기관은 결합 과정에서

재식별 발생 시 해당 정보를 즉시 파기하고, 결합 DB를 제공받은 기관은 이용 전에

반드시 적정성 평가를 수행한다.

□ 지원 및 관리체계

가이드라인에 따라 2016년 8월 통신, 금융, 보건, 공공 등 관련 5개 부처가 분야별

‘개인정보 비식별 조치 전문기관’을 지정하였으며, 전문기관의 역할은 비식별 조

치 적정성 평가단 풀 구성 및 운영, 산업별 비식별 조치 수준(k-익명성 수치 등) 이행 권고, 비식별 조치 적정성 실태 점검, 교육 및 컨설팅, 정보집합물 결합 지원, 국내외 비식별 조치 관련 정책·제도·기술 동향 조사 및 연구 등이다. 부처별 개인정

보 비식별 조치 전문기관 지정 현황은 다음과 같다.

Page 80: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 70 -

소관부처 전문기관 대상기관

행정자치부한국인터넷진흥원 정보통신사업자 및 공공기관(정부부처, 지자체 제외) 정부통합전산센터 중앙부처 및 지자체

방송통신위원회 한국인터넷진흥원 정보통신사업자 및 공공기관(정부부처, 지자체 제외) 미래창조과학부 한국정보화진흥원 정보통신사업자 및 기타 산업분야

금융위원회금융보안원

금융회사(은행, 금융투자, 신용카드, 보험, 신용정보회사 등), 전자금융업자, 핀테크기업 등 금융권 기업

한국신용정보원 금융회사(은행, 금융투자, 신용카드, 보험, 신용정보회사 등)보건복지부 사회보장보장원 보건복지 분야 민간 및 공공기관

교육부(예정) 한국교육학술정보원 교육 분야

<표 2-46> 부처별 개인정보 비식별 조치 전문기관 지정 현황

특히 개인정보보호 전담기관인 한국인터넷진흥원에 ‘개인정보 비식별 조치 지원

센터’를 설치했는데, 개인정보보호 종합포털(www.privacy.go.kr) 내 ‘개인정보 비식

별 조치 지원센터’ 페이지를 개설하고, 분야별 전문기관 운영 가이드라인 마련 및

실태 점검, 분야별 전문기관 실무협의회 운영, 분야별 평가단 풀 관리 및 교육, 중소

기업 및 스타트업 컨설팅·교육, 「개인정보 비식별 조치 가이드라인」 업데이트 및

활용 지원, 국내외 관련 정책·기술 동향 조사 및 연구 등의 역할을 수행할 예정이

다.

Page 81: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 71 -

6. 소결심사평가원은 보건의료빅데이터개방시스템의 원격접속시스템 및 빅데이터센터를

통하여 의료기관의 청구자료 기반의 의료정보를 제공하고 있다. 자료신청시 상담신

청, 상담신청검토, 이용신청, 자료추출 등의 단계를 거치는데, 상담처리가 오프라인으

로 이루어지고 있으며, 자료추출은 일부 자동으로 이루어지고 있는 상황이다. 따라서

신청내용에 대한 자료추출이 자동으로 이루어지는 시스템이 구축된다면, 자료제공

형태도 다양화할 수 있을 것이다.원격시스템을 통해 연구자료로 제공된 건들을 분석한 결과, 원격시스템 이용기간

은 평균 2.58개월 이었으며, 자료용량의 평균은 188GB이었다. 원격시스템 이용기간의

평균을 연구형태별로 구분해 보면 성과연구인 경우 3.21개월, 유병률/발생률인 경우

2.94개월, 비용연구인 경우 2.86개월, 현황분석인 경우 2,49개월로 나타났다. 그리고

자료용량의 평균을 연구형태별로 구분해 보면 성과연구인 경우 304GB, 유병률/발생

률의 경우 227GB, 비용분석인 경우 199GB, 현황분석인 경우 136GB로 나타났다. 따라서 연구형태에 따라 자료이용기간 및 사용 용량이 차이가 있으므로 이에 대한 고

려가 필요하다. 심사평가원 자료를 이용한 결과물 중 논문발표 실적을 심사평가원에 통보한 결과

를 살펴보면, 2015년도에 9건, 2016년도에 7건으로 자발적인 연구결과물 보고가 다소

저조함을 알 수 있다. 국민건강영양조사 자료의 경우 홈페이지의 자료활용 논문등록

메뉴를 통해 연구성과를 등록할 수 있으며, 등록된 논문을 조회할 수 있는 기능을

제공하고 있다. 따라서 연구결과물을 보고할 수 있는 체계 구축이 필요하다고 할 수

있다. 외부기관의 자료원을 개인의 고유식별정보를 이용하여 심사평가원의 청구자료와

연계하고자 할 경우, 환자동의서를 취득하고, 기관위원회의 심의 및 승인이 필요하

다. 이때 개인정보 비식별 조치 가이드라인을 참고하여 반입자료에 대한 비식별화조

치 및 적정성 확인을 위한 프로세스 정립이 필요하다고 할 수 있다.

Page 82: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 72 -

구분 빈도 백분율(%)0 4,261 0.000.2 1,007,784 0.110.9 10,267,713 1.111세 이상 100세 미만 910,445,699 98.77100세 이상 110세 미만 70,430 0.01110세 이상 120세 미만 4,462 0.00120세 이상 130세 미만 363 0.00130세 이상 200세 미만 60 0.00200세 이상 815 0.00999 3,025 0.00

전체 921,804,612 100.00

<표 3-1> 2015년 청구자료 수진자 연령 분포

제3장. 보건의료빅데이터 자료제공시스템 개선안1. 빅데이터 제공 범위 확대 방안가. 통계분석 DB 정확도 향상을 위한 재정리 방안현재 보건의료빅데이터개방시스템에서 이용하는 통계분석 DB의 제공변수들만을

이용해서 중복청구건을 구분하는 것이 불가능한 상황이다. 따라서 중복청구건에 해

당하는 보완청구 및 조정사유코드 등을 이용하여 통계DB 생성단계부터 중복청구건

을 제외하고 DB를 구축하는 것이 필요하다. 또한 세부진료내역 테이블에서 진료예외

구분코드는 의약분업 예외사항에 해당하므로, 해당 약물이 세부진료내역 테이블과

원외처방전 테이블에 동시에 입력이 되어 있을 수 있으므로 약물 사용에 대한 자료

를 중복으로 이용하는 것을 방지하기 위해 통계DB 생성단계에서 이에 대한 처리가

필요하다.또한 주민등록번호 오류와 같이 입력된 값이 오류에 해당하는 경우 이를 사전에

결측 처리를 하거나 다른 부가정보를 이용하여 오류를 수정해서 통계DB에 저장하는

것이 필요하다. 2015년 청구자료 전수를 이용하여 수진자 연령 분포를 파악해 보면, 아래 표와 같이 연령이 130세 이상인 경우와 같이 잘못된 입력 값이 존재하는 것을

알 수 있다.

추가적으로 세부진료내역 테이블에서 1_2구분코드는 세부진료내역에 종별 가산율

적용여부를 구분하여 가산금액을 계산하기 위한 변수이므로, 가산적용금액이 제공된

다면 1_2구분코드 변수는 필요하지 않다고 할 수 있다.

Page 83: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 73 -

나. 사용자 맞춤 표본 자료 제공현재 원격시스템을 이용할 경우 과제 당 자료용량의 제한이 있다. 따라서 요청한

자료의 용량이 기준을 초과하는 경우 자료를 제공받기 어려운 상황이다. 이렇게 자

료의 용량 제한 등으로 전수자료를 제공하기 어려운 경우 맞춤형 표본 자료를 생성

하여 제공할 수 있다. 자료요청 시 자료추출 스크립트가 자동으로 생성되는 시스템

에서, 자동으로 생성하는 기능을 추가할 수 있다. 이때 사용자 맞춤 표본 자료 추출

은 층화랜덤추출방법을 사용할 수 있으며, 자세한 표본자료 생성방법은 다음 표와

같다.먼저 시스템 화면에서 목표모집단에 해당하는 관심 환자군을 입력한다. 이때 연구

대상자 정의시 필요한 상병, 약물, 행위, 치료코드 등의 기준을 입력하고, 연령, 지역

등의 추가 변수가 있을 경우 이를 선택한다. 다음으로 통계DB에서 조건에 맞는 명세

서를 자동으로 추출하고 이들의 개인식별대체키를 추출하여 대상자수를 확인한다. 만일 목표모집단의 대상자수가 심사평가원의 자료제공기준을 초과할 경우 이들을 대

상으로 맞춤형 표본자료를 추출할 수 있다.표본자료를 추출하는 방법은 먼저 기준이 되는 년도를 선택하고, 층화변수와 표본

추출비율을 선택한다.

단계 설명

목표모집단 선정관심 환자군 정의상병, 약물, 행위, 치료코드 등의 기준 입력연령, 지역 등의 추가 고려 변수가 있을 경우 선택

목표모집단의 대상자 수 확인만일 목표모집단의 대상자수가 자료제공기준을 초과할 경우맞춤형 표본자료 신청

기준년도 선택 표본 추출 및 가중치 계산을 위한 기준년도 선택층화변수 선택 연령군(5세단위, 10세 단위), 성별표본추출비율 선택 표본추출비율 결정 : 10%, 20%표본추출 및 가중치 계산 층화추출된 표본에 계산된 가중치, 층화변수 부여

<표 3-2> 사용자 맞춤 표본자료 생성 방법

층화랜덤추출방법은 층화변수를 이용하여 모집단을 층화한 후 각 층마다 독립적으

로 표본을 추출하고, 추출된 층화랜덤표본을 이용하여 전체 모집단을 추정하는 방법

이다. 층화랜덤추출방법에서 층별 표본크기를 결정하기 위해서는 총 표본크기와 각

층별 표본크기를 결정해야 한다13). 총 표본크기 을 층마다 적당히 나누는 것을 표

본을 배정한다고 한다. 표본을 배정하기 위해서는 층의 크기만 고려하는 표본 배정

법인 비례배정법(proportional allocation)을 고려하기로 한다14). 13) 성내경. 표본조사방법론, 자유아카데미. 2012.

14) 김수택. 표본조사설계, 자유아카데미. 2010.

Page 84: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 74 -

비례배정법에서 각 층에 배정되는 표본의 크기는

이며, 여기서 은 모집단의 크기, 는 모집단에서 층의 크기, 은 총 표본의 크

기, 는 층의 표본의 크기이다. 은 목표모집단의 대상자 수 확인 단계에서 파악

할 수 있으며, 은 선택한 표본비율에 따라 결정된다. 따라서 층에 속한 각 표본의

가중치는 다음과 같다.

최종적으로 추출대상 표본이 결정되면, 추출대상 표본은 기본테이블로 개인식별대

체키, 층화변수, 가중치 변수를 가지게 되고, 기본테이블에 포함된 개인식별대체키에

해당하는 원하는 기간 동안의 전체 명세서를 추출하여 제공할 수 있다. 사용자 맞춤

표본자료를 이용하게 될 경우 자료용량 제한으로 자료를 이용할 수 없는 경우에 표

본자료를 이용할 수 있고 자료용량이 작아짐으로써 분석 시 용이하다 장점이 있는

반면에 전수자료가 아닌 표본자료를 이용하는 것에 따른 제한점이 생길 수 있다.특정 질병을 가진 환자군이 연구대상자인 경우, 일반인구집단 또는 특정 질병을

가지지 않은 환자군을 대상으로 한 대조군의 자료가 필요한 경우가 있다. SEER -Medicare에서도 암환자가 아닌 대조군의 자료를 제공하기 위해 Medicare 대상자 중

5%를 랜덤추출하여 대조군 자료로 제공하고 있다. 따라서 대조군에 대한 자료를 제

공하기 위하여 표본자료 생성을 고려할 수 있다. 먼저 관심 있는 연구대상자가 선정

이 된 후, 이에 대한 대조군을 선정할 경우 다음과 같은 단계를 고려할 수 있다. 이때 대조군을 선정하는 방법으로 매칭변수에 따른 빈도매칭 등을 고려할 수 있다. 빈도매칭방법은 비교하려는 군 간에 매칭변수에 대한 분포를 동일하게 만들어주는 매

칭 방법이다. 예를 들어, 성별이 중요한 매칭변수인 경우 성별을 층으로 나눴을 때

각 층에서 관심 환자군과 대조군의 비가 다르다고 하자. 예를 들어, 관심 환자군에서

여성이 150명, 남성이 200명일 때 환자군과 대조군의 비를 1:2로 하고자 한다면 대조

군은 여성 300명(2*150), 남성 400명(2*200)을 랜덤하게 추출하면 각 층에서 환자군과

대조군의 표본수가 사전에 결정되고, 성별에 대한 균형을 맞출 수 있다. 대조군 표본

자료 생성 방법은 다음 표와 같다.

Page 85: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 75 -

단계 설명대조군 선정 일반인구집단 또는 특정 질병을 가지지 않은 대상자 선정

대조군의 대상자 수 확인만일 대조군의 대상자수가 자료제공기준을 초과할 경우대조군 표본자료 신청

매칭변수 선택 연령군(5세단위, 10세 단위), 성별매칭비율 선택 환자군:대조군의 비율 결정 : 1:1 ~ 1:4표본추출 및 가중치 계산 대조군 표본에 계산된 가중치, 매칭변수 부여

<표 3-3> 대조군 표본자료 생성 방법

대조군 표본자료 추출 시 매칭변수에 대한 빈도매칭 이외 단순랜덤추출 또는 층화

추출 등도 고려할 수 있다.

다. 사용자 맞춤 가공 테이블 제공청구자료는 T200 테이블의 하나의 명세서 건에 대해 T300, T400, T530 테이블에는

여러 줄로 정보가 들어 있다. 따라서 사용자가 지정한 상병, 약물, 검사, 시술, 치료

재료 등에 대한 변수를 T300, T400, T530에서 생성한 후 명세서조인키를 기준으로

T200 테이블에 조인하여 하나의 가공테이블을 생성하여 제공한다. 테이블간의 조인

작업에 익숙하지 않은 사용자들을 위해 필요한 변수를 자동으로 생성하여 다음 그림

과 같이 하나의 테이블로 제공한다면 분석업무에 대한 시행착오를 줄이고 효율적으

로 활용할 수 있을 것이다.

라. 부가 정보 테이블 생성기존에 제공되는 T200, T300, T400, T530 테이블 이외 다음 표와 같이 부가테이블

을 통계DB에 생성하고, 자료요청 시 T200, T300, T400, T530 테이블을 요청하는 방

법과 마찬가지로 부가정보 테이블을 신청한다. 먼저 연간 개인별 질병, 약물사용, 주요 수술에 대한 부가 정보테이블을 생성한다. 약물사용의 경우 약효군에 따라 변수

Page 86: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 76 -

를 생성하거나 주성분 일련번호를 나타내는 주성분명앞 4자리에 따라 생성하는 것을

고려해 볼 수 있다. 부가정보 테이블 생성은 2007년 자료부터 이용 가능하므로 질병

과거력 또는 약물 사용 과거력 정의가 필요한 경우 유용하게 사용할 수 있을 것이

다.

테이블명 변수 방법

질병 테이블연도, 개인식별대체키, 질병1(0/1), 질병2(0/1), …

연도별 국민관심질병 변수 생성1) T400에 개인식별대체키 추가2) T400에서 국민관심질병 변수 생성 - 해당 질병코드가 있는 경우 1, 없는 경우 03) 2)에서 생성한 국민관심질병 변수를 개인식별대체키 기준으로 요약 - 해당 연도에 질병코드가 있는 경우 1, 없는 경우 0

약물 테이블연도, 개인식별대체키, 약물1(0/1), 약물2(0/1), …

연도별 약효군/주성분4자리에 대한 변수 생성1) T300, T530에 개인식별대체키 추가2) T300, T530에서 약물 변수 생성 - 해당 약물코드가 있는 경우 1, 없는 경우 03) 2)에서 생성한 약물 변수를 개인식별대체키 기준으로 요약 - 해당 연도에 약물코드가 있는 경우 1, 없는 경우 0

수술 테이블연도, 개인식별대체키, 수술1(0/1), 수술2(0/1), …

연도별 주요수술 변수 생성1) T300에 개인식별대체키 추가2) T300에서 수술 변수 생성 - 해당 수술코드가 있는 경우 1, 없는 경우 03) 2)에서 생성한 수술 변수를 개인식별대체키 기준으로 요약 - 해당 연도에 수술코드가 있는 경우 1, 없는 경우 0

<표 3-4> 부가정보 테이블 및 변수

마. 마스터 테이블 제공청구자료를 이용하기 위해서는 질병, 약물사용, 행위, 치료재료 등에 대한 코드를

이용하여 정의해야 한다. 코드 변경이력까지 포함된 마스터 테이블을 사용자가 쉽게

접근할 수 있도록 약물, 상병, 수가, 치료재료 기본 마스터 테이블을 개방시스템의

별도 메뉴에서 제공하는 것이 필요하다. 마스터 테이블에 포함되어야 하는 변수들은

다음 표와 같다.

Page 87: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 77 -

테이블명 변수 비고

상병마스터테이블 상병기호, 한글명, 영문명한국표준질병사인분류- ICD10 코드 체계

약물마스터테이블주성분코드, 주성분명, 약효분류번호, 제품코드, ATC코드, 제품명, 업소명, 규격, 단위, 투여경로, 적용시작일자, 적용종료일자

코드변경 이력 포함- 2010년 1월 : 코드변경

수가마스터테이블수가코드, 분류번호, 한글명, 영문명, 적용시작일자, 적용종료일자

코드변경 이력 포함

치료재료테이블치료재료코드, 품명, 제조회사, 적용시작일자, 적용종료일자

코드변경 이력 포함

<표 3-5> 마스터 테이블 및 변수

2. 빅데이터 제공 업무 개선 방안가. 연구형태에 따른 이용기간 및 사용 용량 제한 차별화일반적으로 성과연구는 연구대상자를 정의하여 치료와 결과발생간의 인과성을 보

기 위해 수행된다. 따라서 분석과정에서 필요한 동반질환, 병용약물 등을 정의하기

위해 연구대상자 정의를 위한 코드가 포함된 명세서 이외 전체 명세서가 필요한 경

우가 많다. 연구형태별 자료요청 범위 분석 결과를 보면 성과연구인 경우 82%가 해

당 코드를 가지는 대상자의 전체자료를 요청한 것으로 파악이 된다. 따라서 성과연

구인 경우 대부분의 연구가 전체 명세서를 포함하므로 자료용량이 큰 경향이 있다고

할 수 있다. 자료의 용량이 크고 전체 명세서를 대상으로 한 여러 공변량들의 정의

가 필요하므로 원격시스템 이용기간도 성과연구에서 가장 긴 것으로 나타났다.상대적으로 현황연구인 경우 해당 코드를 가진 명세서만 요청한 경우가 45.8%였으

므로, 자료용량도 가장 작고 원격시스템 이용기간도 가장 짧은 것으로 나타났다.따라서 현재 일괄적으로 적용되고 있는 이용기간과 자료용량에 대한 기준을 연구

형태에 따라 구분한다면, 원격시스템 자원을 효율적으로 사용할 수 있으며 사용자의

만족도 뿐만 아니라 자료이용으로 인한 성과의 질도 향상될 수 있을 것이다.

나. 제공자료 재식별 위험에 대한 조치희귀난치성 질환과 같이 환자수가 작은 질환 대상의 연구인 경우 자료 제공시 요

양기관종별 변수를 상급종합병원과 종합병원을 동일한 범주로 묶어서 상급종합병원

이 구분되지 않도록 한다면, 환자의 재식별 위험을 줄일 수 있을 것이다. 동일 주성분코드에 대한 의약품코드가 일정 개수 미만인 경우, 주성분코드에 따라

의약품코드가 재식별이 가능하므로, 담당부서에서 마스킹을 실시할 주성분코드를 사

전에 정의해서 이를 공지하고 별도의 신청이 없는 경우는 자료 제공시 모든 과제에

Page 88: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 78 -

대해 해당 주성분코드를 마스킹해서 제공하도록 할 필요가 있다. 만일 마스킹 대상

주성분코드 이용이 반드시 필요한 경우 별도 상담을 통해 의약품 재식별을 방지할

수 있는 방법을 이용하여 자료를 제공할 수 있을 것이다. 예를 들어 마스킹대상 주

성분코드를 그룹화하여 새로운 임의의 주성분코드를 다시 부여하여 의약품의 재식별

을 방지할 수 있을 것이다. 만일 의약품 코드가 필요한 과제인 경우 담당자와 사전협의를 통해 의약품코드가

필요한 범위를 논의하고, 과제에서 필요한 의약품 정보를 확보하면서 의약품 정보를

비식별화할 수 있는 방안을 고려한다. 예를 들어 의약품별 함량정보가 필요한 경우

의약품코드는 마스킹하는 대신 해당하는 함량변수를 제공할 수 있을 것이다. 또는

의약품 코드별로 분석에 필요한 변수를 신청자가 사전에 정의하여 제공하는 경우 심

사평가원에서 자료 추출시 의약품 코드별로 해당하는 변수를 조인하고 의약품 코드

는 다시 마스킹한 후 제공할 수 있을 것이다.

다. 자료반출 기준현재 심사평가원에서는 원격시스템을 통해 자료를 반출할 경우 분석 결과인 통계

값에 한해서 사전 승인 후 반출을 허용하고 있다. 자료 반출 방식을 다양화하기 위

하여 비식별화를 통한 자동화 시스템 구축과 프로세스 정립이 필요하다.

라. 방법론 지원 및 이용자 그룹 활성화현재 심사평가원에서는 자료신청시 담당자가 사전상담을 실시하면서, 분석목적과

신청자료에 대한 안내를 실시하고 있다. 그리고 빅데이터개방시스템에서 동일 과제

를 수행하고 있는 이용자들간 자료를 이용하는 동안 의견을 주고받을 수 있는 이용

자 커뮤니티를 운영하고 있다. 하지만 자료이용자들이 방법론적인 어려움을 해결하

거나 정보를 공유하는데 제한적이라고 할 수 있다.CPRD의 경우 ISAC이란 자문 기관을 통하여 자료를 이용하는 연구 프로젝트에 대

하여 방법론적 조건을 하고 있다. 따라서 자료에 대한 이해, 역학적, 통계적 방법론

등에 대한 조언이 필요한 경우 이에 대해 자문할 수 있는 자문위원회 등을 고려해

볼 수 있다. 그리고 빅데이터개방시스템 홈페이지에 회원으로 가입되어 있는 경우

자료이용 기간에 상관없이 자료 및 연구방법론에 대한 의견을 공유할 수 있는 별도

의 이용자 커뮤니티를 구성하여 이용자들의 자발적인 참여를 통해 이용자 그룹 활동

을 활성화시킬 수 있을 것이다. 이를 통해 결과적으로 자료이용을 활성화시키고 결

과의 질을 향상시킬 수 있을 것이다.

Page 89: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 79 -

3. 자료연계 방안외부 기관의 자료원을 개인의 고유식별정보를 이용하여 심사평가원의 청구자료와

연계하여 분석을 수행하고자 할 경우 두 가지 관점에서의 고려가 필요하다. 첫째는

개인정보 및 고유식별정보의 수집 및 제공에 대한 법적 검토가 필요하며, 둘째는 법

률에서 정하는 바에 따라 암호화 등 안전성 확보에 필요한 조치를 취하여야 한다.환자를 대상으로 민감정보, 고유식별정보, 주민등록번호 활용, 제3자에 제공에 대

한 별도 서면 동의서를 받거나 서면동의 면제조건을 만족하는 경우, 기관위원회의

심의를 받은 후, 환자 자료와 주민등록번호를 심사평가원에 반입하여 주민등록번호

를 기준으로 자료연계를 시도할 수 있다. 이 경우에도 법률에서 정하는 바에 따라

암호화 등 안전성 확보에 필요한 조치를 하여야 한다. 안전성 확보를 위해 자료반입을 하고자 하는 기관에서는 먼저 1) 반입자료가 비식

별화 요건을 만족하는지 확인한다. 즉 반입하는 자료에 포함된 모든 변수를 고려하

여 변수별 조합에 따라 변수값이 모두 동일하게 식별이 되는 행이 있는지를 확인한

다. 만일 연속형 변수 등에 의해 식별이 되는 행이 있다면 연속형 변수를 범주화하

는 방법 등을 활용하여 k-익명성을 만족하는 자료로 생성하여 반입하도록 한다. 심사평가원에서는 자료반입시 비식별화 적정성에 대한 검토를 실시한다. 다음으로 2) 자료 반입 시 주민등록번호에 대한 임시 대체키를 생성하고, 주민등록번호와 임시

대체키만을 포함한 파일과 임시 대체키와 환자자료를 포함한 파일을 별도로 암호화

하여 별도의 저장장치를 이용하여 반입하도록 한다. 이때 임시 대체키는 주민등록번

호를 이용하여 생성하지 않도록 하며, 심사평가원에서는 주민등록번호를 이용하여

청구자료를 추출하고, 임시 대체키를 기준으로 반입된 환자자료와 청구자료를 제공

한다.

4. 빅데이터 개방 정책 안내ž홍보 방안

보건의료 빅데이터 개방 정책에 대한 안내 및 홍보를 위해 연구자 또는 산업계를

위해서는 관련 학회 및 협회 등을 이용할 수 있다. 관련 학회를 통해 빅데이터 개방

시스템을 소개하고 개방시스템을 통해 도출된 결과물을 발표하는 과정을 통해 자료

이용에 대한 동기를 부여하고 활성화를 도모할 수 있을 것이다. 예를 들어 관련 학

회 및 협회들의 홈페이지에 빅데이터개방시스템을 연결할 수 있는 배너를 설치한다

면 잠재적인 자료이용자들에게 빅데이터 개방시스템에 대한 접근 기회를 제공할 수

있을 것이다.

Page 90: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 80 -

구분 항목 비고과제 정보 연구과제명, 연구기관명, 자료이용연도 연구수행개요서와 정보가 일치하도록 입력

연구성과물 정보

구분(연구보고서, 학술지 발표논문, 학술대회 발표, 학위논문, 기타)제목발표지(기관명, 학술지, 학술대회, 학교/학위명 등)발표월키워드저자PMID(PubMed에서 사용되는 논문 식별자)초록

연구성과물 링크 연구성과물 원문 또는 초록 링크 PMID가 있는 경우 PubMed site로 링크

<표 3-6> 연구결과물 등록 항목

가. 연구결과물 등록 시스템 구축빅데이터 활용 결과 및 활용가치를 홍보하기 위해서는 청구자료를 이용한 연구결

과물을 등록하는 시스템 구축이 필요하다. 국민건강영양조사의 경우 연구결과물인

논문을 자료이용자가 직접 등록할 수 있는 시스템을 구축하고 있으며, 다른 이용자

가 연구결과물을 검색할 수 있는 기능도 갖추고 있다. 따라서 심사평가원의 청구자

료를 이용하여 수행한 연구결과물을 자료이용자가 직접 등록하는 시스템을 구축하고

연구결과물을 연구보고서, 학술지 발표논문, 학위논문, 기타 등으로 분류하여 다른

이용자가 검색하고 참고할 수 있도록 시스템을 제공하는 것이 필요하다. 이때 연구

성과물 등록 시 다음과 같은 정보를 등록하는 것을 제안한다.

자료이용자들이 연구결과물 등록시스템에 자발적으로 연구결과물을 등록하도록 하

기 위해서는 동기부여 또는 패널티가 필요하다. 동기부여를 위해서는 연구결과물을

등록한 건에 대해 포상을 하는 방법을 고려해 볼 수 있다. 예를 들어 연간 등록된

건에 대해 우수 결과물 시상을 하거나, 심사평가원 주관 교육프로그램에 참여할 기

회를 제공하거나, 추가적인 자료 이용건에 대해 수수료감면을 하는 등을 고려해 볼

수 있다.

Page 91: 보건의료빅데이터 활용 고도화 방안 연구 보고서repository.hira.or.kr/bitstream/2019.oak/2465/2/보건... · 2020. 9. 8. · 2.2 Õ3)*ßD 2.3 Ó å fG 2.4 . I4STIK

INSIDabcdef_:MS_0001MS_0001

INSIDabcdef_:MS_0001MS_0001

- 81 -

참고문헌

국무조정실, 행정자치부, 방송통신위원회, 금융위원회, 미래창조과학부, 보건복지부. 개인정보

비식별 조치 가이드라인. 2016. 고민정, 강민주, 강신희, 김윤정, 김희선. 자료연계를 통해 근거생성이 필요한 의료기술평가연구

과제 도출. 한국보건의료연구원. 2014.김수택. 표본조사설계. 자유아카데미. 2010.성내경. 표본조사방법론. 자유아카데미. 2012.황진섭, 신상진, 김종희, 오성희, 강현경, 박승희, 장은진, 최지은, 현민경. 국내 보건의료 이

차자료원 활용. 한국보건의료연구원. 2013.건강보험심사평가원 보건의료빅데이터개방시스템 홈페이지

http://opendata.hira.or.kr국민건강보험공단 홈페이지

http://www.nhis.or.kr국민건강영양조사 홈페이지

http://knhanes.cdc.go.kr법제처 홈페이지

http://www.moleg.go.kr사회보장정보원 홈페이지

http://www.ssis.or.kr중앙암등록본부 홈페이지

http://www.ncc.re.kr/main.ncc?uri=manage02_1Clinical Practice Research Datalink (CPRD) 홈페이지

https://www.cprd.comSEER-Medicare Linked Database 홈페이지

https://healthcaredelivery.cancer.gov/seermedicare/Warren JL, Klabunde CN, Schrag D, Bach PB, Riley GF. Overview of the SEER-Medicare

Data: Content, Research Applications, and Generalizability to the United States Elderly Population. Med Care 2002 Aug;40(8 Suppl):3-18.