67
게놈 관련 분석으로 배우는 유전 통계학 우성 ([email protected]) StaGen Co., Ltd 유전통계분석사업부

전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Embed Size (px)

DESCRIPTION

R과 Plink로 분석하는 Genome-wide association study에 대한 개요

Citation preview

Page 1: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

전 게놈 관련 분석으로 배우는 !유전 통계학

양 우성!([email protected])!

StaGen Co., Ltd!유전통계분석사업부

Page 2: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

My Medical Choice

http://www.nytimes.com/2013/05/14/opinion/my-medical-choice.html?_r=1&

“My doctors estimated that I had an 87 percent risk of breast cancer and a 50 percent risk of ovarian cancer, although the risk is different in the case of each woman.

Only a fraction of breast cancers result from an inherited gene mutation. Those with a defect in BRCA1 have a 65 percent risk of getting it, on average”.

- ANGELINA JOLIE

Page 3: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

“Genetics is the science of heredity and variation in living organisms.”

Wikipedia (http://en.wikipedia.org/wiki/Genetics)

Page 4: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

4

DOE Human Genome Project (http://genomics.energy.gov)

Page 5: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Genome = Gene + Ome

Genome = Whole DNA

Page 6: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Human Genome Project

2003년 99.99% 정확도의 인간유전체지도 완성 "

"

Page 7: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Variation

Page 8: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

유전체의 0.1% 가개인의 차이를 결정

Page 9: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

다형성의 종류Polymorphism

• SNP (Single-nucleotide polymorphism)"

• STRP (short tandem repeat polymorphism, Microsatellite)"

• VNTR(variable number of tandem repeat)"

• Insertion / Deletion"

• CNV (Copy number variation)

Page 10: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

SNP

Page 11: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

(유전자좌)(우성 대립형질)

(열성 대립형질)

(유전자형)

Page 12: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

유전자형의 다름 때문에 발생하는 결과: !유전형질(trait)

질적형질(qualitative trait)

양적형질(quantitative trait)

병의 발병유무

발병 비발병

검사치

2.1 6.4 9.7

표현형 (phenotype)

Page 13: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

분리의 법칙 우열의 법칙 독립의 법칙

연쇄(linkage)의 법칙

유전자형A/a A a

B b

A or a

B or bA or a

멘델의 법칙

A a

B b

유전 계승의 법칙 = !멘델의 법칙 + 연쇄의 법칙

Page 14: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Genome-Wide Association Study전 게놈 관련성 분석

Page 15: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

관측된 유전자 좌의 !유전자형과 형질과의 관련성을 !

전 게놈 영역에 걸쳐 !탐색적으로 조사하는 방법

Page 16: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

가계의 상세한 정보를 알 수 있다면연쇄분석(linkage analysis)에 의해 정확한 분석이 가능

Page 17: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

가계 정보가 없는 집단은 !코호트 연구나 !

비교 대조 연구를 이용

Page 18: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

위험인자(+)

위험인자(-)

발병(+)

비발병(-)

발병집단

비발병집단

위험인자 (+) 집단 위험인자 (-) 집단

Case  집단

Control 집단

랜덤 추출 추적조사

Case-control!study

Cohort study

Page 19: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

코호트 연구에서 관련성의 크기는!상대 위험도로 평가

Relative Risk, RR

Page 20: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

20

비교 대조 연구에서 관련성의 크기는!오즈비로 평가

Odds Ratio, OR

Page 21: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

게놈 관련성 연구에는 !원인 유전자 좌의 장소에 대한 가정과!

우열의 법칙 가정이 필요

Page 22: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

원인 유전자 좌는 주목하고 있는 !SNP 좌와 매우 !

가까운 곳에 위치한다

SNP  좌원인 유전자 좌

Page 23: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

표현형은 우열의 법칙에 의해 결정된다(1)우성 (2)열성

(3)유전자형 (4) Risk allele의 수

Page 24: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

형질과 SNP 좌의 !관련성 유무에 대한 검정

Page 25: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Case 집단의 대립형질 X 보유율과 !Control 집단의 보유율에 차이가 있는가?

우성 양식 가정 XX+NX NN 계

Case 집단 48 52 100

Control 집단 32 68 100

계 80 120 200

Page 26: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

P=0.15,  OR=1.2

P=0.71,  OR=1.1P=3e-­‐4,  OR=2.3

P=0.81,  OR=1.2

P=0.36,  OR=1.1P=0.01,  OR=1.7

P=0.55,  OR=1.2

P=0.91,  OR=1.1P=2e-­‐6,  OR=2.3

P=0.15,  OR=1.2

P=0.71,  OR=1.1

P=3e-­‐4,  OR=2.3

P=0.15,  OR=1.2

P=0.71,  OR=1.1

P=0.19,  OR=0.9

Genome-wide association study

50만 ~ 250만 SNP 좌를 이용한 검토

Page 27: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

plink output

RMySQL

Shiny ggplot2 NCBI2R ...

Page 28: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

SJS/TEN 환자와 건강인의유전적 요인 차를 비교 검토

GWAS연구 사례

Page 29: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Stevens-Johnson Syndrome (SJS) Toxic Epidermal Necrolysis (TEN)

약물 부작용으로 발생하는 질환으로 화상과 증상이 유사

Page 30: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

119 명991 명

595 396 69 50

VS

A 복용 후 발병일반 건강인

Page 31: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

illumina Human1M-Duo DNA Analysis Kit

1,163,218 SNPs

"• 미토콘드리아 : 138 SNPs

• 성염색체 : 42,822 SNPs (X : 40,949 Y : 1,294 XY : 579)

Page 32: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

• 다형 데이터의 품질평가!

• 관련성 분석 대상 개체 및 SNP의 선택"

• 관련성 분석!

• 분석결과의 고찰

분석순서

Page 33: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

개체 데이터 품질평가

Page 34: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

X염색체의 이형접합체 빈도와 성별

A A

A T

G C

A/A

T

C

A/T

G/C

A

T/T

C/G

A/A

X X X

Y

여성 남성

오류

Page 35: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Control SJS/TENFemale FemaleMale Male

이형접합체

빈도성별 기록 평가

정상

Page 36: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

XXY

남성

여성

Missing

성별 기록 평가

정상

Page 37: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

각 개체에 대해 SNP들이 정상적으로 관측된 비율을 !개인의 Call Rate라 하며!

이 값이 99% 미만인 개체는 분석에서 제외한다

개체 CR = "정상관측 SNP 수 / 모든 SNP 수

Page 38: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

SNP 데이터 품질평가

Page 39: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

각 SNP에 대해 개체가 정상적으로 관측된 비율을 !SNP의 Call Rate라 하며!

이 값이 95% 미만인 SNP는 분석에서 제외한다

SNP CR = "정상관측 개체 수 / 모든 개체 수

Page 40: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

SNP에 대한 Call Rate 분포

32.6K

SNP 제외

Page 41: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

하나의 SNP에서 수가 작은 쪽의 대립형질의 ! 빈도를 Minor Allele Frequency라 하며 !

MAF 비율이 5% 미만의 SNP는 분석에서 제외한다

* Control 집단에 대해서만 평가

Page 42: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

273.7K

SNPs 제외"

(CR≧0.95 SNP의 23.5%)

Mono-morphism SNP(MAF=0) : 225,169 SNPs

Page 43: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

대를 거듭하더라도 집단에서 !대립 유전자의 빈도가 변하지 않고 !

평형상태를 유지할 때 !하디-바인베르그 평형상태에 있다고 하며!적합도 검정결과 유의확률이 0.001 미만인 !

SNP는 분석에서 제외한다

Page 44: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Hardy-Weinberg 평형법칙 Law of Hardy-Weinberg Equilibrium

세대 t+1

세대 t=

random mating

Page 45: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

)1()()(

pafpAf−=

=

Hardy-Weinberg 평형법칙 Law of Hardy-Weinberg Equilibrium

Genotype 계AA Aa aa41 38 21 100

Allele계

A a120 80 200

Allele 계A a

0.6 0.4 1

Genotype 계AA Aa aa

0.41 0.38 0.21 1

2

2

)1()()1(2)(

)(

paafppAaf

pAAf

−=

−=

=

if then

적합도 검정 유의확률 = 0.037

Page 46: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Q-Q plot을 이용한 시각적 평가Control 집단만 평가

2.3K

SNP 제외

Page 47: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

집단의 균질성 평가

Page 48: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

혈연관계의 정도를 나타내는 "IBD(Identity by decent)의 추정값이 "0.8 이상인 개체는 분석에서 제외한다

1/2 1/21/2 3/41/3 3/4

1/2 1/3 1/2 1/4 2/3 2/3IBD = 0 IBD = 1 IBD = 2

Page 49: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

정상

Page 50: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

집단의 구조화 문제

AA Aa+aa 계

+ 120 40 160

- 30 10 40

계 150 50 200

AA Aa+aa 계+ 10 30 40

- 40 120 160

계 50 150 200

AA Aa+aa 계+ 130 70 200

- 70 130 200

계 200 200 400

+ =

p-­‐value=1 p-­‐value=1 p-­‐value=3.6×10-­‐9

Page 51: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

주성분 분석을 이용한 집단 구조화 평가

Page 52: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

1,110선택된 개체 수

Page 53: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

854,556선택된 SNP 수

Page 54: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

관련성 분석

Page 55: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Case-control 연구를 대상으로 한 전 게놈 관련성 분석

유전계승형식 검정법 추정

경향성 Wald 통계량 (로지스틱 회귀모형) 오즈비 및 95%신뢰구간

유전자형 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

우성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

열성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

Page 56: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

분석결과의 고찰

Page 57: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

각 SNP에 대한 관련성 검정의 "유의 수준을 0.05로 설정 하면"

분석 전체에서 제 I 종 오류는 반드시 일어난다

1−(1−α)500K≈1

Page 58: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

제 Ⅰ 종의 오류 다중성 검토

• Bonferroni의 수정"

• False Discovery Rate 법을 이용한 수정"

• Quantile-Quantile Plot을 이용한 시각적 판단

Page 59: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Q-Q Plot을 이용한 시각적 판단

Page 60: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

OR  7~8  (95%CI  3~18) HLA  region

Manhattan Plot

Page 61: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Page 62: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

Shiny package를 이용한 "Web 어플리케이션 개발

Page 63: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Page 64: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Page 65: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Page 66: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014
Page 67: 전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

감사합니다