View
1.045
Download
3
Category
Preview:
DESCRIPTION
한남대학교 생명시스템공학과 생물정보학 강의 2강
Citation preview
생물정보학Bioinformatics
2014 2 학기생명시스템과학과
한남대학교
2 강2014.9.16
강의계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )
3 주차 서열 분석의 원리 I
4 주차 서열 분석의 원리 II
5 주차 단백질의 구조및 기능예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)
9 주차 유전체 발현분석10주차
개인유전체학 I
11주차
개인유전체학 II
12주차
메타지놈
13주차
최신 연구동향
14주차
기말고사
서열 Sequence
이딴 거 말고
아미노산 서열 Protein Sequence
염기서열 Nucleotide Sequence
이런 거
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>gi|146141195:21-701 Mus musculus RIKEN cDNA 2610034B18 gene (2610034B18Rik), mRNAATGAGCCGCATCTACCAGGATAGCGCCCTCCGCAACAAGGCCGTGCAGAGCGCGCGCCTGCCGGGAACCTGGGACCCTGCCACCCACCAAGGGGGAAATGGCATCTTGCTGGAGGGGGAGCTCGTGGATGTATCTCGGCACAGCATCTTGGATGCCCATGGCAGGAAGGAGCGCTACTATGTGCTGTATATCCAGCCCAGCTGTATCCACAGGCGTAAGTTTGACCCCAAGGGAAATGAAATTGAGCCCAACTTCAGTGCCACCAGGAAGGTGAACACAGGCTTCCTCATGTCATCTTACAAGGTGGAGGCCAAGGGCGACACAGACCGGCTCACCCTGGAGGCGCTGAAGAGCCTGGTAAACAAGCCCCAGCTGCTGGAATTGACAGAGAGCCTCACCCCAGACCAGGCGGTGGCATTCTGGATGCCTGAGTCAGAGATGGAGGTCATGGAACTCGAACTGGGGACTGGAGTGCGATTAAAAACTCGGGGTGATGGTCCCTTCATAGATTCCTTAGCCAAACTGGAGCTGGGGACAGTGACCAAGTGTAATTTTGCTGGTGATGGAAAGACGGGAGCTTCCTGGACAGACAATATCATGGCCCAGAAGTCTTCAGAGAGGAACACAGCAGAGATCCGAGAGCAAGGAGACGGGGCAGAGGACGAGGAATGGGATGACTGA
서열을 비교하는 것이 왜 중요함 ?
- 서열정보 = 생명의 펌웨어
- 서열의 유사성은 진화과정을 반영함
- 유전자의 기능 연구에 서열 비교는 필수
비슷한 기능을 가진 유전자는 비슷한 서열을 가짐유전자 내에서 중요한 부분일수록 보존되어 있음
DNA-> RNA -> ProteinDNA 에 저장된 유전정보가 결국 단백질을 만들고 , 이 단백질이 생명체의 ‘부품’ 역할을 한다
형제 > 사촌 > 팔촌 > 사돈의 팔촌 > 같은민족 > 같은인종 > 사람 > 유인원 > 포유류 > 동물
생명의 근원
• 생명체의 다양성은 전적으로 DNA 에저장된 유전정보의 다양성에 근거함
• 유전정보의 유사성 = 개별 생명체의 유사성
ACGT공통조상 common ancestor
ATGT ACCT GCGT ACT
ATTT AGT GCCT ACT GCGT GCGGT ACT
진화과정중 , 서열정보는 돌연변이를 통해서 변화가능
돌연변이치환삽입삭제
C
T C
G
G
돌연변이에 의한 서열정보의 변화
서열 정렬 Sequence Alignment
- 두 서열간의 유사성 : 유사할수록 유사한 기능
- 서열 내부에서 유사한 부분과 유사하지 않은 부분은 어디인가 ?
두 가지 다른 서열을 비교하기 위해서는 ..
A C G T A C G T A C G
A G T A C A T A C C
A C G T A C G T A C G
A - G T A C A T A C C| | | | | | | |
두 가지 다른 서열을 최대로 유사하게 맞추는 작업이 필요이를 서열 정렬 Sequence Alignment 라고 부른다
서열 정렬을 통해 얻을 수 있는 정보
- 진화적인 연관관계
서열을 비교하는 기준
A C G T A C G
과연 이들중에서 어떤 서열이 원래의 서열과 비슷한 서열인가 ?
A G T A C A
T C G A A C C
A C G A G G G
“ 객관적인 기준” 이 필요
정량적인 비교를 위해서는 ‘점수’ 가 필요
‘ 유사성의 정도’ 를 정량화해야함 .
Transformation
• 글자가 틀린 경우에는 글자를 바꾸고• 순서가 밀린 경우에는 공백을 삽입• 이런 수정을 많이 하는 관계일수록 두 서열은 거리가 멀다
A C G T A C G A A T C C G
A C G A A C G T G C GA C G A A C G T G C GA C G A A C G - T G C GA C G A A C G - - T G C GA C G A A C G - - T C C G
총 4 회 ( 치환 2 번 , 공백삽입 2 번 )
T C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G T C A T C GT C A A T C G - T C A T C GT C A A T C G - - T C A T C G
A C G T A C G A A T C - C GA C G T A C G A A T C - - C G
T C A A T C G T C A T C G
총 8 회 ( 치환 4 번 , 공백삽입 4 번 )
정량화1. 글자가 틀렸을때마다 감점 Mismatch Penalty2. 공백이 추가될때마다 감점 Gap Penalty3. 서열간의 유사성을 따질때 글자가 바뀌는 것보다 공백이 추가되는 것이 더 큰 변화
A C G T A C G A A T C C G
T C A A T C G - - T C C G
치환 4 회 삽입 2 회
치환 : -1*4 = -4삽입 : -3*2 = -6 -10
A C G T A C G A A T C C G
A C G T A - - - - T C C G
치환 0 회 삽입 4 회
치환 : -1*0 = 0삽입 : -3*4 = -12
-12
- A G C T A 10 -1 -3 -4 G -1 7 -5 -3 C -3 -5 9 0 T -4 -3 0 8
모든 서열 변화는 다 평등한가 ?
모든 서열 변화는 다 평등한가 ?
“ 아 에서 어” 로 바뀌는 것과 “ 아 에서 뷁” 으로 바뀌는 것은 정도가 틀리다 .
“ 아미노산은 다 성질이 틀려요” + 극성 - 극성
친수성
비극성
이렇게 바뀌나
요렇게 바뀌는거는별거 아니지만 ,
이렇게 바뀌는 것은‘ 별거’ 임 .
서열 변화의 빈도를 조사하자
치환행렬 Substitution Matrix
A->S 변화 : 1A->T 변화 : 1A->W 변화 : -6
점수값이 높을수록 변화가 일어나기 힘들며 , 점수값이 낮을수록 변화가 일어나기 힘들다
ARWARTS|||||||ARAGQSS
ARWARTS|||||||ARYSETD
A-A : 2 R-R : 6W-A :-6 A-G : 1R-Q : 1T-S : 1S-S : 2
총점 : 7
A-A : 2R-R : 6W-Y : 0A-S : 1R-E : -1T-T : 3S-D : 0
총점 : 11
승 !
ARWARTSARAGQSSARYSETD
두가지 서열 정렬방식Global Alignment Local Alignment
- 비교할 두 가지의 서열에 있는 모든 글자를 최대한 맞추도록 노력함
- 길이가 대개 비슷하고
- 전체적으로 유사성이 높은 서열들간의 비교에 적합함
- 예 : Needleman-Wunsch
알고리즘
- 서열의 일부분을 최대한 맞추도록 노력함
- 길이가 서로 상이하고
- 서열의 일부분에서 유사성이 나타나는 서열간의 비교에 적합함
- 예 :Smith-Waterman 알고리즘
서열 1 TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC
서열 2
두가지 서열 정렬방식의 차이
AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC
두 가지 서열을 Global alignment 로 비교했을 경우http://www.ebi.ac.uk/Tools/psa/emboss_stretcher/nucleotide.html
두 가지 서열을 Local alignment 로 비교했을 경우
EMBOSS_001 1 TCCCAGTTATGTCAGGGGACACGAGC-ATG-CAGAGAC 36 ..........||| |....||..||. ||| ||||. |EMBOSS_001 1 AATTGCCGCCGTC-GTTTTCAGCAGTTATGTCAGAT-C 36
TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC |||||||||||| AATTGCCGCCGTCGTTTTCAGTTATGTCAG
Global
Local
실전>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE
인간
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
초파리
이것을 local alignment 로 분석하면 ..인간 119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||초파리 285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
인간 166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|초파리 335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
초파리와 사람의 특정 유전자 내의 일부에 유사성이 있음 .
유전자의 유사성 -> 기능적 유사성 ?
용어 정리
Homologs : 서열정보에서 유사성이 있는 공통적인 유전자에서 유래된 유전자
Orthologous : 서로 다른 생물에 존재하는 유사 유전자
Paralogous genes are homologous genes in one organism that derive from gene duplication
Gene duplication: one gene is duplicated in multiple copies that therefore free to evolve and assume new functions
비교서열 1
비교서열 2
두가지 서열을 가로세로로 일단 쓰고
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
G
A
T
T
A
C
A
Global Alignment (Needleman-Wunsch)
비교서열 1
비교서열 2
첫 줄은 다음과 같이 채우고
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1
A -2
T -3
T -4
A -5
C -6
A -7
비교서열 1
비교서열 2
대각선의 값 0 + G 와 G 는 동일 1 = 1
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1
A -2
T -3
T -4
A -5
C -6
A -7
-1 + -1 = -2 -1 + -1 = -2
비교서열 1
비교서열 2
대각값 -1 + -1 = -2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0
A -2
T -3
T -4
A -5
C -6
A -7
1 + -1 = 0 -2 + -1 = -3
비교서열 1
비교서열 2
-2 + -1 = -3
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1
A -2
T -3
T -4
A -5
C -6
A -7
0 + -1 = -1 -3+ -1 = -4
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2
A -2
T -3
T -4
A -5
C -6
A -7
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2
T -3
T -4
A -5
C -6
A -7
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3
T -4
A -5
C -6
A -7
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4
A -5
C -6
A -7
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
TA
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
CTCA
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
GCTACA
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
TGCTTACA
- GCTTACA
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
ATGCTTTCCA
- GCTTCCA
비교서열 1
비교서열 2
GATTACA
GCATGCT
서열 정렬의 원리
G C A T G C T
0 -1 -2 -3 -4 -5 -6 -7
G -1 1 0 -1 -2 -3 -4 -5
A -2 0 0 1 0 -1 -2 -3
T -3 -1 -1 0 2 1 0 -1
T -4 -2 -2 -1 1 1 0 -1
A -5 -3 -3 -1 0 0 0 -1
C -6 -4 -2 -2 -1 -1 1 0
A -7 -5 -3 -1 -2 -2 0 0
GCAT-GCTG-ATTACA
GCATG-CTG-ATTACA
서열 정렬을 할때 이것을 다 반복해야하나 ?
아뇨 . -.-
계산 자체는 컴퓨터가 함 .
실제로 기존에 개발된 웹사이트를 사용하면 됨 .
그렇지만 원리를 이해하는 것이 중요 !
요약하면
• 두 개의 서열을 정량적으로 비교하는 방법이 필요 : 누가누가 더 가깝나 ?
• 염기 ( 아미노산 ) 가 변하는 경우에 감점 (Mismatch Penalty)
• 염기 ( 아미노산 ) 중간에 공백이 생기면 더 빡센 감점 (Gap Penalty)
• 이런식으로 두개의 서열을 가장 최적화된 방법으로 ‘비교’하고
• 얼마나 비슷한지를 점수화
서열 데이터베이스 검색
일대다 비교
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
nr : nonredundant db
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
>sp|Q9D0A3|1-226MSRIYQDSALRNKAVQSARLPGTWDPATHQGGNGILEGELVDVSRHSILDAHGRKERYYVLYIQPSCIHRRKFDPKGNEIEPNFSATRKVNTGFLMSSYKVEAKGDTDRLTLEALKSLVNKPQLLELTESLTPDQAVAFWMPESEMEVMELELGTGVRLKTRGDGPFIDSLAKLELGTVTKCNFAGDGKTGASWTDNIMAQKSSERNTAEIREQGDGAEDEEWDD
핵산 : 50,258,967, 936 bp, 19,909, 539 종아미노산 : 11,434,352,561 aa, 32,818, 767 종
이렇게 방대한 데이터베이스에서 어떻게 우리가 원하는 서열을 찾을수 있을까 ?
내가 DNA 염기서열 결정을 해서 어떤 임의의 염기서열을 얻었음 .
1. 이게 어떤 생물 유래의2. 어떤 유전자와 비슷한가 ?3. 어떠한 기능을 수행하는가 ?
내가 연구하는 특정한 단백질과 유사한 단백질이…
1. 사람이 가지고 있는 2 만 종류의 단백질 중 존재하는가 ?2. 다른 생물에도 이와 비슷한 단백질이 존재하는가 ?
이런 물음에 답을 얻으려면 ..
기존에 알려진 DNA/ 단백질 서열 데이터베이스와 내가 관심이 있는 서열을 가지고 찾아봐야함 .
서열 데이터베이스 검색을 위해서는 ..
정확도는 좀 떨어지더라도 빠른 방법이 필요
무지막지하게 많은 숫자의 서열을 대상으로
우리가 가지고 있는 서열정보를 가지고
그것을 일일히 비교해야 함 .
서열 데이터베이스 검색을 위한 서열비교법
FASTA
BLAST
Original, ungapped BLAST: Altschul et al., 1990Gapped BLAST: Altschul et al., 1997
Killer App
BLASTBasic Local Alignment Search Tool
“ 생물정보학계의 카톡”
BLAST 의 원리1. 찾으려는 서열을 3 글자 단위로 쪼갬
SMVSMITWVGMWSWS까지는 비슷한 것
SFV, SRV 는 아니고…
SMV, SMI, TWV….등이 나오는 서열들을 데이터베이스에서 검색
매치되면 앞뒤로 확장
지정된 기준이 넘는 서열들을 추려내고 alignment 를 만듬
Expected Value (E-value)
E-Value 는 “데이터베이스에서 비슷하지도 않은 서열이 우연히 찾아질 갯수”
값이 낮거나 0 에 가까울수록 예측된 서열이 ‘우연으로’ 찾아진 것이 아님
- 데이터베이스 내에 존재하는 데이터의 갯수 n 과 - 서열의 길이 m
시퀀스 데이터베이스에서 검색된 서열의 신빙성은 어떻게 확인할 수 있나 ?
E-value 가 낮은 것부터 높은 것으로 정렬
E-value 가 낮다 : 시퀀스가 우리가 입력한 서열과 실제로 비슷한 것일 가능성이 높다 .
8 * 10-166
226 개의 아미노산 중 200 개가 동일 .Expected Value : 5*10-148
226 개의 아미노산 중 200 개가 동일 .Expected Value : 1*10-8
E-value : 9.9
“ 어느정도의 E-Value 가 되어야 우리가 상동성이 있는 서열을 찾았다고 신뢰할 수 있는가 ?”
- 정답은 없음 .
- E-value 는 우리가 넣은 검색 서열과 DB 의 크기에 따라서 틀려짐 .>sp|P38398|BRCA1_HUMAN Breast cancer type 1 susceptibility protein OS=Homo sapiens GN=BRCA1 PE=1 SV=2MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQCPLCKNDITKRSLQESTRFSQLVEELLKIICAFQLDTGLEYANSYNFAKKENNSPEHLKDEVSIIQSMGYRNRAKRLLQSEPENPSLQETSLSVQLSNLGTVRTLRTKQRIQPQKTSVYIELGSDSSEDTVNKATYCSVGDQELLQITPQGTRDEISLDSAKKAACEFSETDVTNTEHHQPSNNDLNTTEKRAAERHPEKYQGSSVSNLHVEPCGTNTHASSLQHENSSLLLTKDRMNVEKAEFCNKSKQPGLARSQHNRWAGSKETCNDRRTPSTEKKVDLNADPLCERKEWNKQKLPCSENPRDTEDVPWITLNSSIQKVNEWFSRSDELLGSDDSHDGESESNAKVADVLDVLNEVDEYSGSSEKIDLLASDPHEALICKSERVHSKSVESNIEDKIFGKTYRKKASLPNLSHVTENLIIGAFVTEPQIIQERPLTNKLKRKRRPTSGLHPEDFIKKADLAVQKTPEMINQGTNQTEQNGQVMNITNSGHENKTKGDSIQNEKNPNPIESLEKESAFKTKAEPISSSISNMELELNIHNSKAPKKNRLRRKSSTRHIHALELVVSRNLSPPNCTELQIDSCSSSEEIKKKKYNQMPVRHSRNLQLMEGKEPATGAKKSNKPNEQTSKRHDSDTFPELKLTNAPGSFTKCSNTSELKEFVNPSLPREEKEEKLETVKVSNNAEDPKDLMLSGERVLQTERSVESSSISLVPGTDYGTQESISLLEVSTLGKAKTEPNKCVSQCAAFENPKGLIHGCSKDNRNDTEGFKYPLGHEVNHSRETSIEMEESELDAQYLQNTFKVSKRQSFAPFSNPGNAEEECATFSAHSGSLKKQSPKVTFECEQKEENQGKNESNIKPVQTVNITAGFPVVGQKDKPVDNAKCSIKGGSRFCLSSQFRGNETGLITPNKHGLLQNPYRIPPLFPIKSFVKTKCKKNLLEENFEEHSMSPEREMGNENIPSTVSTISRNNIRENVFKEASSSNINEVGSSTNEVGSSINEIGSSDENIQAELGRNRGPKLNAMLRLGVLQPEVYKQSLPGSNCKHPEIKKQEYEEVVQTVNTDFSPYLISDNLEQPMGSSHASQVCSETPDDLLDDGEIKEDTSFAENDIKESSAVFSKSVQKGELSRSPSPFTHTHLAQGYRRGAKKLESSEENLSSEDEELPCFQHLLFGKVNNIPSQSTRHSTVATECLSKNTEENLLSLKNSLNDCSNQVILAKASQEHHLSEETKCSASLFSSQCSELEDLTANTNTQDPFLIGSSKQMRHQSESQGVGLSDKELVSDDEERGTGLEENNQEEQSMDSNLGEAASGCESETSVSEDCSGLSSQSDILTTQQRDTMQHNLIKLQQEMAELEAVLEQHGSQPSNSYPSIISDSSALEDLRNPEQSTSEKAVLTSQKSSEYPISQNPEGLSADKFEVSADSSTSKNKEPGVERSSPSKCPSLDDRWYMHSCSGSLQNRNYPSQEELIKVVDVEEQQLEESGPHDLTETSYLPRQDLEGTPYLESGISLFSDDPESDPSEDRAPESARVGNIPSSTSALKVPQLKVAESAQSPAAAHTTDTAGYNAMEESVSREKPELTASTERVNKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLITEETTHVVMKTDAEFVCERTLKYFLGIAGGKWVVSYFWVTQSIKERKMLNEHDFEVRGDVVNGRNHQGPKRARESQDRKIFRGLEICCYGPFTNMPTDQLEWMVQLCGASVVKELSSFTLGTGVHPIVVVQPDAWTEDNGFHAIGQMCEAPVVTREWVLDSVALYQCQELDTYLIPQIPHSHY
BRCA1 : 1863bp
이를 swissprot db 에서 검색
동일한 단백질의 일부분 (1647-1850) 을 가지고 검색을 다시 해보도록 함
동일한 단백질이 검색되지만 E-Value 는 낮아짐 .
NKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLITEETTH 만을 가지고 검색을 하면 ?
검색의 대상의 길이가 짦아질수록 같은 서열이 검색되더라도 E-values 는 낮아짐‘ 우연히 매칭될’ 확률은 증가됨 /
BLAST 의 종류
Blastn
Blastp
Blastx
Tblastp
tblastx
입력서열 검색 db
Nucleotide Nucleotide
Protein Protein
Nucleotide Protein
Protein Nucleotide (translated)
Nucleotide Nucleotide (translated)
무슨 데이터베이스를 선택할 것인가 ?
Non-redundant protein sequence (nr) : 모든 중복되지 않는 단백질 서열
Reference proteins : 지놈 시퀀싱에서 유래된 큐레이션된 단백질 수록
UniProtKB/Swiss-Prot : 클래스에서 대표적인 단백질 수록 . 단백질 기능파악
Non-redundant protein sequence (nr) 에서의 검색결과
현재까지 알려진 모든 단백질이 모두 등장
UniprotKB/Swiss-prot 에서의 검색결과
가장 대표적인 몇 종류의 단백질만 등장함
상동성이 낮은 단백질의 검색 결과도 등장함
BLAST DEMO
http://blast.ncbi.nlm.nih.gov/Blast.cgi
특정한 생물의 지놈 내에서 찾고 싶다면
찾으려는 서열이핵산일때
찾으려는 서열이단백질일때핵산 서열을
단백질로 변환하여 단백질 db 에서
찾고싶을때
단백질 서열을 가지고 단백질로
변환된 핵산데이터베이스
를 검색
핵산 서열을 단백질로 변환하여 단백질
서열로 변환된 핵산데이터베이스에서
검색
검색대상의 서열을 붙여넣고
검색 DB 를 선택하거나
이건 다음 시간에 설명 ..
옵션을 설정
최대로 보여줄 결과물 갯수 . NR등과 같은 큰 데이터베이스에서 낮은 상동성을 가진 단백질을 검색하고 싶을 때는 늘리는 것이
좋음E-value 최대값
“EEEEEEDDDDDDD” 나 “ PPPPPPPPWP” 와 같은 단순반복서열은 매스킹하여 검색
시퀀스 내에 존재하는 단백질 도메인
111 개의 유사성있는 서열이 검출됨
적색으로 갈수록
상동성이 높음
중간부분과 뒷부분에서만 상동성이
존재
단백질 이름 [ 생물종 ]
E-value
동일한 유전자
검색된 단백질 링크
같은 생물 (마우스 ) 에 존재하는
유사유전자(Paralog)
두 부분에서 상동성이
있음 . 742-1202
40-517
이와 같은 경우
Recommended